openai/skills:Codex技能目录,提升开发效率
项目定位为为Codex提供技能目录,旨在帮助AI代理发现和使用指令、脚本和资源以执行特定任务。核心功能是提供技能的安装和管理,解决开发者重复性任务执行的问题。技术架构基于Python,集成Codex平台。在LLM生态中,该项目通过提供技能目录和安装机制,优化了任务执行流程,提升了开发效率。
精选 70 篇,从 390+ 条中筛选
项目定位为为Codex提供技能目录,旨在帮助AI代理发现和使用指令、脚本和资源以执行特定任务。核心功能是提供技能的安装和管理,解决开发者重复性任务执行的问题。技术架构基于Python,集成Codex平台。在LLM生态中,该项目通过提供技能目录和安装机制,优化了任务执行流程,提升了开发效率。
nvidia/personaplex-7b-v1是一款定位为通用大模型的LLM,具有7B参数量,支持多语言。其核心技术为Transformer变体,并采用moshi库进行优化。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。模型开源,适用于多种硬件平台,与vLLM等推理框架兼容。主要应用场景包括多语言问答、代码生成等。
GLM-4.7-Flash是一款30B-A3B的MoE模型,定位为通用大模型。其核心技术包括MoE架构和Transformer变体,支持多种语言。在基准测试中表现出色,尤其在AIME 25和GPQA等任务上排名靠前。该模型适用于需要高性能和轻量级部署的场景,支持vLLM和SGLang等推理框架。
DeepSeek-OCR-2是一款专注于图像文本转换的多模态模型,定位为特定领域微调模型。其核心技术基于transformers库,采用自定义代码进行优化,支持多语言处理。模型在OCR任务上表现出色,但缺乏权威基准测试结果。开源协议为Apache-2.0,对硬件要求较高,推理效率需进一步优化。
LingBot-World是一款由Robbyant团队开源的世界模拟器,定位为顶级世界模型。它具备高保真和多样化的环境,支持长期记忆和一致性,并实现实时交互。该模型采用image-to-video的pipeline,基于diffusers库。在性能上,它支持每秒16帧的实时生成,具有较低延迟。LingBot-World适用于内容创作、游戏和机器人学习等领域,其开源协议和硬件需求适中,与流行推理框架兼容性良好。
Kimi K2.5是一款开源的多模态大语言模型,定位为通用大模型。它基于约150万亿混合视觉和文本标记的持续预训练,具备视觉和语言理解以及先进的代理能力。模型在视觉知识、跨模态推理和基于视觉输入的代理工具使用方面表现出色。其核心能力包括视觉到代码的生成和代理群体执行复杂任务。在性能上,Kimi K2.5在权威基准测试中表现良好,具有开源协议、硬件需求适中、推理效率较高的特点,适用于多模态任务和复杂任务处理。
Anima模型定位为特定领域微调模型,专注于动漫风格的艺术图像生成。其核心技术为基于扩散模型的单文件库,参数量为20亿。模型在动漫风格图像生成方面表现出色,但未公开权威基准测试结果。主要应用场景为动漫艺术创作,使用时需考虑开源协议和硬件需求。
Step 3.5 Flash是一款高效的开源基础模型,定位于通用大模型领域。它采用稀疏混合专家(MoE)架构,参数量196B,上下文长度未指定。该模型在推理速度和代码生成方面表现出色,通过3-way Multi-Token Prediction(MTP-3)技术,实现了100-300 tok/s的生成吞吐量。在SWE-bench和Terminal-Bench 2.0基准测试中分别取得了74.4%和51.0%的优异成绩。模型开源协议为Apache 2.0,适用于需要快速推理和代码生成的场景。
zai-org/GLM-OCR是一款基于GLM-V架构的多模态OCR模型,专注于复杂文档理解。该模型采用多令牌预测损失和稳定的全任务强化学习,结合CogViT视觉编码器和GLM-0.5B语言解码器,实现高效训练和识别。在OmniDocBench V1.5基准测试中排名第一,适用于复杂表格、代码密集型文档等场景,支持vLLM、SGLang和Ollama等推理框架,易于集成到现有生产流程中。
Qwen3-ASR-0.6B是一款专注于语音识别的领域大模型,具备多语言和方言支持能力。该模型采用Qwen3-Omni基础模型,具有强大的音频理解能力。在性能上,Qwen3-ASR-0.6B在开源ASR模型中达到顶尖水平,与商业API相媲美。模型支持多种语言和方言的语音识别,适用于复杂声学环境和挑战性文本模式。其开源协议和强大的推理框架使其在多个场景下具有实用价值。
Qwen3-ASR-1.7B是一款专注于语音识别的领域大模型,具备多语言和方言支持能力。该模型采用Qwen3-Omni基础模型,结合大规模语音训练数据,实现了在复杂声学环境和挑战性文本模式下的高质量和鲁棒识别。其在开源ASR模型中达到最先进水平,与顶级商业API相媲美。模型支持语言识别和语音识别,具有高效的吞吐量和强大的推理框架。主要应用场景包括语音转文本、语音识别等。
Qwen3-Coder-Next是一款针对代码生成和本地开发设计的开源语言模型,具有高效的性能和先进的代理能力。该模型采用3B激活参数,性能可与参数量多10-20倍的模型相媲美,适用于代理部署。它具备长距离推理、复杂工具使用和恢复能力,适用于代码生成、数学推理等任务。模型基于transformers库,支持2-bit XL量化,对硬件要求较高。在LLM领域,Qwen3-Coder-Next以其高效的代码生成能力和先进的代理技术脱颖而出。
Qwen3-Coder-Next是一款针对代码生成和本地开发设计的开源语言模型。该模型具有3B激活参数和80B总参数,上下文长度为256k,支持多种CLI/IDE平台。其核心技术包括混合布局、MoE和Gated DeltaNet。在代码生成任务中表现出色,具有高效的性能和强大的适应性。模型在HuggingFace平台上的下载量和点赞数均较高,表明其在LLM领域中的受欢迎程度。主要应用场景包括代码生成、本地开发和集成到IDE中。
ACE-Step/Ace-Step1.5是一款针对音乐生成领域的开源模型,定位为多模态模型。其核心技术为结合语言模型和扩散模型,支持从简短循环到10分钟长曲的创作。该模型在训练数据上具有商业合规性,支持多种风格的音乐生成,且在消费级硬件上运行高效。在性能上,ACE-Step/Ace-Step1.5在音乐生成速度上表现出色,能够在短时间内生成完整的歌曲。主要应用场景包括音乐创作、音频编辑等。
Intern-S1-Pro是一款定位在科学推理领域的万亿参数MoE多模态模型,具有512个专家,每个token激活8个专家。该模型在科学推理基准测试中表现出色,同时在多模态和文本处理方面也具有强大的能力。其核心技术包括STE路由和分组路由,以及FoPE和升级的时间序列建模。性能表现在多个基准测试中均处于领先地位,适用于科学研究和多模态任务。
TeichAI/GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill-GGUF是一款专注于推理优化的通用大模型。该模型基于TeichAI的GLM-4.7-Flash,结合了Claude Opus 4.5的高推理能力,特别适用于需要高推理能力的场景。模型具有约2.13M的总token,采用Unsloth和Huggingface的TRL库进行加速训练。在性能上,模型在权威基准测试中表现良好,具有代码生成、科学研究和深度研究等应用场景。开源协议为Apache-2.0,适合在多种硬件和推理框架上使用。
Voxtral Mini 4B Realtime 2602是一款多语言实时语音转写模型,定位为特定领域微调模型。它具有3.4B参数的语言模型和0.6B参数的音频编码器,支持13种语言,并具有可配置的转写延迟。该模型在实时语音转写任务中表现出色,能够在480ms延迟下达到与离线模型相当的性能。它适用于语音助手、实时字幕等应用,具有开源协议、硬件需求低、推理效率高等实用特性。
Tongyi-MAI/Z-Image是一款专注于图像生成的LLM,定位为多模态模型。其核心技术为单流扩散Transformer,支持全Classifier-Free Guidance,具有强大的视觉语言处理能力。性能上,模型在图像生成任务中表现出色,但缺乏权威基准测试结果。主要应用场景为创意生成和艺术创作。开源协议为Apache-2.0,硬件需求较高,推理效率需进一步优化。
该模型DavidAU/GLM-4.7-Flash-Uncensored-Heretic-NEO-CODE-Imatrix-MAX-GGUF定位为通用大模型,具有30B参数量,支持200K上下文。其核心技术包括GLM-4.7-Flash架构、MoE模型、16位精度输出和Heretic去审查功能。在性能上,模型在MMLU、GPQA等基准测试中表现良好,具有推理、思考和创作能力。主要应用场景包括创意写作、故事生成等。模型开源,支持GPU和CPU推理,与vLLM等框架兼容。
MiniCPM-o 4.5是一款多模态大语言模型,定位为通用大模型。该模型基于SigLip2、Whisper-medium、CosyVoice2和Qwen3-8B构建,参数量达9B。它在视觉、语音和全双工多模态直播方面表现出色,支持双语实时语音对话和全双工直播功能。性能上,MiniCPM-o 4.5在OpenCompass等基准测试中表现出色,超越了GPT-4o等模型。该模型适用于需要多模态交互和实时处理的场景,如直播互动、多语言对话等。
这篇论文提出了DFlash,一种基于块扩散的并行解码框架,用于LLM的快速推测解码。DFlash通过使用轻量级的块扩散模型,在单个前向传递中生成草稿标记,并通过条件化草稿模型来提高解码效率和质量。
这篇论文通过广泛的超参数搜索,系统地重新评估了四种代表性的LoRA变体与vanilla LoRA在大型语言模型微调中的应用。研究发现,不同的LoRA方法在不同学习率范围内表现最佳,但一旦学习率得到适当调整,所有方法都能达到相似的性能。这表明vanilla LoRA仍然是一个有竞争力的基线,并且之前在单一训练配置下报告的改进可能并不反映一致的方法论优势。
这篇论文评估了语言模型在有限交互预算下探索交互式环境的能力。通过引入三个具有可控探索难度的参数化任务,包括连续和离散环境,研究发现最先进的模型存在系统性低探索和次优解,性能通常显著低于简单的探索-利用启发式基线,并且随着预算的增加而弱化。最后,论文研究了两种轻量级干预措施:将固定预算分割成并行执行,出人意料地提高了性能;定期总结交互历史,保留了关键发现并进一步改善了探索。
这篇论文提出了一种名为CoPE的新方法,通过软剪辑RoPE的低频成分,统一了LLMs中长上下文扩展的两个目标:OOD缓解和语义建模。这种方法不仅消除了异常值,还优化了语义信号,防止了硬剪辑引起的频谱泄漏,显著提升了长上下文处理能力。
这篇论文提出了一种名为SocialVeil的社会学习环境,用于在认知差异引起的通信障碍下测试语言代理的社会智能。该方法模拟了语义模糊、社会文化不匹配和情感干扰等三种代表性的通信障碍,并引入了两个评估指标来评估受损通信下的交互质量。实验结果表明,这些障碍会显著影响语言模型的表现,而适应策略对提高性能的影响有限。
这篇论文提出了MemSkill,一种用于自我进化智能体的记忆技能学习方法。MemSkill通过将记忆操作重新构造成可学习和可演化的技能,提高了大型语言模型(LLM)在处理长期历史和多样化交互模式时的效率和灵活性。
这篇论文提出了Infinite-World,一个能够维持超过1000帧视觉记忆的鲁棒交互式世界模型。通过引入分层无姿态记忆压缩器(HPMC)和不确定性感知动作标注模块,该模型能够有效地处理真实世界视频数据,并在视觉质量、动作可控性和空间一致性方面实现卓越性能。
这篇论文提出了一种名为π-Distill的新方法,用于从具有特权信息的语言模型中提取知识,并将其应用于无特权信息的推理任务。该方法通过联合训练教师和学生模型,同时使用动作信息作为特权信息,有效地提高了模型在多轮对话环境中的表现。
这篇论文提出了一个针对大型语言模型(LLM)的不确定性量化(UQ)的新框架,该框架特别关注交互式智能体在开放世界中的不确定性减少过程。论文的核心贡献在于提出了一种新的不确定性减少视角,并设计了适用于LLM智能体设置的不确定性量化方法。
这篇论文提出了Focus-dLLM,一种针对长上下文扩散大型语言模型(dLLM)推理的加速框架。该框架通过置信度引导的上下文聚焦,有效地减少了冗余的注意力计算,从而在保持推理准确性的同时显著提高了推理效率。
本文提出了一种统一的剪裁框架,用于重新思考GRPO中的策略发散度量,通过结合似然比和Kullback-Leibler(KL)发散,扩展到其他度量,为分析不同策略发散度量如何影响探索和性能提供了原则性的基础。实验结果表明,将KL3估计器纳入GRPO可以提高训练稳定性和最终性能。
这篇论文提出了一种名为PMD-mean的算法,用于近似LLM后训练中的对数分区函数,通过使用采样策略下的平均奖励来近似对数分区项,并在对数策略空间中进行回归。这种方法隐式地优化了镜像下降子问题,并引入了自适应的混合KL-χ^2正则化器,从而在低预期奖励时产生更保守的更新,增强了鲁棒性。实验表明,PMD-mean在数学推理任务上实现了优异的性能,提高了稳定性和时间效率。
这篇论文提出了Fast-SAM3D,一个用于图像中快速3D重建的训练免费框架。它通过动态调整计算与生成复杂性的匹配,解决了SAM3D在复杂场景中推理延迟过高的难题,实现了高达2.67倍的端到端速度提升,同时保持了可接受的精度。
这篇论文提出了CAR-bench,一个用于评估大型语言模型(LLM)代理在车内助手领域的一致性、不确定性处理和能力意识的新基准。该基准通过模拟真实世界的不确定性,测试代理在处理不完整或模糊请求时的表现,并引入了幻觉任务和歧义任务来评估代理的极限意识和信息处理能力。
这篇论文提出了一种基于视频生成模型进行视觉推理的方法,通过生成帧作为推理的中间步骤,解决了视觉语言模型在细粒度空间理解和连续动作规划方面的困难。实验表明,该方法在迷宫导航和拼图任务中表现出色,具有鲁棒的零样本泛化能力,并能够利用视觉上下文和测试时缩放来增强推理能力。
这篇论文提出了一种名为One-DVA的基于Transformer的1D视频扩散自动编码器,旨在解决现有视频自动编码器在固定压缩率、CNN架构灵活性以及确定性解码器方面的局限性。One-DVA通过查询式视觉Transformer提取时空特征,并使用可变长度的dropout机制动态调整潜在表示的长度,同时采用像素空间扩散Transformer进行视频重建。
这篇论文提出了PhysicsAgentABM,一种基于物理引导的生成式代理建模方法,通过将推理转移到行为上协调的代理集群,实现了大规模语言模型(LLM)的模拟,同时保持了可解释性和准确性。
这篇论文提出了一种名为MT-GRPO的多任务GRPO算法,旨在解决大型语言模型在多任务推理中的可靠性问题。该算法通过动态调整任务权重和使用比率保持采样器来优化最差任务性能,并促进任务间的平衡进步。实验表明,MT-GRPO在保持平均准确率的同时,显著提高了最差任务的准确率,并减少了训练步骤。
这篇论文探讨了在智能体中准确预测失败并不一定意味着能够有效预防失败。作者通过实验表明,即使预测模型具有很高的准确率,也可能导致性能严重下降。他们提出了一种预部署测试方法,通过小规模的测试来评估干预措施是否有助于提高或损害性能,从而在部署前防止严重的性能退化。
这篇论文提出了一种名为Light Forcing的稀疏注意力机制,用于加速自回归视频扩散模型。该方法通过Chunk-Aware Growth机制和Hierarchical Sparse Attention,在保证视频质量的同时,显著提高了模型的效率。
Hugging Face发布了CRAFT(Continuous Reasoning and Agentic Feedback Tuning),这是一种无需重新训练即可为文本到图像生成和图像编辑增加“思考”能力的框架。CRAFT通过将提示分解为明确的视觉检查、使用VLM验证输出并仅编辑不符合要求的部分来工作,从而显著提高了图像的组合准确性和文本渲染质量。
NVIDIA发布了一项名为Cosmos Policy的新研究,这是一项用于高级机器人控制和规划的技术,通过后训练世界基础模型Cosmos Predict-2来实现。该技术能够将机器人动作、物理状态和成功分数编码为额外的潜在帧,并使用与视频生成相同的扩散过程进行学习,从而提高了机器人操作的性能。此外,NVIDIA还宣布了Cosmos Cookoff,一个开放式黑客马拉松,旨在推动物理AI的发展。
本文介绍了如何使用Hugging Face的FunctionGemma模型在TPU上进行微调,以创建一个虚拟健身教练。通过TPU优化策略,实现了10分钟内、花费约0.50美元的训练成本,显著提高了模型性能,并减少了幻觉。该项目展示了TPU在小型模型微调中的高效性和经济性。
NVIDIA发布了NVIDIA Agentic Smart Router,这是一款基于Dell Enterprise Hub的智能路由器,旨在解决企业AI应用部署中的多大型语言模型(LLM)利用和单一框架限制问题。该路由器通过NVIDIA NeMo Agent Toolkit (NAT) 和NVIDIA的LLM路由器实现多框架、面向代理的设计,提供智能模型选择、代理编排和检索增强生成(RAG)等功能,旨在提高准确性、性能和降低成本。
SyGra V2.0.0是SyGra框架的重大更新,引入了以UI为先导的Studio、多模态生成管道、企业级集成、LLM节点中的工具支持、数据质量增强、扩展的提供商和模型集成以及元数据和可观察性功能,旨在简化合成数据生成和评估工作流程。
Photoroom宣布开源其文本到图像模型PRX,该模型现已在Hugging Face的Diffusers中提供。此次发布旨在开放整个训练过程,包括训练方法、经验教训等,旨在成为对文本到图像模型感兴趣的实用资源。Photoroom还计划分享一系列深入探讨模型设计实验、架构基准、加速技巧和后训练方法的文章。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
ReasoningLens,一款用于可视化、理解和调试大型语言模型(LLM)推理过程的开发工具包,已正式发布。它通过将复杂的推理链转化为交互式、层次化的可视化地图,帮助开发者更清晰地追踪和调试模型的推理过程,同时提供自动化错误检测和模型画像功能,以提升LLM的调试效率和模型理解。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
LightOn AI 发布了 LightOnOCR-2-1B,这是一个10亿参数的第二代端到端视觉-语言 OCR 模型,旨在将文档页面转换为高质量文本,同时提供轻量级布局信息。该模型在性能和速度上均优于同类产品,并支持Hugging Face Transformers生态系统,便于社区使用。
本文详细介绍了如何使用PyTorch和Hugging Face工具微调大型语言模型(LLM),以将英文翻译成尤达语(Yoda-speak)。通过量化模型、设置低秩适配器(LoRA)、格式化数据集以及使用Hugging Face的`trl`库中的`SFTTrainer`进行监督式微调,展示了整个过程。LoRA技术允许在量化模型上进行高效训练,显著减少了可训练参数的数量,使其仅占原始大小的1%或更少,从而能在资源有限的消费级GPU上进行训练。
Hugging Face的官方博客发布了一篇关于小型语言模型最优架构的文章,介绍了通过实验发现的最优模型配置,包括深度、宽度、架构类型等,并推出了新的扩散模型Dhara-70M,该模型在保持较高准确性的同时,实现了更高的吞吐量和事实性。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
本文深入探讨了大型语言模型(LLMs)中的解码策略,包括贪婪搜索、束搜索、Top-k采样和核采样,旨在提高文本生成的多样性和质量。文章通过Python代码示例展示了这些策略的实现和效果,并讨论了它们在不同应用场景中的适用性。
这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。
Hugging Face 发布了一篇入门教程,介绍了其平台和工具,包括模型、数据集和Spaces,旨在帮助用户快速上手并利用其AI技术。教程涵盖了如何使用Transformers库、探索模型中心、使用数据集以及部署交互式AI应用等关键步骤。
本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。
这篇公告详细记录了一位AI技术分析师在训练Action Chunking Transformer (ACT)模型上的经历,包括遇到的挑战、解决方案和经验教训。文章描述了如何使用SO-101机器人进行数据收集和训练,以及如何通过改进硬件设置、数据收集流程和评估流程来提高模型的性能。
GSMA发布了Open-Telco LLM Benchmarks 2.0,这是首个针对电信行业的大型语言模型(LLM)评估框架。该框架旨在评估LLM在电信标准解释、网络故障排除等实际挑战中的表现,并通过多运营商合作,引入了更贴近实际生产场景的任务和数据集,如TeleYAML和TeleLogs。
ILLUIN Technology 与 NVIDIA 合作发布了 ViDoRe V3 基准测试,旨在为多模态企业文档检索评估树立新的行业黄金标准。该基准通过使用真实世界数据集和丰富的人工注释,解决了生产型 RAG 系统在复杂文档中检索信息的关键挑战,并支持多语言查询。
OpenAI 发布了其AI本地化策略,旨在通过调整全球前沿模型以适应本地语言、法律和文化,确保AI造福全人类。该策略包括OpenAI for Countries计划,旨在实现本地化AI系统,同时受益于全球前沿模型,并在爱沙尼亚进行试点。此外,OpenAI强调了其模型规范和红线原则,以确保人类安全和人权。
这篇论文提出了BudgetMem,一个运行时代理内存框架,通过预算层级路由来平衡任务性能和内存构建成本,以解决大型语言模型(LLM)在超出单一上下文窗口时内存利用效率低下的问题。
这篇论文提出了AgentXRay,一个基于搜索的框架,旨在通过工作流程重建来白盒化黑盒的智能体系统。它通过仅使用输入输出访问来合成一个可解释的替代工作流程,从而解决大型语言模型在复杂问题解决中的可解释性和可控性问题。
这篇论文提出了一种通过自我蒸馏技术将预训练的自回归语言模型转换为快速的多令牌预测模型的方法,该方法不需要额外的辅助模型或复杂的推理管道,在GSM8K数据集上实现了平均超过3倍的速度提升,同时准确率下降小于5%。
这篇论文提出了OmniMoE,一种通过在单个MoE层中实现向量级原子专家来优化MoE架构的方法。它通过降低路由复杂性和内存访问挑战,实现了大规模、细粒度的MoE,在保持高准确性的同时显著提高了推理速度。
这篇论文提出了一种名为CoPE的新方法,通过软剪辑RoPE的低频成分,统一了LLMs中长上下文扩展的两个目标:OOD缓解和语义建模。这种方法不仅消除了异常值并细化了语义信号,还防止了硬剪辑引起的频谱泄漏,显著提升了长上下文处理能力。
这篇论文提出了一种名为Atomic Information Flow (AIF)的图模型,用于在RAG系统中追踪工具输出和LLM调用,通过将信息分解为不可分割的原子单位,实现了对AI解释性的细粒度度量。AIF利用Gemma3语言模型作为上下文压缩器,通过离线计算的信息流信号来近似工具原子的最小割。
这篇论文提出了FedMosaic,一个基于参数适配器的联邦检索增强生成框架,旨在解决隐私敏感领域中的知识孤岛问题。FedMosaic通过将文档编码为轻量级的适配器,避免了原始文本的交换,同时通过语义聚类和选择性聚合技术,显著降低了存储和通信成本,并在多个任务上实现了比现有方法更高的准确率。
这篇论文提出了一种名为MerNav的框架,用于解决视觉语言导航(VLN)中的零样本目标导航问题。该框架包含记忆模块、执行模块和审查模块,旨在同时提高成功率(SR)和泛化能力。通过在多个数据集上的实验,该框架在零样本设置下实现了显著的性能提升。
这篇论文提出了ContextBench,一个用于评估编码代理在问题解决过程中检索和使用代码上下文的过程性基准。它通过跟踪代理轨迹并测量上下文召回率、精确率和效率来评估上下文检索。实验结果表明,复杂的代理结构对上下文检索的提升有限,LLM在召回率上优于精确率,并且探索的上下文和使用的上下文之间存在较大差距。