MiroMindAI/MiroThinker:填补LLM生态工具推理空白
MiroThinker是一个开源的搜索代理项目,旨在提升工具辅助推理和信息搜索能力,为研究者提供强大的工具集和框架。它填补了LLM生态中工具辅助推理的空白,为应用开发者提供了丰富的工具和集成方案,同时为普通用户和企业提供了强大的信息搜索和推理能力。
精选 74 篇,从 9800+ 条中筛选
MiroThinker是一个开源的搜索代理项目,旨在提升工具辅助推理和信息搜索能力,为研究者提供强大的工具集和框架。它填补了LLM生态中工具辅助推理的空白,为应用开发者提供了丰富的工具和集成方案,同时为普通用户和企业提供了强大的信息搜索和推理能力。
Claude-Mem是一个为Claude Code构建的插件,旨在通过自动捕获编码会话中的所有操作,使用AI进行压缩,并将相关上下文注入到未来的会话中,从而实现跨会话的上下文持久化。该项目主要面向开发者,通过智能记忆和搜索功能,优化了编码过程中的知识连续性和效率。
Memvid是一个为AI代理提供持久、长期记忆的单文件内存层,旨在简化RAG管道,通过无服务器架构实现快速检索。它面向开发者,特别是需要构建长期记忆和快速检索功能的AI系统开发者。Memvid的核心功能是提供了一种高效的数据存储和检索方式,其技术架构亮点在于其基于视频编码的内存组织方式,实现了高效的压缩、索引和并行读取。在LLM生态中,Memvid的价值在于它为AI代理提供了一个无需数据库的持久记忆解决方案,填补了AI长期记忆的空白。
Claude Code是一款基于自然语言命令的终端编码工具,旨在通过理解代码库执行常规任务、解释复杂代码和处理Git工作流,提升编码效率。该项目定位为开发者工具,通过应用层创新,将LLM技术应用于编码领域,为开发者提供便捷的编码体验。
MemU是一个面向LLM和AI代理后端的记忆框架,旨在处理多模态输入,提取结构化记忆,并组织成支持基于嵌入和非嵌入检索的分层文件系统。它旨在为研究者、应用开发者提供工具,解决记忆管理和检索的难题,通过其独特的多模态支持和自进化记忆结构,在LLM生态中提供独特的价值。
VideoRAG项目是一个专注于视频内容理解和交互的框架,旨在通过先进的AI技术实现与视频的智能对话。该项目填补了长视频内容理解与交互的空白,为研究者、开发者及普通用户提供了一种全新的视频分析工具。其核心功能包括视频内容分析、智能问答和跨视频理解。技术架构上,VideoRAG结合了图驱动的知识索引、层次化上下文编码和自适应检索等技术。在LLM生态中,VideoRAG的价值在于其独特的长视频理解能力,为视频内容分析领域提供了新的解决方案。
GLM-4.7是一款专注于多语言和代码能力的通用大模型。它采用了Transformer架构,并引入了MoE技术,支持多种语言(包括英语、中文和阿拉伯语)。在性能上,GLM-4.7在多个基准测试中表现出色,尤其在代码生成、数学推理和多语言能力方面有显著提升。该模型适用于需要多语言和代码生成能力的场景,如聊天、创意写作和角色扮演。其开源协议、硬件需求以及推理效率等方面适合于主流的推理框架。
lilylilith/AnyPose是一款专注于图像编辑的LoRA模型,旨在简化Qwen Image Edit 2511模型的姿态创建过程。该模型定位为特定领域微调模型,采用LoRA技术,以Qwen/Qwen-Image-Edit-2511为基础模型。模型具有快速推理能力,通过单张参考图像即可复制姿态,无需控制网络。性能方面,未提供权威基准测试结果,但模型在图像编辑领域具有显著优势。主要应用场景为图像姿态编辑,使用时需考虑开源协议、硬件需求和推理效率。
Wuli-art/Qwen-Image-2512-Turbo-LoRA是一款针对Qwen Image 2512的4或8步turbo LoRA模型,旨在提供快速且高质量的图像生成。该模型定位为多模态模型,具有快速推理和优化图像生成的特点。其核心技术包括LoRA和distillation技术,显著提高了生成速度。性能方面,模型在图像生成任务上表现出色,但未提供具体的基准测试结果。主要应用场景为图像生成和创意设计,使用时需考虑其开源协议和硬件需求。
Falcon-H1R-7B是一款推理优化的LLM,基于Falcon-H1-7B-Base模型,通过冷启动监督微调和RL增强,在数学、编程、指令遵循和逻辑推理等基准测试中表现出色。该模型采用混合架构,支持英语和多种语言,具有优秀的推理能力,适用于需要复杂推理任务的场景。
Youtu-LLM-2B是一款由腾讯推出的通用小型语言模型,具有1.96B参数,支持128k长上下文。该模型在通用评估中表现出色,尤其在常识、STEM、编码和长上下文能力方面优于同类模型。其性能在多个基准测试中均表现出色,尤其在指令遵循和文本推理方面。Youtu-LLM-2B适用于需要强大语言理解和生成能力的应用场景,如对话系统、文本摘要和问答系统。该模型开源,支持多种硬件平台,与流行推理框架兼容。
Lightricks/LTX-2是一款基于DiT架构的多模态音频-视频基础模型,专注于生成同步的视频和音频。该模型具有灵活的下载量和点赞数,支持多种语言,并采用diffusers库。LTX-2在图像到视频、文本到视频等多个领域具有广泛应用,其开源协议和丰富的模型版本提供了灵活的部署选项。在性能上,LTX-2在多模态任务中表现出色,尤其在视频生成方面具有显著优势。
🔥 unsloth/Qwen-Image-2512-GGUF 是一个基于 Qwen-Image-2512 的文本到图像模型,专注于生成高质量的图像。该模型定位为多模态模型,具有GGUF量化技术,提高了推理效率。它具有丰富的语言支持,包括英语、中文和阿拉伯语。在性能上,该模型通过Unsloth Dynamic 2.0方法实现了SOTA性能,特别在图像生成方面表现出色。模型适用于需要高质量图像生成的场景,如艺术创作、游戏开发等。
Qwen-Image-2512是一款专注于文本到图像生成的多模态模型,定位为多模态模型。其核心技术基于diffusers库,采用text-to-image pipeline,具有增强的人像真实感、更细腻的自然细节和改进的文本渲染能力。在AI Arena的测试中,Qwen-Image-2512表现出色,是目前最强的开源模型之一。该模型适用于需要高质量图像生成的场景,如艺术创作、设计等领域。其开源协议为Apache-2.0,对硬件要求较高,推理效率取决于具体硬件配置。
IQuest-Coder-V1-40B-Loop-Instruct是一款专注于代码生成和智能的LLM,定位为代码模型。它采用创新的代码流多阶段训练范式,具有40B的参数量和128K的上下文长度。在SWE-Bench、BigCodeBench等基准测试中表现出色,超越了同类模型。该模型适用于需要高效代码生成和智能辅助的场景,具有开源协议,对硬件要求较高,推理效率中等。
K-EXAONE是一款由LG AI Research开发的通用大语言模型,具有236亿参数,支持多语言。其核心架构为Mixture-of-Experts,具备高效的推理能力和长上下文处理能力。在多个基准测试中表现出色,尤其在推理、多语言理解和长文本处理方面。K-EXAONE适用于需要多语言处理和长文本生成的场景,具有开源协议、高效的推理效率,并与主流推理框架兼容。
MiniMax-M2.1是一款定位在通用大模型范畴内的LLM,具有高性能和丰富的功能。它基于transformers库,采用自定义的架构,支持FP8精度,上下文长度可达200K。在性能上,该模型在多个基准测试中表现出色,具有代码生成、数学推理等多方面的能力。开源协议为modified MIT,适合在多种硬件和推理框架上使用。
A.X K1是一款定位为通用大模型的混合专家语言模型,拥有519亿参数,其中33亿为活跃参数。其核心技术为混合专家架构,支持深度推理与低延迟响应的灵活切换。在性能上,A.X K1在MMLU、GPQA等基准测试中表现出色,具有高效推理和强大的数学推理能力。适用于需要复杂推理和指令遵循的场景,如代码生成和数学问题解决。开源协议为Apache-2.0,适合在多种硬件和推理框架上使用。
IQuest-Coder-V1-40B-Instruct是一款专注于代码生成和智能的LLM,定位为代码模型。它采用创新的代码流多阶段训练范式,支持高达128K的上下文长度,参数量达到40B。在SWE-Bench Verified、BigCodeBench等基准测试中表现出色,超越了同类模型。该模型具有高效的架构和双专业路径,适用于复杂问题解决和通用编码辅助。
LiquidAI/LFM2.5-1.2B-Instruct是一款针对边缘设备部署的混合模型,定位为通用大模型。其核心能力在于高效能的推理和轻量级的设计,特别适合移动和边缘设备。该模型在1.2B参数量下实现了高性能,具有239 tok/s的解码速度,并支持多种硬件平台。在性能表现上,LFM2.5-1.2B-Instruct在权威基准测试中表现出色,尤其在边缘设备推理方面具有显著优势。主要应用场景包括移动设备上的自然语言处理任务,如对话系统、文本生成等。其开源协议、轻量级设计和高效的推理能力使其成为边缘计算和移动应用的首选。
MiroThinker-v1.5-235B是一款定位为推理模型的LLM,具有235B参数量,支持交互式扩展,能够进行深度和频繁的模型-环境交互。其核心技术包括Qwen3_MoE架构和text-generation pipeline。在性能上,MiroThinker-v1.5-235B在多个基准测试中表现出色,具有代码生成、数学推理等多方面的能力。该模型开源,适用于需要高交互和信息检索能力的场景,如智能问答系统。
LiquidAI/LFM2.5-Audio-1.5B是一款专注于音频处理的多模态语言模型,定位为多模态模型。其核心技术包括基于LFM的音频去标记器、FastConformer音频编码器和RQ-transformer。该模型在音频到音频的转换任务中表现出色,支持实时语音到语音对话。性能方面,模型在ASR和TTS任务中表现良好,参数量适中,适合实时交互场景。主要应用场景包括语音助手、实时翻译等。
HY-Motion 1.0是一款基于Diffusion Transformer和Flow Matching的文本到3D人体运动生成模型,定位为多模态模型。该模型具有大规模参数量,能够从简单文本提示生成骨骼动画,适用于3D动画管道。其在LLM领域中的差异化优势在于其先进的3D运动生成能力。性能方面,模型在相关基准测试中表现出色,具有高效的推理效率和良好的开源协议。主要应用场景包括3D动画制作和虚拟现实。
Alpamayo-R1-10B是一款由NVIDIA开发的视觉-语言-动作(VLA)模型,定位在自动驾驶领域的特定领域微调模型。该模型基于Transformer架构,具有8.2B参数的骨干网络和2.3B参数的动作解码器。它在Hugging Face平台上的下载量为20,053,获得了199个点赞。模型在处理复杂自动驾驶场景中的决策方面表现出色,特别是在处理罕见的长尾事件。性能方面,模型在相关基准测试中表现良好,具有开源协议,适用于全球部署。其核心能力在于结合因果推理和轨迹规划,为自动驾驶应用提供可解释的推理和精确的车辆控制。
tencent/HY-MT1.5-1.8B 是一款专注于多语言翻译的通用大模型,具有1.8B参数量。该模型在Hugging Face平台上表现出色,支持33种语言的互译,并包含5种民族和方言变体。其核心技术包括Transformer架构和上下文长度优化,性能上与更大的版本相当,但更适用于边缘设备和实时翻译场景。该模型在开源协议下提供,具有高效的推理性能,适用于需要多语言翻译的广泛应用场景。
nvidia/nemotron-speech-streaming-en-0.6b 是一款专注于语音识别的领域大模型,具有cache-aware ASR和streaming-asr的特点。该模型基于FastConformer架构,支持多种语音数据集,包括LibriSpeech、AMI等。在性能上,模型在LibriSpeech测试集上取得了2.31%的WER,表现出色。模型适用于需要高效率语音识别的场景,如智能客服、语音助手等。其开源协议为nvidia-open-model-license,适合在多种硬件平台上部署。
这篇论文提出了Klear,一个统一的多任务音频-视频联合生成模型,通过改进模型架构、训练策略和数据管理来解决音频-视频联合生成中的同步、对齐和降解问题。Klear采用单塔设计,结合DiT块和Omni-Full注意力机制,实现紧密的音频-视频对齐和强大的可扩展性。通过渐进式多任务训练和多层次课程设计,Klear在联合和单模态设置中实现了高保真、语义和时序对齐的生成,并在多个任务上显著优于现有方法。
这篇论文提出了Benchmark^2,一个用于评估大型语言模型(LLM)基准质量的综合框架,包括跨基准排名一致性、区分度得分和能力对齐偏差三个指标。通过在数学、推理和知识领域等15个基准上对11个LLM进行评估,论文揭示了现有基准之间的质量差异,并证明了基于这些指标的选择性基准构建可以显著减少测试集大小,同时保持可比的评估性能。
这篇论文提出了ResTok,一种用于自回归图像生成的1D视觉分词器,它通过学习层次残差来增强表示能力,并通过层次自回归生成器加速生成过程,显著提高了图像生成的质量。
这篇论文提出了Doc-PP,一个针对大型视觉语言模型(LVLMs)的文档政策保留基准,旨在解决模型在处理多模态文档时泄露敏感信息的问题。通过引入DVA框架,该基准能够将推理与政策验证分离,从而提高模型在遵守政策约束下的文档理解能力。
这篇论文提出了ATLAS,一个用于跨领域复杂推理的动态工具使用框架。ATLAS通过无监督的聚类路由和基于强化学习的多步路由,实现了对异构模型和工具的有效组合,显著提升了推理性能。
这篇论文提出了ROI-Reasoning,一种通过预计算元认知进行推理的理性优化框架,旨在使大型语言模型(LLMs)在有限的计算预算下进行高效推理。该框架通过元认知微调和理性强化学习,使模型能够预测推理成本和预期效用,从而在多个任务中实现预算推理。
这篇论文提出了RedBench,一个用于全面测试大型语言模型(LLMs)鲁棒性的通用数据集。RedBench整合了37个来自领先会议和存储库的基准数据集,包含29,362个攻击和拒绝提示样本,采用标准化的分类法,旨在促进对LLMs安全性的系统评估。
这篇论文提出了一个名为Programmatic Skill Network (PSN)的框架,用于在开放式的具身环境中实现持续技能获取。PSN通过大语言模型实现了三个核心机制:结构化故障定位、成熟度感知的渐进式优化和结构化重构。实验表明,PSN在MineDojo和Crafter上的表现展示了鲁棒的技能重用、快速适应和跨开放式任务分布的强大泛化能力。
这篇论文提出了EpiQAL,一个用于评估大型语言模型在流行病学问题回答中的基准,旨在增强对证据的校准和推理能力。EpiQAL包含三个子集,分别评估基于文本的事实回忆、多步骤推理以及结论重建。实验表明,当前LLM在流行病学推理方面表现有限,多步骤推理是最大的挑战。
这篇论文提出了ThinkRL-Edit,一个基于强化学习的图像编辑框架,通过将视觉推理与图像合成解耦,并引入思维链(Chain-of-Thought)推理采样,显著提高了推理导向的图像编辑性能。
这篇论文提出了一种名为L2T的预训练框架,通过结合语言学习任务和标准下一标记预测来增强语言模型的语言能力。该框架将原始文本转换为结构化的输入输出对,以提供明确的语言刺激,从而在提高语言能力基准测试性能的同时,加速其获取,并在通用推理任务上保持竞争力。
这篇论文提出了MAGMA,一种基于多图的代理记忆架构,用于增强大型语言模型。MAGMA通过在正交的语义、时间、因果和实体图上表示每个记忆项,解决了现有方法中语义相似性导致的可解释性和推理精度问题。通过将记忆表示与检索逻辑解耦,MAGMA实现了透明的推理路径和细粒度的检索控制,在长期推理任务中优于现有系统。
这篇论文介绍了LTX-2,一个高效的联合音频-视觉基础模型,它能够生成高质量的音频-视觉内容。LTX-2通过不对称的双流Transformer架构,结合双向音频-视频交叉注意力层和跨模态AdaLN,实现了音频和视频的同步生成。该模型在保持音频-视觉质量的同时,显著降低了计算成本和推理时间。
这篇论文提出了AGL1K,第一个针对音频语言模型(ALMs)的音频地理定位基准,通过Audio Localizability指标从众包平台中提取可靠样本,评估了16个ALMs在音频地理定位方面的能力,发现封闭源模型显著优于开源模型,并分析了ALMs的推理过程、区域偏差、错误原因和可解释性。
这篇论文提出了X-MuTeST,一个用于可解释仇恨言论检测的多语言基准,结合了大型语言模型的高级语义推理和传统的注意力增强技术。它通过提供针对每个单词的人类标注理由来扩展研究至印地语和泰卢固语,并使用人类理由来增强分类性能和可解释性。
NVIDIA发布了两个新的Llama Nemotron模型,旨在提高多模态搜索和视觉文档检索的准确性。这些模型包括用于页面级检索和相似性搜索的单向量多模态嵌入模型,以及用于查询-页面相关性评分的交叉编码重排序模型。这些模型设计用于在标准向量数据库上运行,并且足够小,可以在大多数NVIDIA GPU资源上运行,为开发者提供了强大的工具来构建更准确、低延迟的视觉文档检索系统。
MiniMax AI 发布了 VIBE Bench,这是一个全栈应用程序评估基准,旨在评估模型生成应用程序的真实用户体验。VIBE Bench 通过自动评估生成应用程序在真实执行环境中的交互逻辑和视觉呈现,提供对真实用户体验的更忠实评估。它使用代理作为验证器(AaaV)的方法,通过执行层、交互层和视觉与美学层全面评估应用程序的性能。
OpenMed项目自2025年7月启动以来,已经发布了380多个先进的医疗AI模型,旨在推动医疗AI的发展。这些模型涵盖了从疾病和条件检测到药物和化学实体识别等多个领域,并采用Apache 2.0许可协议免费提供。OpenMed还提供了一套完整的Python工具库和交互式终端用户界面,旨在提高开发者的使用体验,并已部分模型可在AWS Marketplace上使用。
本文探讨了视觉语言模型(VLM)微调中多样性策略与密度策略的对比。作者通过实验,对比了在数据量有限的情况下,使用大量不同图像(多样性)和重复图像(密度)对模型性能的影响。结果表明,多样性策略在测试集和真实世界问答基准测试中均优于密度策略。然而,在特定情况下,密度策略在推理模型中表现不佳,表明仅增加问题多样性并不一定能提高推理能力。作者还讨论了实验中使用的LoRA微调方法、数据生成过程以及未来研究方向。
本文介绍了NVIDIA Isaac Lab-Arena和Hugging Face的LeRobot在模拟环境中进行通用机器人策略评估的方法。通过集成NVIDIA的Isaac和GR00T技术,LeRobot库加速了开源物理AI的开发。文章详细说明了如何使用Isaac Lab-Arena在LeRobot EnvHub上评估VLA策略,并展示了如何创建和注册新的环境。此外,还介绍了Lightwheel Robocasa和LIBERO任务套件在Isaac Lab-Arena上的应用,为开发者提供了丰富的资源和指导。
NVIDIA发布了Nemotron Speech ASR,这是一种新的实时语音识别模型,专为实时语音代理而设计。该模型通过引入缓存感知技术,仅处理新的音频“增量”,从而实现了比传统缓冲系统高达3倍的效率。Nemotron Speech ASR基于FastConformer架构,并采用8倍下采样,在保持高准确性和鲁棒性的同时,显著提高了GPU效率并降低了成本。该模型在NVIDIA H100、RTX A5000和DGX B200等硬件上进行了测试,并展示了其在高并发、低延迟语音代理工作负载中的实际效果。
这篇公告主要介绍了在NVIDIA Blackwell GPU上通过内核工程优化FP4 MoE(混合专家)模型推理的性能。通过内核融合、Blackwell优化和专家感知计算,实现了BF16的3.54倍和vLLM的1.32倍推理速度提升,特别是在批处理大小为1的交互式推理中,SGLang表现出了显著的性能优势。
Hugging Face 宣布推出 Falcon H1R 7B,这是一个由阿布扎比的科技创新研究所 (TII) 开发的仅解码器的大型语言模型。Falcon H1R 7B 在推理能力方面取得了重大突破,尽管其参数规模仅为 70 亿,但其在各种推理密集型基准测试中与参数规模大 2-7 倍的顶尖推理模型相当或优于它们。该模型通过精心挑选的训练集和两阶段高效监督微调流程,实现了卓越的性能,并在数学、代码和代理以及通用基准测试中均表现出色。
MiniMax AI 发布了 M2.1 模型,这是一个针对代理场景优化的开源模型,在代码生成、工具使用、指令遵循和长期规划方面表现出色。M2.1 通过解决 SWE-Bench 的局限性,如语言覆盖范围和任务类型限制,实现了在真实世界场景中的编码能力提升。文章还展望了 2026 年的研究方向,包括定义开发者体验的奖励信号、提高问题解决效率和强化学习扩展。
Hugging Face 发布了关于 LoRA(低秩适应)技术的博客文章,这是一种创新的微调技术,通过在预训练的大型语言模型中添加小的可训练适配器层来适应特定任务,而不需要重新训练数亿个参数。LoRA 通过冻结原始模型权重和使用低秩矩阵分解来优化,显著减少了训练所需的计算资源和内存。这项技术为现代 AI 开发带来了革命性的变化,提供了显著的参数效率,同时保持了与全微调方法相当的性能。
本文档详细介绍了如何在Verl框架上使用GRPO(Group Relative Policy Optimization)和LoRA(Low-Rank Adaptation)技术训练Qwen2.5-3B-Instruct模型。文章涵盖了基础设施设置、数据管道、训练过程以及验证与基准测试等关键步骤,并针对训练过程中遇到的问题和挑战提供了解决方案和优化策略。
本文探讨了利用Tinker API和GRPO算法对大型语言模型进行有害强化学习攻击的方法。作者展示了如何通过恶意奖励函数和强化学习算法放大模型中的有害行为,并强调了这种攻击的潜在危害。文章呼吁社区开发更强大的防御机制,并提出了模型提供者和RLaaS平台共同采取防御措施的建议。
本文探讨了人工智能系统中连续性的重要性,将其视为一个一级系统属性,并分析了现有方法在提供稳定连续性方面的不足。作者提出了一个模型无关、以隐私为首要考虑的连续性架构,该架构通过明确区分行为引导状态和仅用于参考的历史记录,使人工智能系统能够在重启后保持连贯性、可审计性和隐私安全。
Hugging Face的研究人员通过测试19种模型配置和12种不同的架构,发现隐藏维度至少为512是关键阈值,32层深度提供最佳性能。扩散模型在推理速度和事实性方面表现出色,但牺牲了一些准确性。他们开发了一种名为Dhara-70M的扩散模型,在保持良好事实性的同时,将吞吐量提高了3.8倍。
Hugging Face 发布了 Qwen-Image-i2L,这是一种新的 'Image-to-LoRA' 模型,可以将图像训练成 LoRA 模型的权重,实现端到端的直接生成。该模型旨在减少 LoRA 训练时间,并探索了多种模型架构和训练方法,以提高模型性能。
本文深入探讨了强化学习中的PPO和GRPO算法,通过将RL训练过程比作小学生考试场景,解释了仅使用奖励作为训练信号的问题,并介绍了Critic、Clip操作、Reference Model等机制如何解决这些问题。GRPO算法通过使用多个模拟平均值代替价值函数,简化了训练过程并降低了资源消耗。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过记住之前步骤中的重要信息,KV缓存可以显著提高文本生成速度,尤其是在处理长文本时。文章详细解释了KV缓存的工作原理,包括其逐步过程、与传统推理的比较以及实际应用示例。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,通过结合信息检索和文本生成来提高语言模型的表现。文章详细介绍了RAG系统的组成部分,包括检索模型和语言模型,并展示了如何通过索引、检索和生成阶段来构建一个简单的RAG系统。此外,还讨论了RAG系统的改进空间,如处理多主题问题和使用更高效的向量数据库。
本文介绍了名为“abliteration”的技术,该技术能够解除大型语言模型(LLM)的审查机制,使其能够对各种提示做出响应,而无需重新训练。文章详细阐述了abliteration的实现过程,包括数据收集、拒绝方向识别和干预措施等步骤,并提供了基于TransformerLens库的代码示例。
Netomi通过结合并发处理、治理和多步骤推理,利用GPT-4.1和GPT-5.2技术实现了企业级AI代理的扩展。尽管无法访问具体内容,但公告可能涉及Netomi如何利用OpenAI的技术来提高其AI代理在生产环境中的可靠性和效率。
这篇论文提出了SciNetBench,一个针对科学文献检索代理的关系感知基准,旨在解决现有检索代理在处理科学文献中的关系动态方面的不足。SciNetBench通过评估检索代理在识别论文关系、学术关系和科学进化轨迹方面的能力,揭示了当前检索范式在关系感知检索任务上的局限性,并通过实验验证了关系感知检索的重要性。
这篇论文提出了一种名为ChartAgent的多模态智能体,用于在复杂图表问答中进行视觉推理。ChartAgent通过在图表的空间域内直接执行视觉推理,将查询迭代分解为视觉子任务,并通过特定的动作(如绘制注释、裁剪区域和定位轴)与图表图像进行交互,从而实现了对图表的深入理解。实验表明,ChartAgent在多个图表类型和视觉推理复杂度级别上均取得了最先进的准确率。
这篇论文提出了PM4Bench,一个基于严格平行语料库的多语言多模态多任务基准,用于评估大型视觉语言模型(LVLMs)。该基准解决了现有评估方法的两个关键限制:非平行语料库的使用和离散的多模态输入。通过消除内容差异,PM4Bench允许在不同语言之间公平比较模型能力,并通过视觉设置引入了文本查询与图像的融合,以评估模型的综合能力。
这篇论文提出了ChemCoTBench,一个结合分子结构理解和算术启发操作的推理框架,用于评估大型语言模型在化学推理方面的能力。该框架通过将分子变换视为模块化的化学操作,实现了对化学问题的透明、逐步工作流程的正式化,并在分子属性优化和化学反应预测等任务上进行了评估。
这篇论文提出了VISTA,一个旨在解决视频-LLMs中语义惯性的训练免费框架。VISTA通过动态路由推理路径和将隐式视觉特征转化为显式文本锚点,有效地平衡了参数化知识的影响,并通过潜在推理共识机制减轻了随机幻觉。实验结果表明,VISTA在多个基准测试中表现出色,性能优于其基线模型。
这篇论文提出了一种名为R2U的改进方法,用于解决检索增强生成(RAG)系统在优化检索相关性和生成效用之间的差距问题。R2U通过联合观察重写和推理过程中的回答来近似文档的真实效用,从而提高生成过程的可靠性。
这篇论文提出了R$^3$L,一种结合语言引导探索、关键信用分配和正强化学习的强化学习算法。R$^3$L通过反思和重试来合成高质量轨迹,利用语言反馈诊断错误,将失败尝试转化为成功,并通过从识别的失败点重新启动来减少重跑成本。实验表明,R$^3$L在代理和推理任务上相对于基线有5%到52%的相对改进,同时保持训练稳定性。
这篇论文提出了Agent-Dice,一个基于几何共识的参数融合框架,用于解决智能体持续学习中的稳定性-可塑性困境。该方法通过两阶段过程来解耦知识更新:几何共识过滤以修剪冲突梯度,以及基于曲率的权重放大共享语义。
这篇论文提出了一种名为Trade-R1的模型训练框架,通过过程级推理验证将可验证的奖励与随机环境相连接。该框架通过将评估长篇金融文档中的推理问题转化为结构化检索增强生成(RAG)任务,解决了在金融决策中由于市场随机性导致的奖励可验证但噪声大的问题。实验表明,这种方法减少了奖励黑客攻击,并实现了跨市场的泛化。