RAG
2026-01-14
创新:
4
影响:
5
这篇论文提出了STAGE,一个针对电影剧本的统一基准,用于评估模型在知识图谱构建、场景级事件摘要、长文本剧本问答和在剧本中的角色扮演方面的叙事理解能力。STAGE通过提供清洗后的剧本、精心制作的知识图谱和事件及角色中心标注,使模型能够在共享的叙事世界表示中构建世界表示、抽象和验证叙事事件、推理长文本以及生成角色一致的响应。
入选理由:提出STAGE基准,统一评估电影剧本问答能力,推动叙事理解研究。
Agent
2026-01-14
创新:
4
影响:
4
这篇论文提出了一种基于Shapley值的鲁棒去中心化随机学习算法ROSS,旨在解决去中心化学习中数据分布异质性的问题。该算法通过聚合邻居的交叉梯度信息,并使用Shapley值来加权这些信息,以更新局部模型。论文通过理论分析和实验验证了算法的线性收敛速度提升和预测准确性的优势。
入选理由:提出ROSS算法,解决去中心化学习中数据分布异质性问题,提升收敛速度和预测准确性。
LLM
2026-01-14
创新:
4
影响:
4
这篇论文提出了一种名为Latent-GRPO的框架,通过在潜在空间中利用几何聚类来直接从潜在空间几何中推导出内在奖励,从而解决大型语言模型(LLMs)在相对策略优化(GRPO)中依赖昂贵的验证器或人类规则的问题。该方法通过迭代稳健质心估计(IRCE)算法生成密集、连续的奖励,显著提高了训练速度并保持了模型性能。
入选理由:提出Latent-GRPO框架,解决LLMs在GRPO中依赖验证器问题,提高训练速度和模型性能。
LLM
2026-01-14
创新:
4
影响:
4
这篇论文提出了一种名为GTR-VL的分子结构识别模型,通过图遍历作为视觉思维链机制来模拟人类推理,并采用数据中心的识别原则,显著提高了手绘分子结构识别任务的性能。
入选理由:提出GTR-VL模型,通过图遍历模拟人类推理,提高分子结构识别性能。
LLM
2026-01-14
创新:
4
影响:
4
这篇论文提出了一种新型的语义和政策双驱动的混合决策框架,用于解决自动驾驶中的持续学习和联合决策问题。该框架结合了大型多模态模型(LMMs)进行语义理解和认知表示,以及深度强化学习(DRL)进行实时策略优化,以实现具身智能(EI)驾驶的持续进步。
入选理由:提出语义和政策双驱动的混合决策框架,解决自动驾驶持续学习和联合决策问题。
Agent
2026-01-14
创新:
4
影响:
4
这篇论文提出了ESGAgent,一个基于多智能体系统的ESG分析工具,通过整合检索增强、网络搜索和领域特定功能,生成深入的ESG分析。同时,论文还建立了一个综合的三级基准,用于评估从原子常识问题到综合深入分析的能力。实验表明,ESGAgent在原子问答任务上平均准确率达到84.15%,在专业报告生成方面表现出色。
入选理由:提出ESGAgent工具,整合多智能体系统进行ESG分析,建立全面基准评估能力。
Agent
2026-01-14
创新:
4
影响:
4
这篇论文提出了ToolACE-MCP,一种用于训练历史感知路由器的管道,旨在解决大规模生态系统中的可扩展性和泛化性问题。该方法通过依赖丰富的候选图合成多轮轨迹,使路由器能够动态理解上下文,创建即插即用的轻量级路由代理。实验表明,ToolACE-MCP在MCP-Universe和MCP-Mark基准测试中表现出色,不仅能够泛化到多智能体协作,而且对噪声具有出色的鲁棒性,并能有效扩展到大规模候选空间。
入选理由:提出ToolACE-MCP,解决大规模生态系统中的可扩展性和泛化性问题,提高路由器性能。
RAG
2026-01-14
创新:
4
影响:
4
这篇论文提出了RAGShaper,一个用于自动化构建RAG任务和鲁棒代理轨迹的数据合成框架,通过构建包含对抗性干扰的信息树,并采用约束导航策略,使模型在噪声密集和复杂的检索任务中表现出色。
入选理由:提出RAGShaper框架,自动化构建RAG任务和鲁棒代理轨迹,提升模型在复杂检索任务中的表现。
RAG
2026-01-14
创新:
4
影响:
4
这篇论文提出了ViDoRe v3,一个综合的多模态RAG基准,用于评估在复杂真实世界场景中的检索增强生成。它解决了现有基准在处理视觉元素、跨文档信息综合和准确来源定位方面的不足,通过提供高质量的人为标注,评估了不同RAG管道的性能,并揭示了视觉检索器优于文本检索器,以及后期交互模型和文本重排序对性能的显著提升。
入选理由:提出ViDoRe v3基准,评估复杂场景下检索增强生成,揭示视觉检索器性能优势。