每日洞察

精选 67 篇,从 330+ 条中筛选

AI深度解读

内容由AI生成,仅供参考
Hugging Face 2026-04-02

CohereLabs/cohere-transcribe-03-2026:领域微调,高效语音转录

CohereLabs的cohere-transcribe-03-2026模型定位为特定领域微调模型,专注于语音识别与转录任务。该模型采用自动语音识别技术,具有自动化的数据处理流程。技术特点包括Transformer架构和自动语音识别技术。性能方面,模型在Hugging Face排行榜上表现良好,具有高效的处理速度和准确的转录结果。主要应用场景包括语音转文本、会议记录等。该模型适合对语音识别和转录有较高要求的场景,具有较好的开源协议和硬件兼容性。

Hugging Face 2026-04-02

google/gemma-4-31B-it:31B参数多模态大模型

Gemma-4-31B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备高达 31B 的参数量和 256K 的上下文长度,支持文本、图像等多种输入和文本输出。其核心技术包括 Dense 和 MoE 架构,并针对移动设备进行了优化。在性能上,Gemma-4-31B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上具有显著优势。模型开源协议为 Apache 2.0,适用于从手机到服务器的多种部署环境。

Hugging Face 2026-04-06

prism-ml/Bonsai-8B-gguf:1位低功耗通用大模型

Bonsai-8B-GGUF-1bit 是一款基于 llama.cpp 的端到端 1 位语言模型,具有高效率、低能耗的特点。该模型定位为通用大模型,采用 1 位权重和 GGUF Q1_0_g128 格式,参数量仅为 1.15 GB,适合在多种平台上运行。其在 6 个类别上的平均得分为 70.5,与全精度 8B 模型相当,但体积缩小了 14 倍。该模型适用于需要高性能和低功耗的场景,如移动设备和边缘计算。

Hugging Face 2026-04-06

🔥 netflix/void-model

netflix/void-model是一款专注于视频编辑和视频修复的模型,定位为特定领域微调模型。它基于CogVideoX 3D Transformer架构,具有强大的视频修复能力,能够去除视频中的物体及其引起的所有交互,包括物理交互。该模型在视频修复领域表现出色,特别适用于视频编辑和视频生成任务。其性能在相关基准测试中表现良好,但具体排名未提及。模型开源,需要较高的GPU资源,推理效率较高。

Hugging Face 2026-04-05

🔥 tencent/HY-OmniWeaving

tencent/HY-OmniWeaving是一款基于tencent/HunyuanVideo-1.5的通用大模型,具备多模态扩展能力。该模型采用自由式组合和推理技术,在视频生成方面具有显著优势。模型参数量、上下文长度等规格尚未明确,但已在HuggingFace平台上获得213个点赞。在性能表现上,具体基准测试结果未提供,但模型在视频生成领域具有创新性。主要应用场景包括视频内容创作和编辑,使用时需考虑开源协议、硬件需求等因素。

Hugging Face 2026-04-02

google/gemma-4-26B-A4B-it:通用大模型,多模态处理强

Gemma-4-26B-A4B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备强大的推理和编码能力,支持文本、图像等多种输入,并生成文本输出。其核心能力包括扩展的多模态处理、Dense 和 MoE 架构、优化的设备本地执行等。在性能上,Gemma-4-26B-A4B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上。模型适用于需要高效率、高准确性的场景,如文本生成、编码和推理等。

Hugging Face 2026-04-01

LiquidAI/LFM2.5-350M:350M参数,边缘高效推理

LiquidAI/LFM2.5-350M是一款针对边缘设备部署的混合模型,具有350M参数量,支持多种语言。该模型在性能上与更大规模的模型相媲美,同时具备快速边缘推理能力。它采用了扩展的预训练和强化学习方法,具有16层结构,上下文长度为32,768 tokens。在性能表现上,该模型在MMLU、GPQA、IFEval等基准测试中表现出色。主要应用场景包括边缘设备上的自然语言处理任务,如文本生成、问答等。其开源协议、硬件需求以及与流行推理框架的兼容性使其在实用考量方面具有优势。

Hugging Face 2026-04-02

google/gemma-4-E4B-it:多模态大语言模型,多语言支持

Gemma-4-E4B-it是一款由Google DeepMind开发的通用多模态大语言模型,支持文本和图像输入,并生成文本输出。该模型具有高达256K的上下文窗口,支持超过140种语言。它采用Dense和MoE架构,适用于文本生成、编码和推理等任务。Gemma-4-E4B-it在代码生成、数学推理和指令遵循等方面表现出色,同时支持本地设备上的高效执行。该模型在Hugging Face平台上具有广泛的下载量和点赞数,表明其在LLM领域的受欢迎程度。

Hugging Face 2026-04-06

🔥 unsloth/gemma-4-26B-A4B-it-GGUF

🔥 unsloth/gemma-4-26B-A4B-it-GGUF 是一款基于 Google DeepMind 的 Gemma 4 模型构建的多模态大语言模型。该模型定位为通用大模型,具有26B参数量,支持图像到文本的转换。其核心技术包括Transformer架构和Gemma 4基座模型,上下文长度未指定。在性能上,模型在MMLU、GPQA、IFEval等基准测试中表现出色。主要应用场景包括图像描述、文本生成等,具有开源Apache 2.0协议,适合在Unsloth Studio等平台上使用。

Hugging Face 2026-04-02

Hcompany/Holo3-35B-A3B:多模态交互,视觉理解强

Holo3-35B-A3B是一款专注于GUI Agent的视觉语言模型,属于多模态模型类别。该模型采用35B参数的稀疏MoE架构,基于Qwen3.5-35B-A3B进行微调,具有强大的视觉理解和文本推理能力。在OSWorld-Verified基准测试中达到77.8%的分数,展现出在计算机使用和网页导航方面的卓越性能。模型适用于需要多模态交互和复杂推理的场景,如企业级应用和智能导航系统。

Hugging Face 2026-04-06

Jackrong/Qwopus3.5-9B-v3-GGUF:推理增强,泛化力强

Jackrong/Qwopus3.5-9B-v3-GGUF是一款推理增强型模型,基于Qwen3.5-9B,旨在提升推理稳定性和正确性,优化推理效率,实现更强的跨任务泛化能力。该模型在HumanEval基准测试中表现出色,尤其在编程任务上具有显著优势。模型定位为推理模型,核心技术为推理增强和结构对齐,性能表现在同类模型中处于领先地位。主要应用场景包括代码生成、数学推理等,适合对推理能力要求较高的场景。

Hugging Face 2026-04-04

🔥 unsloth/gemma-4-31B-it-GGUF

🔥 unsloth/gemma-4-31B-it-GGUF 是一款基于 Google DeepMind 的 Gemma 4 模型构建的多模态 LLM,具有 31B 参数。该模型在 HuggingFace 平台上以 image-text-to-text 的 Pipeline 运行,支持在 Unsloth Studio 中运行和微调。其核心能力在于处理文本和图像,具有开源 Apache 2.0 许可协议。在性能上,Gemma 4 在多个基准测试中表现出色,尤其在多模态任务上具有显著优势。适用于需要多模态处理和图像文本转换的应用场景。

Hugging Face 2026-04-04

🔥 dealignai/Gemma-4-31B-JANG_4M-CRACK

Gemma-4-31B-JANG_4M-CRACK是一款定位在通用大模型领域的模型,具有31B的参数量和18GB的模型大小。其核心技术包括Dense Transformer架构和Hybrid Sliding/Global Attention机制,支持多模态输入。在MMLU基准测试中,该模型保持了93.7%的合规性,显示出其在知识理解和推理方面的能力。该模型适用于需要高知识合规性和多模态处理的应用场景,如安全与渗透测试、代码生成等。其开源协议、硬件需求以及推理效率等特性使其在LLM领域具有差异化优势。

Hugging Face 2026-04-06

Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled:高效推理,结构化逻辑优化

Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型通过从 Claude-4.6 Opus 中提取的 CoT 技术进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持文本生成。在性能上,模型在推理任务上表现出色,特别适合需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,适合在多种硬件和推理框架上使用。

Hugging Face 2026-03-26

baidu/Qianfan-OCR:4B参数多模态文档智能解析

Qianfan-OCR是一款由百度Qianfan团队开发的4B参数端到端文档智能模型,定位为多模态模型。其核心技术为统一的视觉-语言架构,支持直接从图像到Markdown的转换,具有文档解析、布局分析和文档理解等功能。在OmniDocBench和OlmOCR Bench等基准测试中表现出色,尤其在文档解析和OCR任务上取得了领先成绩。该模型适用于文档智能处理、信息提取等场景,具有开源协议Apache-2.0,适合在多种硬件和推理框架上使用。

Hugging Face 2026-04-02

视觉语言模型忽视视觉细节,语义锚点成关键

这篇论文探讨了视觉语言模型(VLMs)在视觉感知任务上的局限性,指出VLMs在处理细粒度视觉信息时表现不佳,因为它们在训练过程中更关注将视觉信息映射到文本空间,而不是直接处理视觉细节。论文通过视觉对应任务验证了这一观点,并提出了通过命名未知实体来提高性能的方法。

Hugging Face 2026-04-01

测试时缩放实现过训练计算最优

这篇论文提出了一种新的训练到测试(T^2)缩放法则,用于优化大型语言模型(LLM)在测试时的性能。该方法通过联合优化模型大小、训练令牌和推理样本数量,在固定的端到端预算下实现最佳性能,解决了传统预训练缩放法则未能解决的测试时缩放问题。

Hugging Face 2026-04-02

Swift-SVD:低秩LLM压缩理论最优与实际高效兼顾

Swift-SVD论文提出了一种新的低秩LLM压缩框架,通过激活感知和封闭形式的压缩方法,在保证理论最优性的同时,提高了实际效率和数值稳定性,实现了训练免费的快速层状低秩近似。

Hugging Face 2026-03-28

空间交流:多视角下的语言媒介空间整合

这篇论文研究了多模态大型语言模型(MLLMs)在空间理解方面的能力,通过引入COSMIC基准,评估了模型在协作空间通信中的性能,发现MLLMs在识别共享锚点对象方面表现较好,但在关系推理和构建全局一致地图方面表现不佳。

Hugging Face 2026-04-01

世界行动模型泛化能力优于VLA?鲁棒性研究

这篇论文比较了世界动作模型(WAMs)和视觉语言动作模型(VLAs)在机器人动作规划中的泛化能力。通过在LIBERO-Plus和RoboTwin 2.0-Plus基准测试中评估不同视觉和语言扰动下的性能,论文发现WAMs在泛化方面表现更优,尤其是在处理未见过的场景和抵抗不同上下文扰动方面。

Hugging Face 2026-04-01

评估人本社交网络隐私风险:AgentSocialBench

这篇论文提出了AgentSocialBench,一个用于评估以人为中心的智能体社交网络中隐私风险的基准。它通过模拟不同场景,揭示了在多智能体交互中保护隐私的挑战,并指出当前LLM智能体在隐私保护方面存在不足。

Hugging Face 2026-04-03

MLLMs视角转换:Token Warping技术助力

这篇论文提出了一种名为Token Warping的技术,通过改变图像token而不是像素,帮助多模态大型语言模型(MLLMs)从附近的视角理解场景。论文通过比较正向和反向token warping,发现反向token warping在视角变化下具有更好的稳定性和语义一致性,实验结果表明该方法在推理附近视角方面优于其他基线方法。

Hugging Face 2026-04-02

流视频理解简单基准

这篇论文提出了一种简单的滑动窗口基线方法SimpleStream,用于流式视频理解。该方法仅使用最近的N帧输入预训练的视觉语言模型(VLM),在OVO-Bench和StreamingBench上取得了与复杂模型相当的性能,挑战了依赖复杂记忆机制的流式视频理解方法。

Hugging Face 2026-04-03

自蒸馏强化学习研究

这篇论文提出了RLSD(RLVR with Self-Distillation),一种结合了强化学习与自我蒸馏的模型训练方法。通过利用自我蒸馏获取细粒度的策略差异,同时使用强化学习从环境反馈中获取可靠的更新方向,RLSD实现了更高的收敛上限和更好的训练稳定性。

Hugging Face 2026-04-03

Agentic-MME:赋能多模态智能的Agentic能力

这篇论文提出了Agentic-MME,一个用于评估多模态智能体能力的基准,通过真实世界任务和细粒度中间状态审计,解决了现有多模态大型语言模型评估方法的不足,并展示了模型在实际多模态问题解决中的挑战。

Hugging Face 2026-04-03

计算机使用代理有害行为评估基准:AgentHazard

这篇论文提出了AgentHazard,一个用于评估计算机使用代理中危害行为的基准。该基准包含多种风险类别和攻击策略的实例,旨在评估代理是否能识别和中断由累积上下文、重复工具使用、中间动作和步骤间的依赖引起的危害行为。实验结果表明,当前系统在安全性方面仍然高度脆弱。

Hugging Face 2026-03-27

Xpertbench:基于评分标准的专家级任务评估

这篇论文提出了XpertBench,一个用于评估大型语言模型在复杂、开放性任务中专家级认知能力的基准。它通过精心设计的任务和评分标准,结合专家评估,旨在解决现有评估框架的局限性,并揭示了当前AI系统在达到专家水平上的差距。

Hugging Face 2026-04-03

CoME-VL: Scaling Complementary Multi-Encoder Vision-Language Learning

这篇论文提出了CoME-VL,一种模块化的融合框架,用于视觉-语言模型(VLM)中融合对比训练的视觉编码器和自监督DINO编码器。该方法通过熵引导的多层聚合和正交约束投影来减少冗余,并通过RoPE增强的交叉注意力来对齐异构的标记网格,生成紧凑的融合视觉标记。实验表明,CoME-VL在多个视觉-语言基准测试中优于单编码器基线,特别是在RefCOCO检测任务上取得了最先进的性能。

Hugging Face 2026-04-03

工业代码世界思维模型:InCoder-32B

这篇论文提出了InCoder-32B-Thinking,一个工业代码世界模型,通过训练数据从ECoT合成框架生成推理线索,以解决工业软件开发中缺乏专家推理痕迹的问题。该模型通过学习代码对硬件行为的影响的因果动力学,实现了自我验证,并通过领域工具链验证推理线索的有效性。

Hugging Face 2026-03-28

LOME: Learning Human-Object Manipulation with Action-Conditioned Egocentric World Model

这篇论文提出了一种名为LOME的AI模型,该模型通过结合动作条件下的自回归世界模型来学习人类与物体交互。LOME能够根据输入图像、文本提示和每帧的人类动作(包括身体姿势和手势)生成逼真的视频,从而在物体操作中注入精确的动作指导,并在真实世界环境中展现出高准确性和泛化能力。

Hugging Face 2026-04-01

Signals: Trajectory Sampling and Triage for Agentic Interactions

这篇论文提出了一种基于信号的方法,用于对基于大型语言模型的智能体交互轨迹进行采样和分类。该方法通过计算实时交互的廉价信号,为轨迹分类提供结构化属性,从而提高信息性并降低成本。

Hugging Face 2026-03-30

通用手机识别实证配方

这篇论文提出了一种名为PhoneticXEUS的通用电话识别模型,通过在大型多语言数据集上训练,实现了在多语言和带口音的英语语音识别任务上的最先进性能。论文通过控制消融实验和跨100多种语言的评估,实证地建立了训练方法,并量化了SSL表示、数据规模和损失目标的影响。

Hugging Face 2026-04-01

供应链中断预测:前瞻学习助力

这篇论文提出了一种使用 foresight learning 来预测供应链中断的新框架,该框架训练大型语言模型(LLM)生成基于实际中断结果的校准概率预测。该方法在准确性、校准和精确度上显著优于包括GPT-5在内的基线模型,并展示了训练过程中概率推理的结构化和可靠性提升。

Hugging Face 2026-04-02

珊瑚:迈向自主多智能体进化与开放式发现

这篇论文提出了CORAL,一个用于开放性问题自主多智能体进化的框架。CORAL通过共享持久记忆、异步多智能体执行和基于心跳的干预,实现了智能体的探索、反思和协作。实验表明,CORAL在多个数学、算法和系统优化任务上取得了最先进的结果,显著提高了开放性问题发现的能力。

Hugging Face 2026-03-30

NielsRogge用Codex助力VidEoMT模型加入Transformers库

本文介绍了作者Niels Rogge如何利用编码智能体Codex将VidEoMT模型贡献到Hugging Face的Transformers库中,强调了自2025年12月以来编码智能体在代码编写能力上的显著提升,以及如何通过提供清晰的提示和利用文件系统等方法,有效指导智能体完成模型移植等任务。

Hugging Face 2025-01-30

AI达人揭秘:KV缓存加速Transformer推理

本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。

Hugging Face 2024-06-13

用户揭秘:abliteration技术解锁LLM无审查响应新境界

本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。

Hugging Face 2026-03-26

Cohere Labs发布20亿参数语音识别新模型,中文识别领先

Cohere Labs 发布了 cohere-transcribe-03-2026,这是一个拥有20亿参数的先进语音识别模型,在 Hugging Face 上以 Apache 2.0 许可证开源。该模型专为14种企业关键语言训练,包括中文普通话,实现了最先进的准确性,并具有高效率。它在英语识别方面在 Hugging Face Open ASR 排行榜上位居第一,在其他13种语言中也表现出色。

Hugging Face 2025-01-12

用户名揭秘:Transformer模型中张量维度处理技巧

这篇博客详细介绍了在Transformer模型中处理张量维度的重要性,包括矩阵乘法、嵌入层、位置编码、解码器层和注意力机制等关键概念,旨在帮助读者更好地理解Transformer架构。

Hugging Face 2024-10-29

Python实战:用户亲授RAG系统构建教程

本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。

Hugging Face 2026-04-02

ArmBench-LLM 1.0: Benchmarking LLMs on Armenian Language Tasks

Metric AI Lab发布了ArmBench-LLM 1.0,这是一个全面评估大型语言模型在亚美尼亚语任务上表现的基准测试。该版本扩展了评估范围,包括多种任务和模型,并发布了API支出报告,强调了开源模型在亚美尼亚语任务上的竞争力。

Hugging Face 2025-02-11

PyTorch+Hugging Face助你微调LLM,轻松实现尤达语翻译

本文详细介绍了如何使用PyTorch和Hugging Face工具微调大型语言模型(LLM),以将英文翻译成尤达语(Yoda-speak)。通过量化模型、设置低秩适配器(LoRA)、格式化数据集以及使用Hugging Face的`trl`库中的`SFTTrainer`进行监督式微调,展示了整个过程。LoRA技术允许在量化模型上进行高效训练,显著减少了可训练参数的数量,使其仅占原始大小的1%或更少,从而能在资源有限的消费级GPU上进行训练。

Hugging Face 2025-08-09

AI进化揭秘:GRPO到GSPO强化学习新突破

本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。

Hugging Face 2025-09-30

AI技术分析师揭秘:SO-101助力ACT模型训练全攻略

这篇公告详细记录了一位AI技术分析师在训练Action Chunking Transformer (ACT)模型上的经历,包括遇到的挑战、解决方案和经验教训。文章描述了如何使用SO-101机器人进行数据收集和训练,以及如何通过改进硬件设置、数据收集流程和评估流程来提高模型的性能。

Hugging Face 2026-03-16

NVIDIA发布医疗机器人AI数据集与模型 助力精准手术

NVIDIA 发布了首个医疗机器人开放数据集 Open-H-Embodiment,包含 778 小时训练数据,旨在推动医疗机器人领域物理人工智能的发展。同时推出了两个开源模型 GR00T-H 和 Cosmos-H-Surgical-Simulator,用于手术机器人任务和动作条件式手术机器人模拟,以实现更精确和高效的手术操作。

Hugging Face 2026-04-04

From doctest to runnable Markdown

Hugging Face在其官方博客上发布了一篇关于将doctest转换为可运行的Markdown文档的公告。该公告介绍了doc-builder项目的新功能,该功能允许Markdown文档中的代码块可执行,从而提高文档的准确性和可靠性。

Hugging Face 2025-02-05

AI日报:G2P技术助力语音模型瘦身增效

这篇公告讨论了G2P(Graphemes to Phonemes)在语音模型中的应用,提出通过G2P预处理可以压缩语音模型,减少模型和数据的规模,从而提高效率。文章还探讨了不同类型的G2P解决方案,包括基于查找表、规则和神经网络的方案,并强调了G2P在语音模型中的重要性。

OpenAI 2026-04-06

开放AI安全奖学金计划发布

OpenAI 宣布推出 OpenAI 安全研究员计划,这是一个旨在支持AI安全与对齐研究的试点项目,旨在培养下一代人才,并重点关注安全评估、伦理、鲁棒性等重要领域。项目将于2026年9月14日至2027年2月5日运行,并提供了每月津贴、计算资源支持和持续的指导。

arXiv cs.AI 2026-04-06

文化遗产叙事的RAG架构:能力问题作为可执行计划

这篇论文提出了一种基于知识图谱的神经符号架构,用于文化遗产故事讲述。该架构通过将能力问题(CQs)转换为运行时叙事计划,解决了大型语言模型在文化遗产应用中事实准确性不足的问题。论文通过Live Aid知识图谱验证了三种不同的检索增强生成(RAG)策略,并揭示了在符号检索的事实精确性、混合方法的上下文丰富性和基于图遍历的叙事一致性之间的权衡。

arXiv cs.AI 2026-04-06

InfoSeeker:可扩展分层并行信息搜索代理框架

这篇论文提出了一种名为InfoSeeker的 scalable hierarchical parallel agent framework,用于解决大规模网络信息搜索中的挑战。该框架通过分层结构,包括Host、Managers和Workers,实现严格的上下文隔离和并行处理,从而提高搜索效率和准确性。

arXiv cs.LG 2026-04-06

后训练去中心化系统潜入攻击

这篇论文研究了针对去中心化后训练的大型语言模型的后门攻击。它提出了针对管道并行化的第一个后门攻击,通过控制管道的中间阶段来误导训练模型,即使是在后训练阶段也能成功注入后门并导致模型错位。

arXiv cs.LG 2026-04-06

AutoVerifier:基于大语言模型的智能自动化验证框架

这篇论文提出了AutoVerifier,一个基于大型语言模型(LLM)的自动化验证框架,用于验证技术性断言。该框架通过将技术断言分解为结构化的三元组,并构建知识图谱,实现了对技术断言的端到端验证,无需领域专业知识。AutoVerifier在量子计算断言验证中表现出色,能够自动识别过度断言和度量不一致,并揭示潜在的冲突利益。

arXiv cs.AI 2026-04-06

GrandCode:通过代理强化学习实现编程竞赛大师级水平

这篇论文介绍了GrandCode,一个专为编程竞赛设计的多智能体强化学习系统。GrandCode通过联合优化各种代理模块(如假设提出、求解器、测试生成器、总结等)并在训练后和在线测试时进行强化学习,实现了在编程竞赛中击败所有人类参赛者的能力。

arXiv cs.LG 2026-04-06

WSVD:高效低精度视觉语言模型快速执行加权低秩近似

这篇论文提出了一种名为WSVD(加权SVD)的新方法,通过在更细粒度上应用SVD和自适应分配权重,以降低低精度视觉语言模型(VLM)的计算负担,从而实现快速和高效的执行,同时保持准确性。

arXiv cs.AI 2026-04-06

Agentic-MME:赋能多模态智能的真正能力

这篇论文提出了Agentic-MME,一个用于评估多模态智能体能力的基准,通过真实世界任务和细粒度中间状态审计,解决了现有多模态大语言模型评估中工具整合、正确性和效率验证不足的问题。