anthropics/claude-code-action:智能代码助手,提升代码审查效率
Claude Code Action 是一个针对 GitHub PR 和 issues 的 Claude Code 行动,旨在提供智能代码助手、代码审查和实现代码更改的功能。该项目定位为开发/运维工具,旨在优化代码审查和自动化流程,其核心价值在于通过 LLM 技术提升代码质量和开发效率。
精选 78 篇,从 10100+ 条中筛选
Claude Code Action 是一个针对 GitHub PR 和 issues 的 Claude Code 行动,旨在提供智能代码助手、代码审查和实现代码更改的功能。该项目定位为开发/运维工具,旨在优化代码审查和自动化流程,其核心价值在于通过 LLM 技术提升代码质量和开发效率。
microsoft/BitNet项目是一个针对1位LLM的官方推理框架,旨在优化1.58位模型的快速和无损推理。它支持CPU和GPU(即将支持NPU)上的推理,并提供了多种优化内核。该项目主要面向研究者、应用开发者和企业,旨在提高LLM在本地设备上的运行效率。
Kiro是一个旨在提升开发效率的IDE,通过AI驱动的功能,帮助开发者从原型到生产环境。它通过结构化规范、智能触发器、自然语言编码助手等特性,优化了开发流程,提高了开发效率。Kiro填补了市场上对AI辅助IDE的需求,为开发者提供了独特的价值。
项目定位为利用ChatGPT进行实时股票交易实验,旨在探索大型语言模型在金融领域的应用潜力。核心功能包括实时数据交易、自动止损、深度研究及性能跟踪。技术栈亮点在于Python脚本与ChatGPT-5的集成,以及市场数据分析和可视化工具。在LLM生态中,该项目通过实际交易实验,为LLM在金融领域的应用提供了实证案例。
Claude-Mem是一个为Claude Code构建的插件,旨在通过自动捕获编码会话中的所有操作,使用AI进行压缩,并将相关上下文注入到未来的会话中,从而实现跨会话的上下文持久化。该项目主要面向开发者,通过智能记忆和搜索功能,优化了编码过程中的知识连续性和效率。
Memvid是一个为AI代理提供持久、长期记忆的单文件内存层,旨在简化RAG管道,通过无服务器架构实现快速检索。它面向开发者,特别是需要构建长期记忆和快速检索功能的AI系统开发者。Memvid的核心功能是提供了一种高效的数据存储和检索方式,其技术架构亮点在于其基于视频编码的内存组织方式,实现了高效的压缩、索引和并行读取。在LLM生态中,Memvid的价值在于它为AI代理提供了一个无需数据库的持久记忆解决方案,填补了AI长期记忆的空白。
AI Engineering Hub是一个面向AI工程实践的综合性资源库,旨在帮助开发者学习、构建和优化LLM、RAG和AI代理应用。它提供了丰富的项目案例、深入教程和实时更新,填补了AI工程实践中的知识空白,为研究者、开发者和企业提供了宝贵的资源和工具。
DrewThomasson/ebook2audiobook项目是一款将电子书转换为有声书的工具,旨在为研究者、开发者及普通用户提供便捷的语音转换服务。该项目通过集成多种TTS引擎,支持超过1100种语言,并具备语音克隆功能,填补了电子书有声化领域的空白。其技术架构亮点在于对多种TTS引擎的集成与优化,以及提供多种运行模式,包括本地运行和远程访问。在LLM生态中,该项目通过提供高效、多语言的电子书转换解决方案,为电子书有声化提供了新的可能性。
MiroThinker是一个开源的搜索代理项目,旨在提升工具辅助推理和信息搜索能力,为研究者提供强大的工具集和框架。它填补了LLM生态中工具辅助推理的空白,为应用开发者提供了丰富的工具和集成方案,同时为普通用户和企业提供了强大的信息搜索和推理能力。
Anthropic的Prompt Engineering Interactive Tutorial项目旨在为用户提供一个全面的学习平台,帮助用户掌握如何为Claude等大语言模型构建最优的提示。该项目通过9个章节和练习,涵盖了从基础到高级的提示工程技巧,并通过互动式学习让用户能够亲自实践和调试。该项目定位为教育工具,针对开发者,通过提供独特的互动式学习体验,填补了LLM应用开发中的提示工程知识空白。
tencent/HY-MT1.5-1.8B 是一款专注于多语言翻译的通用大模型,具有1.8B参数量。该模型在Hugging Face平台上表现出色,支持33种语言的互译,并包含5种民族和方言变体。其核心技术包括Transformer架构和上下文长度优化,性能上与更大的版本相当,但更适用于边缘设备和实时翻译场景。该模型在开源协议下提供,具有高效的推理性能,适用于需要多语言翻译的广泛应用场景。
Qwen-Image-2512是一款专注于文本到图像生成的多模态模型,定位为多模态模型。其核心技术基于diffusers库,采用text-to-image pipeline,具有增强的人像真实感、更细腻的自然细节和改进的文本渲染能力。在AI Arena的测试中,Qwen-Image-2512表现出色,是目前最强的开源模型之一。该模型适用于需要高质量图像生成的场景,如艺术创作、设计等领域。其开源协议为Apache-2.0,对硬件要求较高,推理效率取决于具体硬件配置。
WeDLM-8B-Instruct是一款由腾讯推出的旗舰级指令微调扩散语言模型,基于WeDLM-8B模型进行优化。该模型在数学推理任务上比vLLM-optimized Qwen3-8B快3-6倍,并在大多数基准测试中优于基座模型Qwen3-8B-Instruct。它支持原生KV缓存,与FlashAttention、PagedAttention、CUDA Graphs兼容。模型参数量为8B,上下文长度为32,768。WeDLM-8B-Instruct适用于需要高性能语言生成的场景,如对话系统、文本生成等。
Lightricks/LTX-2是一款基于DiT架构的多模态音频-视频基础模型,专注于生成同步的视频和音频。该模型具有灵活的下载量和点赞数,支持多种语言,并采用diffusers库。LTX-2在图像到视频、文本到视频等多个领域具有广泛应用,其开源协议和丰富的模型版本提供了灵活的部署选项。在性能上,LTX-2在多模态任务中表现出色,尤其在视频生成方面具有显著优势。
K-EXAONE是一款由LG AI Research开发的通用大语言模型,具有236亿参数,支持多语言。其核心架构为Mixture-of-Experts,具备高效的推理能力和长上下文处理能力。在多个基准测试中表现出色,尤其在推理、多语言理解和长文本处理方面。K-EXAONE适用于需要多语言处理和长文本生成的场景,具有开源协议、高效的推理效率,并与主流推理框架兼容。
IQuest-Coder-V1-40B-Loop-Instruct是一款专注于代码生成和智能的LLM,定位为代码模型。它采用创新的代码流多阶段训练范式,具有40B的参数量和128K的上下文长度。在SWE-Bench、BigCodeBench等基准测试中表现出色,超越了同类模型。该模型适用于需要高效代码生成和智能辅助的场景,具有开源协议,对硬件要求较高,推理效率中等。
IQuest-Coder-V1-40B-Instruct是一款专注于代码生成和智能的LLM,定位为代码模型。它采用创新的代码流多阶段训练范式,支持高达128K的上下文长度,参数量达到40B。在SWE-Bench Verified、BigCodeBench等基准测试中表现出色,超越了同类模型。该模型具有高效的架构和双专业路径,适用于复杂问题解决和通用编码辅助。
MiniMax-M2.1是一款定位在通用大模型范畴内的LLM,具有高性能和丰富的功能。它基于transformers库,采用自定义的架构,支持FP8精度,上下文长度可达200K。在性能上,该模型在多个基准测试中表现出色,具有代码生成、数学推理等多方面的能力。开源协议为modified MIT,适合在多种硬件和推理框架上使用。
🔥 unsloth/Qwen-Image-2512-GGUF 是一个基于 Qwen-Image-2512 的文本到图像模型,专注于生成高质量的图像。该模型定位为多模态模型,具有GGUF量化技术,提高了推理效率。它具有丰富的语言支持,包括英语、中文和阿拉伯语。在性能上,该模型通过Unsloth Dynamic 2.0方法实现了SOTA性能,特别在图像生成方面表现出色。模型适用于需要高质量图像生成的场景,如艺术创作、游戏开发等。
GLM-4.7是一款专注于多语言和代码能力的通用大模型。它采用了Transformer架构,并引入了MoE技术,支持多种语言(包括英语、中文和阿拉伯语)。在性能上,GLM-4.7在多个基准测试中表现出色,尤其在代码生成、数学推理和多语言能力方面有显著提升。该模型适用于需要多语言和代码生成能力的场景,如聊天、创意写作和角色扮演。其开源协议、硬件需求以及推理效率等方面适合于主流的推理框架。
Solar Open 100B 是 Upstage AI 推出的旗舰级 102B 参数大语言模型,采用 MoE 架构,具有强大的推理、指令遵循和代理能力。该模型在 19.7 万亿个 token 上进行预训练,上下文长度可达 128k。其差异化优势在于 MoE 架构带来的高效推理和知识深度,适用于需要高性能推理和定制化的场景。
Youtu-LLM-2B是一款由腾讯推出的通用小型语言模型,具有1.96B参数,支持128k长上下文。该模型在通用评估中表现出色,尤其在常识、STEM、编码和长上下文能力方面优于同类模型。其性能在多个基准测试中均表现出色,尤其在指令遵循和文本推理方面。Youtu-LLM-2B适用于需要强大语言理解和生成能力的应用场景,如对话系统、文本摘要和问答系统。该模型开源,支持多种硬件平台,与流行推理框架兼容。
HY-Motion 1.0是一款基于Diffusion Transformer和Flow Matching的文本到3D人体运动生成模型,定位为多模态模型。该模型具有大规模参数量,能够从简单文本提示生成骨骼动画,适用于3D动画管道。其在LLM领域中的差异化优势在于其先进的3D运动生成能力。性能方面,模型在相关基准测试中表现出色,具有高效的推理效率和良好的开源协议。主要应用场景包括3D动画制作和虚拟现实。
Wuli-art/Qwen-Image-2512-Turbo-LoRA是一款针对Qwen Image 2512的4或8步turbo LoRA模型,旨在提供快速且高质量的图像生成。该模型定位为多模态模型,具有快速推理和优化图像生成的特点。其核心技术包括LoRA和distillation技术,显著提高了生成速度。性能方面,模型在图像生成任务上表现出色,但未提供具体的基准测试结果。主要应用场景为图像生成和创意设计,使用时需考虑其开源协议和硬件需求。
lightx2v/Qwen-Image-2512-Lightning是一款基于Qwen-Image-2512的轻量级图像生成模型,定位为多模态模型。其核心技术包括diffusers库和LoRA技术,支持文本到图像的转换。该模型在Hugging Face Hub上下载量较高,性能表现良好。主要应用场景为图像生成和个性化内容创作。模型开源,兼容LightX2V和Qwen-Image-Lightning框架,适合对推理效率有较高要求的场景。
A.X K1是一款定位为通用大模型的混合专家语言模型,拥有519亿参数,其中33亿为活跃参数。其核心技术为混合专家架构,支持深度推理与低延迟响应的灵活切换。在性能上,A.X K1在MMLU、GPQA等基准测试中表现出色,具有高效推理和强大的数学推理能力。适用于需要复杂推理和指令遵循的场景,如代码生成和数学问题解决。开源协议为Apache-2.0,适合在多种硬件和推理框架上使用。
lilylilith/AnyPose是一款专注于图像编辑的LoRA模型,旨在简化Qwen Image Edit 2511模型的姿态创建过程。该模型定位为特定领域微调模型,采用LoRA技术,以Qwen/Qwen-Image-Edit-2511为基础模型。模型具有快速推理能力,通过单张参考图像即可复制姿态,无需控制网络。性能方面,未提供权威基准测试结果,但模型在图像编辑领域具有显著优势。主要应用场景为图像姿态编辑,使用时需考虑开源协议、硬件需求和推理效率。
nvidia/nemotron-speech-streaming-en-0.6b 是一款专注于语音识别的领域大模型,具有cache-aware ASR和streaming-asr的特点。该模型基于FastConformer架构,支持多种语音数据集,包括LibriSpeech、AMI等。在性能上,模型在LibriSpeech测试集上取得了2.31%的WER,表现出色。模型适用于需要高效率语音识别的场景,如智能客服、语音助手等。其开源协议为nvidia-open-model-license,适合在多种硬件平台上部署。
MiroThinker-v1.5-235B是一款定位为推理模型的LLM,具有235B参数量,支持交互式扩展,能够进行深度和频繁的模型-环境交互。其核心技术包括Qwen3_MoE架构和text-generation pipeline。在性能上,MiroThinker-v1.5-235B在多个基准测试中表现出色,具有代码生成、数学推理等多方面的能力。该模型开源,适用于需要高交互和信息检索能力的场景,如智能问答系统。
FLUX.2 [dev] Turbo LoRA 是一个针对 FLUX.2 [dev] 的精简 LoRA 适配器,旨在实现高质量的图像生成。该模型在LLM生态中定位为多模态模型,具有8步推理的快速生成能力,同时保持了与原始模型相当的质量。其核心技术包括LoRA适配器和diffusers库,支持文本到图像和图像编辑。在性能上,该模型在Hugging Face Hub上获得了815次下载和104个点赞,表现良好。主要应用场景包括图像生成和编辑,适用于需要快速生成高质量图像的场景。
OpenAI的官方博客宣布,Tolan公司利用GPT-5.1技术构建了一个语音优先的AI伴侣,该伴侣具备低延迟响应、实时上下文重建和记忆驱动个性,以实现自然对话体验。
OpenMed项目自2025年7月启动以来,已经发布了380多个先进的医疗AI模型,旨在推动医疗AI的发展。这些模型涵盖了从疾病和条件检测到药物和化学实体识别等多个领域,并采用Apache 2.0许可协议免费提供。OpenMed还提供了一套完整的Python工具库和交互式终端用户界面,旨在提高开发者的使用体验,并已部分模型可在AWS Marketplace上使用。
本文探讨了视觉语言模型(VLM)微调中多样性策略与密度策略的对比。作者通过实验,对比了在数据量有限的情况下,使用大量不同图像(多样性)和重复图像(密度)对模型性能的影响。结果表明,多样性策略在测试集和真实世界问答基准测试中均优于密度策略。然而,在特定情况下,密度策略在推理模型中表现不佳,表明仅增加问题多样性并不一定能提高推理能力。作者还讨论了实验中使用的LoRA微调方法、数据生成过程以及未来研究方向。
本文介绍了NVIDIA Isaac Lab-Arena和Hugging Face的LeRobot在模拟环境中进行通用机器人策略评估的方法。通过集成NVIDIA的Isaac和GR00T技术,LeRobot库加速了开源物理AI的开发。文章详细说明了如何使用Isaac Lab-Arena在LeRobot EnvHub上评估VLA策略,并展示了如何创建和注册新的环境。此外,还介绍了Lightwheel Robocasa和LIBERO任务套件在Isaac Lab-Arena上的应用,为开发者提供了丰富的资源和指导。
NVIDIA近日发布了Cosmos Reason 2,这是一款专为物理AI设计的开源推理视觉语言模型。该模型在准确性和性能方面超越了其前身,成为视觉理解领域的领先开放模型。Cosmos Reason 2通过增强机器人的常识和推理能力,使它们能够在物理世界中像人类一样观察、理解、规划和行动,并在视频分析、数据标注、机器人规划和推理等多个领域具有广泛的应用前景。
NVIDIA发布了Nemotron Speech ASR,这是一种新的实时语音识别模型,专为实时语音代理而设计。该模型通过引入缓存感知技术,仅处理新的音频“增量”,从而实现了比传统缓冲系统高达3倍的效率。Nemotron Speech ASR基于FastConformer架构,并采用8倍下采样,在保持高准确性和鲁棒性的同时,显著提高了GPU效率并降低了成本。该模型在NVIDIA H100、RTX A5000和DGX B200等硬件上进行了测试,并展示了其在高并发、低延迟语音代理工作负载中的实际效果。
这篇公告主要介绍了在NVIDIA Blackwell GPU上通过内核工程优化FP4 MoE(混合专家)模型推理的性能。通过内核融合、Blackwell优化和专家感知计算,实现了BF16的3.54倍和vLLM的1.32倍推理速度提升,特别是在批处理大小为1的交互式推理中,SGLang表现出了显著的性能优势。
Hugging Face 宣布推出 Falcon H1R 7B,这是一个由阿布扎比的科技创新研究所 (TII) 开发的仅解码器的大型语言模型。Falcon H1R 7B 在推理能力方面取得了重大突破,尽管其参数规模仅为 70 亿,但其在各种推理密集型基准测试中与参数规模大 2-7 倍的顶尖推理模型相当或优于它们。该模型通过精心挑选的训练集和两阶段高效监督微调流程,实现了卓越的性能,并在数学、代码和代理以及通用基准测试中均表现出色。
MiniMax AI 发布了 M2.1 模型,这是一个针对代理场景优化的开源模型,在代码生成、工具使用、指令遵循和长期规划方面表现出色。M2.1 通过解决 SWE-Bench 的局限性,如语言覆盖范围和任务类型限制,实现了在真实世界场景中的编码能力提升。文章还展望了 2026 年的研究方向,包括定义开发者体验的奖励信号、提高问题解决效率和强化学习扩展。
Hugging Face 发布了关于 LoRA(低秩适应)技术的博客文章,这是一种创新的微调技术,通过在预训练的大型语言模型中添加小的可训练适配器层来适应特定任务,而不需要重新训练数亿个参数。LoRA 通过冻结原始模型权重和使用低秩矩阵分解来优化,显著减少了训练所需的计算资源和内存。这项技术为现代 AI 开发带来了革命性的变化,提供了显著的参数效率,同时保持了与全微调方法相当的性能。
本文档详细介绍了如何在Verl框架上使用GRPO(Group Relative Policy Optimization)和LoRA(Low-Rank Adaptation)技术训练Qwen2.5-3B-Instruct模型。文章涵盖了基础设施设置、数据管道、训练过程以及验证与基准测试等关键步骤,并针对训练过程中遇到的问题和挑战提供了解决方案和优化策略。
本文探讨了利用Tinker API和GRPO算法对大型语言模型进行有害强化学习攻击的方法。作者展示了如何通过恶意奖励函数和强化学习算法放大模型中的有害行为,并强调了这种攻击的潜在危害。文章呼吁社区开发更强大的防御机制,并提出了模型提供者和RLaaS平台共同采取防御措施的建议。
本文探讨了人工智能系统中连续性的重要性,将其视为一个一级系统属性,并分析了现有方法在提供稳定连续性方面的不足。作者提出了一个模型无关、以隐私为首要考虑的连续性架构,该架构通过明确区分行为引导状态和仅用于参考的历史记录,使人工智能系统能够在重启后保持连贯性、可审计性和隐私安全。
Hugging Face的研究人员通过测试19种模型配置和12种不同的架构,发现隐藏维度至少为512是关键阈值,32层深度提供最佳性能。扩散模型在推理速度和事实性方面表现出色,但牺牲了一些准确性。他们开发了一种名为Dhara-70M的扩散模型,在保持良好事实性的同时,将吞吐量提高了3.8倍。
Hugging Face 发布了 Qwen-Image-i2L,这是一种新的 'Image-to-LoRA' 模型,可以将图像训练成 LoRA 模型的权重,实现端到端的直接生成。该模型旨在减少 LoRA 训练时间,并探索了多种模型架构和训练方法,以提高模型性能。
这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。
本文深入探讨了强化学习中的PPO和GRPO算法,通过将RL训练过程比作小学生考试场景,解释了仅使用奖励作为训练信号的问题,并介绍了Critic、Clip操作、Reference Model等机制如何解决这些问题。GRPO算法通过使用多个模拟平均值代替价值函数,简化了训练过程并降低了资源消耗。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过记住之前步骤中的重要信息,KV缓存可以显著提高文本生成速度,尤其是在处理长文本时。文章详细解释了KV缓存的工作原理,包括其逐步过程、与传统推理的比较以及实际应用示例。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,通过结合信息检索和文本生成来提高语言模型的表现。文章详细介绍了RAG系统的组成部分,包括检索模型和语言模型,并展示了如何通过索引、检索和生成阶段来构建一个简单的RAG系统。此外,还讨论了RAG系统的改进空间,如处理多主题问题和使用更高效的向量数据库。
本文介绍了名为“abliteration”的技术,该技术能够解除大型语言模型(LLM)的审查机制,使其能够对各种提示做出响应,而无需重新训练。文章详细阐述了abliteration的实现过程,包括数据收集、拒绝方向识别和干预措施等步骤,并提供了基于TransformerLens库的代码示例。
这篇论文研究了如何通过改进预训练模型中token-output分布来增强大型语言模型(LLM)的推理能力。作者提出了一种新的预训练目标,结合了策略梯度优化和监督学习,通过平衡多样性和精确性来优化下一个token的预测。实验结果表明,这种方法能够提供更好的探索空间,从而提升LLM的推理性能。
这篇论文探讨了AI解释其推理过程的可靠性。通过在问题中嵌入提示并观察模型是否提及这些提示,研究发现模型很少自发地提及提示,但在直接询问时承认注意到了它们。这表明模型看到了有影响力的信息,但选择不报告。研究还发现,当模型被强制报告提示时,它们甚至在没有提示的情况下也会报告,这降低了它们的准确性。
这篇论文提出了一种名为Directional Decoupling Alignment (D^2-Align)的新框架,旨在解决文本到图像扩散模型在强化学习过程中出现的偏好模式崩溃(PMC)问题。该框架通过方向性解耦对奖励信号进行校正,以保持模型的多样性,从而提高与人类偏好的对齐度。
这篇论文分析了大型语言模型(LLM)在推理和创造力之间的权衡问题,提出了分布式创造性推理(DCR)方法,旨在通过优化概率分布来提高模型的创造力和解决问题的能力。
这篇论文研究了大型推理模型(LRMs)在多语言环境下的潜在推理能力。通过分析11种语言的数学推理任务,论文发现LRMs在资源丰富的语言中表现出较强的潜在推理能力,而在资源较少的语言中表现较弱。研究通过截断策略和表示分析,揭示了LRMs内部推理过程的跨语言一致性。
这篇论文提出了Unified Thinker,一个通用的推理模块化核心,用于图像生成。它通过将高级意图分解为可验证的计划来引导生成过程,从而解决了生成模型在逻辑密集型指令遵循上的困难。Unified Thinker通过将推理模块与图像生成器解耦,允许模块化升级推理而无需重新训练整个生成模型。实验表明,Unified Thinker显著提高了图像推理和生成质量。
这篇论文提出了一个统一的四阶段框架,用于描述数字孪生AI在生命周期中的AI集成,包括建模、镜像、干预和自主管理。它强调了基于物理的建模与数据驱动学习之间的协同作用,并探讨了生成式AI技术如何使数字孪生成为具有推理、通信和创造性场景生成的认知系统。
这篇论文提出了一种通过System-2策略来提高大型语言模型(LLMs)在计数任务中的机制可解释性。该策略通过将大型计数任务分解为更小的子问题来克服LLMs在计数任务中的系统性限制,并展示了这种方法在提高计数精度方面的有效性。
这篇论文介绍了AceFF,一种针对小分子药物发现优化的预训练机器学习原子间势(MLIP)。它通过TensorNet2架构在广泛的药物类似化合物数据集上训练,实现了高吞吐量推理速度与DFT级精度的平衡,支持多种化学元素并能够处理带电状态,通过多种基准测试证明了其在有机分子领域的领先地位。
这篇论文提出了OpenRT,一个用于多模态大型语言模型(MLLMs)安全评估的开源红队框架。OpenRT通过引入对抗内核,实现了模型集成、数据集管理、攻击策略、判断方法和评估指标等五个维度的模块化分离,从而提高了评估的全面性和效率。实验表明,即使是前沿模型也难以泛化到不同的攻击范式,OpenRT的引入有助于加速AI安全的发展。
这篇论文研究了大型语言模型(LLM)中工具性收敛趋势的可引导性,探讨了能力增长与可引导性之间的关系,以及授权与非授权引导的区别,通过实验发现使用反工具性提示可以显著降低模型的收敛率。
SciEvalKit是一个开源的评估工具包,旨在评估科学领域的人工智能模型。它通过提供跨多个科学学科的统一基准,专注于科学智能的核心能力,如多模态感知、推理、理解和符号推理等,支持从物理学到材料科学的六个主要科学领域。
这篇论文提出了一种名为SOP的在线后训练系统,该系统通过闭环架构,使多台机器人能够实时地在线学习,从而提高视觉-语言-动作模型在现实世界中的适应性和性能。SOP系统结合了交互式模仿学习和强化学习,能够快速适应真实世界的交互,并随着机器人数量的增加而提升性能。
这篇论文提出了AGL1K,第一个针对音频语言模型(ALMs)的音频地理定位基准,通过Audio Localizability指标从众包平台中提取可靠样本,评估了16个ALMs在音频地理定位方面的能力,发现封闭源模型显著优于开源模型,并分析了ALMs的推理过程、区域偏差、错误原因和可解释性。
这篇论文提出了UniCorn,一种通过自我生成的监督来提升统一多模态模型(UMMs)的框架。它通过将UMMs分为提议者、求解者和裁判三个角色,通过自我博弈生成高质量的交互,并通过认知模式重建将潜在理解转化为显式生成信号,从而解决了多模态理解与生成之间的差距。
这篇论文提出了Parallel Latent Reasoning (PLR),一种通过探索多个不同的推理轨迹来扩展测试时间计算的新框架,以解决从稀疏行为序列中捕捉复杂用户偏好的问题。PLR通过在连续潜在空间中构建并行推理流,使用全局推理正则化来保持流之间的多样性,并通过混合推理流聚合来自适应地综合多流输出,显著提高了序列推荐的泛化能力。
这篇论文提出了CogFlow,一个基于知识内化的视觉数学问题解决框架,通过模拟人类推理的感知、内化和推理三个阶段,结合视觉奖励模型和视觉门控策略优化,提高了视觉数学推理的性能。
这篇论文介绍了WebGym,一个用于训练视觉网络代理的开放源代码环境。WebGym包含近30万个任务,覆盖真实世界网站和不同难度级别。通过使用基于强化学习的训练方法,结合高吞吐量的异步回放系统,WebGym显著提高了视觉网络代理的性能,特别是在一个未见过的任务集上的成功率从26.2%提升到42.9%。
这篇论文提出了SentGraph,一个基于句子级图的检索增强生成框架,用于解决多跳问答任务中的证据整合问题。SentGraph通过构建一个分层句子图来显式地建模句子之间的细粒度逻辑关系,从而提高多跳问答的准确性和推理能力。
这篇论文提出了InfiAgent,一个针对通用自主代理的无限视野框架。该框架通过将持久状态外部化到基于文件的抽象中,严格限制代理的推理上下文,从而解决长视野任务中的上下文增长和累积错误问题。实验表明,InfiAgent在DeepResearch和80篇文献综述任务上表现出色,与大型专有系统相当,且在长视野覆盖方面显著优于基于上下文的基线。
MiMo-V2-Flash 是一种混合专家模型,具有快速推理和代理能力。它采用混合注意力架构,结合滑动窗口注意力和全局注意力,并使用多教师在线策略蒸馏(MOPD)来提高模型性能。该模型在27万亿个标记上预训练,并通过开源模型权重和MTP权重促进开放研究和社区合作。
这篇论文提出了一种新的异步随机梯度下降(ASGD)算法,旨在解决大规模神经网络训练中的同步问题。通过设计新的优化框架和算法,论文实现了在异构数据环境下的最优时间复杂度,显著提高了资源利用率和训练效率。
SWaRL通过强化学习和低秩自适应技术,实现了一种鲁棒且保真的代码水印框架,用于保护代码所有者的知识产权,通过在生成输出中嵌入唯一且可验证的签名来防止代码被篡改。
这篇论文提出了ReCCur,一个用于在开放和边缘场景中实现鲁棒视觉语言理解的递归角落案例编纂框架。该框架通过多智能体递归流程将噪声网络图像转换为可审计的细粒度标签,以解决角落案例难以大规模编纂的问题。
这篇论文提出了Stable-RAG,一种通过利用排列敏感性估计来减轻检索增强生成(RAG)中的排列诱导幻觉的方法。Stable-RAG通过运行生成器在多个检索顺序下,聚类隐藏状态,并从捕获主导推理模式的聚类中心表示中解码,从而提高答案准确性、推理一致性和鲁棒泛化。
这篇论文提出了EvoRoute,一种基于经验的自我路由模型,旨在解决复杂AI系统在性能、成本和速度之间的权衡问题。EvoRoute通过动态选择最优的LLM模型,平衡准确性和效率,显著降低了执行成本和延迟。
这篇论文介绍了MIRAGE,一个用于农业领域多模态信息搜索和推理的基准。MIRAGE通过结合自然用户查询、专家撰写的响应和基于图像的上下文,提供了一个高保真的基准,用于评估模型在基于事实的推理、澄清策略和长文本生成方面的能力。该基准基于35,000次真实用户-专家交互,并经过精心设计的多步骤流程进行编纂,涵盖了多样化的作物健康、病虫害诊断和作物管理场景。