每日洞察

精选 69 篇,从 750+ 条中筛选

AI深度解读

内容由AI生成,仅供参考
Hugging Face 2026-04-14

tencent/HY-Embodied-0.5:MoT架构多模态模型,VLA管道强感知

tencent/HY-Embodied-0.5是一款针对真实世界智能体设计的多模态基础模型,定位为多模态模型。其核心技术为Mixture-of-Transformers (MoT)架构,具有高效的2B模型和强大的32B模型。在16个基准测试中,2B模型表现优于同类模型,32B模型则达到前沿水平。该模型适用于视觉语言行动(VLA)管道,具有强大的空间时间视觉感知和复杂具身推理能力。

Hugging Face 2026-04-10

google/gemma-4-31B-it:31B参数多模态大模型

Gemma-4-31B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备高达 31B 的参数量和 256K 的上下文长度,支持文本、图像等多种输入和文本输出。其核心技术包括 Dense 和 MoE 架构,并针对移动设备进行了优化。在性能上,Gemma-4-31B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上具有显著优势。模型开源协议为 Apache 2.0,适用于从手机到服务器的多种部署环境。

Hugging Face 2026-04-16

zai-org/GLM-5.1:通用大模型,多语言处理强

GLM-5.1是一款定位在通用大模型领域的旗舰模型,具备强大的编码能力。其核心技术包括Transformer架构、MoE(多智能体)设计,支持多语言处理。在基准测试中,GLM-5.1在代码生成、数学推理等任务上表现出色。该模型适用于需要多语言支持和复杂任务处理的场景,具有开源协议、高效推理等实用特性。

Hugging Face 2026-04-16

openbmb/VoxCPM2:2B参数,多语言,上下文感知语音合成

VoxCPM2是一款基于扩散自回归的文本到语音模型,具有2B参数,支持30种语言,输出48kHz音频。该模型无需分词器,能够根据自然语言描述生成新声音,克隆任何声音,并具有上下文感知的合成能力。它在HuggingFace平台上具有较高的下载量和点赞数,支持实时流式传输,并采用Apache-2.0开源协议。VoxCPM2在LLM生态中定位为多模态模型,其核心技术为VLM(语音语言模型),主要应用场景包括语音合成、语音克隆和语音设计。

Hugging Face 2026-04-16

tencent/HY-World-2.0:3D世界重建多模态模型

tencent/HY-World-2.0是一款专注于3D世界重建、生成和模拟的多模态世界模型。该模型定位为多模态模型,具有独特的图像到3D的转换能力。其核心技术包括世界模型、3D建模和图像处理。在性能表现上,模型在相关基准测试中表现出色,具有高效的开源协议和良好的硬件兼容性。主要应用场景包括3D内容创作、虚拟现实和增强现实。

Hugging Face 2026-04-14

unslath/ERNIE-Image-Turbo-GGUF:ERNIE-Image-Turbo高效多模态生成

ERNIE-Image-Turbo-GGUF是一款基于ERNIE-Image-Turbo的文本到图像生成模型,定位为多模态模型。它采用GGUF量化技术,通过Unsloth Dynamic 2.0方法实现SOTA性能。模型具有高精度的重要层,并使用ComfyUI-GGUF工具。在性能上,ERNIE-Image-Turbo-GGUF在权威基准测试中表现出色,具有高效的推理速度和良好的内容生成能力。适用于需要快速、高保真图像生成的场景。

Hugging Face 2026-04-17

baidu/ERNIE-Image-Turbo:快速高保真文本图像生成

ERNIE-Image-Turbo是一款由百度开发的开放文本到图像生成模型,定位为多模态模型。它基于ERNIE-Image,采用单流Diffusion Transformer架构,具有快速生成和强保真度的特点。该模型在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,适用于海报、漫画等多媒体内容创作。性能上,ERNIE-Image-Turbo在8个推理步骤内提供高质量生成,适合对延迟敏感的应用。其开源协议为Apache-2.0,适合在多种硬件和推理框架上使用。

Hugging Face 2026-04-16

NucleusAI/Nucleus-Image:稀疏MoE高效生成图像

Nucleus-Image是一款基于稀疏混合专家(MoE)扩散变换器架构的文本到图像生成模型,定位为多模态模型。其核心技术包括稀疏MoE架构,参数量高达17B,但每个前向传递仅激活约2B参数,实现了高效能。在GenEval、DPG-Bench和OneIG-Bench等基准测试中,Nucleus-Image的性能与Qwen-Image、GPT Image 1等领先模型相当。该模型开源,支持多种输出尺寸,适用于图像生成等场景。

Hugging Face 2026-04-18

nvidia/Lyra-2.0:3D世界生成利器

Lyra-2.0是一款专注于生成持久、可探索的3D世界的框架,属于多模态模型。其核心技术包括长程视频合成和3D重建,具有强全局几何一致性。性能方面,Lyra-2.0在单图像3D场景生成领域达到新水平。模型定位为多模态模型,主要应用场景为3D世界生成和探索。其开源协议为NVIDIA内部科学研究与发展模型许可,硬件需求较高,推理效率依赖于具体应用。

Hugging Face 2026-04-19

OBLITERATUS/gemma-4-E4B-it-OBLITERATED:高 uncensored 文本生成,拒绝率近零

OBLITERATUS/gemma-4-E4B-it-OBLITERATED是一款专注于文本生成的通用大模型,基于Google的Gemma 4 E4B模型,通过OBLITERATUS技术进行强化。该模型具有极高的 uncensored 特性,拒绝率几乎为零,同时在代码生成能力上有所提升。模型在训练数据上进行了扩展,增加了多个类别,包括药物合成、黑客攻击、武器等。性能上,相较于原始模型,OBLITERATED v2在拒绝率上有了显著提升,同时在代码生成能力上有所增强。

Hugging Face 2026-04-20

unslath/Qwen3.6-35B-A3B-GGUF:图像文本转换强模

🔥 unsloth/Qwen3.6-35B-A3B-GGUF 是一款基于 Qwen3.6-35B-A3B 的开源模型,专注于图像到文本的转换。该模型定位为通用大模型,具有35B参数量和A3B架构,支持多模态输入。它在性能上表现出色,尤其在图像到文本转换任务中具有显著优势。模型采用Apache-2.0开源协议,适用于多种硬件平台,推理效率高,与vLLM等框架兼容。

Hugging Face 2026-04-17

HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive:开源多模态无审查文本生成

HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 是一款基于 Qwen3.6-35B-A3B 的开源多模态模型,专注于图像-文本到文本的转换。该模型具有无审查的特性,能够生成完整的内容,适用于需要无限制文本生成的场景。模型定位为多模态模型,具有强大的文本生成能力,特别适合于需要处理图像和文本信息的任务。技术特点包括基于Qwen3.6-35B-A3B的架构,无审查的生成能力,以及多语言支持。在性能上,模型在图像-文本到文本转换任务中表现出色,但未提供具体的基准测试结果。实用考量方面,模型开源,适用于多种硬件平台,但具体推理效率取决于硬件配置。

Hugging Face 2026-04-20

Jackrong/Qwopus-GLM-18B-Merged-GGUF:18B参数,多语言强代码生成

Jackrong/Qwopus-GLM-18B-Merged-GGUF 是一个基于 Qwen3.5-9B 和 Qwen3.5-9B-GLM5.1-Distill-v1 的 64 层 Frankenmerge 模型,参数量约为 18B。该模型在代码生成、数学推理和多语言能力方面表现出色,通过 1000 步 QLoRA fine-tune 解决了原始模型在代码输出上的问题。模型适用于需要高性能代码生成和推理的场景,具有开源协议 Apache-2.0,适合在 12-16 GB GPU 上运行。

Hugging Face 2026-04-15

Qwen/Qwen3.6-35B-A3B:35B参数代码生成利器

Qwen3.6-35B-A3B是一款专注于代码生成的LLM,具有35B参数和10倍MoE结构,支持长达1,010,000个token的上下文。其核心能力在于Agentic Coding和Thinking Preservation,通过优化前端工作流程和推理上下文,提升开发效率。在性能上,模型在代码生成任务中表现出色,具有较好的稳定性和实用性。开源协议为Apache-2.0,与Hugging Face Transformers兼容。

Hugging Face 2026-04-21

moonshotai/Kimi-K2.6:多模态模型,长周期编码强

Kimi K2.6是一款开源的多模态智能模型,专注于长周期编码、编码驱动设计、自主执行和基于群体的任务编排。该模型在复杂编码任务上表现出色,能够生成生产级界面和全栈工作流程。其核心技术包括压缩张量、多代理和图像-文本到文本的管道。在性能方面,K2.6在多个基准测试中表现出色,具有强大的代码生成和设计能力。适用于需要高效编码和设计的场景,如软件开发和界面设计。

Hugging Face 2026-04-17

baidu/ERNIE-Image:文本驱动图像生成,多模态创新

ERNIE-Image是一款由百度开发的开放文本到图像生成模型,定位为多模态模型。它基于单流扩散Transformer(DiT)架构,具有8B参数量,在保持视觉质量的同时,提供精确的内容实现和可控性。该模型在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,适用于商业海报、漫画等多媒体内容创作。性能上,ERNIE-Image在开放权重文本到图像模型中达到最先进的水平。其开源协议为Apache-2.0,适合对图像质量和内容精确性有较高要求的场景。

Hugging Face 2026-04-15

Qwen/Qwen3.6-35B-A3B-FP8:35B参数代码生成大模型

Qwen3.6-35B-A3B-FP8是一款专注于代码生成的通用大模型,拥有35B参数,支持FP8量化。其架构采用Transformer变体,包括MoE和Gated DeltaNet,上下文长度可达248320个token。在代码生成和推理方面表现出色,尤其在Agentic Coding和Thinking Preservation方面有显著优势。性能上,模型在基准测试中表现良好,具有开源Apache-2.0协议,与vLLM等框架兼容。

Hugging Face 2026-04-20

MiniMaxAI/MiniMax-M2.7:大参数LLM,代码生成强

MiniMax-M2.7是一款定位在通用大模型范畴内的LLM,具有较大的参数量和较长的上下文长度。其核心技术基于transformers库,并引入了safetensors和custom_code等创新。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。开源协议为modified-mit,适合在多种硬件和推理框架上使用。

Hugging Face 2026-04-14

Comfy-Org/ERNIE-Image:ERNIE架构多模态LLM,高效交互

Comfy-Org/ERNIE-Image是一款基于ERNIE架构的多模态模型,定位为多模态LLM。该模型采用ERNIE架构,具有丰富的上下文长度和参数量,适用于图像和文本的多模态交互任务。在性能上,ERNIE-Image在多个基准测试中表现出色,具有较好的推理效率和兼容性。模型开源协议为Apache-2.0,适用于需要多模态交互的复杂场景。

Hugging Face 2026-04-19

331个可破解奖励环境及3632条攻击轨迹数据集

这篇论文介绍了Terminal Wrench,一个包含331个奖励可破解环境的基准数据集,以及3,632个攻击轨迹。该数据集旨在帮助研究人员评估和改进AI模型在终端代理环境中的鲁棒性和安全性,通过展示如何绕过验证器以及任务未按预期解决的情况。

Hugging Face 2026-04-20

河LLM:基于KV共享的无缝退出大型语言模型

这篇论文提出了River-LLM,一个基于KV共享的无需训练的框架,用于实现大型语言模型(LLM)的无缝退出。该框架通过引入轻量级的KV-Shared Exit River,在退出过程中自然生成和保留骨干网络的缺失KV缓存,从而消除了昂贵的恢复操作需求。通过预测解码器块内的状态转换相似性,River-LLM能够精确地做出退出决策,在数学推理和代码生成任务上实现了高达2.16倍的实用速度提升,同时保持了高生成质量。

Hugging Face 2026-04-19

背景影响下的突破:通过可迁移攻击破解医学视觉语言模型

这篇论文提出了MedFocusLeak,一种针对医疗视觉语言模型(VLMs)的攻击方法,通过在非诊断背景区域注入微扰并使用注意力分散机制,使模型产生错误但临床合理的诊断结果,同时保持扰动不可察觉。该方法在六种医学成像模态上实现了最先进的性能,并引入了一个统一的评估框架,揭示了现代临床VLMs推理能力的弱点。

Hugging Face 2026-04-20

语义对应未知空间探索

这篇论文提出了MARCO模型,通过结合DINOv2和扩散骨干,以及一个新颖的训练框架,实现了在语义对应上的泛化能力。该框架通过粗到细的目标和自蒸馏框架,将少量关键点转化为密集的、语义上连贯的对应关系,从而在多个数据集上取得了显著的性能提升。

Hugging Face 2026-04-16

域特定Agent安全防护:强化保障不损效能

这篇论文研究了符号性护栏在特定领域AI代理中的应用,通过系统性地审查80个最先进的代理安全和安全基准,发现74%的政策要求可以通过符号性护栏来执行,从而在不牺牲代理效用的情况下提高安全和安全性。

Hugging Face 2026-04-20

计算机使用代理的可靠性分析

这篇论文研究了计算机使用代理的不可靠性问题,通过分析执行过程中的随机性、任务规定的模糊性和代理行为的可变性,探讨了影响代理可靠性的因素,并提出了在重复执行中评估代理、通过交互解决任务模糊性和偏好稳定策略的建议。

Hugging Face 2026-04-18

政策蒸馏中能力与校准的解耦:确定性的幻象

这篇论文研究了在线策略蒸馏(OPD)在语言模型中的应用,发现OPD虽然能提高任务准确性,但会导致模型过度自信。论文提出了一个名为CaOPD的校准感知OPD框架,通过估计经验信心并替换自报告的信心,从而在保持竞争力的同时实现校准优化。

Hugging Face 2026-04-16

防御语言模型免遭未授权蒸馏:轨迹重写技术

这篇论文提出了一种通过动态重写教师模型的推理输出,以防止未经授权的知识蒸馏的方法。该方法旨在降低查询响应的训练有用性,并在学生模型中嵌入可验证的签名,同时保持答案的正确性和语义连贯性。

Hugging Face 2026-04-14

Forge-UGC:通用图编译器中的FX优化与寄存器图引擎

Forge-UGC是一种针对Transformer在异构加速硬件上部署的编译器,通过四个阶段优化编译过程,包括图捕获、优化、中间表示降低和后端调度,显著提高了编译速度和运行效率。

Hugging Face 2026-04-19

智能传承架构:情报持续性的关键

这篇论文提出了一个名为“Continuity Layer”的概念,旨在解决人工智能模型在处理连续性任务时的记忆和上下文保持问题。论文定义了连续性的七个特性,并提出了一个名为“Decomposed Trace Convergence Memory”的存储原语来实现这些特性。此外,论文还探讨了连续性层在工程架构和治理架构中的重要性。

Hugging Face 2026-04-03

基因-环境交互意义与稳定性分析研究

这篇论文主要研究了基因与环境交互作用的显著性分析和稳定性分析,提出了基于混合效应模型的显著性分析方法,以及用于进一步研究基因与环境交互关系的稳定性分析方法。同时,论文介绍了RGxEStat工具,这是一个轻量级的交互式工具,用于构建、解决和可视化上述模型,旨在简化育种数据分析流程。

Hugging Face 2026-04-17

VoxMind:全链路智能语音对话系统

这篇论文提出了VoxMind,一个集成的框架,旨在为端到端语音对话系统提供全面的代理能力。通过使用“思考后再说话”机制和异步工具管理架构,VoxMind显著提高了任务完成率,同时保持了良好的对话质量。

Hugging Face 2026-04-17

多轮对话评估:全双工语音语言模型综合评价

这篇论文提出了MTR-DuplexBench,一个用于全面评估全双工语音语言模型多轮对话的基准。该基准解决了现有基准在多轮对话评估中的不足,包括模糊的轮次边界和上下文不一致的问题,并涵盖了对话特征、对话质量、指令遵循和安全等多个方面。

Hugging Face 2026-04-18

通用智能体:基于上下文信息密度最大化的高效代币自进化LLM

这篇论文提出了GenericAgent,一个基于上下文信息密度最大化的通用、自进化的LLM智能体系统。该系统通过最小化工具集、分层按需内存、自进化机制和上下文截断与压缩层等组件,在保持信息密度的同时,显著减少了token的使用量,并在任务完成、工具使用效率、内存有效性和自我进化等方面优于其他智能体系统。

Hugging Face 2026-04-19

LLMs缺乏环境好奇心:探索与忽视的矛盾

这篇论文探讨了基于LLM的智能体在处理环境信息时的局限性,指出它们缺乏对意外但相关信息的识别和利用能力。通过在三个基准测试中注入任务解决方案,研究揭示了智能体发现解决方案的能力,但只有少数情况下会利用这些发现。论文强调了影响智能体环境好奇心的三个主要因素,并指出最大化好奇心的配置也能在基准测试中实现最佳性能。

Hugging Face 2026-04-14

混凝土丛林:迈向具体化对比负样本挖掘以实现组合理解

这篇论文提出了一种基于词汇具体性的对比负采样方法,用于提升视觉语言模型在组合理解方面的能力。通过修改具体性高的词汇,产生更明显的结构和视觉差异,从而增强学习信号。论文还引入了Cement损失函数,以解决梯度不平衡问题,并在多个组合理解基准测试中实现了最先进的准确率。

Hugging Face 2026-04-17

建模稀疏突发漏洞发现:数据受限下的预测

这篇论文研究了在数据约束下如何预测漏洞发现活动。作者通过构建基于文本描述的Transformer模型VLAI来预测漏洞严重性,并将其作为外生变量用于时间序列预测。实验结果表明,SARIMAX模型在处理稀疏、短时和爆发性漏洞数据时表现不佳,而基于泊松回归的计数模型在聚合周数据时能产生更稳定和可解释的预测。

Hugging Face 2026-04-20

跨会话个性化工具调用潜在偏好建模

这篇论文提出了一种名为MPT的基准,用于研究跨会话个性化工具调用问题。通过引入PRefine方法,该论文解决了用户请求中遗漏细节导致工具调用不准确的问题,通过记忆增强的方法,提高了工具调用的准确性。

Hugging Face 2026-04-17

NVIDIA发布Nemotron OCR v2:多语言OCR模型速识全球文本

NVIDIA发布了一款名为Nemotron OCR v2的多语言OCR模型,该模型通过合成数据训练,实现了高精度和快速识别。该模型使用了12百万个合成训练图像,支持英语、日语、韩语、俄语、简体中文和繁体中文,并通过创新的合成数据生成管道和高效的模型架构,实现了快速的多语言文本识别。

Hugging Face 2025-01-30

AI达人揭秘:KV缓存加速Transformer推理

本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。

Hugging Face 2026-04-14

NucleusAI发布Nucleus-Image:17B参数MoE扩散模型引领开源潮流

Nucleus AI发布了Nucleus-Image,一个基于稀疏混合专家的17B参数文本到图像扩散模型。该模型在GenEval、DPG-Bench和OneIG-Bench等基准测试中取得了优异的成绩,并且是首个在该质量级别上完全开源的MoE扩散模型。Nucleus-Image通过稀疏混合专家技术,将计算成本与容量分离,实现了高效能的图像生成。

Hugging Face 2026-03-05

商汤联手南洋理工,NEO-unify革新多模态AI学习

商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。

Hugging Face 2026-04-16

AI达人发布easyaligner:文本音频对齐利器

easyaligner是一个用于文本和音频对齐的库,旨在简化对齐过程,提高灵活性和性能。它支持多种应用,包括创建交互式阅读体验、章节导航、关键词搜索、议会辩论记录的访问性以及AI模型训练数据集的创建。

Hugging Face 2026-04-21

AI痕迹备份新招:Hugging Face助你知识库无忧

这篇公告主要讨论了备份AI代理和AI痕迹的重要性,并提供了如何使用Hugging Face服务进行备份的方法。作者强调了这些痕迹作为知识库的价值,并提出了多种使用这些痕迹的潜在用途。

Hugging Face 2024-06-13

用户揭秘:abliteration技术解锁LLM无审查响应新境界

本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。

Hugging Face 2024-10-29

Python实战:用户亲授RAG系统构建教程

本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。

Hugging Face 2026-04-10

Using OCR models with llama.cpp

这篇公告介绍了如何使用llama.cpp与各种小型OCR模型结合使用,这些模型可以在低端设备上运行,支持GPU和CPU,适用于需要OCR功能的多种应用。

Hugging Face 2026-04-20

Cohere Labs推Tiny Aya:70语种工具调用,移动端低延迟

Cohere Labs发布了Tiny Aya,一个支持70多种语言的工具调用模型,特别适用于移动设备。Tiny Aya在低资源语言上的表现良好,且无需云端依赖,可在中端手机上实现低延迟运行。此外,Cohere Labs还推出了TinyFacade,一个用于构建多语言工具调用应用的框架。

Hugging Face 2025-01-12

用户名揭秘:Transformer模型中张量维度处理技巧

这篇博客详细介绍了在Transformer模型中处理张量维度的重要性,包括矩阵乘法、嵌入层、位置编码、解码器层和注意力机制等关键概念,旨在帮助读者更好地理解Transformer架构。

Hugging Face 2026-02-17

Qwen3.5发布:阿里AI新模型混合注意力架构引热议

阿里巴巴Qwen团队发布了新一代基础模型Qwen3.5-397B-A17B,该模型采用混合注意力架构,结合了Gated Delta Networks和稀疏混合专家,并支持多模态输入和多种语言。Qwen3.5在推理、数学、知识遵循、代理、编码和视觉任务上表现出色,但并非在所有类别中都是最佳选择。

Hugging Face 2026-03-26

Cohere Labs发布20亿参数语音识别新模型,中文识别领先

Cohere Labs 发布了 cohere-transcribe-03-2026,这是一个拥有20亿参数的先进语音识别模型,在 Hugging Face 上以 Apache 2.0 许可证开源。该模型专为14种企业关键语言训练,包括中文普通话,实现了最先进的准确性,并具有高效率。它在英语识别方面在 Hugging Face Open ASR 排行榜上位居第一,在其他13种语言中也表现出色。

Hugging Face 2026-03-30

NielsRogge用Codex助力VidEoMT模型加入Transformers库

本文介绍了作者Niels Rogge如何利用编码智能体Codex将VidEoMT模型贡献到Hugging Face的Transformers库中,强调了自2025年12月以来编码智能体在代码编写能力上的显著提升,以及如何通过提供清晰的提示和利用文件系统等方法,有效指导智能体完成模型移植等任务。

Hugging Face 2026-04-14

AI评估新风向:告别单一基准,拥抱开源模型测试

这篇公告主要讨论了在评估模型时不应仅依赖推理提供商,而应使用transformers库定义的模型来运行评估。文章介绍了如何利用Hugging Face Hub和开源库来运行可靠的基准测试,并提供了使用HF-Jobs进行模型评估的示例。

OpenAI 2026-04-21

全球企业规模扩展Codex

OpenAI 推出 Codex Labs,旨在将 Codex 推广至全球企业,并与埃森哲、凯捷、印孚瑟斯等全球系统集成商合作,以帮助企业部署和扩展 Codex 在软件开发生命周期中的应用。Codex 不仅用于编码,还扩展到更广泛的任务,如浏览器任务、图像生成和记忆管理等,同时 Codex Labs 通过研讨会和工作坊帮助企业快速集成 Codex。

arXiv cs.CL 2026-04-21

开放视觉思考者V2:多领域视觉任务通用多模态推理模型

这篇论文提出了Gaussian GRPO(G$^2$RPO),一种新的强化学习训练目标,用于解决多模态通用模型在视觉任务中的挑战。该方法通过非线性分布匹配替代线性缩放,确保任务优势分布收敛到标准正态分布,从而平衡感知和推理,并提升模型在多任务上的性能。

arXiv cs.LG 2026-04-21

多智能体推理中的文本联盟:洞察共享

这篇论文提出了一种名为Federation over Text (FoT)的框架,通过迭代联邦化多个智能体的本地推理过程,实现跨任务和跨领域的元认知洞察共享,从而提高多智能体推理的效率和效果。

arXiv cs.LG 2026-04-21

重新定义图数据分析的大型语言模型:LoReC

这篇论文提出了LoReC,一种针对图数据分析的GraphLLM范式的新方法。LoReC通过三个阶段(观察、记忆、对比)增强LLM对图数据的理解,显著提升了GraphLLM方法的效果,并在多个数据集上优于基于GNN的方法。

arXiv cs.LG 2026-04-21

原型对齐潜变量优化:鲁棒零样本胸部X光分类

该论文提出了一种名为ProtoCLIP的改进策略,用于增强零样本视觉语言模型(VLMs)在胸部X光片分类中的性能。通过有针对性的数据管理和锚点对齐,ProtoCLIP减少了标签共现偏差,并引入了表示保持的蒸馏目标,以稳定适应并提高对临床相关共发病理学的识别能力。

arXiv cs.LG 2026-04-21

易视R1:视频理解强化学习更简单

这篇论文提出了EasyVideoR1,一个专门为视频理解任务训练大型视觉语言模型而设计的强化学习框架。它通过优化视频预处理、奖励系统、数据训练范式、多模态训练和评估框架等方面,显著提高了视频理解任务的性能。

arXiv cs.LG 2026-04-21

ARMove:基于代理推理预测人类移动学习

这篇论文提出了ARMove,一个基于代理推理的全可迁移框架,用于预测人类移动性。ARMove通过标准化特征管理、迭代优化和用户特定定制来提高预测的准确性和可解释性,同时通过大模型与小模型协同工作来降低成本并提升性能。

arXiv cs.CL 2026-04-21

文档查询自动补全:自适应Trie引导解码技术

这篇论文提出了一种名为DocQAC的文档查询自动补全方法,通过自适应Trie引导解码框架,结合检索增强生成和轻量级上下文文档信号,提高了文档查询的效率和准确性。

arXiv cs.LG 2026-04-21

AdaExplore:高效核生成中的故障驱动自适应与多样性保持搜索

这篇论文提出了AdaExplore,一个通过累积执行反馈来提高性能关键内核代码生成效率的智能体框架。它通过失败驱动的适应和多样性保持搜索两个阶段,实现自我改进,无需额外微调或外部知识,从而在保持正确性的同时提高优化性能。