tencent/HY-Embodied-0.5:MoT架构多模态模型,VLA管道强感知
tencent/HY-Embodied-0.5是一款针对真实世界智能体设计的多模态基础模型,定位为多模态模型。其核心技术为Mixture-of-Transformers (MoT)架构,具有高效的2B模型和强大的32B模型。在16个基准测试中,2B模型表现优于同类模型,32B模型则达到前沿水平。该模型适用于视觉语言行动(VLA)管道,具有强大的空间时间视觉感知和复杂具身推理能力。
精选 69 篇,从 340+ 条中筛选
tencent/HY-Embodied-0.5是一款针对真实世界智能体设计的多模态基础模型,定位为多模态模型。其核心技术为Mixture-of-Transformers (MoT)架构,具有高效的2B模型和强大的32B模型。在16个基准测试中,2B模型表现优于同类模型,32B模型则达到前沿水平。该模型适用于视觉语言行动(VLA)管道,具有强大的空间时间视觉感知和复杂具身推理能力。
Gemma-4-31B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备高达 31B 的参数量和 256K 的上下文长度,支持文本、图像等多种输入和文本输出。其核心技术包括 Dense 和 MoE 架构,并针对移动设备进行了优化。在性能上,Gemma-4-31B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上具有显著优势。模型开源协议为 Apache 2.0,适用于从手机到服务器的多种部署环境。
GLM-5.1是一款定位在通用大模型领域的旗舰模型,具备强大的编码能力。其核心技术包括Transformer架构、MoE(多智能体)设计,支持多语言处理。在基准测试中,GLM-5.1在代码生成、数学推理等任务上表现出色。该模型适用于需要多语言支持和复杂任务处理的场景,具有开源协议、高效推理等实用特性。
Gemma-4-31B-JANG_4M-CRACK是一款定位在通用大模型领域的模型,具有31B的参数量和18GB的模型大小。其核心技术包括Dense Transformer架构和Hybrid Sliding/Global Attention机制,支持多模态输入。在MMLU基准测试中,该模型保持了93.7%的合规性,显示出其在知识理解和推理方面的能力。该模型适用于需要高知识合规性和多模态处理的应用场景,如安全与渗透测试、代码生成等。其开源协议、硬件需求以及推理效率等特性使其在LLM领域具有差异化优势。
VoxCPM2是一款基于扩散自回归的文本到语音模型,具有2B参数,支持30种语言,输出48kHz音频。该模型无需分词器,能够根据自然语言描述生成新声音,克隆任何声音,并具有上下文感知的合成能力。它在HuggingFace平台上具有较高的下载量和点赞数,支持实时流式传输,并采用Apache-2.0开源协议。VoxCPM2在LLM生态中定位为多模态模型,其核心技术为VLM(语音语言模型),主要应用场景包括语音合成、语音克隆和语音设计。
Qwen3.6-35B-A3B是一款专注于代码生成的LLM,具有35B参数和10倍MoE结构,支持长达1,010,000个token的上下文。其核心能力在于Agentic Coding和Thinking Preservation,通过优化前端工作流程和推理上下文,提升开发效率。在性能上,模型在代码生成任务中表现出色,具有较好的稳定性和实用性。开源协议为Apache-2.0,与Hugging Face Transformers兼容。
tencent/HY-World-2.0是一款专注于3D世界重建、生成和模拟的多模态世界模型。该模型定位为多模态模型,具有独特的图像到3D的转换能力。其核心技术包括世界模型、3D建模和图像处理。在性能表现上,模型在相关基准测试中表现出色,具有高效的开源协议和良好的硬件兼容性。主要应用场景包括3D内容创作、虚拟现实和增强现实。
ERNIE-Image-Turbo-GGUF是一款基于ERNIE-Image-Turbo的文本到图像生成模型,定位为多模态模型。它采用GGUF量化技术,通过Unsloth Dynamic 2.0方法实现SOTA性能。模型具有高精度的重要层,并使用ComfyUI-GGUF工具。在性能上,ERNIE-Image-Turbo-GGUF在权威基准测试中表现出色,具有高效的推理速度和良好的内容生成能力。适用于需要快速、高保真图像生成的场景。
ERNIE-Image是一款由百度开发的开放文本到图像生成模型,定位为多模态模型。它基于单流扩散Transformer(DiT)架构,具有8B参数量,在保持视觉质量的同时,提供精确的内容实现和可控性。该模型在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,适用于商业海报、漫画等多媒体内容创作。性能上,ERNIE-Image在开放权重文本到图像模型中达到最先进的水平。其开源协议为Apache-2.0,适合对图像质量和内容精确性有较高要求的场景。
ERNIE-Image-Turbo是一款由百度开发的开放文本到图像生成模型,定位为多模态模型。它基于ERNIE-Image,采用单流Diffusion Transformer架构,具有快速生成和强保真度的特点。该模型在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,适用于海报、漫画等多媒体内容创作。性能上,ERNIE-Image-Turbo在8个推理步骤内提供高质量生成,适合对延迟敏感的应用。其开源协议为Apache-2.0,适合在多种硬件和推理框架上使用。
Nucleus-Image是一款基于稀疏混合专家(MoE)扩散变换器架构的文本到图像生成模型,定位为多模态模型。其核心技术包括稀疏MoE架构,参数量高达17B,但每个前向传递仅激活约2B参数,实现了高效能。在GenEval、DPG-Bench和OneIG-Bench等基准测试中,Nucleus-Image的性能与Qwen-Image、GPT Image 1等领先模型相当。该模型开源,支持多种输出尺寸,适用于图像生成等场景。
Lyra-2.0是一款专注于生成持久、可探索的3D世界的框架,属于多模态模型。其核心技术包括长程视频合成和3D重建,具有强全局几何一致性。性能方面,Lyra-2.0在单图像3D场景生成领域达到新水平。模型定位为多模态模型,主要应用场景为3D世界生成和探索。其开源协议为NVIDIA内部科学研究与发展模型许可,硬件需求较高,推理效率依赖于具体应用。
OBLITERATUS/gemma-4-E4B-it-OBLITERATED是一款专注于文本生成的通用大模型,基于Google的Gemma 4 E4B模型,通过OBLITERATUS技术进行强化。该模型具有极高的 uncensored 特性,拒绝率几乎为零,同时在代码生成能力上有所提升。模型在训练数据上进行了扩展,增加了多个类别,包括药物合成、黑客攻击、武器等。性能上,相较于原始模型,OBLITERATED v2在拒绝率上有了显著提升,同时在代码生成能力上有所增强。
🔥 unsloth/Qwen3.6-35B-A3B-GGUF 是一款基于 Qwen3.6-35B-A3B 的开源模型,专注于图像到文本的转换。该模型定位为通用大模型,具有35B参数量和A3B架构,支持多模态输入。它在性能上表现出色,尤其在图像到文本转换任务中具有显著优势。模型采用Apache-2.0开源协议,适用于多种硬件平台,推理效率高,与vLLM等框架兼容。
Jackrong/Qwopus-GLM-18B-Merged-GGUF 是一个基于 Qwen3.5-9B 和 Qwen3.5-9B-GLM5.1-Distill-v1 的 64 层 Frankenmerge 模型,参数量约为 18B。该模型在代码生成、数学推理和多语言能力方面表现出色,通过 1000 步 QLoRA fine-tune 解决了原始模型在代码输出上的问题。模型适用于需要高性能代码生成和推理的场景,具有开源协议 Apache-2.0,适合在 12-16 GB GPU 上运行。
HauhauCS/Qwen3.6-35B-A3B-Uncensored-HauhauCS-Aggressive 是一款基于 Qwen3.6-35B-A3B 的开源多模态模型,专注于图像-文本到文本的转换。该模型具有无审查的特性,能够生成完整的内容,适用于需要无限制文本生成的场景。模型定位为多模态模型,具有强大的文本生成能力,特别适合于需要处理图像和文本信息的任务。技术特点包括基于Qwen3.6-35B-A3B的架构,无审查的生成能力,以及多语言支持。在性能上,模型在图像-文本到文本转换任务中表现出色,但未提供具体的基准测试结果。实用考量方面,模型开源,适用于多种硬件平台,但具体推理效率取决于硬件配置。
MiniMax-M2.7是一款定位在通用大模型范畴内的LLM,具有较大的参数量和较长的上下文长度。其核心技术基于transformers库,并引入了safetensors和custom_code等创新。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。开源协议为modified-mit,适合在多种硬件和推理框架上使用。
Comfy-Org/ERNIE-Image是一款基于ERNIE架构的多模态模型,定位为多模态LLM。该模型采用ERNIE架构,具有丰富的上下文长度和参数量,适用于图像和文本的多模态交互任务。在性能上,ERNIE-Image在多个基准测试中表现出色,具有较好的推理效率和兼容性。模型开源协议为Apache-2.0,适用于需要多模态交互的复杂场景。
Kimi K2.6是一款开源的多模态智能模型,专注于长周期编码、编码驱动设计、自主执行和基于群体的任务编排。该模型在复杂编码任务上表现出色,能够生成生产级界面和全栈工作流程。其核心技术包括压缩张量、多代理和图像-文本到文本的管道。在性能方面,K2.6在多个基准测试中表现出色,具有强大的代码生成和设计能力。适用于需要高效编码和设计的场景,如软件开发和界面设计。
这篇论文通过分析大量AI架构的进化实验,探讨了AI架构进化是否遵循与生物进化相同的统计规律。研究通过935个消融实验,发现架构修改的适应度效应分布符合重尾Student's t分布,并指出AI的进化介于紧凑的病毒基因组与简单的真核生物之间。研究还发现,架构的起源遵循逻辑动力学,并出现了适应性辐射。这些结果表明,进化的统计结构是底物无关的,由适应度景观拓扑决定。
这篇论文提出了The Amazing Agent Race(AAR),一个基于DAG谜题的工具使用基准,用于评估LLM代理的导航和工具使用能力。通过分析1400个实例,论文发现导航错误是主要问题,而工具使用错误较少,并指出代理架构与模型规模同样重要。
这篇论文提出了RoboLab,一个高保真度的机器人任务通用策略模拟基准,旨在解决现有基准在训练和评估之间存在显著领域重叠的问题。RoboLab通过提供一个物理和照片真实感模拟环境,允许生成场景和任务,并提出了一个包含120个任务的基准,用于评估任务通用策略的真实泛化能力。
这篇论文研究了训练后的语言模型输出多样性的下降问题,通过分析Olmo 3、Think、Instruct和RL-Zero等模型,发现多样性下降与数据组成有关,并指出多样性下降是在训练过程中由数据组成决定的,而不是在推理时可以解决的。
这篇论文提出了一种名为HiCoDiT的新型视频到语音生成方法,该方法利用基于残差向量量化(RVQ)的编解码器层次结构,通过离散语音标记的内在层次结构实现强音频-视觉对齐。HiCoDiT采用低级和高级块来生成不同级别的标记,并通过双重尺度自适应实例层归一化来提高条件效果。
这篇论文提出了一种名为DiPO的新方法,通过将样本空间划分为探索(高困惑度)和利用(低困惑度)子空间,来解决强化学习中的探索-利用权衡问题。该方法通过困惑度引导的探索和利用,实现了更稳定的策略优化,并在数学推理和函数调用任务上展示了优越的性能。
这篇论文提出了QuantCode-Bench,一个用于评估大型语言模型生成可执行算法交易策略能力的基准。该基准通过多阶段流程评估模型的代码生成能力,包括语法正确性、回测执行成功、交易存在以及与任务描述的语义一致性。实验结果表明,当前模型的主要限制不在于语法,而在于交易逻辑的正确实现、API的正确使用以及与任务语义的一致性。
这篇论文深入探讨了扩散概率模型在生成任务中的SNR-t偏差问题,提出了一个基于频率分解和微分校正的方法来减轻这种偏差,显著提高了不同扩散模型在多种数据集上的生成质量。
这篇论文探讨了大型语言模型(LLMs)在计算机科学基础算法创新方面的潜力。通过一个名为“Unlearn-and-Reinvent”的流程,研究人员测试了LLMs能否在不预先学习特定算法的情况下重新发明这些算法。实验结果表明,LLMs在有限提示下能够成功重新发明部分算法,并揭示了LLMs在创新思维方面的潜力和限制。
这篇论文研究了在自回归生成模型中,使用有序标记进行测试时搜索的有效性。作者提出了一种基于粗到细结构的1D有序标记化方法,并发现这种方法在图像生成任务中比传统的2D网格结构更易于搜索。实验结果表明,基于有序标记的模型在测试时具有更好的扩展性,并且可以在没有训练自回归模型的情况下,通过图像-文本验证器进行无训练的文本到图像生成。
这篇论文提出了EdgeDetect,一种用于联邦入侵检测的通信高效且隐私保护的方法。EdgeDetect通过基于中值的统计二值化来压缩梯度,并使用Paillier同态加密保护梯度,从而在减少通信开销的同时保持检测精度。
这篇论文提出了一种名为TwinTrack的框架,用于解决医学图像分割中的后处理多评级校准问题。该框架通过将集成分割概率校准到经验平均人类响应(MHR),即专家标注者将体素标记为肿瘤的比例,从而直接解释校准概率为预期分配肿瘤标签的标注者比例,并显式地建模评级者之间的不一致性。
这篇论文提出了TIPSv2,一种通过增强补丁-文本对齐来推进视觉-语言预训练的新方法。它通过改进预训练过程,包括引入新的掩码图像目标(iBOT++)和改进学习策略,显著提升了预训练模型在补丁和文本嵌入之间的对齐能力,并在多个视觉任务上实现了优异的性能。
这篇论文概述了NTIRE 2026视频显著性预测挑战,挑战参与者旨在开发自动显著性图预测方法。论文介绍了用于挑战的2000个多样化视频数据集,以及通过众包鼠标跟踪收集的注视点和相应的显著性图。论文还描述了挑战的评估过程和参与情况,并提供了所有数据的公开链接。
这篇论文提出了一种名为Deep Neural Lesion (DNL) 的方法,通过翻转神经网络的参数位来破坏深度学习模型,而不需要数据或优化。这种方法可以显著降低图像分类、目标检测、实例分割和大型语言模型等领域的模型性能。
这篇论文提出了一种名为Web Retrieval-Aware Chunking (W-RAC)的文档分块框架,旨在提高检索增强生成(RAG)系统的效率和成本效益。W-RAC通过将解析的网页内容表示为结构化的、ID可寻址的单位,并利用大型语言模型(LLMs)进行检索感知的分组决策,从而减少令牌使用,消除幻觉风险,并提高系统可观察性。
这篇论文提出了一种名为AccelOpt的自改进大型语言模型(LLM)代理系统,该系统能够自主优化AI加速器的内核,无需专家提供的特定硬件优化知识。AccelOpt通过迭代生成和优化记忆来探索内核优化空间,并构建了NKIBench基准套件来评估其有效性。实验结果表明,AccelOpt的能力随时间提升,在Trainium加速器上提高了平均峰值吞吐量。
这篇论文提出了一种名为LaviGen的框架,该框架将3D生成模型重新用于3D布局生成。它通过在3D空间中直接操作,将布局生成建模为一个自回归过程,显式地建模对象之间的几何关系和物理约束,从而生成一致且物理上合理的3D场景。为了提高效率,论文还提出了一种集成了场景、对象和指令信息的3D扩散模型,并采用了一种双重引导的自滚动蒸馏机制。实验结果表明,LaviGen在LayoutVLM基准测试中实现了优于现有技术的3D布局生成性能。
这篇论文提出了一种名为AVR的适应性视觉推理框架,通过将视觉推理分解为视觉感知、逻辑推理和答案应用三个认知功能,并允许模型动态选择不同的响应格式,从而有效减少视觉推理模型中的过度思考,提高推理效率。
这篇论文提出了GTA-2,一个用于评估通用工具代理(GTA)从原子工具使用到开放式工作流程的分层基准。GTA-2通过真实用户查询、部署的工具和多媒体环境,解决了当前工具使用基准与实际需求不匹配的问题,并引入了递归检查点评估机制,以评估开放式交付成果。
商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。
Hugging Face通过使用Codex、开源OCR模型和Hugging Face Jobs,成功对30,000篇论文进行了OCR处理,使这些论文的Markdown版本可供用户在平台上进行交互。
Nucleus AI发布了Nucleus-Image,一个基于稀疏混合专家的17B参数文本到图像扩散模型。该模型在GenEval、DPG-Bench和OneIG-Bench等基准测试中取得了优异的成绩,并且是首个在该质量级别上完全开源的MoE扩散模型。Nucleus-Image通过稀疏混合专家技术,将计算成本与容量分离,实现了高效能的图像生成。
Darwin-TTS-1.7B-Cross,世界上第一个跨模态LLM到TTS的FFN迁移模型,通过将LLM的3%权重移植到TTS模型中,实现了情感表达,且无需训练、数据和GPU时间进行微调。
NVIDIA发布了NVIDIA Isaac GR00T N1.7,这是一个开源的商业许可Vision-Language-Action模型,用于人形机器人。该模型基于人类数据,旨在提高机器人智能的可扩展性,并支持多步骤任务推理和精细操作。
这篇公告介绍了VAANI数据集,这是一个旨在解决语音识别在低资源语言中性能下降问题的项目。VAANI数据集通过大规模、地理基础的数据收集,系统地捕捉了语言多样性,包括区域口音、方言变化和社会语言多样性。该数据集旨在支持多语言和低资源语音研究,并强调数据质量对于多语言AI未来的重要性。
这篇公告主要讨论了在评估模型时不应仅依赖推理提供商,而应使用transformers库定义的模型来运行评估。文章介绍了如何利用Hugging Face Hub和开源库来运行可靠的基准测试,并提供了使用HF-Jobs进行模型评估的示例。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
这篇公告介绍了如何使用llama.cpp与各种小型OCR模型结合使用,这些模型可以在低端设备上运行,支持GPU和CPU,适用于需要OCR功能的多种应用。
easyaligner是一个用于文本和音频对齐的库,旨在简化对齐过程,提高灵活性和性能。它支持多种应用,包括创建交互式阅读体验、章节导航、关键词搜索、议会辩论记录的访问性以及AI模型训练数据集的创建。
这篇博客详细介绍了在Transformer模型中处理张量维度的重要性,包括矩阵乘法、嵌入层、位置编码、解码器层和注意力机制等关键概念,旨在帮助读者更好地理解Transformer架构。
阿里巴巴Qwen团队发布了新一代基础模型Qwen3.5-397B-A17B,该模型采用混合注意力架构,结合了Gated Delta Networks和稀疏混合专家,并支持多模态输入和多种语言。Qwen3.5在推理、数学、知识遵循、代理、编码和视觉任务上表现出色,但并非在所有类别中都是最佳选择。
NVIDIA 发布了首个医疗机器人开放数据集 Open-H-Embodiment,包含 778 小时训练数据,旨在推动医疗机器人领域物理人工智能的发展。同时推出了两个开源模型 GR00T-H 和 Cosmos-H-Surgical-Simulator,用于手术机器人任务和动作条件式手术机器人模拟,以实现更精确和高效的手术操作。
ALTK-Evolve是一个AI代理的长期记忆系统,旨在帮助AI代理通过从先前执行中生成的指南中学习和使用,从而随着时间的推移不断改进。它通过捕获代理的完整轨迹,将交互痕迹转换为候选指南,并过滤出高质量的实体,如指南、政策和SOPs,来提高代理的可靠性和泛化能力。
本文介绍了作者Niels Rogge如何利用编码智能体Codex将VidEoMT模型贡献到Hugging Face的Transformers库中,强调了自2025年12月以来编码智能体在代码编写能力上的显著提升,以及如何通过提供清晰的提示和利用文件系统等方法,有效指导智能体完成模型移植等任务。
AI公司发布LiteCoder-Terminal-SFT,这是一个改进的性能的终端模型,包括11,255个轨迹的全训练数据集和602个开源的Harbor终端环境。该模型在多个终端基准测试中表现出色,并支持更广泛的领域覆盖。
Vessel Browser是一款专为自主代理设计的开源浏览器,旨在解决AI驱动的网络浏览问题。它旨在提供快速、高效的浏览体验,同时允许人类监督和干预。Vessel Browser具有集成聊天窗口、持久状态、自定义API提供者、书签文件夹和AI聊天窗口等功能,旨在改善与AI代理的协作。
这篇Hugging Face博客文章介绍了状态空间模型(SSM)的基本概念,包括其在控制理论和深度学习中的应用。文章详细解释了SSM的三个视图:连续视图、递归视图和卷积视图,并讨论了它们各自的优势和局限性。
UniDoc-RL提出了一种基于强化学习的视觉检索增强生成框架,通过联合检索、重排序、主动视觉感知和推理,解决现有视觉RAG系统在复杂推理中忽视细粒度视觉语义的问题。该方法通过分层动作空间和密集多奖励方案,实现了对视觉信息的逐步细化,并在三个基准测试中超越了现有方法。
Mind DeepResearch (MindDR) 是一种高效的多人代理深度研究框架,通过精心设计的数据合成和多阶段训练流程,仅使用约30B参数的模型就实现了领先的性能。MindDR的核心创新在于协作的三代理架构(规划代理、深度搜索代理和报告代理)和包含SFT冷启动、搜索-RL、报告-RL和偏好对齐的四阶段代理专用训练流程。
这篇论文提出了HyperGVL,这是第一个用于评估大型视觉语言模型在超图理解和推理方面的能力的基准。它通过在84,000个视觉语言问答样本上测试12个先进的LVLMs,涵盖了从基本组件计数到复杂NP-hard问题推理的12个任务,来评估这些模型。此外,它还引入了WiseHyGR路由器,通过学习自适应表示来提高LVLMs在超图上的性能。
这篇论文提出了C-Mining,一个无监督框架,用于从多语言语料库中自动提取文化种子点(CPs),以促进文化数据合成。C-Mining通过利用预训练嵌入空间中文化概念的跨语言错位,将文化种子的发现从主观选择过程转化为可计算的数据挖掘公式,显著提高了文化理解和推理能力。
这篇论文提出了AEGIS,一种用于知识保留视觉-语言-动作微调的锚点增强梯度隔离系统。AEGIS通过预计算静态高斯参考锚点,并在每个训练步骤中构建Wasserstein-2传输惩罚,来保护预训练的视觉问答(VQA)流形,同时允许直接进行连续的MSE学习。
这篇论文提出了Agentic Verifier框架,通过将奖励建模转化为多轮、工具辅助的深思熟虑过程,解决了复杂领域中验证器面临的挑战。该框架引入了正向和反向代理,以双向过程全面、可靠、可解释地评估解决方案。通过AgentV-RL,验证器能够自主地交替使用工具和内部推理,实验表明该方法在并行和顺序测试时间缩放(TTS)中均取得了显著的性能提升。
这篇论文提出了一种名为Discover And Prove (DAP)的框架,用于在Lean 4中进行硬模式自动定理证明。该框架利用大型语言模型(LLM)的自然语言推理和自我反思来发现答案,并将硬模式问题转换为易模式问题,以便使用现有的自动定理证明器进行证明。
这篇论文提出了RAGognizer,一种通过检测头集成进行幻觉感知微调的方法,旨在解决检索增强生成(RAG)模型中常见的封闭域幻觉问题。该方法通过将幻觉检测作为训练信号,提高了模型对内部状态的区分能力,从而在生成内容时显著降低了幻觉率,同时保持了语言质量和相关性。
这篇论文提出了一种名为CHOP的框架,用于解决多文档检索增强生成(RAG)系统在处理相似文档时的检索精度下降问题。CHOP通过迭代评估片段的相关性并使用大型语言模型(LLMs)来重建文档,同时使用CNM-Extractor生成紧凑的片段签名和Continuity Decision Module来保持上下文一致性,从而提高检索准确性和知识库构建的质量。