tencent/HY-World-2.0:3D世界重建多模态模型
tencent/HY-World-2.0是一款专注于3D世界重建、生成和模拟的多模态世界模型。该模型定位为多模态模型,具有独特的图像到3D的转换能力。其核心技术包括世界模型、3D建模和图像处理。在性能表现上,模型在相关基准测试中表现出色,具有高效的开源协议和良好的硬件兼容性。主要应用场景包括3D内容创作、虚拟现实和增强现实。
精选 67 篇,从 290+ 条中筛选
tencent/HY-World-2.0是一款专注于3D世界重建、生成和模拟的多模态世界模型。该模型定位为多模态模型,具有独特的图像到3D的转换能力。其核心技术包括世界模型、3D建模和图像处理。在性能表现上,模型在相关基准测试中表现出色,具有高效的开源协议和良好的硬件兼容性。主要应用场景包括3D内容创作、虚拟现实和增强现实。
LilaRest/gemma-4-31B-it-NVFP4-turbo是一款基于Gemma-4-31B-IT-NVFP4的优化模型,旨在提供更高效的推理性能。该模型定位为通用大模型,具有68%更小的GPU内存占用和2.5倍更快的推理速度,同时保持接近原始模型的质量。它在MMLU和GPQA基准测试中表现出色,参数量为31B,上下文长度未明确提及。该模型适用于需要高性能推理的场景,如文本生成等,且支持NVIDIA Blackwell FP4 tensor cores,具有较好的硬件兼容性。
tencent/HY-Embodied-0.5是一款针对真实世界智能体设计的多模态基础模型,定位为多模态模型。其核心技术为Mixture-of-Transformers (MoT)架构,具有高效的2B模型和强大的32B模型。在16个基准测试中,2B模型表现优于同类模型,32B模型则达到前沿水平。该模型适用于视觉语言行动(VLA)管道,具有强大的空间时间视觉感知和复杂具身推理能力。
Gemma-4-31B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备高达 31B 的参数量和 256K 的上下文长度,支持文本、图像等多种输入和文本输出。其核心技术包括 Dense 和 MoE 架构,并针对移动设备进行了优化。在性能上,Gemma-4-31B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上具有显著优势。模型开源协议为 Apache 2.0,适用于从手机到服务器的多种部署环境。
Gemma-4-E4B-it是一款由Google DeepMind开发的通用多模态大语言模型,支持文本和图像输入,并生成文本输出。该模型具有高达256K的上下文窗口,支持超过140种语言。它采用Dense和MoE架构,适用于文本生成、编码和推理等任务。Gemma-4-E4B-it在代码生成、数学推理和指令遵循等方面表现出色,同时支持本地设备上的高效执行。该模型在Hugging Face平台上具有广泛的下载量和点赞数,表明其在LLM领域的受欢迎程度。
GLM-5.1是一款定位在通用大模型领域的旗舰模型,具备强大的编码能力。其核心技术包括Transformer架构、MoE(多智能体)设计,支持多语言处理。在基准测试中,GLM-5.1在代码生成、数学推理等任务上表现出色。该模型适用于需要多语言支持和复杂任务处理的场景,具有开源协议、高效推理等实用特性。
Gemma-4-31B-JANG_4M-CRACK是一款定位在通用大模型领域的模型,具有31B的参数量和18GB的模型大小。其核心技术包括Dense Transformer架构和Hybrid Sliding/Global Attention机制,支持多模态输入。在MMLU基准测试中,该模型保持了93.7%的合规性,显示出其在知识理解和推理方面的能力。该模型适用于需要高知识合规性和多模态处理的应用场景,如安全与渗透测试、代码生成等。其开源协议、硬件需求以及推理效率等特性使其在LLM领域具有差异化优势。
VoxCPM2是一款基于扩散自回归的文本到语音模型,具有2B参数,支持30种语言,输出48kHz音频。该模型无需分词器,能够根据自然语言描述生成新声音,克隆任何声音,并具有上下文感知的合成能力。它在HuggingFace平台上具有较高的下载量和点赞数,支持实时流式传输,并采用Apache-2.0开源协议。VoxCPM2在LLM生态中定位为多模态模型,其核心技术为VLM(语音语言模型),主要应用场景包括语音合成、语音克隆和语音设计。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型通过从 Claude-4.6 Opus 中提取的 CoT 技术进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持文本生成。在性能上,模型在推理任务上表现出色,特别适合需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,适合在多种硬件和推理框架上使用。
Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 是一款针对 Apple Silicon 设计的快速、高效的文本生成模型。该模型基于 Gemma 4 26B,采用 MLX 4-bit 格式,具有 uncensored 特性,适用于代码生成、浏览器自动化、工具使用、规划和韩语等任务。它在基准测试中表现出色,尤其在代码生成和逻辑推理方面优于原始模型,同时保持了较高的生成速度。
netflix/void-model是一款专注于视频编辑和视频修复的模型,定位为特定领域微调模型。它基于CogVideoX 3D Transformer架构,具有强大的视频修复能力,能够去除视频中的物体及其引起的所有交互,包括物理交互。该模型在视频修复领域表现出色,特别适用于视频编辑和视频生成任务。其性能在相关基准测试中表现良好,但具体排名未提及。模型开源,需要较高的GPU资源,推理效率较高。
MiniMax-M2.7是一款定位在通用大模型范畴内的LLM,具有较大的参数量和较长的上下文长度。其核心技术基于transformers库,并引入了safetensors和custom_code等创新。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。开源协议为modified-mit,适合在多种硬件和推理框架上使用。
Qwen3.6-35B-A3B是一款专注于代码生成的LLM,具有35B参数和10倍MoE结构,支持长达1,010,000个token的上下文。其核心能力在于Agentic Coding和Thinking Preservation,通过优化前端工作流程和推理上下文,提升开发效率。在性能上,模型在代码生成任务中表现出色,具有较好的稳定性和实用性。开源协议为Apache-2.0,与Hugging Face Transformers兼容。
OBLITERATUS/gemma-4-E4B-it-OBLITERATED是一款专注于文本生成的通用大模型,基于Google的Gemma 4 E4B模型,通过OBLITERATUS技术进行强化。该模型具有极高的 uncensored 特性,拒绝率几乎为零,同时在代码生成能力上有所提升。模型在训练数据上进行了扩展,增加了多个类别,包括药物合成、黑客攻击、武器等。性能上,相较于原始模型,OBLITERATED v2在拒绝率上有了显著提升,同时在代码生成能力上有所增强。
ERNIE-Image是一款由百度开发的开放文本到图像生成模型,定位为多模态模型。它基于单流扩散Transformer(DiT)架构,具有8B参数量,在保持视觉质量的同时,提供精确的内容实现和可控性。该模型在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,适用于商业海报、漫画等多媒体内容创作。性能上,ERNIE-Image在开放权重文本到图像模型中达到最先进的水平。其开源协议为Apache-2.0,适合对图像质量和内容精确性有较高要求的场景。
ERNIE-Image-Turbo是一款由百度开发的开放文本到图像生成模型,定位为多模态模型。它基于ERNIE-Image,采用单流Diffusion Transformer架构,具有快速生成和强保真度的特点。该模型在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,适用于海报、漫画等多媒体内容创作。性能上,ERNIE-Image-Turbo在8个推理步骤内提供高质量生成,适合对延迟敏感的应用。其开源协议为Apache-2.0,适合在多种硬件和推理框架上使用。
🔥 unsloth/Qwen3.6-35B-A3B-GGUF 是一款基于 Qwen3.6-35B-A3B 的开源模型,专注于图像到文本的转换。该模型定位为通用大模型,具有35B参数量和A3B架构,支持多模态输入。它在性能上表现出色,尤其在图像到文本转换任务中具有显著优势。模型采用Apache-2.0开源协议,适用于多种硬件平台,推理效率高,与vLLM等框架兼容。
Comfy-Org/ERNIE-Image是一款基于ERNIE架构的多模态模型,定位为多模态LLM。该模型采用ERNIE架构,具有丰富的上下文长度和参数量,适用于图像和文本的多模态交互任务。在性能上,ERNIE-Image在多个基准测试中表现出色,具有较好的推理效率和兼容性。模型开源协议为Apache-2.0,适用于需要多模态交互的复杂场景。
这篇论文提出了隐含课程假设,通过设计一系列简单且可组合的任务,研究了大型语言模型在预训练过程中技能的涌现顺序。研究发现,模型达到固定准确度阈值的出现顺序具有高度一致性,且这种结构编码在模型表示中,可以通过任务集的表示空间预测预训练过程中的训练轨迹。
这篇论文提出了Self-Distillation Zero (SD-Zero)方法,通过将二进制奖励转换为密集的token级自监督,显著提高了训练样本效率,且无需外部教师或高质量演示。SD-Zero通过训练一个模型同时扮演生成器和修订者的角色,实现自我蒸馏,从而在数学和代码推理基准测试中提升了至少10%的性能。
这篇论文提出了一个名为“Anthropogenic Regional Adaptation”的新范式,旨在优化模型对特定区域环境的适应性,同时保持全局泛化能力。通过使用区域数据过滤和模型合并的方法,论文展示了这种方法在东南亚区域适应案例中的有效性,实现了文化相关性指标的提升,同时保持了超过98%的全局性能。
这篇论文提出了LangFlow,一种连续扩散语言模型,通过结合嵌入空间DLMs和Flow Matching,以及三个关键创新,实现了在语言建模中连续扩散与离散扩散的竞争。LangFlow在 perplexity 和 generative perplexity 上与顶级离散 DLMs 相当,并在多个基准测试中超越了自回归基线。
这篇论文提出了ArcDeck,一个将论文转换为幻灯片的框架,它通过结构化叙事重建任务来建模论文的逻辑流程。ArcDeck首先解析输入构建话语树和全局承诺文档,然后通过多智能体迭代优化过程来生成最终的视觉布局和设计。实验结果表明,这种方法显著提高了生成的演示文稿的叙事流畅性和逻辑一致性。
这篇论文提出了一种通过利用预训练生成模型中的强视觉先验来生成HDR视频的方法。它通过对HDR图像进行对数编码,使其与模型的潜在空间自然对齐,从而实现轻量级的微调,无需重新训练编码器。此外,论文还引入了一种基于相机模拟退化的训练策略,以恢复输入中不可直接观察到的细节。
这篇论文提出了SkVM,一个针对技能的可移植和高效执行的编译和运行时系统。通过将技能视为代码,并将LLM视为异构处理器,SkVM通过能力基础编译、环境绑定和并发提取来提高技能的可移植性和执行效率。
这篇论文提出了一种名为LingBot-Map的3D重建模型,该模型基于几何上下文变换器(GCT)架构,通过精心设计的注意力机制,实现了从视频流中高效、稳定地重建3D场景。该模型能够处理长时间序列,并在高分辨率输入下达到约20 FPS的推理速度。
这篇论文提出了Target Policy Optimization (TPO)算法,该算法通过分离策略优化中的两个问题,即确定哪些完成项应该增加概率质量以及如何调整参数来实现这种变化,从而在强化学习(RL)中提高策略优化的效率和准确性。
这篇论文探讨了移动GUI代理在现实世界威胁下的表现,通过引入一个可扩展的应用内容配置框架,评估了这些代理在真实应用环境中的性能,发现第三方内容对代理性能有显著影响。
这篇论文提出了SemaClaw,一个开源的多智能体应用框架,通过利用工程方法,旨在构建通用型个人AI代理。它引入了基于DAG的两阶段混合智能体团队编排方法、权限桥行为安全系统、三层上下文管理架构以及用于自动构建个人知识库的智能体维基。
这篇论文提出了ReconPhys,一个能够从单目视频中联合学习物理属性估计和3D Gaussian Splatting重建的前馈框架。该方法通过自监督策略训练,无需物理标签,能够同时推断几何、外观和物理属性,显著提高了重建性能和速度。
这篇论文研究了记忆迁移学习(MTL)在编码智能体中的应用,通过利用来自不同域的统一记忆池,实现了跨域的记忆迁移。论文评估了四种记忆表示方法在六个编码基准上的性能,发现跨域记忆可以显著提高平均性能,主要通过迁移元知识而非特定任务的代码。实验结果表明,抽象层次越高,迁移效果越好,且记忆池的大小与迁移效果成正比。
这篇论文提出了Sema Code,一个可嵌入、可插件的AI编码框架,通过解耦核心推理引擎和客户端层,解决了企业跨不同工程环境重用AI编码能力的问题。Sema Code通过多种机制,如多租户引擎隔离、自适应上下文压缩等,将复杂的代理引擎转化为可共享的编程核心,并展示了其在不同产品形式中的应用。
这篇论文提出了一种衡量语言模型代理在探索和利用过程中的错误的方法。通过设计可控制的虚拟环境,论文实现了对探索和利用错误的量化评估,并发现即使是先进的语言模型在特定任务上也有困难,同时指出通过最小限度的工程调整可以显著提高探索和利用能力。
这篇论文通过实证研究探讨了AI编码代理的日志记录行为,与人类日志记录实践进行比较,并分析了自然语言指令对AI编码代理日志记录的影响。研究分析了4,550个代理的pull请求,发现AI编码代理的日志记录频率低于人类,且当记录时密度更高。此外,明确的日志记录指令很少且效果不佳,人类在日志生成后进行了大部分的修复工作。
这篇论文提出了PreRL,一种在预训练空间中进行强化学习的方法,通过优化边缘分布P(y)来解决基于验证奖励的强化学习在LLM推理中的局限性。PreRL使用负样本强化(NSR)来提高推理能力,并通过双空间强化学习(DSRL)策略实现更精细的优化。
这篇论文提出了一种名为RationalRewards的视觉生成奖励模型,通过在评分前提供明确的、多维度的批评,将奖励模型从被动的评估者转变为积极的优化工具。该模型通过使用Preference-Anchored Rationalization (PARROT)框架,从偏好数据中恢复高质量的推理,实现了在训练和测试时均能提高生成器的性能。
这篇论文提出了一种名为Free Geometry的框架,该框架允许前馈3D重建模型在测试时自我进化,无需任何3D地面实况。通过利用模型接收更多视图时产生更可靠和视图一致的重建的特性,Free Geometry通过自监督任务来强制执行跨视图特征一致性,从而实现快速重校准,显著提高了3D重建的准确性。
这篇论文提出了MERRIN,一个用于评估搜索增强代理在嘈杂网络环境中多模态证据检索和推理能力的基准。MERRIN通过自然语言查询、包含视频和音频等未充分探索的模态,以及要求检索复杂、常含噪声或冲突的多模态证据,来衡量AI代理的能力。实验结果表明,MERRIN对搜索代理来说极具挑战性,平均准确率仅为22.3%,而最佳表现者的准确率也只有40.1%。
这篇公告介绍了如何使用llama.cpp与各种小型OCR模型结合使用,这些模型可以在低端设备上运行,支持GPU和CPU,适用于需要OCR功能的多种应用。
Hugging Face通过使用Codex、开源OCR模型和Hugging Face Jobs,成功对30,000篇论文进行了OCR处理,使这些论文的Markdown版本可供用户在平台上进行交互。
商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。
这篇公告介绍了VAANI数据集,这是一个旨在解决语音识别在低资源语言中性能下降问题的项目。VAANI数据集通过大规模、地理基础的数据收集,系统地捕捉了语言多样性,包括区域口音、方言变化和社会语言多样性。该数据集旨在支持多语言和低资源语音研究,并强调数据质量对于多语言AI未来的重要性。
Nucleus AI发布了Nucleus-Image,一个基于稀疏混合专家的17B参数文本到图像扩散模型。该模型在GenEval、DPG-Bench和OneIG-Bench等基准测试中取得了优异的成绩,并且是首个在该质量级别上完全开源的MoE扩散模型。Nucleus-Image通过稀疏混合专家技术,将计算成本与容量分离,实现了高效能的图像生成。
这篇公告主要讨论了在评估模型时不应仅依赖推理提供商,而应使用transformers库定义的模型来运行评估。文章介绍了如何利用Hugging Face Hub和开源库来运行可靠的基准测试,并提供了使用HF-Jobs进行模型评估的示例。
Darwin-TTS-1.7B-Cross,世界上第一个跨模态LLM到TTS的FFN迁移模型,通过将LLM的3%权重移植到TTS模型中,实现了情感表达,且无需训练、数据和GPU时间进行微调。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
这篇博客详细介绍了在Transformer模型中处理张量维度的重要性,包括矩阵乘法、嵌入层、位置编码、解码器层和注意力机制等关键概念,旨在帮助读者更好地理解Transformer架构。
ALTK-Evolve是一个AI代理的长期记忆系统,旨在帮助AI代理通过从先前执行中生成的指南中学习和使用,从而随着时间的推移不断改进。它通过捕获代理的完整轨迹,将交互痕迹转换为候选指南,并过滤出高质量的实体,如指南、政策和SOPs,来提高代理的可靠性和泛化能力。
AI公司发布LiteCoder-Terminal-SFT,这是一个改进的性能的终端模型,包括11,255个轨迹的全训练数据集和602个开源的Harbor终端环境。该模型在多个终端基准测试中表现出色,并支持更广泛的领域覆盖。
easyaligner是一个用于文本和音频对齐的库,旨在简化对齐过程,提高灵活性和性能。它支持多种应用,包括创建交互式阅读体验、章节导航、关键词搜索、议会辩论记录的访问性以及AI模型训练数据集的创建。
暂无摘要
本文介绍了作者Niels Rogge如何利用编码智能体Codex将VidEoMT模型贡献到Hugging Face的Transformers库中,强调了自2025年12月以来编码智能体在代码编写能力上的显著提升,以及如何通过提供清晰的提示和利用文件系统等方法,有效指导智能体完成模型移植等任务。
Hugging Face公司发布了Holo3,这是其自主企业愿景的最新进化。Holo3在OSWorld-Verified基准测试中获得了78.85%的分数,成为桌面计算机使用基准的领先者。它通过专门的训练流程,结合感知和决策能力,旨在执行真实世界的业务场景,并为未来自主导航任何数字景观奠定基础。
Hugging Face 发布了 BidirLM,这是一种将生成式大型语言模型(LLM)转变为强大的双向编码器的方法。BidirLM 通过组合专门的因果模型并通过权重合并,将文本编码器转变为能够处理文本、图像和音频的单一紧凑模型,并在标准基准测试中击败了多模态和无模态的专家。
OpenAI 发布了名为 'Trusted Access for Cyber' 的计划,旨在加速网络防御生态系统的发展。该计划利用 GPT-5.4-Cyber 和 1000 万美元的 API 积分资助,旨在帮助软件开发者利用先进网络安全能力,并与多家知名企业和研究机构合作,共同提升全球网络安全。
OpenAI发布了GPT-Rosalind,一款专为生命科学研究和药物发现设计的前沿推理模型。该模型旨在加速生物学、药物发现和转化医学领域的研究,通过优化科学工作流程和增强对化学、蛋白质工程、基因组学的理解,帮助研究人员更快地完成研究流程,探索更多可能性。
OpenAI 发布了 Codex 应用重大更新,扩展其功能以支持开发者工作流,包括并行电脑操作、图像生成、记忆偏好、学习和承担重复性工作。更新后的 Codex 现在可以深度集成开发者工具,如PR审查、多文件/终端查看、SSH远程连接和内置浏览器,同时新增90多个插件,增强上下文获取和跨工具操作能力,显著提升软件开发生命周期效率。
这篇论文研究了使用RAG(检索增强生成)在问答任务中的性能提升预测。作者评估了预检索和后检索预测器,并发现了一种新的监督预测器,该预测器能够显式地建模问题、检索到的段落和生成的答案之间的语义关系,从而实现了最佳的预测质量。
这篇论文提出了一种名为TREX的多代理系统,用于自动化大型语言模型(LLM)的整个训练生命周期。该系统通过协作两个核心模块——研究员和执行者,实现了需求分析、文献和数据研究、训练策略制定、数据准备以及模型训练和评估。通过将多轮实验过程建模为搜索树,TREX能够高效地规划探索路径、重用历史结果,并从迭代试验中提炼高级见解。实验结果表明,TREX代理在目标任务上持续优化模型性能。
这篇论文通过严格的代数证明,揭示了Transformer架构的统计本质,表明普通最小二乘法(OLS)是单层线性Transformer的一种特殊情况。论文通过经验协方差矩阵的谱分解,构建了一个特定的参数设置,使得注意力机制的正向传播在数学上等同于OLS的闭式投影,从而实现一次正向传播解决问题。此外,论文还揭示了Transformer中的解耦慢速和快速记忆机制,并讨论了从线性原型到标准Transformer的演变过程。
这篇论文介绍了Earth Virtual Expert (EVE),一个开源的端到端框架,用于开发和部署针对地球情报的领域特定大型语言模型(LLM)。EVE的核心是EVE-Instruct,一个基于Mistral Small 3.2的24B模型,经过领域适应性调整,优化了推理和问答能力。EVE在新的地球观测和地球科学基准测试中优于同类模型,同时保留了通用能力。它还集成了RAG和幻觉检测管道,通过API和GUI部署,支持350个试点用户。
这篇论文提出了一种名为$\pi$-Play的多智能体自我演进框架,通过利用自我博弈产生的问答路径(QCP)作为特权上下文,实现了密集监督下的自我蒸馏,从而提高了自我博弈的学习效率,无需外部数据。
这篇论文研究了在自动形式化任务中,SFT-GRPO数据重叠作为后训练超参数的影响。通过对比不同数据重叠程度的训练方法,论文发现保持SFT和GRPO数据分离可以显著提高编译和语义准确性,并揭示了编译和语义之间的差距。
这篇论文提出了自适应记忆结晶化(AMC)方法,用于在动态环境中持续强化学习中的经验巩固。AMC受突触标记和捕获理论启发,将记忆视为一个连续的结晶化过程,通过多目标效用信号将经验从可塑状态迁移到稳定状态。论文证明了AMC的稳定性、收敛性和性能,并通过实验证明了其在多个任务上的有效性。