精选 69 篇,从 390+ 条中筛选
AI深度解读
LilaRest/gemma-4-31B-it-NVFP4-turbo:31B高效推理通用大模型
LilaRest/gemma-4-31B-it-NVFP4-turbo是一款基于Gemma-4-31B-IT-NVFP4的优化模型,旨在提供更高效的推理性能。该模型定位为通用大模型,具有68%更小的GPU内存占用和2.5倍更快的推理速度,同时保持接近原始模型的质量。它在MMLU和GPQA基准测试中表现出色,参数量为31B,上下文长度未明确提及。该模型适用于需要高性能推理的场景,如文本生成等,且支持NVIDIA Blackwell FP4 tensor cores,具有较好的硬件兼容性。
tencent/HY-Embodied-0.5:MoT架构多模态模型,VLA管道强感知
tencent/HY-Embodied-0.5是一款针对真实世界智能体设计的多模态基础模型,定位为多模态模型。其核心技术为Mixture-of-Transformers (MoT)架构,具有高效的2B模型和强大的32B模型。在16个基准测试中,2B模型表现优于同类模型,32B模型则达到前沿水平。该模型适用于视觉语言行动(VLA)管道,具有强大的空间时间视觉感知和复杂具身推理能力。
google/gemma-4-31B-it:31B参数多模态大模型
Gemma-4-31B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备高达 31B 的参数量和 256K 的上下文长度,支持文本、图像等多种输入和文本输出。其核心技术包括 Dense 和 MoE 架构,并针对移动设备进行了优化。在性能上,Gemma-4-31B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上具有显著优势。模型开源协议为 Apache 2.0,适用于从手机到服务器的多种部署环境。
zai-org/GLM-5.1:通用大模型,多语言处理强
GLM-5.1是一款定位在通用大模型领域的旗舰模型,具备强大的编码能力。其核心技术包括Transformer架构、MoE(多智能体)设计,支持多语言处理。在基准测试中,GLM-5.1在代码生成、数学推理等任务上表现出色。该模型适用于需要多语言支持和复杂任务处理的场景,具有开源协议、高效推理等实用特性。
🔥 dealignai/Gemma-4-31B-JANG_4M-CRACK
Gemma-4-31B-JANG_4M-CRACK是一款定位在通用大模型领域的模型,具有31B的参数量和18GB的模型大小。其核心技术包括Dense Transformer架构和Hybrid Sliding/Global Attention机制,支持多模态输入。在MMLU基准测试中,该模型保持了93.7%的合规性,显示出其在知识理解和推理方面的能力。该模型适用于需要高知识合规性和多模态处理的应用场景,如安全与渗透测试、代码生成等。其开源协议、硬件需求以及推理效率等特性使其在LLM领域具有差异化优势。
openbmb/VoxCPM2:2B参数,多语言,上下文感知语音合成
VoxCPM2是一款基于扩散自回归的文本到语音模型,具有2B参数,支持30种语言,输出48kHz音频。该模型无需分词器,能够根据自然语言描述生成新声音,克隆任何声音,并具有上下文感知的合成能力。它在HuggingFace平台上具有较高的下载量和点赞数,支持实时流式传输,并采用Apache-2.0开源协议。VoxCPM2在LLM生态中定位为多模态模型,其核心技术为VLM(语音语言模型),主要应用场景包括语音合成、语音克隆和语音设计。
Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2:高效Uncensored文本生成利器
Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 是一款针对 Apple Silicon 设计的快速、高效的文本生成模型。该模型基于 Gemma 4 26B,采用 MLX 4-bit 格式,具有 uncensored 特性,适用于代码生成、浏览器自动化、工具使用、规划和韩语等任务。它在基准测试中表现出色,尤其在代码生成和逻辑推理方面优于原始模型,同时保持了较高的生成速度。
MiniMaxAI/MiniMax-M2.7:大参数LLM,代码生成强
MiniMax-M2.7是一款定位在通用大模型范畴内的LLM,具有较大的参数量和较长的上下文长度。其核心技术基于transformers库,并引入了safetensors和custom_code等创新。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。开源协议为modified-mit,适合在多种硬件和推理框架上使用。
Qwen/Qwen3.6-35B-A3B:35B参数代码生成利器
Qwen3.6-35B-A3B是一款专注于代码生成的LLM,具有35B参数和10倍MoE结构,支持长达1,010,000个token的上下文。其核心能力在于Agentic Coding和Thinking Preservation,通过优化前端工作流程和推理上下文,提升开发效率。在性能上,模型在代码生成任务中表现出色,具有较好的稳定性和实用性。开源协议为Apache-2.0,与Hugging Face Transformers兼容。
unslath/Qwen3.6-35B-A3B-GGUF:图像文本转换强模
🔥 unsloth/Qwen3.6-35B-A3B-GGUF 是一款基于 Qwen3.6-35B-A3B 的开源模型,专注于图像到文本的转换。该模型定位为通用大模型,具有35B参数量和A3B架构,支持多模态输入。它在性能上表现出色,尤其在图像到文本转换任务中具有显著优势。模型采用Apache-2.0开源协议,适用于多种硬件平台,推理效率高,与vLLM等框架兼容。
tencent/HY-World-2.0:3D世界重建多模态模型
tencent/HY-World-2.0是一款专注于3D世界重建、生成和模拟的多模态世界模型。该模型定位为多模态模型,具有独特的图像到3D的转换能力。其核心技术包括世界模型、3D建模和图像处理。在性能表现上,模型在相关基准测试中表现出色,具有高效的开源协议和良好的硬件兼容性。主要应用场景包括3D内容创作、虚拟现实和增强现实。
unslath/ERNIE-Image-Turbo-GGUF:ERNIE-Image-Turbo高效多模态生成
ERNIE-Image-Turbo-GGUF是一款基于ERNIE-Image-Turbo的文本到图像生成模型,定位为多模态模型。它采用GGUF量化技术,通过Unsloth Dynamic 2.0方法实现SOTA性能。模型具有高精度的重要层,并使用ComfyUI-GGUF工具。在性能上,ERNIE-Image-Turbo-GGUF在权威基准测试中表现出色,具有高效的推理速度和良好的内容生成能力。适用于需要快速、高保真图像生成的场景。
baidu/ERNIE-Image:文本驱动图像生成,多模态创新
ERNIE-Image是一款由百度开发的开放文本到图像生成模型,定位为多模态模型。它基于单流扩散Transformer(DiT)架构,具有8B参数量,在保持视觉质量的同时,提供精确的内容实现和可控性。该模型在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,适用于商业海报、漫画等多媒体内容创作。性能上,ERNIE-Image在开放权重文本到图像模型中达到最先进的水平。其开源协议为Apache-2.0,适合对图像质量和内容精确性有较高要求的场景。
OBLITERATUS/gemma-4-E4B-it-OBLITERATED:高 uncensored 文本生成,拒绝率近零
OBLITERATUS/gemma-4-E4B-it-OBLITERATED是一款专注于文本生成的通用大模型,基于Google的Gemma 4 E4B模型,通过OBLITERATUS技术进行强化。该模型具有极高的 uncensored 特性,拒绝率几乎为零,同时在代码生成能力上有所提升。模型在训练数据上进行了扩展,增加了多个类别,包括药物合成、黑客攻击、武器等。性能上,相较于原始模型,OBLITERATED v2在拒绝率上有了显著提升,同时在代码生成能力上有所增强。
baidu/ERNIE-Image-Turbo:快速高保真文本图像生成
ERNIE-Image-Turbo是一款由百度开发的开放文本到图像生成模型,定位为多模态模型。它基于ERNIE-Image,采用单流Diffusion Transformer架构,具有快速生成和强保真度的特点。该模型在复杂指令遵循、文本渲染和结构化图像生成方面表现出色,适用于海报、漫画等多媒体内容创作。性能上,ERNIE-Image-Turbo在8个推理步骤内提供高质量生成,适合对延迟敏感的应用。其开源协议为Apache-2.0,适合在多种硬件和推理框架上使用。
NucleusAI/Nucleus-Image:稀疏MoE高效生成图像
Nucleus-Image是一款基于稀疏混合专家(MoE)扩散变换器架构的文本到图像生成模型,定位为多模态模型。其核心技术包括稀疏MoE架构,参数量高达17B,但每个前向传递仅激活约2B参数,实现了高效能。在GenEval、DPG-Bench和OneIG-Bench等基准测试中,Nucleus-Image的性能与Qwen-Image、GPT Image 1等领先模型相当。该模型开源,支持多种输出尺寸,适用于图像生成等场景。
Comfy-Org/ERNIE-Image:ERNIE架构多模态LLM,高效交互
Comfy-Org/ERNIE-Image是一款基于ERNIE架构的多模态模型,定位为多模态LLM。该模型采用ERNIE架构,具有丰富的上下文长度和参数量,适用于图像和文本的多模态交互任务。在性能上,ERNIE-Image在多个基准测试中表现出色,具有较好的推理效率和兼容性。模型开源协议为Apache-2.0,适用于需要多模态交互的复杂场景。
nvidia/Lyra-2.0:3D世界生成利器
Lyra-2.0是一款专注于生成持久、可探索的3D世界的框架,属于多模态模型。其核心技术包括长程视频合成和3D重建,具有强全局几何一致性。性能方面,Lyra-2.0在单图像3D场景生成领域达到新水平。模型定位为多模态模型,主要应用场景为3D世界生成和探索。其开源协议为NVIDIA内部科学研究与发展模型许可,硬件需求较高,推理效率依赖于具体应用。
Reinforcement Learning via Value Gradient Flow
这篇论文提出了Value Gradient Flow (VGF),一种用于行为正则化强化学习的新方法。VGF通过将行为正则化强化学习视为最优传输问题,将参考分布映射到价值诱导的最优策略分布,并通过离散梯度流解决传输问题。这种方法消除了显式的策略参数化,同时保持了表达性和灵活性,从而实现了自适应测试时间缩放。实验表明,VGF在离线强化学习和语言模型强化学习任务上取得了最先进的结果。
超越提示:无条件3D逆变换应对分布外形状
这篇论文提出了一种无条件3D逆变换方法,用于处理生成模型在处理非分布数据时的不敏感性。通过分析生成模型的采样轨迹,论文发现即使模型对文本提示不敏感,也能通过其无条件的生成先验来表示和生成复杂几何形状,从而实现更鲁棒的基于文本的3D形状编辑。
三相变压器
这篇论文提出了Three-Phase Transformer(3PT),一种针对解码器仅Transformer的残差流结构先验。该方法通过将隐藏向量划分为N个等大小的循环通道,并使用相位尊重的操作来提高Transformer的性能。
An Optimal Transport-driven Approach for Cultivating Latent Space in Online Incremental Learning
这篇论文提出了一种基于最优传输理论(Optimal Transport)的在线增量学习框架(MMOT),用于培养在线增量学习中的潜在空间。该方法通过动态地更新潜在空间中的中心点来适应数据分布的变化,同时设计了一种动态保护策略来维持类别的可分离性,从而提高了对复杂数据流的表征和学习新任务时的样本相似性估计。
Boosting Visual Instruction Tuning with Self-Supervised Guidance
这篇论文提出了一种通过自监督指导来增强视觉指令微调的方法,通过将旋转预测、颜色匹配和跨视图对应等经典自监督前缀任务重新表述为图像-指令-响应三元组,从而在不依赖视觉证据的情况下提供监督。这种方法不需要人工标注、架构修改或额外的训练阶段,通过在训练数据分布中进行简单的调整,可以显著提高视觉语言模型在视觉中心任务上的性能。
RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography
暂无摘要
Don't Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG
暂无摘要
Representations Before Pixels: Semantics-Guided Hierarchical Video Prediction
暂无摘要
Switch-KD: Visual-Switch Knowledge Distillation for Vision-Language Models
暂无摘要
TRACER: Trace-Based Adaptive Cost-Efficient Routing for LLM Classification
暂无摘要
GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens
暂无摘要
HiVLA: A Visual-Grounded-Centric Hierarchical Embodied Manipulation System
暂无摘要
Dive into Claude Code: The Design Space of Today's and Future AI Agent Systems
暂无摘要
Hugging Face高效OCR处理30K论文,Markdown交互平台上线
Hugging Face通过使用Codex、开源OCR模型和Hugging Face Jobs,成功对30,000篇论文进行了OCR处理,使这些论文的Markdown版本可供用户在平台上进行交互。
商汤联手南洋理工,NEO-unify革新多模态AI学习
商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。
Using OCR models with llama.cpp
这篇公告介绍了如何使用llama.cpp与各种小型OCR模型结合使用,这些模型可以在低端设备上运行,支持GPU和CPU,适用于需要OCR功能的多种应用。
VAANI数据集揭秘:语音AI助力低资源语言突破
这篇公告介绍了VAANI数据集,这是一个旨在解决语音识别在低资源语言中性能下降问题的项目。VAANI数据集通过大规模、地理基础的数据收集,系统地捕捉了语言多样性,包括区域口音、方言变化和社会语言多样性。该数据集旨在支持多语言和低资源语音研究,并强调数据质量对于多语言AI未来的重要性。
NucleusAI发布Nucleus-Image:17B参数MoE扩散模型引领开源潮流
Nucleus AI发布了Nucleus-Image,一个基于稀疏混合专家的17B参数文本到图像扩散模型。该模型在GenEval、DPG-Bench和OneIG-Bench等基准测试中取得了优异的成绩,并且是首个在该质量级别上完全开源的MoE扩散模型。Nucleus-Image通过稀疏混合专家技术,将计算成本与容量分离,实现了高效能的图像生成。
AI评估新风向:告别单一基准,拥抱开源模型测试
这篇公告主要讨论了在评估模型时不应仅依赖推理提供商,而应使用transformers库定义的模型来运行评估。文章介绍了如何利用Hugging Face Hub和开源库来运行可靠的基准测试,并提供了使用HF-Jobs进行模型评估的示例。
AI达人突破!Darwin-TTS仅用3%LLM脑力,TTS模型情感表达惊艳亮相
Darwin-TTS-1.7B-Cross,世界上第一个跨模态LLM到TTS的FFN迁移模型,通过将LLM的3%权重移植到TTS模型中,实现了情感表达,且无需训练、数据和GPU时间进行微调。
用户揭秘:abliteration技术解锁LLM无审查响应新境界
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
AI达人揭秘:KV缓存加速Transformer推理
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
用户名揭秘:Transformer模型中张量维度处理技巧
这篇博客详细介绍了在Transformer模型中处理张量维度的重要性,包括矩阵乘法、嵌入层、位置编码、解码器层和注意力机制等关键概念,旨在帮助读者更好地理解Transformer架构。
AI代理学习新高度:ALTK-Evolve赋能长期记忆与智能进化
ALTK-Evolve是一个AI代理的长期记忆系统,旨在帮助AI代理通过从先前执行中生成的指南中学习和使用,从而随着时间的推移不断改进。它通过捕获代理的完整轨迹,将交互痕迹转换为候选指南,并过滤出高质量的实体,如指南、政策和SOPs,来提高代理的可靠性和泛化能力。
AI公司发布LiteCoder-Terminal-SFT终端模型,性能卓越多领域覆盖
AI公司发布LiteCoder-Terminal-SFT,这是一个改进的性能的终端模型,包括11,255个轨迹的全训练数据集和602个开源的Harbor终端环境。该模型在多个终端基准测试中表现出色,并支持更广泛的领域覆盖。
AI达人发布easyaligner:文本音频对齐利器
easyaligner是一个用于文本和音频对齐的库,旨在简化对齐过程,提高灵活性和性能。它支持多种应用,包括创建交互式阅读体验、章节导航、关键词搜索、议会辩论记录的访问性以及AI模型训练数据集的创建。
PyTorch+Hugging Face助你微调LLM,轻松实现尤达语翻译
本文详细介绍了如何使用PyTorch和Hugging Face工具微调大型语言模型(LLM),以将英文翻译成尤达语(Yoda-speak)。通过量化模型、设置低秩适配器(LoRA)、格式化数据集以及使用Hugging Face的`trl`库中的`SFTTrainer`进行监督式微调,展示了整个过程。LoRA技术允许在量化模型上进行高效训练,显著减少了可训练参数的数量,使其仅占原始大小的1%或更少,从而能在资源有限的消费级GPU上进行训练。
用户揭秘DeepSeek-R1:轻松掌握PPO与GRPO算法,强化学习零基础入门
这篇公告深入解析了DeepSeek-R1,解释了如何通过PPO和GRPO算法理解强化学习,无需任何先前的强化学习知识。文章通过类比学校考试场景,详细介绍了奖励机制、价值函数、剪辑操作、参考模型和GRPO算法的工作原理。
NielsRogge用Codex助力VidEoMT模型加入Transformers库
本文介绍了作者Niels Rogge如何利用编码智能体Codex将VidEoMT模型贡献到Hugging Face的Transformers库中,强调了自2025年12月以来编码智能体在代码编写能力上的显著提升,以及如何通过提供清晰的提示和利用文件系统等方法,有效指导智能体完成模型移植等任务。
Holo3破局计算机使用前沿 Hugging Face引领AI新纪元
Hugging Face公司发布了Holo3,这是其自主企业愿景的最新进化。Holo3在OSWorld-Verified基准测试中获得了78.85%的分数,成为桌面计算机使用基准的领先者。它通过专门的训练流程,结合感知和决策能力,旨在执行真实世界的业务场景,并为未来自主导航任何数字景观奠定基础。
APEX-MEM:具备时间推理的智能半结构化记忆长期对话AI
这篇论文提出了APEX-MEM,一个结合了领域无关本体、仅追加存储和多工具检索代理的对话记忆系统,旨在解决大型语言模型在长期对话中可靠记忆的问题。它通过结构化属性图来组织对话,并使用多工具检索代理来处理信息冲突和演变,从而在查询时提供紧凑且相关的记忆摘要。
重新定义AI硬件:自主智能体三层认知架构
这篇论文提出了Tri-Spirit架构,这是一种三层认知框架,将智能分解为规划、推理和执行三个层次,每个层次映射到不同的计算子层,并通过异步消息总线进行协调。该架构通过参数化路由策略、习惯编译机制、收敛内存模型和显式安全约束来形式化系统,并在2000个合成任务中与云中心和边缘仅有的基线进行了比较,显著减少了任务延迟、能耗和LLM调用。
SAGE Celer 2.6技术卡
SAGE Celer 2.6 是 SAGEA 公司推出的一款通用 Celer 模型,通过架构修改和额外的预训练,结合逆推理管道,实现了在复杂推理任务中的低错误率和幻觉最小化。该模型具备端到端视觉编码和多模态功能,并在数学、编码和通用智能基准测试中表现出色,同时优化了南亚语言支持。
HiVLA:视觉驱动分层具身操作系统
这篇论文提出了HiVLA,一个视觉中心化的分层机器人操作系统,通过解耦高级语义规划和低级运动控制,实现了视觉语言动作(VLA)模型的零样本推理能力,并在模拟和现实世界中显著优于现有端到端基准。
DharmaOCR:超越开源与商业基准的专用OCR小型语言模型
这篇论文介绍了DharmaOCR Full和Lite,这是一对专门的小型语言模型(SSLMs),用于结构化OCR,旨在优化转录质量、生成稳定性和推理成本。论文还提出了DharmaOCR-Benchmark,这是一个涵盖印刷、手写和法律/行政文件的基准,并提出了一个统一的评估协议,该协议测量保真度和结构,同时将文本退化作为一个一级基准指标。通过直接偏好优化(DPO)和监督微调(SFT),论文显著降低了退化率,同时保持了或提高了提取质量。
MARS²:基于强化学习的多智能体树搜索扩展用于代码生成
这篇论文提出了MARS$^2$,一个基于强化学习的多智能体树搜索框架,用于代码生成。MARS$^2$通过多个独立优化的智能体在共享的树结构搜索环境中协作,以生成和优化候选解决方案,并通过路径级群体优势公式实现有效的信用分配,从而提高强化学习在代码生成任务中的性能。
Text2Arch:自然语言生成科学架构图数据集
这篇论文提出了一个名为 \system 的数据集,用于从自然语言描述中生成科学架构图。该数据集包括科学架构图像、相应的文本描述和相关的DOT代码表示。研究者利用这个数据集对小型语言模型进行微调,并使用GPT-4o进行上下文学习,实验结果表明,\system 模型在性能上显著优于现有的基线模型,如DiagramAgent,并且与基于GPT-4o的上下文学习生成结果相当。
神经预言家:轨迹感知智能RAG框架助力癫痫手术预后解读
这篇论文提出了一种名为Neuro-Oracle的框架,用于通过分析手术前后MRI变化轨迹来预测耐药性癫痫的术后癫痫发作结果。该框架利用3D Siamese对比编码器提取轨迹向量,通过最近邻搜索从人群档案中检索相似轨迹,并使用量化Llama-3-8B推理代理生成基于证据的自然语言预后。
IG-Search:搜索增强推理的步级信息增益奖励
这篇论文提出了IG-Search,一种基于信息增益的强化学习框架,用于训练大型语言模型进行搜索增强推理。该方法通过在每个搜索步骤引入基于信息增益的奖励,提高了模型对搜索查询有效性的识别能力,并在多个问答基准测试中实现了显著的性能提升。