精选 69 篇,从 890+ 条中筛选
AI深度解读
google/gemma-4-26B-A4B-it:通用大模型,多模态处理强
Gemma-4-26B-A4B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备强大的推理和编码能力,支持文本、图像等多种输入,并生成文本输出。其核心能力包括扩展的多模态处理、Dense 和 MoE 架构、优化的设备本地执行等。在性能上,Gemma-4-26B-A4B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上。模型适用于需要高效率、高准确性的场景,如文本生成、编码和推理等。
HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive:无审查图像-文本转换多模态模型
HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive 是一款专注于图像-文本转换的多模态模型,具有无审查、Gemma-4架构的特点。该模型在HuggingFace平台上具有较高的下载量和点赞数,支持多语言,并具有音频和视觉处理能力。其在性能上表现出色,能够生成无审查的内容,适用于需要处理图像和文本数据的场景。模型具有开源协议,对硬件要求较高,推理效率中等。
LilaRest/gemma-4-31B-it-NVFP4-turbo:31B高效推理通用大模型
LilaRest/gemma-4-31B-it-NVFP4-turbo是一款基于Gemma-4-31B-IT-NVFP4的优化模型,旨在提供更高效的推理性能。该模型定位为通用大模型,具有68%更小的GPU内存占用和2.5倍更快的推理速度,同时保持接近原始模型的质量。它在MMLU和GPQA基准测试中表现出色,参数量为31B,上下文长度未明确提及。该模型适用于需要高性能推理的场景,如文本生成等,且支持NVIDIA Blackwell FP4 tensor cores,具有较好的硬件兼容性。
tencent/HY-Embodied-0.5:MoT架构多模态模型,VLA管道强感知
tencent/HY-Embodied-0.5是一款针对真实世界智能体设计的多模态基础模型,定位为多模态模型。其核心技术为Mixture-of-Transformers (MoT)架构,具有高效的2B模型和强大的32B模型。在16个基准测试中,2B模型表现优于同类模型,32B模型则达到前沿水平。该模型适用于视觉语言行动(VLA)管道,具有强大的空间时间视觉感知和复杂具身推理能力。
google/gemma-4-31B-it:31B参数多模态大模型
Gemma-4-31B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备高达 31B 的参数量和 256K 的上下文长度,支持文本、图像等多种输入和文本输出。其核心技术包括 Dense 和 MoE 架构,并针对移动设备进行了优化。在性能上,Gemma-4-31B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上具有显著优势。模型开源协议为 Apache 2.0,适用于从手机到服务器的多种部署环境。
google/gemma-4-E4B-it:多模态大语言模型,多语言支持
Gemma-4-E4B-it是一款由Google DeepMind开发的通用多模态大语言模型,支持文本和图像输入,并生成文本输出。该模型具有高达256K的上下文窗口,支持超过140种语言。它采用Dense和MoE架构,适用于文本生成、编码和推理等任务。Gemma-4-E4B-it在代码生成、数学推理和指令遵循等方面表现出色,同时支持本地设备上的高效执行。该模型在Hugging Face平台上具有广泛的下载量和点赞数,表明其在LLM领域的受欢迎程度。
zai-org/GLM-5.1:通用大模型,多语言处理强
GLM-5.1是一款定位在通用大模型领域的旗舰模型,具备强大的编码能力。其核心技术包括Transformer架构、MoE(多智能体)设计,支持多语言处理。在基准测试中,GLM-5.1在代码生成、数学推理等任务上表现出色。该模型适用于需要多语言支持和复杂任务处理的场景,具有开源协议、高效推理等实用特性。
🔥 dealignai/Gemma-4-31B-JANG_4M-CRACK
Gemma-4-31B-JANG_4M-CRACK是一款定位在通用大模型领域的模型,具有31B的参数量和18GB的模型大小。其核心技术包括Dense Transformer架构和Hybrid Sliding/Global Attention机制,支持多模态输入。在MMLU基准测试中,该模型保持了93.7%的合规性,显示出其在知识理解和推理方面的能力。该模型适用于需要高知识合规性和多模态处理的应用场景,如安全与渗透测试、代码生成等。其开源协议、硬件需求以及推理效率等特性使其在LLM领域具有差异化优势。
openbmb/VoxCPM2:2B参数,多语言,上下文感知语音合成
VoxCPM2是一款基于扩散自回归的文本到语音模型,具有2B参数,支持30种语言,输出48kHz音频。该模型无需分词器,能够根据自然语言描述生成新声音,克隆任何声音,并具有上下文感知的合成能力。它在HuggingFace平台上具有较高的下载量和点赞数,支持实时流式传输,并采用Apache-2.0开源协议。VoxCPM2在LLM生态中定位为多模态模型,其核心技术为VLM(语音语言模型),主要应用场景包括语音合成、语音克隆和语音设计。
MiniMaxAI/MiniMax-M2.7:大参数LLM,代码生成强
MiniMax-M2.7是一款定位在通用大模型范畴内的LLM,具有较大的参数量和较长的上下文长度。其核心技术基于transformers库,并引入了safetensors和custom_code等创新。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。开源协议为modified-mit,适合在多种硬件和推理框架上使用。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled:高效推理,结构化逻辑优化
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型通过从 Claude-4.6 Opus 中提取的 CoT 技术进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持文本生成。在性能上,模型在推理任务上表现出色,特别适合需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,适合在多种硬件和推理框架上使用。
HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive:9B参数大模型,无审查文本生成强
HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive 是一款通用大模型,具有9B参数和32层,支持多语言和上下文长度可扩展至1M。该模型在HuggingFace平台上具有较高下载量和点赞数,其核心能力在于无审查的文本生成,具有更强的拒绝处理能力。在性能表现上,该模型在MMLU、GPQA、IFEval等基准测试中表现良好,具有多模态支持,适用于需要无审查文本生成的场景。其开源协议为Apache-2.0,硬件需求较高,推理效率中等,与vLLM、TGI等流行推理框架兼容。
🔥 LGAI-EXAONE/EXAONE-4.5-33B
EXAONE-4.5-33B 是一款多模态扩展的通用大模型,具有33亿参数,包括1.2亿视觉编码器参数。其核心技术为结合视觉编码器的因果语言模型,支持多语言,具备图像-文本到文本的转换能力。在基准测试中表现出色,尤其在文档理解和韩语上下文推理方面优于同类模型。该模型适用于需要多模态理解和文本生成的场景,具有开源协议,对硬件要求较高,推理效率中等。
Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2:高效Uncensored文本生成利器
Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 是一款针对 Apple Silicon 设计的快速、高效的文本生成模型。该模型基于 Gemma 4 26B,采用 MLX 4-bit 格式,具有 uncensored 特性,适用于代码生成、浏览器自动化、工具使用、规划和韩语等任务。它在基准测试中表现出色,尤其在代码生成和逻辑推理方面优于原始模型,同时保持了较高的生成速度。
🔥 netflix/void-model
netflix/void-model是一款专注于视频编辑和视频修复的模型,定位为特定领域微调模型。它基于CogVideoX 3D Transformer架构,具有强大的视频修复能力,能够去除视频中的物体及其引起的所有交互,包括物理交互。该模型在视频修复领域表现出色,特别适用于视频编辑和视频生成任务。其性能在相关基准测试中表现良好,但具体排名未提及。模型开源,需要较高的GPU资源,推理效率较高。
🔥 unsloth/gemma-4-26B-A4B-it-GGUF
🔥 unsloth/gemma-4-26B-A4B-it-GGUF 是一款基于 Google DeepMind 的 Gemma 4 模型构建的多模态大语言模型。该模型定位为通用大模型,具有26B参数量,支持图像到文本的转换。其核心技术包括Transformer架构和Gemma 4基座模型,上下文长度未指定。在性能上,模型在MMLU、GPQA、IFEval等基准测试中表现出色。主要应用场景包括图像描述、文本生成等,具有开源Apache 2.0协议,适合在Unsloth Studio等平台上使用。
LiquidAI/LFM2.5-VL-450M:多模态通用大模型
LiquidAI/LFM2.5-VL-450M是一款多模态模型,定位为通用大模型。它基于更新的LFM2.5-350M骨干网络,具有强大的视觉和语言理解能力。该模型在多语言视觉理解、边界框预测和对象检测方面表现出色,支持文本输入的函数调用。在性能上,LFM2.5-VL-450M在权威基准测试中表现良好,具有32,768个token的上下文长度和65,536个token的词汇量。它适用于需要图像和文本理解的场景,如实时视频流字幕生成等。该模型开源,支持多种语言,具有较好的推理效率。
IceCache: Memory-efficient KV-cache Management for Long-Sequence LLMs
这篇论文提出了IceCache,一种内存高效的KV缓存管理策略,用于加速长序列LLMs的推理。通过语义标记聚类和分页注意力机制,IceCache在保持高准确率的同时,显著减少了内存占用,提高了CPU-GPU之间的数据传输效率。
TRACE: Capability-Targeted Agentic Training
这篇论文提出了TRACE,一个针对特定环境的能力导向的智能体训练系统。TRACE通过对比成功和失败的轨迹来自动识别缺乏的能力,并为每个能力生成一个针对性的训练环境,通过强化学习训练LoRA适配器,从而提高智能体在目标环境中的能力。
Efficient RL Training for LLMs with Experience Replay
这篇论文研究了在大型语言模型(LLM)的再训练过程中使用经验回放技术,挑战了传统观点,即只有最新的在线策略数据对于高性能至关重要。论文通过系统研究回放缓冲区的设计,提出了一个平衡新鲜度、样本多样性和生成成本的方法,并证明了在生成成本高昂的情况下,严格的在线策略采样并非最优。实验表明,设计良好的回放缓冲区可以显著减少推理计算量,同时保持或提升模型性能。
How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models
暂无摘要
Learning Long-term Motion Embeddings for Efficient Kinematics Generation
暂无摘要
SCOPE: Signal-Calibrated On-Policy Distillation Enhancement with Dual-Path Adaptive Weighting
暂无摘要
Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization
暂无摘要
Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series
暂无摘要
QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
暂无摘要
Polyglot Teachers: Evaluating Language Models for Multilingual Synthetic Data Generation
暂无摘要
Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models
暂无摘要
Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind
暂无摘要
Hugging Face高效OCR处理30K论文,Markdown交互平台上线
Hugging Face通过使用Codex、开源OCR模型和Hugging Face Jobs,成功对30,000篇论文进行了OCR处理,使这些论文的Markdown版本可供用户在平台上进行交互。
BidirLM: Turning Generative LLMs into the Best Open-Source Omnimodal Encoders
Hugging Face 发布了 BidirLM,这是一种将生成式大型语言模型(LLM)转变为强大的双向编码器的方法。BidirLM 通过组合专门的因果模型并通过权重合并,将文本编码器转变为能够处理文本、图像和音频的单一紧凑模型,并在标准基准测试中击败了多模态和无模态的专家。
Using OCR models with llama.cpp
这篇公告介绍了如何使用llama.cpp与各种小型OCR模型结合使用,这些模型可以在低端设备上运行,支持GPU和CPU,适用于需要OCR功能的多种应用。
商汤联手南洋理工,NEO-unify革新多模态AI学习
商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。
用户揭秘:abliteration技术解锁LLM无审查响应新境界
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
AI达人揭秘:KV缓存加速Transformer推理
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
VAANI数据集揭秘:语音AI助力低资源语言突破
这篇公告介绍了VAANI数据集,这是一个旨在解决语音识别在低资源语言中性能下降问题的项目。VAANI数据集通过大规模、地理基础的数据收集,系统地捕捉了语言多样性,包括区域口音、方言变化和社会语言多样性。该数据集旨在支持多语言和低资源语音研究,并强调数据质量对于多语言AI未来的重要性。
用户名揭秘:Transformer模型中张量维度处理技巧
这篇博客详细介绍了在Transformer模型中处理张量维度的重要性,包括矩阵乘法、嵌入层、位置编码、解码器层和注意力机制等关键概念,旨在帮助读者更好地理解Transformer架构。
AI评估新风向:告别单一基准,拥抱开源模型测试
这篇公告主要讨论了在评估模型时不应仅依赖推理提供商,而应使用transformers库定义的模型来运行评估。文章介绍了如何利用Hugging Face Hub和开源库来运行可靠的基准测试,并提供了使用HF-Jobs进行模型评估的示例。
NVIDIA发布Nemotron 3 Nano 4B:边缘AI新利器
NVIDIA发布Nemotron 3 Nano 4B,这是Nemotron 3系列中最紧凑的成员,采用混合Mamba-Transformer架构,专为边缘设备部署优化,提供高效、准确的小型语言模型,支持FP8和Q4_K_M GGUF量化,旨在降低模型大小和VRAM使用,提高吞吐量和降低延迟。
NielsRogge用Codex助力VidEoMT模型加入Transformers库
本文介绍了作者Niels Rogge如何利用编码智能体Codex将VidEoMT模型贡献到Hugging Face的Transformers库中,强调了自2025年12月以来编码智能体在代码编写能力上的显著提升,以及如何通过提供清晰的提示和利用文件系统等方法,有效指导智能体完成模型移植等任务。
A Review on the Evolvement of Load Balancing Strategy in MoE LLMs: Pitfalls and Lessons
暂无摘要
AI技术分析师揭秘:SO-101助力ACT模型训练全攻略
这篇公告详细记录了一位AI技术分析师在训练Action Chunking Transformer (ACT)模型上的经历,包括遇到的挑战、解决方案和经验教训。文章描述了如何使用SO-101机器人进行数据收集和训练,以及如何通过改进硬件设置、数据收集流程和评估流程来提高模型的性能。
LightOnAI发布轻量级OCR新模型LightOnOCR-2-1B
LightOn AI 发布了 LightOnOCR-2-1B,这是一个10亿参数的第二代端到端视觉-语言 OCR 模型,旨在将文档页面转换为高质量文本,同时提供轻量级布局信息。该模型在性能和速度上均优于同类产品,并支持Hugging Face Transformers生态系统,便于社区使用。
ArmBench-LLM 1.0: Benchmarking LLMs on Armenian Language Tasks
Metric AI Lab发布了ArmBench-LLM 1.0,这是一个全面评估大型语言模型在亚美尼亚语任务上表现的基准测试。该版本扩展了评估范围,包括多种任务和模型,并发布了API支出报告,强调了开源模型在亚美尼亚语任务上的竞争力。
AI公司发布LiteCoder-Terminal-SFT终端模型,性能卓越多领域覆盖
AI公司发布LiteCoder-Terminal-SFT,这是一个改进的性能的终端模型,包括11,255个轨迹的全训练数据集和602个开源的Harbor终端环境。该模型在多个终端基准测试中表现出色,并支持更广泛的领域覆盖。
Trusted access for the next era of cyber defense
OpenAI宣布扩大其网络防御可信访问(TAC)计划,推出GPT-5.4-Cyber模型,旨在通过民主化访问、迭代部署和生态系统弹性原则加强网络防御,同时支持数千名个人防御者和数百个团队,以应对AI在网络安全领域的挑战。
视频理解新突破:时空结构化与意图感知的RAG技术
这篇论文提出了VideoStir,一个针对长视频的检索增强生成(RAG)框架,通过时空结构化和意图感知的方法,解决了现有方法在处理长视频时的局限性,如视频结构的破坏和语义匹配的不足。
在位监测:基于Agent AI的线弧增材制造缺陷检测
这篇论文提出了一种基于代理的AI框架,用于在丝束电弧增材制造(WAAM)过程中进行原位过程监控和缺陷检测。该框架利用了WAAM过程监控数据集和训练好的分类工具来构建AI代理,并使用大型语言模型(LLM)进行缺陷检测的决策。通过结合处理代理和监控代理,实现了并行决策,提高了缺陷分类的准确性和效率。
超越LLM、稀疏分布式记忆与神经形态学
这篇论文提出了一种基于超维度计算架构的VaCoAl算法,通过结合超高维记忆和确定性逻辑,解决了现代AI中的灾难性遗忘、学习停滞和绑定问题,实现了可逆的多跳推理,并定义了HDC-AI这一新范式。
SpectralLoRA:低频结构能否满足LoRA自适应?权重更新频谱分析
这篇论文通过系统性的实证研究,分析了LoRA(Low-Rank Adaptation)权重更新的频谱结构。研究发现,LoRA更新主要由低频成分主导,通过仅保留10%的频率系数,可以减少10倍的适配器存储,同时只在SST-2上牺牲1.95pp的性能。此外,RoBERTa-base在所有任务上比BERT-base具有更高的频谱压缩性,任务复杂性影响着频谱敏感性。
MimicLM:伪平行语料库自回归建模实现零样本语音模仿
这篇论文提出了MimicLM,一种通过自回归模型对伪平行语音语料库进行建模的零样本语音模仿方法。它使用合成语音作为训练源,同时保留真实录音作为目标,以学习真实语音分布,从而突破合成语音质量上限。通过结合文本-音频建模和后训练偏好对齐,MimicLM在自然度和相似度方面均显著优于现有方法。
CROP:基于模型的离线策略优化保守奖励
这篇论文提出了一种名为CROP的基于模型的离线强化学习算法,旨在解决离线强化学习中由于分布偏移导致的奖励估计过估计问题。CROP通过最小化估计误差和随机动作的奖励,实现了一个稳健的保守奖励估计器,从而在保持保守策略评估的同时,缓解了分布偏移问题,并在实验中展示了与现有方法的竞争力。
跨语篇交互式对话Avatar生成:基于语境感知内核
这篇论文提出了一种基于对话音频上下文感知核的全双工交互式虚拟人物生成方法,通过引入多头高斯核来处理说话和倾听行为之间的时间尺度差异,实现了高度自然和响应的交互式数字人类生成。
老年成人使用CBD的检索增强大型语言模型证据指导
这篇论文提出了一种结合结构化提示工程和精选大麻二酚证据的检索增强大型语言模型框架,用于为老年人提供大麻二酚使用的上下文感知指导,并评估了其在敏感健康环境中的应用。
梦知行:为无家者打造的KG增强对话系统
这篇论文提出了一种名为DreamKG的知识图谱增强对话系统,旨在帮助无家可归者获取关于社区服务的及时、准确信息。该系统结合了Neo4j知识图谱和结构化查询理解,能够可靠地处理位置感知和时间敏感的查询,并通过空间推理和临时过滤提供基于距离的推荐和营业时间过滤。实验结果表明,DreamKG在相关查询上的表现优于Google Search AI,且在拒绝无关查询方面表现优异。