Hugging Face
2026-04-27
SeeSee21/Z-Anime是一款基于Z-Image Base架构的动漫风格图像生成模型,属于特定领域微调模型。该模型采用S3-DiT架构,具有丰富的动漫美学风格和强大的风格多样性。它在HuggingFace平台上的下载量和点赞数表明其受到社区的认可。模型在性能上表现出色,支持自然语言提示,适用于动漫风格的图像生成。其主要应用场景包括动漫艺术创作、游戏设计等。该模型开源,支持BF16、FP8等高效计算格式,对硬件要求较高,适合在具有强大计算能力的设备上运行。
Hugging Face
2026-05-03
Ling-2.6-flash是一款专注于推理效率、token效率和代理性能的指令模型,具有104B总参数和7.4B活跃参数。该模型采用混合线性架构,在4× H20设置上达到340 tokens/s的推理速度。在Artificial Analysis评估套件中,使用仅15M tokens即可实现与更大参数模型相当的性能。Ling-2.6-flash在BFCL-V4、TAU2-bench、SWE-bench等基准测试中表现出色,适用于代理场景,如工具使用、多步规划和任务执行。
Hugging Face
2026-04-28
Gemma-4-31B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备高达 31B 的参数量和 256K 的上下文长度,支持文本、图像等多种输入和文本输出。其核心技术包括 Dense 和 MoE 架构,并针对移动设备进行了优化。在性能上,Gemma-4-31B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上具有显著优势。模型开源协议为 Apache 2.0,适用于从手机到服务器的多种部署环境。
Hugging Face
2026-04-24
Qwen3.6-35B-A3B是一款专注于代码生成的LLM,具有35B参数和10倍MoE结构,支持长达1,010,000个token的上下文。其核心能力在于Agentic Coding和Thinking Preservation,通过优化前端工作流程和推理上下文,提升开发效率。在性能上,模型在代码生成任务中表现出色,具有较好的稳定性和实用性。开源协议为Apache-2.0,与Hugging Face Transformers兼容。
Hugging Face
2026-04-22
OpenAI Privacy Filter是一款专注于个人身份信息(PII)检测和屏蔽的token-classification模型,适用于高吞吐量数据清洗工作流程。该模型具有小型化、可微调、长上下文处理和运行时控制等特点,适用于需要快速、上下文感知且可调整的模型场景。它基于GPT-oss架构,具有1.5B参数,支持在浏览器或笔记本电脑上运行。该模型在性能和效率方面表现出色,适用于数据安全和隐私保护领域。
Hugging Face
2026-04-24
Qwen/Qwen3.6-27B是一款专注于代码生成的LLM,具有27B参数和64层结构。它具备前端工作流和仓库级推理的能力,上下文长度可扩展至1,010,000 tokens。该模型在Agentic Coding和Thinking Preservation方面有显著提升,适合开发者和研究人员使用。性能方面,具体基准测试结果未提供,但模型在代码生成和推理方面有优势。开源协议为Apache-2.0,与Hugging Face Transformers兼容。
Hugging Face
2026-04-27
DeepSeek-V4-Flash是一款面向高效百万token上下文理解的混合专家(MoE)语言模型。该模型具有284B参数,支持一百万token的上下文长度,采用混合注意力机制,结合压缩稀疏注意力(CSA)和重度压缩注意力(HCA)以提升长上下文效率。性能方面,模型在权威基准测试中表现优异,具有代码生成、数学推理、多语言能力等优势。开源协议为MIT,硬件需求较高,推理效率良好,与流行推理框架兼容。
Hugging Face
2026-04-22
🔥 unsloth/Qwen3.6-27B-GGUF 是一款基于 Qwen3.6-27B 的开源模型,专注于图像到文本的转换。该模型具有27B参数,上下文长度可达200K,采用GGUF技术进行量化,旨在提高推理效率。它在代码生成、数学推理等方面表现出色,适用于需要多模态交互的场景。模型遵循Apache-2.0开源协议,支持在Unsloth Studio中进行运行和微调。
Hugging Face
2026-04-29
MiMo-V2.5是一款定位在多模态模型领域的强大模型,具备处理文本、图像、视频和音频的能力。其核心技术包括混合注意力架构、原生多模态编码器以及多令牌预测。在性能方面,该模型在多模态感知、长上下文推理和代理工作流程方面表现出色。MiMo-V2.5适用于需要多模态理解和长上下文推理的场景,如视频理解、音频处理等。其开源协议为MIT,适合在多种硬件和推理框架上使用。
Hugging Face
2026-05-02
NVIDIA Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16是一款多模态大型语言模型,定位为通用大模型,具备视频、音频、图像和文本理解能力。该模型采用NVIDIA开发的Nemotron架构,结合了多种技术创新,如视频+语音理解、GUI、OCR和语音转录功能。性能上,模型在多个基准测试中表现出色,适用于企业级问答、摘要、转录和文档智能工作流程。主要应用场景包括客户服务、媒体娱乐、文档智能和GUI自动化等。
Hugging Face
2026-04-27
DeepSeek-V4-Pro是一款通用大模型,具有1.6T参数,支持一百万token的上下文长度。其核心技术为混合注意力机制,结合了压缩稀疏注意力和高度压缩注意力,显著提高了长上下文处理效率。性能方面,模型在MMLU、GPQA、IFEval等基准测试中表现出色。主要应用场景包括文本生成、对话系统等,具有开源协议、硬件需求适中、推理效率较高的特点。
Hugging Face
2026-05-03
Laguna-XS.2是一款定位在通用大模型领域的33B参数Mixture-of-Experts模型,专注于代码生成和长周期任务。其核心技术包括混合SWA和全局注意力布局、KV缓存FP8量化、本地推理支持等。在性能上,Laguna-XS.2在基准测试中表现出色,具有强大的推理效率和本地运行能力。主要应用场景包括代码生成、数学推理等,适合对性能和效率有较高要求的场景。
Hugging Face
2026-05-02
Mistral Medium 3.5 是一个通用大模型,具有128B参数量和256k的上下文长度。它支持指令遵循、推理和编码,具有多模态输入和输出能力。该模型在推理和编码任务上表现出色,支持多种语言,并具有强大的系统提示和代理能力。它在MMLU、GPQA、IFEval等基准测试中表现出色,适用于需要复杂推理和代码生成的场景。该模型开源,适用于商业和非商业用途,具有较好的硬件兼容性和推理效率。
Hugging Face
2026-04-23
talkie-1930-13b-it是一款基于talkie-1930-13b-base的指令微调语言模型,专注于1931年之前的英语文本。该模型具有13B参数,上下文长度未指定。它通过从1931年之前的参考作品中提取的指令-响应对进行微调,并使用强化学习技术提升指令遵循能力。模型在LLM生态中定位为特定领域微调模型,具有独特的时代背景和语言风格。在性能上,具体基准测试结果未提供,但模型在历史文献和复古风格文本处理方面具有潜在优势。开源协议为Apache-2.0,适用于对历史语言风格有特定需求的场景。
Hugging Face
2026-04-30
Kimi K2.6是一款开源的多模态智能模型,专注于长周期编码、编码驱动设计、自主执行和基于群体的任务编排。该模型在复杂编码任务上表现出色,能够生成生产级界面和全栈工作流程。其核心技术包括压缩张量、多代理和图像-文本到文本的管道。在性能方面,K2.6在多个基准测试中表现出色,具有强大的代码生成和设计能力。适用于需要高效编码和设计的场景,如软件开发和界面设计。
Hugging Face
2026-04-27
z-lab/Qwen3.6-27B-DFlash是一款定位在通用大模型领域的LLM,具有27B参数和3.6B的上下文长度。其核心技术包括DFlash和speculative-decoding,旨在提高推理效率。在性能上,该模型在多个基准测试中表现出色,具有高效的开源协议和良好的硬件兼容性,适用于需要高性能和高效推理的场景。
Hugging Face
2026-04-27
SenseNova-U1-8B-MoT是一款多模态模型,定位为通用大模型,具有强大的跨模态理解和生成能力。其核心技术为NEO-Unify架构,支持多模态数据直接处理,上下文长度大,参数量达到8B。在MMLU、GPQA等基准测试中表现优异。适用于图像编辑、文本到图像、图像到文本等多种场景,具有开源Apache-2.0协议,对硬件要求较高,推理效率较高。
Hugging Face
2026-05-03
Ling-2.6-1T是一款针对复杂任务设计的万亿参数旗舰模型,定位为通用大模型。其核心能力在于高效的推理、低token开销的快速思考和可靠的多步执行。技术特点包括混合架构、上下文处理优化和针对性的后训练策略。在基准测试中表现优异,适用于代码生成和日常工作流程。开源协议为MIT,与主流代理框架兼容。
Hugging Face
2026-04-20
🔥 unsloth/Qwen3.6-35B-A3B-GGUF 是一款基于 Qwen3.6-35B-A3B 的开源模型,专注于图像到文本的转换。该模型定位为通用大模型,具有35B参数量和A3B架构,支持多模态输入。它在性能上表现出色,尤其在图像到文本转换任务中具有显著优势。模型采用Apache-2.0开源协议,适用于多种硬件平台,推理效率高,与vLLM等框架兼容。
Hugging Face
2026-04-27
这篇论文介绍了Nemotron 3 Nano Omni,这是一个支持音频输入的多模态AI模型,它在文本、图像和视频处理方面都有显著的性能提升。该模型基于高效的Nemotron 3 Nano 30B-A3B架构,并采用了创新的模态token-reduction技术,以实现更低的推理延迟和更高的吞吐量。
Hugging Face
2026-04-29
这篇论文提出了一种针对计算机使用代理的步级优化方法,通过在交互过程中动态调整计算资源分配,以提高效率和减少错误。该方法通过检测风险并仅在必要时使用更强的模型,从而避免了在常规步骤中使用大型多模态模型,减少了计算成本和延迟。
Hugging Face
2026-04-29
这篇论文提出了ViPO,一个大规模视觉偏好优化数据集,并引入了Poly-DPO算法,通过动态调整模型置信度来提高视觉生成模型的偏好优化效果,解决了现有数据集噪声和低分辨率问题,显著提升了模型性能。
Hugging Face
2026-04-27
这篇论文提出了一种半监督学习方法,称为Semi-DPO,用于直接偏好优化。该方法通过处理一致对作为清洁标签数据,将冲突对视为噪声未标记数据,从而解决由于将多维偏好压缩为二元标签而产生的标签噪声问题。实验结果表明,Semi-DPO在性能上达到了最先进水平,并且与复杂的人类偏好对齐度显著提高。
Hugging Face
2026-04-30
这篇论文提出了FlashRT,一个针对长上下文大型语言模型(LLMs)的优化攻击框架,旨在提高基于优化的提示注入和知识篡改攻击的效率和内存使用效率,从而降低资源消耗,便于对LLMs进行系统性安全评估。
Hugging Face
2026-04-27
这篇论文研究了在特定领域对基础模型进行微调后,模型安全性的变化。通过分析100个模型在医疗和法律领域的微调版本,以及开放基础模型的控制适应版本,论文发现微调会导致模型安全性的显著变化,这些变化在不同评估指标上可能是一致的,也可能是不一致的,从而提出了对基于基础模型评估的治理和部署实践的质疑。
Hugging Face
2026-04-30
这篇论文提出了一种针对阿拉伯语及其方言的指令引导诗歌生成方法,通过构建一个大规模的指令数据集,并在此基础上微调大型语言模型(LLM),实现了基于用户要求的诗歌创作,包括写作、修改和续写诗歌,同时进行诗歌分析。
Hugging Face
2026-04-29
这篇论文研究了大型语言模型(LLMs)在推理过程中的可控性问题,通过分析推理冲突,即参数信息和上下文信息之间的矛盾,发现LLMs倾向于优先考虑合理性而非合规性,并提出通过激活级别的可控性来提高模型的合规性。
Hugging Face
2026-04-30
这篇论文提出了Claw-Eval-Live,一个实时基准测试平台,用于评估能够适应真实世界工作流程变化的智能体。该平台通过分离可刷新的信号层和可重现的发布快照,记录执行痕迹、审计日志、服务状态和运行后工作空间工件,以评估智能体的执行效果。
Hugging Face
2026-04-29
本文提出了一种名为RoundPipe的新型流水线调度方法,用于在多消费级GPU上高效训练大型语言模型。该方法通过动态分配计算阶段,解决了现有流水线并行调度中的权重绑定问题,显著提高了训练速度。
Hugging Face
2026-04-29
这篇论文提出了Length Value Model(LenVM),一种基于token级别的长度建模框架,通过将长度建模作为价值估计问题,并赋予每个生成的token一个恒定的负奖励,LenVM能够预测一个有界、折扣的回报,作为剩余生成长度的单调代理。实验表明,LenVM在LLMs和VLMs上提供了有效的信号,显著提高了长度匹配任务的性能。
Hugging Face
2026-04-30
这篇论文提出了一种基于验证器强化学习的图像编辑框架,通过构建一个思维链(CoT)验证器推理奖励模型(RRM)来改进图像编辑任务。该方法通过将指令分解为不同的原则,评估编辑后的图像是否符合每个原则,并汇总这些检查以生成可解释的、细粒度的奖励。实验结果表明,该方法在图像编辑任务上优于现有的VLM模型,并显著提升了编辑模型的表现。
Hugging Face
2026-04-30
这篇论文提出了ExoActor,一个利用大规模视频生成模型来模拟人形机器人与环境和任务相关对象之间交互行为的框架。ExoActor通过第三人称视频生成来统一建模交互动态,将任务指令和场景上下文转化为可执行的人形机器人行为序列,展示了在无需额外真实世界数据收集的情况下,对新场景的泛化能力。
Hugging Face
2026-04-29
这篇论文提出了Co-Evolving Policy Distillation(CoPD)方法,通过并行训练专家并在每个专家的持续RLVR训练中引入OPD,使专家作为相互的教师,实现双向进化,从而在整合文本、图像和视频推理能力方面取得了显著成果。
Hugging Face
2026-04-30
这篇论文提出了InteractWeb-Bench,一个针对非专家低代码用户条件下的多模态交互式网站生成基准。该基准旨在解决语义不匹配导致的盲执行问题,通过引入用户代理和指令扰动来模拟多样化的用户行为,并开发了一个交互式执行环境,以促进意图细化、代码合成和基于视觉反馈的验证。
Hugging Face
2026-04-30
这篇论文提出了MoCapAnything V2,一个端到端的人体运动捕捉框架,通过直接从视频预测关节位置和旋转,解决了传统方法中存在的旋转模糊性和非可微逆运动学阶段的问题,显著提高了运动捕捉的准确性和效率。
Hugging Face
2026-04-29
这篇论文提出了Agent-Native Research Artifact (ARA),一种新的研究协议,旨在通过机器可执行的研究包来替代传统的线性叙事论文。ARA包含科学逻辑、完整规格的执行代码、探索图和证据基础,以解决科学出版物中存在的叙事税和工程税问题,从而提高AI对研究工作的理解和扩展能力。
Hugging Face
2026-04-30
这篇论文提出了PhyCo,一个用于生成运动视频的框架,它通过引入连续、可解释和物理基础的先验知识,解决了现代视频扩散模型在物理一致性方面的不足。PhyCo通过大规模数据集、物理监督微调和视觉语言模型引导的奖励优化,实现了物理一致性和可控性的生成视频。
Hugging Face
2026-04-30
该论文提出了一种名为World2Minecraft的方法,通过3D语义占用预测将真实世界场景转换为结构化的Minecraft环境,以支持感知和决策。该方法通过自动化和可扩展的数据采集管道创建定制的占用数据集,并展示了其在视觉语言导航(VLN)任务中的有效性。
Hugging Face
2026-04-30
这篇论文提出了Intern-Atlas,一个基于方法演化图的AI研究基础设施,旨在解决现有研究基础设施中缺乏对方法演化结构的显式表示的问题。Intern-Atlas通过自动识别方法级实体、推断方法之间的谱系关系以及捕捉推动创新间过渡的瓶颈,构建了一个可查询的因果网络。该系统从涵盖AI会议、期刊和arXiv预印本的1030,314篇论文中构建,并提出了一个自引导的时间树搜索算法来构建演化链,以追踪方法随时间的发展。