🔥 netflix/void-model
netflix/void-model是一款专注于视频编辑和视频修复的模型,定位为特定领域微调模型。它基于CogVideoX 3D Transformer架构,具有强大的视频修复能力,能够去除视频中的物体及其引起的所有交互,包括物理交互。该模型在视频修复领域表现出色,特别适用于视频编辑和视频生成任务。其性能在相关基准测试中表现良好,但具体排名未提及。模型开源,需要较高的GPU资源,推理效率较高。
精选 69 篇,从 460+ 条中筛选
netflix/void-model是一款专注于视频编辑和视频修复的模型,定位为特定领域微调模型。它基于CogVideoX 3D Transformer架构,具有强大的视频修复能力,能够去除视频中的物体及其引起的所有交互,包括物理交互。该模型在视频修复领域表现出色,特别适用于视频编辑和视频生成任务。其性能在相关基准测试中表现良好,但具体排名未提及。模型开源,需要较高的GPU资源,推理效率较高。
tencent/HY-OmniWeaving是一款基于tencent/HunyuanVideo-1.5的通用大模型,具备多模态扩展能力。该模型采用自由式组合和推理技术,在视频生成方面具有显著优势。模型参数量、上下文长度等规格尚未明确,但已在HuggingFace平台上获得213个点赞。在性能表现上,具体基准测试结果未提供,但模型在视频生成领域具有创新性。主要应用场景包括视频内容创作和编辑,使用时需考虑开源协议、硬件需求等因素。
Gemma-4-26B-A4B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备强大的推理和编码能力,支持文本、图像等多种输入,并生成文本输出。其核心能力包括扩展的多模态处理、Dense 和 MoE 架构、优化的设备本地执行等。在性能上,Gemma-4-26B-A4B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上。模型适用于需要高效率、高准确性的场景,如文本生成、编码和推理等。
🔥 unsloth/gemma-4-26B-A4B-it-GGUF 是一款基于 Google DeepMind 的 Gemma 4 模型构建的多模态大语言模型。该模型定位为通用大模型,具有26B参数量,支持图像到文本的转换。其核心技术包括Transformer架构和Gemma 4基座模型,上下文长度未指定。在性能上,模型在MMLU、GPQA、IFEval等基准测试中表现出色。主要应用场景包括图像描述、文本生成等,具有开源Apache 2.0协议,适合在Unsloth Studio等平台上使用。
Gemma-4-31B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备高达 31B 的参数量和 256K 的上下文长度,支持文本、图像等多种输入和文本输出。其核心技术包括 Dense 和 MoE 架构,并针对移动设备进行了优化。在性能上,Gemma-4-31B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上具有显著优势。模型开源协议为 Apache 2.0,适用于从手机到服务器的多种部署环境。
Gemma-4-31B-JANG_4M-CRACK是一款定位在通用大模型领域的模型,具有31B的参数量和18GB的模型大小。其核心技术包括Dense Transformer架构和Hybrid Sliding/Global Attention机制,支持多模态输入。在MMLU基准测试中,该模型保持了93.7%的合规性,显示出其在知识理解和推理方面的能力。该模型适用于需要高知识合规性和多模态处理的应用场景,如安全与渗透测试、代码生成等。其开源协议、硬件需求以及推理效率等特性使其在LLM领域具有差异化优势。
Bonsai-8B-GGUF-1bit 是一款基于 llama.cpp 的端到端 1 位语言模型,具有高效率、低能耗的特点。该模型定位为通用大模型,采用 1 位权重和 GGUF Q1_0_g128 格式,参数量仅为 1.15 GB,适合在多种平台上运行。其在 6 个类别上的平均得分为 70.5,与全精度 8B 模型相当,但体积缩小了 14 倍。该模型适用于需要高性能和低功耗的场景,如移动设备和边缘计算。
Holo3-35B-A3B是一款专注于GUI Agent的视觉语言模型,属于多模态模型类别。该模型采用35B参数的稀疏MoE架构,基于Qwen3.5-35B-A3B进行微调,具有强大的视觉理解和文本推理能力。在OSWorld-Verified基准测试中达到77.8%的分数,展现出在计算机使用和网页导航方面的卓越性能。模型适用于需要多模态交互和复杂推理的场景,如企业级应用和智能导航系统。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型通过从 Claude-4.6 Opus 中提取的 CoT 技术进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持文本生成。在性能上,模型在推理任务上表现出色,特别适合需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,适合在多种硬件和推理框架上使用。
Gemma-4-E4B-it是一款由Google DeepMind开发的通用多模态大语言模型,支持文本和图像输入,并生成文本输出。该模型具有高达256K的上下文窗口,支持超过140种语言。它采用Dense和MoE架构,适用于文本生成、编码和推理等任务。Gemma-4-E4B-it在代码生成、数学推理和指令遵循等方面表现出色,同时支持本地设备上的高效执行。该模型在Hugging Face平台上具有广泛的下载量和点赞数,表明其在LLM领域的受欢迎程度。
🔥 unsloth/gemma-4-31B-it-GGUF 是一款基于 Google DeepMind 的 Gemma 4 模型构建的多模态 LLM,具有 31B 参数。该模型在 HuggingFace 平台上以 image-text-to-text 的 Pipeline 运行,支持在 Unsloth Studio 中运行和微调。其核心能力在于处理文本和图像,具有开源 Apache 2.0 许可协议。在性能上,Gemma 4 在多个基准测试中表现出色,尤其在多模态任务上具有显著优势。适用于需要多模态处理和图像文本转换的应用场景。
Jackrong/Qwopus3.5-9B-v3-GGUF是一款推理增强型模型,基于Qwen3.5-9B,旨在提升推理稳定性和正确性,优化推理效率,实现更强的跨任务泛化能力。该模型在HumanEval基准测试中表现出色,尤其在编程任务上具有显著优势。模型定位为推理模型,核心技术为推理增强和结构对齐,性能表现在同类模型中处于领先地位。主要应用场景包括代码生成、数学推理等,适合对推理能力要求较高的场景。
Qianfan-OCR是一款由百度Qianfan团队开发的4B参数端到端文档智能模型,定位为多模态模型。其核心技术为统一的视觉-语言架构,支持直接从图像到Markdown的转换,具有文档解析、布局分析和文档理解等功能。在OmniDocBench和OlmOCR Bench等基准测试中表现出色,尤其在文档解析和OCR任务上取得了领先成绩。该模型适用于文档智能处理、信息提取等场景,具有开源协议Apache-2.0,适合在多种硬件和推理框架上使用。
GLM-5.1是一款定位在通用大模型领域的旗舰模型,具备强大的编码能力。其核心技术包括Transformer架构、MoE(多智能体)设计,支持多语言处理。在基准测试中,GLM-5.1在代码生成、数学推理等任务上表现出色。该模型适用于需要多语言支持和复杂任务处理的场景,具有开源协议、高效推理等实用特性。
VoxCPM2是一款基于扩散自回归的文本到语音模型,具有2B参数,支持30种语言,输出48kHz音频。该模型无需分词器,能够根据自然语言描述生成新声音,克隆任何声音,并具有上下文感知的合成能力。它在HuggingFace平台上具有较高的下载量和点赞数,支持实时流式传输,并采用Apache-2.0开源协议。VoxCPM2在LLM生态中定位为多模态模型,其核心技术为VLM(语音语言模型),主要应用场景包括语音合成、语音克隆和语音设计。
Jackrong/Qwopus3.5-27B-v3-GGUF是一款专注于推理优化的通用大模型,具备27B参数和长达200K的上下文长度。其核心技术包括Reasoning、Chain-of-Thought、LORA等,在推理和数学推理任务上表现出色。模型在MMLU、GPQA等基准测试中取得了优异的成绩,并提供了详细的训练指南和代码库,方便用户复现和进一步研究。该模型适用于需要高推理能力和代码生成能力的场景,如教育、科研和工业应用。
这篇论文提出了一种名为BidirLM的模型,通过调整和组合因果语言模型(Causal LLMs)来构建双向编码器,从而实现从文本到全模态的转换。该方法通过系统消融实验确定了成功调整的关键因素,并引入了一种新的双策略来缓解灾难性遗忘,同时通过合并专业因果模型来增强编码器,实现了跨模态和领域的无缝迁移。
这篇论文研究了大型语言模型(LLM)多智能体系统在扩展团队规模和通过累积经验改进方面的两种扩展维度。提出了LLMA-Mem,一个适用于LLM多智能体系统的终身记忆框架,通过实验证明了在多种环境中,LLMA-Mem在提高长期性能的同时降低了成本,并揭示了团队规模与记忆设计之间的非线性关系。
这篇论文提出了一种名为Lean-Agent Protocol的AI安全防护平台,利用Lean 4定理证明技术,将金融机构的政策自动转化为代码,确保金融系统中自主智能体的行为符合预编译的监管公理,从而提供高精度和低延迟的合规性保证。
这篇论文研究了扩散语言模型(dLLMs)在生成文本时的质量-探索困境。作者提出了一种低置信度重标记方法,通过优先考虑自信的标记来提高单样本质量,同时通过开发一个简单的独立Metropolis-Hastings采样器来平衡质量和探索,从而在多个推理基准测试中实现了比随机和低置信度重标记更好的探索-质量权衡。
这篇论文提出了一种名为SandMLE的多智能体框架,用于训练机器学习工程代理。该框架通过从少量种子任务生成多样化的合成机器学习工程环境,解决了机器学习工程领域在策略强化学习中的执行时间瓶颈问题,显著提高了训练效率。
这篇论文通过机制可解释性研究,分析了音频-视觉大型语言模型(AVLLMs)在处理音频和视觉特征时的融合过程,揭示了AVLLMs在音频与视觉冲突时,音频语义编码能力未能充分体现在最终文本生成中的问题,并指出这种不平衡源于训练过程中的偏差。
这篇论文提出了一种名为Cog-DRIFT的框架,通过将难以解决的开放性问题转化为认知上更简单的变体(如多项选择和填空格式),从而提高大型语言模型(LLM)的推理能力。该方法通过构建难度递增的课程,使模型能够从原本无法解决的问题中学习,从而显著提升了模型在标准强化学习后训练中的表现。
这篇论文研究了通过多智能体通信从冻结的视频特征中提取不可见物理属性的离散、组合表示。研究通过迭代学习,使用Gumbel-Softmax瓶颈,展示了智能体能够发展出对潜在属性(如弹性、摩擦、质量比)的位置解耦协议,而无需属性标签或消息结构的监督。实验结果表明,通过多智能体结构而非带宽或时间覆盖,可以实现高度的组合性,并验证了感知先验对可传达内容的影响。
这篇论文提出了一种名为ONE-SHOT的参数高效的框架,用于生成人类和环境视频。该框架通过空间解耦运动注入和混合上下文集成机制,实现了对视频合成中主体和场景的精细控制,同时保持了生成灵活性。
这篇论文探讨了科学基础模型中,由于离散分类瓶颈导致的几何失真问题。作者提出了几何对齐税的概念,并通过实验证明,使用连续头部而非交叉熵可以显著减少几何失真。此外,论文还分析了不同架构在连续和离散情况下的性能差异,并提出了三个失败模式:局部-全局解耦、表示压缩和几何空虚。
这篇论文介绍了Paper Espresso,一个开源平台,旨在帮助研究人员从日益增长的arXiv论文中快速获取研究洞察。该平台利用大型语言模型(LLMs)自动发现、总结和分析趋势论文,提供多粒度趋势分析,并通过处理超过13,300篇论文,揭示了AI研究领域的丰富动态。
这篇论文提出了POEMetric,一个用于诗歌评估的综合框架,通过评估LLMs在遵循指令、创意、词汇多样性、个性化、情感共鸣、意象和文学手法使用等方面的能力,发现LLMs在诗歌生成方面仍面临巨大挑战。
这篇论文提出了文本频率法(TFL),旨在通过优化文本数据频率来提升大型语言模型(LLMs)的性能。论文提出了一种框架,包括使用在线资源估计句子频率、文本频率蒸馏(TFD)和课程文本频率训练(CTFT),并在数学推理、机器翻译、常识推理和代理工具调用等任务上进行了实验,验证了该方法的有效性。
这篇论文提出了CLEAR框架,通过监督微调、潜在表示桥接和交错GRPO强化学习方法,增强了统一多模态模型在退化图像理解中的生成潜力,显著提高了模型在退化输入上的鲁棒性,同时保持了干净图像的性能。
PLUME通过将显式的思维链(CoT)替换为连续潜在状态的自动回归滚动,提出了一种基于潜在推理的通用多模态嵌入(UME)框架。该方法通过语义锚点引导的过渡适配器支持多样化的多模态查询,并通过渐进式显式到隐式的课程来稳定训练,显著提高了检索效率。
这篇论文提出了SciLT,一个针对科学图像领域长尾分类的框架,通过自适应特征融合和双重监督学习,有效地利用了多级表示,实现了在头部和尾部类别上的平衡性能,为科学长尾识别提供了实用的基准。
这篇论文提出了一种名为Sample-Routed Policy Optimization (SRPO)的统一框架,旨在解决强化学习在大型语言模型中应用时的问题。SRPO通过将正确的样本路由到GRPO的奖励强化,将失败的样本路由到SDPO的logit级纠正,结合了两种方法的优点,实现了快速早期改进和长期稳定性。
这篇论文提出了LIBERO-Para,一个用于评估视觉语言动作(VLA)模型在处理释义指令时的鲁棒性的基准和度量标准。通过控制动作表达和对象引用的变化,LIBERO-Para揭示了VLA模型在释义指令下的性能下降,并提出了PRIDE度量标准来量化释义的难度。
这篇论文提出了Meta-TTL框架,通过学习可适应的策略来提升语言代理在测试时的性能。该框架通过双层优化问题,结合了标准的测试时学习和进化搜索,以优化适应策略,从而在分布内和分布外设置中均优于手工设计的基线。
这篇论文对OpenClaw,一个广泛部署的个人AI代理进行了现实世界的安全性分析。作者提出了CIK分类法,将代理的持久状态分为能力、身份和知识三个维度,以评估其安全性。通过12种攻击场景的实验,发现针对CIK任一维度的攻击都能显著提高攻击成功率,并评估了三种防御策略,但仍然存在安全漏洞,强调了需要更系统的安全措施来保护个人AI代理。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
Hugging Face通过使用Codex、开源OCR模型和Hugging Face Jobs,成功对30,000篇论文进行了OCR处理,使这些论文的Markdown版本可供用户在平台上进行交互。
暂无摘要
本文介绍了作者Niels Rogge如何利用编码智能体Codex将VidEoMT模型贡献到Hugging Face的Transformers库中,强调了自2025年12月以来编码智能体在代码编写能力上的显著提升,以及如何通过提供清晰的提示和利用文件系统等方法,有效指导智能体完成模型移植等任务。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
这篇博客详细介绍了在Transformer模型中处理张量维度的重要性,包括矩阵乘法、嵌入层、位置编码、解码器层和注意力机制等关键概念,旨在帮助读者更好地理解Transformer架构。
本文详细介绍了如何使用PyTorch和Hugging Face工具微调大型语言模型(LLM),以将英文翻译成尤达语(Yoda-speak)。通过量化模型、设置低秩适配器(LoRA)、格式化数据集以及使用Hugging Face的`trl`库中的`SFTTrainer`进行监督式微调,展示了整个过程。LoRA技术允许在量化模型上进行高效训练,显著减少了可训练参数的数量,使其仅占原始大小的1%或更少,从而能在资源有限的消费级GPU上进行训练。
Metric AI Lab发布了ArmBench-LLM 1.0,这是一个全面评估大型语言模型在亚美尼亚语任务上表现的基准测试。该版本扩展了评估范围,包括多种任务和模型,并发布了API支出报告,强调了开源模型在亚美尼亚语任务上的竞争力。
暂无摘要
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。
本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。
NVIDIA 发布了首个医疗机器人开放数据集 Open-H-Embodiment,包含 778 小时训练数据,旨在推动医疗机器人领域物理人工智能的发展。同时推出了两个开源模型 GR00T-H 和 Cosmos-H-Surgical-Simulator,用于手术机器人任务和动作条件式手术机器人模拟,以实现更精确和高效的手术操作。
暂无摘要
Cohere Labs 发布了 cohere-transcribe-03-2026,这是一个拥有20亿参数的先进语音识别模型,在 Hugging Face 上以 Apache 2.0 许可证开源。该模型专为14种企业关键语言训练,包括中文普通话,实现了最先进的准确性,并具有高效率。它在英语识别方面在 Hugging Face Open ASR 排行榜上位居第一,在其他13种语言中也表现出色。
这篇论文提出了ScalDPP,一种基于DPPs的检索增强生成方法,旨在优化RAG的密度和多样性,通过轻量级的P-Adapter实现可扩展的建模,并引入了Diverse Margin Loss来增强互补证据的选择。
这篇论文提出了一种名为SHARP的自主代理,用于可靠的知识图谱三元组验证。SHARP通过结合记忆增强机制和模式感知战略规划来提高推理稳定性,并使用增强的ReAct循环和混合知识工具集动态整合内部知识图谱结构和外部文本证据,以实现跨验证。实验表明,SHARP在FB15K-237和Wikidata5M-Ind数据集上显著优于现有基准,实现了4.2%和12.9%的准确率提升。
这篇论文提出了一种名为QED-Nano的小型AI模型,通过监督微调、基于评分标准的强化学习和推理缓存扩展,实现了在奥林匹克级别的数学证明上的高性能,同时降低了推理成本。
这篇论文介绍了QualAnalyzer,一个用于定性研究的原子级LLM分析工具。该工具通过独立处理每个数据段并保留每个单元的提示、输入和输出,支持原子级LLM分析,从而创建可审计的流程,帮助研究人员调查LLM和人类判断之间的系统性差异。
这篇论文提出了Combee,一个用于扩展并行提示学习的框架,旨在提高自我改进语言模型代理的效率和质量。Combee通过并行扫描和增强的洗牌机制,以及动态批量大小控制器,实现了从大量代理痕迹中学习,同时保持学习速度和准确性的平衡。
这篇论文提出了CresOWLve,一个基于现实世界知识的创意问题解决基准,旨在评估大型语言模型在创意问题解决方面的能力。该基准要求模型运用多种创造性思维策略,从不同领域检索事实,并创造性地结合它们来解决问题。实验结果表明,模型在事实性问题上的表现优于创意性问题,这表明模型在形成非显而易见的创造性联系方面存在困难。
这篇论文提出了PolySwarm,一个多智能体大型语言模型框架,用于在去中心化平台上进行实时预测市场交易和延迟套利。该框架通过集成多个LLM角色,使用贝叶斯组合和风险控制策略,以及信息论市场分析引擎来检测市场无效性和价格偏差。
这篇论文提出了BLADE,一种基于对话和解释的地面化对话助手,旨在通过引导学习者探索课程资源来促进学习,而不是直接提供答案。BLADE使用检索增强生成(RAG)框架,在响应学生查询时动态呈现与教学相关的摘录。实验表明,与仅提供课程资源相比,BLADE能够提高学生对课程资源的导航能力和概念表现。
这篇论文介绍了RAGnaroX,一个资源高效的ChatOps助手,它完全在本地硬件上运行,不依赖于外部服务提供商。RAGnaroX使用Rust语言实现,提供可审计的本地堆栈,并集成了模块化数据处理、混合检索和功能调用。论文通过在SQuAD、MultiHopRAG和MLQA数据集上进行的基准测试,展示了RAGnaroX在保持资源效率的同时,实现了有竞争力的准确率。