🔥 netflix/void-model
netflix/void-model是一款专注于视频编辑和视频修复的模型,定位为特定领域微调模型。它基于CogVideoX 3D Transformer架构,具有强大的视频修复能力,能够去除视频中的物体及其引起的所有交互,包括物理交互。该模型在视频修复领域表现出色,特别适用于视频编辑和视频生成任务。其性能在相关基准测试中表现良好,但具体排名未提及。模型开源,需要较高的GPU资源,推理效率较高。
精选 69 篇,从 480+ 条中筛选
netflix/void-model是一款专注于视频编辑和视频修复的模型,定位为特定领域微调模型。它基于CogVideoX 3D Transformer架构,具有强大的视频修复能力,能够去除视频中的物体及其引起的所有交互,包括物理交互。该模型在视频修复领域表现出色,特别适用于视频编辑和视频生成任务。其性能在相关基准测试中表现良好,但具体排名未提及。模型开源,需要较高的GPU资源,推理效率较高。
tencent/HY-OmniWeaving是一款基于tencent/HunyuanVideo-1.5的通用大模型,具备多模态扩展能力。该模型采用自由式组合和推理技术,在视频生成方面具有显著优势。模型参数量、上下文长度等规格尚未明确,但已在HuggingFace平台上获得213个点赞。在性能表现上,具体基准测试结果未提供,但模型在视频生成领域具有创新性。主要应用场景包括视频内容创作和编辑,使用时需考虑开源协议、硬件需求等因素。
Gemma-4-26B-A4B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备强大的推理和编码能力,支持文本、图像等多种输入,并生成文本输出。其核心能力包括扩展的多模态处理、Dense 和 MoE 架构、优化的设备本地执行等。在性能上,Gemma-4-26B-A4B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上。模型适用于需要高效率、高准确性的场景,如文本生成、编码和推理等。
🔥 unsloth/gemma-4-26B-A4B-it-GGUF 是一款基于 Google DeepMind 的 Gemma 4 模型构建的多模态大语言模型。该模型定位为通用大模型,具有26B参数量,支持图像到文本的转换。其核心技术包括Transformer架构和Gemma 4基座模型,上下文长度未指定。在性能上,模型在MMLU、GPQA、IFEval等基准测试中表现出色。主要应用场景包括图像描述、文本生成等,具有开源Apache 2.0协议,适合在Unsloth Studio等平台上使用。
Gemma-4-31B-it 是一款由 Google DeepMind 开发的多模态大型语言模型,定位为通用大模型。该模型具备高达 31B 的参数量和 256K 的上下文长度,支持文本、图像等多种输入和文本输出。其核心技术包括 Dense 和 MoE 架构,并针对移动设备进行了优化。在性能上,Gemma-4-31B-it 在多个基准测试中表现出色,尤其在代码生成和推理任务上具有显著优势。模型开源协议为 Apache 2.0,适用于从手机到服务器的多种部署环境。
Gemma-4-E4B-it是一款由Google DeepMind开发的通用多模态大语言模型,支持文本和图像输入,并生成文本输出。该模型具有高达256K的上下文窗口,支持超过140种语言。它采用Dense和MoE架构,适用于文本生成、编码和推理等任务。Gemma-4-E4B-it在代码生成、数学推理和指令遵循等方面表现出色,同时支持本地设备上的高效执行。该模型在Hugging Face平台上具有广泛的下载量和点赞数,表明其在LLM领域的受欢迎程度。
GLM-5.1是一款定位在通用大模型领域的旗舰模型,具备强大的编码能力。其核心技术包括Transformer架构、MoE(多智能体)设计,支持多语言处理。在基准测试中,GLM-5.1在代码生成、数学推理等任务上表现出色。该模型适用于需要多语言支持和复杂任务处理的场景,具有开源协议、高效推理等实用特性。
Jackrong/Qwopus3.5-27B-v3-GGUF是一款专注于推理优化的通用大模型,具备27B参数和长达200K的上下文长度。其核心技术包括Reasoning、Chain-of-Thought、LORA等,在推理和数学推理任务上表现出色。模型在MMLU、GPQA等基准测试中取得了优异的成绩,并提供了详细的训练指南和代码库,方便用户复现和进一步研究。该模型适用于需要高推理能力和代码生成能力的场景,如教育、科研和工业应用。
Gemma-4-31B-JANG_4M-CRACK是一款定位在通用大模型领域的模型,具有31B的参数量和18GB的模型大小。其核心技术包括Dense Transformer架构和Hybrid Sliding/Global Attention机制,支持多模态输入。在MMLU基准测试中,该模型保持了93.7%的合规性,显示出其在知识理解和推理方面的能力。该模型适用于需要高知识合规性和多模态处理的应用场景,如安全与渗透测试、代码生成等。其开源协议、硬件需求以及推理效率等特性使其在LLM领域具有差异化优势。
Bonsai-8B-GGUF-1bit 是一款基于 llama.cpp 的端到端 1 位语言模型,具有高效率、低能耗的特点。该模型定位为通用大模型,采用 1 位权重和 GGUF Q1_0_g128 格式,参数量仅为 1.15 GB,适合在多种平台上运行。其在 6 个类别上的平均得分为 70.5,与全精度 8B 模型相当,但体积缩小了 14 倍。该模型适用于需要高性能和低功耗的场景,如移动设备和边缘计算。
HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive 是一款专注于图像-文本转换的多模态模型,具有无审查、Gemma-4架构的特点。该模型在HuggingFace平台上具有较高的下载量和点赞数,支持多语言,并具有音频和视觉处理能力。其在性能上表现出色,能够生成无审查的内容,适用于需要处理图像和文本数据的场景。模型具有开源协议,对硬件要求较高,推理效率中等。
VoxCPM2是一款基于扩散自回归的文本到语音模型,具有2B参数,支持30种语言,输出48kHz音频。该模型无需分词器,能够根据自然语言描述生成新声音,克隆任何声音,并具有上下文感知的合成能力。它在HuggingFace平台上具有较高的下载量和点赞数,支持实时流式传输,并采用Apache-2.0开源协议。VoxCPM2在LLM生态中定位为多模态模型,其核心技术为VLM(语音语言模型),主要应用场景包括语音合成、语音克隆和语音设计。
🔥 unsloth/gemma-4-E4B-it-GGUF 是一款基于 Google DeepMind 的 Gemma 4 模型构建的多模态 LLM,定位为通用大模型。该模型具有 4-bit 量化技术,上下文长度可达 4B,支持图像和文本的多模态交互。在性能上,该模型在多个基准测试中表现出色,具有高效的开源协议和良好的硬件兼容性,适用于多种应用场景。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型通过从 Claude-4.6 Opus 中提取的 CoT 技术进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持文本生成。在性能上,模型在推理任务上表现出色,特别适合需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,适合在多种硬件和推理框架上使用。
Qianfan-OCR是一款由百度Qianfan团队开发的4B参数端到端文档智能模型,定位为多模态模型。其核心技术为统一的视觉-语言架构,支持直接从图像到Markdown的转换,具有文档解析、布局分析和文档理解等功能。在OmniDocBench和OlmOCR Bench等基准测试中表现出色,尤其在文档解析和OCR任务上取得了领先成绩。该模型适用于文档智能处理、信息提取等场景,具有开源协议Apache-2.0,适合在多种硬件和推理框架上使用。
🔥 unsloth/gemma-4-31B-it-GGUF 是一款基于 Google DeepMind 的 Gemma 4 模型构建的多模态 LLM,具有 31B 参数。该模型在 HuggingFace 平台上以 image-text-to-text 的 Pipeline 运行,支持在 Unsloth Studio 中运行和微调。其核心能力在于处理文本和图像,具有开源 Apache 2.0 许可协议。在性能上,Gemma 4 在多个基准测试中表现出色,尤其在多模态任务上具有显著优势。适用于需要多模态处理和图像文本转换的应用场景。
这篇论文提出了Combee,一个用于扩展并行提示学习的框架,旨在提高自我改进语言模型代理的效率和质量。Combee通过并行扫描和增强洗牌机制,以及动态批量大小控制器,实现了从大量代理痕迹中学习,同时保持学习速度和准确性的平衡。
这篇论文提出了GenLCA,一种基于扩散的生成模型,用于从文本和图像输入中生成和编辑逼真的全身3D虚拟形象。该模型通过将预训练的前馈虚拟形象重建模型作为可动用的3D标记器,将非结构化视频帧编码为结构化3D标记,从而实现从部分可观察的2D数据训练全身体3D扩散模型。这种方法允许使用大规模真实世界视频数据来训练扩散模型,从而在生成和编辑结果上显著优于现有解决方案。
这篇论文提出了一种基于图的思维链剪枝方法,用于减少推理大型语言模型(LLMs)中的冗余反射。通过将线性思维链转换为有向无环图(DAG),并设计分支级和深度级剪枝策略,论文旨在减少模型在推理过程中的冗余中间推理内容,从而提高推理效率和准确性。
暂无摘要
暂无摘要
暂无摘要
暂无摘要
暂无摘要
暂无摘要
暂无摘要
暂无摘要
暂无摘要
Hugging Face通过使用Codex、开源OCR模型和Hugging Face Jobs,成功对30,000篇论文进行了OCR处理,使这些论文的Markdown版本可供用户在平台上进行交互。
Hugging Face 发布了 BidirLM,这是一种将生成式大型语言模型(LLM)转变为强大的双向编码器的方法。BidirLM 通过组合专门的因果模型并通过权重合并,将文本编码器转变为能够处理文本、图像和音频的单一紧凑模型,并在标准基准测试中击败了多模态和无模态的专家。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
这篇博客详细介绍了在Transformer模型中处理张量维度的重要性,包括矩阵乘法、嵌入层、位置编码、解码器层和注意力机制等关键概念,旨在帮助读者更好地理解Transformer架构。
本文介绍了作者Niels Rogge如何利用编码智能体Codex将VidEoMT模型贡献到Hugging Face的Transformers库中,强调了自2025年12月以来编码智能体在代码编写能力上的显著提升,以及如何通过提供清晰的提示和利用文件系统等方法,有效指导智能体完成模型移植等任务。
NVIDIA发布Nemotron 3 Nano 4B,这是Nemotron 3系列中最紧凑的成员,采用混合Mamba-Transformer架构,专为边缘设备部署优化,提供高效、准确的小型语言模型,支持FP8和Q4_K_M GGUF量化,旨在降低模型大小和VRAM使用,提高吞吐量和降低延迟。
Metric AI Lab发布了ArmBench-LLM 1.0,这是一个全面评估大型语言模型在亚美尼亚语任务上表现的基准测试。该版本扩展了评估范围,包括多种任务和模型,并发布了API支出报告,强调了开源模型在亚美尼亚语任务上的竞争力。
暂无摘要
本文详细介绍了如何使用PyTorch和Hugging Face工具微调大型语言模型(LLM),以将英文翻译成尤达语(Yoda-speak)。通过量化模型、设置低秩适配器(LoRA)、格式化数据集以及使用Hugging Face的`trl`库中的`SFTTrainer`进行监督式微调,展示了整个过程。LoRA技术允许在量化模型上进行高效训练,显著减少了可训练参数的数量,使其仅占原始大小的1%或更少,从而能在资源有限的消费级GPU上进行训练。
这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。
本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。
商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。
Hugging Face在其官方博客上发布了一篇关于将doctest转换为可运行的Markdown文档的公告。该公告介绍了doc-builder项目的新功能,该功能允许Markdown文档中的代码块可执行,从而提高文档的准确性和可靠性。
CyberAgent宣布采用ChatGPT Enterprise和Codex,以安全地扩展AI应用,提升广告、媒体和游戏领域的质量,并加速决策过程。
这篇论文提出了MAT-Cell,一个基于神经符号推理的多智能体树结构推理框架,用于批量单细胞注释。该框架通过自适应检索增强生成(RAG)注入符号约束,将神经网络推理建立在生物学公理之上,并减少转录组噪声。MAT-Cell通过同质反驳智能体进行辩证验证过程,形成演绎推导树,确保逻辑一致性。实验表明,MAT-Cell在大型跨物种基准测试中显著优于现有模型,并在基准方法严重退化的挑战场景中保持稳健的性能。
这篇论文提出了一种名为CCD-CBT的多智能体框架,用于模拟认知行为疗法(CBT)。该框架通过动态重建认知概念图(CCD)和信息不对称的交互来模拟真实的治疗过程,并通过CCDCHAT数据集进行评估,结果表明该模型在咨询准确性和积极情感提升方面优于基线模型。
这篇论文提出了一个用于描述深度学习模型架构的范畴论框架,通过引入轴步长和数组广播范畴来形式化广播操作,使得数学函数可以精确地表达和组合。该框架被实现为Python和TypeScript库,支持代数构造、图转换、PyTorch编译和图表渲染。
这篇论文通过构建技能自动化可行性指数(SAFI),评估了大型语言模型(LLM)在自动化不同职业技能方面的潜力,并提出了一个AI影响矩阵,以分析技能的自动化风险和提升需求。
这篇论文研究了使用大型语言模型(LLMs)进行用户下一个兴趣点(POI)预测的演示选择策略,通过比较不同演示选择方法,发现简单的启发式方法在预测准确性和计算成本上优于复杂的嵌入方法。
这篇论文提出了ATANT,一个用于评估AI系统在时间上持续性的开放评估框架。该框架通过定义七个必要属性,引入一个无需LLM的10个检查点的评估方法,并使用250个故事和1835个验证问题来评估AI系统的记忆能力。实验结果表明,ATANT在多个测试套件迭代中表现良好,证明了其在构建和验证连续性系统中的有效性。
这篇论文提出了SimSiam Naming Game (SSNG),一种无需反馈的涌现通信框架,通过在自主代理之间实现对称的自监督表示对齐目标,解决了传统命名游戏在高维感知空间中采样效率低的问题。SSNG通过消息交换实现代理潜在表示的对齐,并使用Gumbel-Softmax松弛学习离散符号消息,在CIFAR-10和ImageNet-100数据集上取得了比其他方法更高的分类准确率。
这篇论文介绍了DosimeTron,一个基于Agentic AI的自动化患者个性化蒙特卡洛辐射剂量学系统,用于PET/CT检查。该系统使用GPT-5.2作为推理引擎,通过自然语言交互自动化DICOM元数据提取、图像预处理、蒙特卡洛模拟、器官分割和剂量学报告。实验结果表明,DosimeTron在多种提示配置下自主执行复杂的剂量学流程,与OpenDose3D的高剂量学一致性达到临床可接受的处理时间。
这篇论文提出了Plasma GraphRAG,一个结合了图检索增强生成(GraphRAG)和大型语言模型(LLMs)的框架,用于自动识别等离子体模拟中的参数范围。该框架通过构建特定领域的知识图,实现了对图锚定实体和关系的结构化检索,从而提高了LLMs生成准确、上下文感知推荐的能力。实验结果表明,Plasma GraphRAG在整体质量上优于传统的RAG,并显著降低了幻觉率。