Github Trending
2026-03-21
OpenDataLoader PDF是一个开源的PDF解析器,旨在为AI准备数据并自动化PDF无障碍性。它支持将PDF转换为结构化数据,如Markdown、JSON和HTML,并提供自动标签功能以生成Tagged PDF。该项目主要面向应用开发者,特别是那些需要处理和解析PDF文件以供LLM使用的开发者。其核心功能包括PDF数据提取、自动标签和PDF无障碍性自动化。技术架构亮点在于其混合模式,结合了本地Java处理和AI后端,以处理复杂页面。在LLM生态中,OpenDataLoader PDF的价值在于它提供了一种高效且准确的方式来准备PDF数据,使其适用于RAG和其他需要结构化文本的应用。
Github Trending
2026-03-21
vLLM-Omni是一个高效的跨模态模型推理框架,旨在为研究者、应用开发者提供快速、灵活的模型推理服务。它支持文本、图像、视频和音频数据的处理,并集成了Hugging Face模型。vLLM-Omni通过优化KV缓存管理、流水线执行和资源分配,实现了高性能的模型推理。在LLM生态中,它填补了跨模态模型推理的空白,为多模态生成和文本生成提供了强大的支持。
Hugging Face
2026-03-12
zai-org/GLM-OCR是一款基于GLM-V架构的多模态OCR模型,专注于复杂文档理解。该模型采用多令牌预测损失和稳定的全任务强化学习,结合CogViT视觉编码器和GLM-0.5B语言解码器,实现高效训练和识别。在OmniDocBench V1.5基准测试中排名第一,适用于复杂表格、代码密集型文档等场景,支持vLLM、SGLang和Ollama等推理框架,易于集成到现有生产流程中。
Hugging Face
2026-03-20
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型采用 CoT 技术和 Claude-4.6 Opus 的推理链进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持多种语言,适用于需要复杂推理和精确解决方案的场景。性能方面,模型在相关基准测试中表现良好,具有开源协议,适合在多种硬件和推理框架上使用。
Hugging Face
2026-03-13
Tesslate/OmniCoder-9B是一款针对代码生成和推理的领域大模型,基于Qwen3.5-9B架构,参数量达到9B。该模型在代码生成、工具使用、终端操作和多步推理等任务上表现出色,具有强大的自恢复能力和遵循LSP诊断的能力。在AIME 2025、GPQA Diamond和Terminal-Bench 2.0等基准测试中取得了优异的成绩。模型开源,适用于需要高效代码生成和推理的场景。
Hugging Face
2026-02-27
Qwen3.5-35B-A3B是一款定位在通用大模型领域的LLM,具备高效的混合架构和强大的多模态学习能力。该模型具有35B的参数量,支持1M的上下文长度,采用Apache-2.0开源协议。在性能上,Qwen3.5在多个基准测试中表现出色,尤其在多模态任务上具有显著优势。其主要应用场景包括多语言处理、代码生成和视觉理解等,适合需要高性能和高效推理的应用。
Hugging Face
2026-03-04
HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive 是一款通用大模型,具有9B参数和32层,支持多语言和上下文长度可扩展至1M。该模型在HuggingFace平台上具有较高下载量和点赞数,其核心能力在于无审查的文本生成,具有更强的拒绝处理能力。在性能表现上,该模型在MMLU、GPQA、IFEval等基准测试中表现良好,具有多模态支持,适用于需要无审查文本生成的场景。其开源协议为Apache-2.0,硬件需求较高,推理效率中等,与vLLM、TGI等流行推理框架兼容。
Hugging Face
2026-03-15
Lightricks/LTX-2.3是一款专注于图像到视频生成的基础模型,定位为多模态模型。它基于DiT架构,具有高效的音频和视频生成能力,支持多种语言和格式。该模型在HuggingFace平台上具有较高的下载量和点赞数,表明其在社区中受到认可。LTX-2.3在性能上表现出色,尤其在图像到视频转换任务上具有显著优势。其开源协议和丰富的应用场景使其在多媒体内容创作领域具有广泛应用潜力。
Hugging Face
2026-03-11
鱼声科技S2 Pro是一款领先的文本到语音(TTS)模型,专注于精细的韵律和情感控制。该模型采用双自回归架构,结合强化学习和超过10M+小时的音频数据训练,支持80多种语言。S2 Pro在LLM生态中定位为特定领域微调模型,具有多语言能力和指令遵循能力。其在TTS任务上表现出色,具有高效的推理性能和良好的开源协议。主要应用场景包括多语言语音合成、个性化语音助手等。
Hugging Face
2026-03-19
NVIDIA-Nemotron-3-Super-120B-A12B-BF16是一款基于Transformer架构的通用大模型,具有120B的参数量和A12B的上下文长度。该模型在NVIDIA的Nemotron系列中,结合了MoE(Multi-Head Mixture of Experts)技术,提高了模型的表达能力和效率。在性能上,该模型在多个基准测试中表现出色,具有多语言处理能力。其开源协议和硬件需求适中,适合在多种场景下使用。
Hugging Face
2026-03-10
HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive 是一个基于 Qwen3.5-35B-A3B 的开源模型,专注于图像-文本到文本的转换。该模型定位为多模态模型,具有无审查的特性,适用于需要生成丰富文本内容的应用。其核心技术包括MoE架构和Qwen3.5-35B-A3B基座模型,支持多语言,上下文长度大,参数量高。在性能上,该模型在多个基准测试中表现出色,尤其在图像-文本转换任务中具有显著优势。主要应用场景包括内容生成、图像描述等。该模型开源,硬件需求较高,推理效率中等。
Hugging Face
2026-03-11
Anima模型定位为特定领域微调模型,专注于动漫风格的艺术图像生成。其核心技术为基于扩散模型的单文件库,参数量为20亿。模型在动漫风格图像生成方面表现出色,但未公开权威基准测试结果。主要应用场景为动漫艺术创作,使用时需考虑开源协议和硬件需求。
Hugging Face
2026-03-20
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型通过从 Claude-4.6 Opus 中提取的 CoT 技术进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持文本生成。在性能上,模型在推理任务上表现出色,特别适合需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,适合在多种硬件和推理框架上使用。
Hugging Face
2026-03-19
Qianfan-OCR是一款由百度Qianfan团队开发的4B参数端到端文档智能模型,定位为多模态模型。其核心技术为统一的视觉-语言架构,支持直接从图像到Markdown的转换,具有文档解析、布局分析和文档理解等功能。在OmniDocBench和OlmOCR Bench等基准测试中表现出色,尤其在文档解析和OCR任务上取得了领先成绩。该模型适用于文档智能处理、信息提取等场景,具有开源协议Apache-2.0,适合在多种硬件和推理框架上使用。
Hugging Face
2026-03-16
RoyalCities/Foundation-1是一款专注于音乐生成的领域大模型,旨在为现代音乐制作提供结构化的文本到样本生成。该模型具有独特的音乐结构理解能力,能够生成与节奏同步、关键和感知、条形感知的样本,适用于音乐制作工作流程。其核心技术包括基于stabilityai/stable-audio-open-1.0的基座模型,并支持多种音乐生成相关标签。在性能表现上,该模型在音乐生成领域具有优势,但在通用基准测试中的排名未提及。实用考量方面,该模型的开源协议、硬件需求和推理效率等信息未明确提供。
Hugging Face
2026-03-02
Qwen/Qwen3.5-9B是一款通用大模型,具备9B参数,支持多模态学习。其核心技术包括多模态融合训练、高效的混合架构、可扩展的强化学习泛化能力、全球语言覆盖和下一代训练基础设施。在基准测试中表现出色,尤其在多模态理解和推理任务上。适用于需要多语言、多模态理解和高效推理的场景,如对话系统、内容生成等。
Hugging Face
2026-03-12
Tesslate/OmniCoder-9B-GGUF是一款基于Tesslate/OmniCoder-9B的GGUF量化模型,定位为通用大模型,具有9B参数量。其核心能力在于代码生成和智能代理,采用Transformer架构,支持多种量化级别,适用于不同硬件环境。在性能上,模型在代码生成任务上表现出色,但在基准测试中的具体排名未提及。主要应用场景包括代码生成、智能对话等,使用时需考虑开源协议Apache-2.0,硬件需求中等,推理效率较高。
Hugging Face
2026-03-18
Jackrong/Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2 是一个专注于推理优化的推理模型,定位为推理模型。该模型基于Qwen3.5-9B进行微调,采用Claude 4.6 Opus风格的推理样本,通过精炼的推理框架和去除冗余内部循环,显著提高了推理效率和准确性。模型在HumanEval和HumanEval+基准测试中表现出色,具有高效的推理速度和成本效益。主要应用场景包括逻辑推理、数学问题解决等,适合对推理能力有较高要求的场景。
Hugging Face
2026-03-20
Nemotron-Cascade-2-30B-A3B是一款开源的30B MoE模型,具备强大的推理和代理能力。该模型在数学和计算机科学竞赛中表现出色,具有推理和指令遵循模式。其核心技术包括MoE架构、强大的推理能力,以及针对特定数据集的微调。在基准测试中,该模型在数学推理任务中取得了优异成绩。适用于需要高级推理能力的应用场景,如数学问题解决和代码生成。
Hugging Face
2026-03-04
HauhauCS/Qwen3.5-4B-Uncensored-HauhauCS-Aggressive 是一款基于 Qwen3.5-4B 的开源大模型,定位为通用大模型。其核心技术包括混合架构、多语言支持、多模态扩展等。模型参数量为 4B,支持 201 种语言,上下文长度可扩展至 1M。在性能上,该模型在多个基准测试中表现出色,具有强大的代码生成、数学推理和多语言能力。开源协议为 Apache-2.0,硬件需求较高,推理效率良好,与 vLLM、TGI 等框架兼容。
Hugging Face
2026-03-19
这篇论文提出了DreamPartGen,一个基于语义的、部分感知的文本到3D生成框架。它通过联合建模每个部分的几何和外观,以及捕捉部分之间依赖关系的语义潜在表示,实现了与文本描述对齐的3D合成。该方法在多个基准测试中取得了最先进的性能。
Hugging Face
2026-03-19
这篇论文提出了MultiTempBench,一个多语言时间推理基准,评估了20个大型语言模型在日期算术、时区转换和时间关系提取任务上的表现。研究发现,在低资源语言和较少见的日历格式中,时间标记的质量是一个瓶颈,而在高资源环境中,时间线性是时间推理的最强预测因素。
Hugging Face
2026-03-14
这篇论文提出了VID-AD数据集,用于在视觉诱导的干扰下进行图像级逻辑异常检测。该数据集包含50个一类的任务和10,395张图像,旨在解决工业检测中由于视觉外观变化导致的逻辑异常检测难题。论文还提出了一种基于文本描述的语言异常检测框架,通过对比学习学习到捕捉逻辑属性的嵌入。
Hugging Face
2026-03-19
这篇论文研究了视觉语言模型(VLMs)在视觉推理任务中的注意力分配问题。研究发现,VLMs在处理不同语言框架时,会选择性忽视视觉输入,导致注意力分配不均,从而影响模型性能。论文提出了一种轻量级的提示调整方法,通过引入可学习的标记来鼓励模型在开放性设置中形成稳健的视觉注意力模式,从而提高视觉基础和性能。
Hugging Face
2026-03-15
这篇论文提出了PARSA-Bench,一个用于评估大型波斯音频语言模型的基准,包含16个任务和超过8000个样本,涵盖了语音理解、副语言分析和文化音频理解。它揭示了当前模型在处理波斯语言和文化特有的挑战时的局限性。
Hugging Face
2026-03-11
这篇论文提出了SimulU,一种无需训练的SimulS2S(同步语音到语音翻译)策略,通过利用预训练模型中的交叉注意力机制来管理输入历史和输出生成,从而实现长格式同步语音到语音翻译,无需针对特定任务进行训练。
Hugging Face
2026-03-19
这篇论文提出了AndroTMem,一个用于长时程GUI代理的锚定记忆诊断框架,旨在解决长时程GUI代理中交互记忆的挑战。AndroTMem-Bench是一个包含大量交互步骤的基准,用于评估代理的交互记忆能力。论文提出了锚定状态记忆(ASM),通过将交互序列表示为因果链接的中间状态锚点集,从而实现子目标导向的检索和归因感知决策,显著提升了任务完成率和平均状态记忆。
Hugging Face
2026-03-16
这篇论文提出了ReactMotionNet,一个大规模数据集,用于从说话者的言语中生成反应性听众动作。该数据集结合了说话者的言语和多个候选听众动作,并标注了不同程度的适宜性。论文还提出了ReactMotion,一个统一的生成框架,它联合建模文本、音频、情感和动作,并通过基于偏好的目标进行训练,以鼓励适当的和多样化的听众反应。
Hugging Face
2026-03-13
这篇论文提出了一种名为WALAR的强化学习方法,通过使用单语种文本来提升大型语言模型在低资源语言翻译上的能力,同时保持其在高资源语言上的性能。该方法通过识别并缓解现有多语言质量估计模型中的失败模式,从而提高多语言LLMs的性能。
Hugging Face
2026-03-19
这篇论文提出了一种名为EffectErase的视频对象去除和插入方法,通过构建一个大规模数据集VOR,并采用任务感知区域指导和插入-去除一致性目标,实现了高质量的视频对象效果去除。
Hugging Face
2026-03-18
这篇论文提出了一种名为PF-RPN的Prompt-Free Universal Region Proposal Network,该网络通过Sparse Image-Aware Adapter、Cascade Self-Prompt和Centerness-Guided Query Selection模块,无需外部提示即可识别潜在对象,适用于多种对象检测应用领域,如水下、工业缺陷和遥感图像检测。
Hugging Face
2026-03-19
MonoArt提出了一种基于渐进式结构推理的统一框架,用于从单张图像中重建关节3D对象。该方法通过将视觉观察逐步转换为标准几何、结构化部分表示和运动感知嵌入,避免了直接从图像特征预测关节,从而实现了稳定且可解释的关节推理,同时提高了重建精度和推理速度。
Hugging Face
2026-03-19
这篇论文提出了3DreamBooth,一个用于高保真3D主题驱动视频生成的模型。该模型通过解耦空间几何和时序运动,结合1帧优化范式和3Dapter视觉条件模块,实现了对3D对象的精细定制,并有效避免了时序过拟合问题。
Hugging Face
2026-03-18
这篇论文介绍了MOSS-TTS,一个基于离散音频标记、自回归建模和大规模预训练的语音生成基础模型。它通过MOSS-Audio-Tokenizer将24 kHz音频压缩到12.5 fps,并提供了两个互补的生成器:MOSS-TTS和MOSS-TTS-Local-Transformer。MOSS-TTS支持零样本语音克隆、标记级时长控制、音素/拼音级发音控制、平滑代码切换和稳定的长文本生成。
Hugging Face
2026-03-19
这篇论文研究了多模态大型语言模型在处理离散符号时的认知不匹配问题,通过构建一个全面的基准来评估模型在语言、文化、数学、物理和化学五个领域的表现,发现模型在基本符号识别上失败但在复杂推理任务上成功,揭示了AI在理解和感知符号语言方面的能力差距。
Hugging Face
2026-03-16
这篇论文提出了VTC-Bench,一个用于评估多模态模型在复杂视觉任务中工具使用能力的基准。通过32种OpenCV视觉操作和680个精心设计的问题,VTC-Bench能够评估模型在多工具组合和长期、多步骤计划执行方面的能力。实验结果表明,当前模型在适应不同工具集和泛化到未见过的操作方面存在局限性。
Hugging Face
2026-03-19
这篇论文提出了一种结合语义和运动学条件的扩散离散运动标记化器(MoTok),通过三个阶段框架(感知、规划和控制)实现,以在保持运动保真度的同时,通过扩散解码器将语义抽象与精细重建解耦,显著提高了运动生成在HumanML3D数据集上的可控性和保真度。
Hugging Face
2026-03-18
这篇论文提出了Loc3R-VLM,一个结合语言和视觉的框架,通过从单目视频输入中提取几何线索,增强2D视觉语言模型的空间理解能力。它通过全局布局重建和情境建模两个联合目标,实现场景结构的整体表示和自我中心视角的锚定,从而在语言定位和3D问答基准测试中取得了最先进的性能。
Hugging Face
2026-03-11
COT-FM通过聚类目标样本并分配专用源分布,优化了Flow Matching模型中的概率路径,从而实现了更快、更可靠的生成。该方法通过解决FM模型中由于随机或批量耦合产生的曲线轨迹问题,显著提高了样本质量。
Hugging Face
2026-03-19
这篇论文提出了Memento-Skills,一个基于记忆的强化学习框架,允许一个通用语言模型(LLM)代理自主构建、适应和改进特定任务的代理。通过迭代技能生成和优化,该系统可以在不更新LLM参数的情况下持续学习,并通过实验证明了其在通用人工智能助手基准测试和人类最后考试中的性能提升。
Hugging Face
2026-03-17
NVIDIA发布Nemotron 3 Nano 4B,这是Nemotron 3系列中最紧凑的成员,采用混合Mamba-Transformer架构,专为边缘设备部署优化,提供高效、准确的小型语言模型,支持FP8和Q4_K_M GGUF量化,旨在降低模型大小和VRAM使用,提高吞吐量和降低延迟。
Hugging Face
2026-03-19
SPEED-Bench是一个统一且多样化的基准测试,旨在解决大型语言模型(LLM)推断中推测解码(SD)评估碎片化且不具代表性的问题。它通过引入两个专用数据集拆分和一个统一测量框架,提供了一种评估SD在不同语义领域和实际服务环境下的性能的方法。
Hugging Face
2026-03-16
NVIDIA 发布了首个医疗机器人开放数据集 Open-H-Embodiment,包含 778 小时训练数据,旨在推动医疗机器人领域物理人工智能的发展。同时推出了两个开源模型 GR00T-H 和 Cosmos-H-Surgical-Simulator,用于手术机器人任务和动作条件式手术机器人模拟,以实现更精确和高效的手术操作。
Hugging Face
2026-03-13
NVIDIA NeMo Retriever团队发布了新一代的智能体检索管道,该管道在多个基准测试中取得了优异的成绩,展示了其在通用性、超越语义相似性检索方面的优势,并采用了ReACT架构和进程内线程安全的单例检索器,以提高速度和可扩展性。
Hugging Face
2026-03-16
NVIDIA近日发布了Alpamayo 1.5模型,这是一个基于推理的自动驾驶汽车(AV)的开放平台,旨在提供更强大的推理模型、灵活的仿真工具和高质量的数据集。该平台包括文本引导的轨迹规划、灵活的多摄像头支持、用户问答等功能,并支持在更广泛的驾驶数据上进行评估。
Hugging Face
2026-03-05
商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。
Hugging Face
2024-06-13
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
Hugging Face
2026-03-15
SILMA AI发布了SILMA TTS v1,这是一个轻量级的双语文本到语音模型,支持阿拉伯语和英语。该模型基于F5-TTS扩散架构,具有150M参数,并预训练了数万小时的公共和专有音频数据。SILMA TTS以Apache 2.0许可证开源,旨在支持研究和商业应用。
Hugging Face
2026-03-19
Hugging Face 发布了 ATE-2(Armenian Text Embeddings 2)模型,这是一个用于阿姆哈拉语文本嵌入的最新模型,同时开源了用于阿姆哈拉语文本嵌入的完整生态系统,包括新的基础和大型模型、ArmBench-TextEmbed 标准化基准和底层训练数据集。该模型通过使用少量噪声合成数据展示了在低资源语言(LRLs)文本嵌入方面的突破。
Hugging Face
2025-01-30
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
Hugging Face
2026-03-09
IBM发布了Granite 4.0 1B Speech模型,这是一款专为资源受限设备设计的紧凑型多语言语音语言模型,用于自动语音识别和双向语音翻译。该模型在保持参数量减半的同时,提高了英语转录准确性,并扩展了语言支持,包括日语ASR支持。Granite 4.0 1B Speech在OpenASR排行榜上排名第一,表明其在开放式语音识别系统中的强大性能。
Hugging Face
2026-03-15
这篇公告讨论了在多语言语言模型(LLM)中,分词(Tokenization)对模型性能的影响,特别是对低资源语言的影响。作者Omar Kamali指出,分词的不当会导致模型在理解语言结构上的困难,并提出了改进分词方法以提升低资源语言模型性能的必要性。
Hugging Face
2025-06-10
NVIDIA 发布了 Nemotron-Personas,这是首个与真实世界人口统计、地理和人格特征分布对齐的合成人物数据集,旨在改进 AI 训练,提供可扩展、隐私安全且符合法规的用户行为建模基础,帮助大型语言模型 (LLM) 和代理系统生成更准确、更具包容性且行为更真实的输出。
Hugging Face
2025-07-08
Pollen Robotics 开源了一款名为 'Amazing Hand' 的完全 3D 打印机器人手,其成本低于 200 美元。这款手具有八个自由度,采用双伺服电机驱动,旨在降低高性能仿人手的入门成本,并允许用户进行定制和实验。
Hugging Face
2025-08-09
本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。
Hugging Face
2025-09-30
这篇公告详细记录了一位AI技术分析师在训练Action Chunking Transformer (ACT)模型上的经历,包括遇到的挑战、解决方案和经验教训。文章描述了如何使用SO-101机器人进行数据收集和训练,以及如何通过改进硬件设置、数据收集流程和评估流程来提高模型的性能。
Hugging Face
2025-11-06
本文介绍了名为“规范保持双投影消融”的技术,这是一种用于从语言模型中移除拒绝行为的新方法。该方法通过识别和干预激活空间中的“拒绝方向”来工作,并改进了传统的消融方法。它通过从另一层的输出中移除拒绝,避免干扰目标层中无害的方向,同时通过仅从目标权重中减去方向分量,同时保留权重范数,提高了推理性能。
Hugging Face
2025-12-08
Sionic AI发布了一项名为Claude Code Skills的系统,旨在通过构建团队记忆来提高机器学习实验的效率和知识共享。该系统通过自动化捕捉和传播实验中的洞察,包括成功和失败的尝试,帮助研究人员避免重复错误并快速学习。该系统主要通过两个Claude Code命令实现:/retrospective和/advise,分别用于记录和查询实验知识。