lightonai/LightOnOCR-2-1B:1B参数量OCR,速度快
LightOnOCR-2-1B是一款高效的端到端视觉语言模型,专门用于将文档转换为文本。该模型在OCR领域表现出色,具有快速处理速度和高效能的特点。它基于Transformer架构,参数量为1B,支持多种语言,包括中文。在OlmOCR-Bench基准测试中取得了领先性能,同时体积小、速度快,适用于处理PDF、扫描图像等多种文档格式。
精选 69 篇,从 1900+ 条中筛选
LightOnOCR-2-1B是一款高效的端到端视觉语言模型,专门用于将文档转换为文本。该模型在OCR领域表现出色,具有快速处理速度和高效能的特点。它基于Transformer架构,参数量为1B,支持多种语言,包括中文。在OlmOCR-Bench基准测试中取得了领先性能,同时体积小、速度快,适用于处理PDF、扫描图像等多种文档格式。
nvidia/personaplex-7b-v1是一款定位为通用大模型的LLM,具有7B参数量,支持多语言。其核心技术为Transformer变体,并采用moshi库进行优化。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。模型开源,适用于多种硬件平台,与vLLM等推理框架兼容。主要应用场景包括多语言问答、代码生成等。
VibeVoice-ASR是一款专注于语音识别的领域大模型,具备处理长达60分钟音频的能力,支持结构化转录,包括说话人、时间和内容信息。该模型采用Transformer架构,支持自定义热词,具有丰富的转录功能。在性能上,VibeVoice-ASR在权威基准测试中表现出色,具有高准确率和语义连贯性。模型适用于需要长音频转录和特定领域内容识别的场景,如会议记录、讲座转录等。其开源协议和硬件需求适中,推理效率较高。
Tongyi-MAI/Z-Image是一款专注于图像生成的LLM,定位为多模态模型。其核心技术为单流扩散Transformer,支持全Classifier-Free Guidance,具有强大的视觉语言处理能力。性能上,模型在图像生成任务中表现出色,但缺乏权威基准测试结果。主要应用场景为创意生成和艺术创作。开源协议为Apache-2.0,硬件需求较高,推理效率需进一步优化。
GLM-4.7-Flash是一款30B-A3B的MoE模型,定位为通用大模型。其核心技术包括MoE架构和Transformer变体,支持多种语言。在基准测试中表现出色,尤其在AIME 25和GPQA等任务上排名靠前。该模型适用于需要高性能和轻量级部署的场景,支持vLLM和SGLang等推理框架。
DeepSeek-OCR-2是一款专注于图像文本转换的多模态模型,定位为特定领域微调模型。其核心技术基于transformers库,采用自定义代码进行优化,支持多语言处理。模型在OCR任务上表现出色,但缺乏权威基准测试结果。开源协议为Apache-2.0,对硬件要求较高,推理效率需进一步优化。
Kimi-K2.5-GGUF是一款基于Moonshot AI的Kimi-K2.5模型构建的推理优化版本,定位为通用大模型。其核心技术为基于transformers库的GGUF架构,支持2-bit至5-bit量化,适用于高性能计算环境。在性能上,Kimi-K2.5-GGUF在权威基准测试中表现出色,具有强大的代码生成、数学推理和多语言能力。该模型适用于需要高性能和特定能力场景,如代码生成、数学问题解决等,具有开源协议、高硬件需求和高推理效率的特点。
Qwen3-ASR-1.7B是一款专注于语音识别的领域大模型,具备多语言和方言支持能力。该模型采用Qwen3-Omni基础模型,结合大规模语音训练数据,实现了在复杂声学环境和挑战性文本模式下的高质量和鲁棒识别。其在开源ASR模型中达到最先进水平,与顶级商业API相媲美。模型支持语言识别和语音识别,具有高效的吞吐量和强大的推理框架。主要应用场景包括语音转文本、语音识别等。
Qwen3-TTS是一款专注于语音合成的大语言模型,定位为特定领域微调模型。其核心技术包括自研的Qwen3-TTS-Tokenizer-12Hz和离散多码本LM架构,支持多种语言和方言,具有强大的语境理解和自适应控制能力。性能上,模型实现了低延迟的流式生成,端到端合成延迟低至97ms。主要应用场景包括实时交互和个性化语音合成。模型开源协议为Apache-2.0,适合对实时性和个性化语音合成有较高要求的场景。
Comfy-Org/z_image是一款定位在多模态模型领域的开源模型,具有独特的comfyui技术特点。该模型在Hugging Face Hub上下载量超过40,000次,受到用户好评。其核心技术为diffusion-single-file库,支持多模态扩展。在性能上,由于缺乏具体的基准测试结果,无法提供详细的排名信息。该模型适用于需要多模态处理的应用场景,如图像生成和文本-图像交互。在实用考量方面,开源协议和硬件需求等信息未明确提供。
LingBot-World是一款由Robbyant团队开源的世界模拟器,定位为顶级世界模型。它具备高保真和多样化的环境,支持长期记忆和一致性,并实现实时交互。该模型采用image-to-video的pipeline,基于diffusers库。在性能上,它支持每秒16帧的实时生成,具有较低延迟。LingBot-World适用于内容创作、游戏和机器人学习等领域,其开源协议和硬件需求适中,与流行推理框架兼容性良好。
Kimi K2.5是一款开源的多模态大语言模型,定位为通用大模型。它基于约150万亿混合视觉和文本标记的持续预训练,具备视觉和语言理解以及先进的代理能力。模型在视觉知识、跨模态推理和基于视觉输入的代理工具使用方面表现出色。其核心能力包括视觉到代码的生成和代理群体执行复杂任务。在性能上,Kimi K2.5在权威基准测试中表现良好,具有开源协议、硬件需求适中、推理效率较高的特点,适用于多模态任务和复杂任务处理。
Anima模型定位为特定领域微调模型,专注于动漫风格的艺术图像生成。其核心技术为基于扩散模型的单文件库,参数量为20亿。模型在动漫风格图像生成方面表现出色,但未公开权威基准测试结果。主要应用场景为动漫艺术创作,使用时需考虑开源协议和硬件需求。
RuneXX/LTX-2-Workflows是一款基于LTXV2_comfy模型的LLM,定位为特定领域微调模型。其核心技术包括Gemma 3 12B it GGUF文本编码器,支持ComfyUI和GGUF。性能方面,具体基准测试结果未提供,但模型在视频生成等任务上表现出色。主要应用场景包括视频制作和创意内容生成。该模型开源,对硬件要求较高,推理效率需根据具体应用场景评估。
Youtu-VL-4B-Instruct是一款基于Youtu-LLM的视觉语言模型,定位为多模态模型。其核心技术为VLUAS,具有4B参数量,上下文长度未明确提及。在基准测试中表现出色,尤其在视觉任务上。该模型适用于图像到文本的转换等任务,具有高效能和全面视觉能力的特点。
Qwen3-ASR-0.6B是一款专注于语音识别的领域大模型,具备多语言和方言支持能力。该模型采用Qwen3-Omni基础模型,具有强大的音频理解能力。在性能上,Qwen3-ASR-0.6B在开源ASR模型中达到顶尖水平,与商业API相媲美。模型支持多种语言和方言的语音识别,适用于复杂声学环境和挑战性文本模式。其开源协议和强大的推理框架使其在多个场景下具有实用价值。
Step 3.5 Flash是一款高效的开源基础模型,定位于通用大模型领域。它采用稀疏混合专家(MoE)架构,参数量196B,上下文长度未指定。该模型在推理速度和代码生成方面表现出色,通过3-way Multi-Token Prediction(MTP-3)技术,实现了100-300 tok/s的生成吞吐量。在SWE-bench和Terminal-Bench 2.0基准测试中分别取得了74.4%和51.0%的优异成绩。模型开源协议为Apache 2.0,适用于需要快速推理和代码生成的场景。
LongCat-Flash-Lite是一款专注于文本生成的混合专家(MoE)模型,具有68.5亿参数,支持256k的上下文长度。该模型在保持高效推理速度的同时,通过N-gram嵌入表提升了性能。它在代码生成和代理领域表现出色,具有优异的扩展效率和竞争力。模型定位为通用大模型,核心技术为MoE架构,性能在同类模型中表现优异,适用于需要高效文本生成的场景。
这篇论文研究了知识蒸馏在语言模型中的应用,特别是其在减少训练数据记忆方面的动态。通过使用不同的语言模型和数据集,论文发现蒸馏模型比标准微调模型记忆更少的数据,并提出了基于压缩熵、KL散度和困惑度的特征来预测学生模型的记忆情况。
这篇论文提出了Drive-JEPA,一个结合视频联合嵌入预测架构(V-JEPA)和多模态轨迹蒸馏的端到端自动驾驶框架。该框架通过在大规模驾驶视频上预训练ViT编码器来生成与轨迹规划对齐的预测表示,并引入了一个以提议为中心的规划器,通过动量感知选择机制来促进稳定和安全的行为。实验结果表明,Drive-JEPA在感知无设置下优于先前方法,并在两个数据集上达到了新的最先进水平。
这篇论文提出了V-Pretraining方法,通过使用下游反馈来指导自监督预训练,从而提高基础模型在特定下游任务上的性能。该方法通过选择与下游任务梯度对齐的预训练任务,优化了预训练过程中的梯度步的价值,从而在不更新下游任务标签的情况下,提升了模型在推理、图像分割等任务上的表现。
这篇论文研究了通过强化学习与可验证奖励(RLVR)训练的推理模型是否能够提升嵌入模型的表现。研究发现,尽管RLVR对潜在流形的局部几何结构有不可逆的影响,但它保持了全局流形的几何和线性读出,导致后续的对比学习使得基础模型和推理初始化模型之间产生强烈的对齐,这种现象被称为‘流形重排’。实验结果表明,RLVR优化的是现有语义景观中的轨迹,而不是从根本上重构景观本身。
这篇论文提出了SONIC-O1,一个用于评估多模态大型语言模型在音频-视频理解上的真实世界基准。该基准涵盖了13个真实对话领域,包含4958个标注和人口统计元数据,评估了模型在开放式总结、多项选择题回答和基于理由的时间定位等任务上的性能。
这篇论文提出了视觉个性化图灵测试(VPTT),一种基于感知不可区分性的视觉个性化评估新范式。VPTT通过比较模型生成的输出与人类可能创建或分享的内容,来评估模型是否能够生成与人类难以区分的个性化视觉内容。论文介绍了VPTT框架,包括一个包含10k个人物的基准(VPTT-Bench)、一个视觉检索增强生成器(VPRAG)以及VPTT评分,这是一种与人类和VLM判断校准的纯文本指标。实验表明,VPRAG在保持原创性的同时实现了最佳的对齐,为个性化的生成式AI提供了一个可扩展且隐私安全的平台。
这篇论文提出了一种名为LingBot-VA的机器人控制方法,通过视频世界建模和视觉语言预训练,使机器人能够通过理解动作和视觉动态之间的因果关系来想象近未来的情况。该方法通过共享潜在空间、闭环回滚机制和异步推理管道等设计,实现了高效的帧预测和政策执行,并在模拟和真实世界场景中展示了其在长期操作、数据效率和泛化能力方面的优势。
KAPSO是一种基于知识的框架,用于自主程序合成和优化。它通过迭代地执行想法生成、代码合成和编辑、执行、评估和学习,将可运行的工件改进为可衡量的目标。KAPSO通过集成git-native实验引擎、知识系统和认知记忆层来解决编码代理中的长期失败问题,如实验状态丢失、脆弱的调试和领域专业知识重复使用不足。
这篇论文提出了ExpAlign,一个基于期望引导的视觉-语言对齐框架,用于开放词汇的定位。它通过多实例学习公式构建,引入期望对齐头,实现基于注意力的软MIL池化,以及基于能量的多尺度一致性正则化方案,显著提高了开放词汇检测和零样本实例分割的性能。
这篇论文提出了一种改进的无偏梯度估计方法,用于在NVFP4格式下进行大规模语言模型(LLM)的预训练,显著提高了量化训练的精度,并通过实验验证了其在LLM训练中的有效性。
这篇论文提出了一种名为Golden Goose的方法,通过从不可验证的互联网文本中合成无限多的强化学习可验证奖励(RLVR)任务,从而解决LLMs中RLVR数据有限的问题。该方法通过构建一个填空题的多选题版本,利用LLMs识别和掩码关键推理步骤,并生成一系列可能的干扰项,从而创建了一个大规模的RLVR数据集GooseReason-0.7M,并在多个基准测试中实现了新的最先进结果。
这篇论文提出了一个名为MAPPA的方法,通过为每个动作分配过程奖励来微调多智能体系统,从而解决信用分配和样本效率问题。该方法在数学问题和工具增强数据分析任务上取得了显著的性能提升。
这篇论文提出了Temporal Attention Pattern Predictability Analysis (TAPPA),一个统一框架,通过分析注意力模式的数学公式,从时间连续的角度解释了各种注意力模式。TAPPA不仅加深了对注意力行为的理解,还指导了推理加速方法。论文通过数学分析和实验验证,揭示了注意力模式的可预测性和随机性,并应用于KV缓存压缩和LLM剪枝任务,显著提升了性能。
这篇论文提出了一种名为RM-RF的轻量级奖励模型,用于评估自动生成的单元测试。该模型通过分析源代码和测试代码,预测测试套件的编译和运行成功情况、代码覆盖率提升以及突变杀伤率的提高。论文使用多语言数据集进行训练和评估,并通过多种模型和调整策略实现了良好的性能。
这篇论文提出了TAM-Eval,一个用于评估大型语言模型(LLMs)在自动单元测试维护方面的性能的框架和基准。TAM-Eval涵盖了测试套件的创建、修复和更新三个核心场景,并通过一个基于测试套件通过率、代码覆盖率和突变测试的无参考协议进行评估。实验结果表明,最先进的LLMs在现实测试维护过程中能力有限,对测试有效性的提升微乎其微。
这篇论文提出了Continual GUI Agents,这是一种能够持续学习在GUI环境中不断变化的领域和分辨率的新任务。论文引入了GUI-Anchoring in Flux (GUI-AiF)框架,通过两个新颖的奖励机制来稳定持续学习,从而解决了GUI分布随时间变化时现有方法无法维持稳定定位的问题。
这篇论文提出了一种基于贝叶斯优化和高斯过程的框架,用于在异构多核架构上自动搜索最优的调度配置,以平衡能耗和延迟。通过近似能量和时间的帕累托前沿,并引入敏感性分析,论文提供了对模型物理可解释性的洞察。
这篇论文提出了FourierSampler,一种基于频率引导的生成策略,用于提升扩散语言模型(dLLMs)的非自回归潜力。通过分析dLLMs的频谱特性,FourierSampler能够动态引导模型从全局结构信息到局部细节的生成,显著提升了模型在LLADA和SDAR任务上的性能。
这篇论文提出了一种基于数据驱动的方法k-Diff,用于学习最优预测参数k,以解决扩散模型在高维数据中预测目标的选择问题。通过分析数据几何与最优预测目标之间的关系,论文解释了为什么当环境维度远大于数据内在维度时,直接数据预测(x-prediction)变得优越,并通过实验证明了k-Diff在图像生成任务中的优越性。
这篇论文介绍了PaddleOCR-VL-1.5,这是一个多任务0.9B的视觉语言模型,用于鲁棒的野外文档解析。该模型在OmniDocBench v1.5上达到了94.5%的新SOTA准确率,并通过Real5-OmniDocBench基准测试验证了其鲁棒性。此外,模型还扩展了印章识别和文本定位功能,同时保持了高效的0.9B超紧凑型。
NVIDIA近日宣布推出NVIDIA Earth-2系列三个新的开源模型,旨在简化构建整个天气预报栈的能力,包括数据同化、预测、临近预报、降尺度等任务。这些模型包括用于千米级短时强对流天气预报的Earth-2 Nowcasting、用于15天全球预报的Earth-2 Medium Range以及用于生成初始条件的Earth-2 Global Data Assimilation。NVIDIA Earth-2提供了一套加速工具和模型,使开发者能够整合通常分散的天气和气候AI能力。
Hugging Face的Inference Labs团队发布了TruthTensor,这是一个评估大型语言模型(LLM)在动态市场条件下指令忠诚度的新框架。该框架通过模拟预测市场中的动态变化来测试模型是否会偏离其预设算法,并在601,891名用户和1,692,048次微调中得到应用。
RexRerankers 是一种先进的重排序器,旨在提高产品发现和人工智能助手的效率。它通过估计电子商务产品与查询的相关性来工作,并使用 Amazebay 数据集进行训练。此外,还发布了 ERESS 评估套件,用于全面评估产品发现重排序器的性能。
LightOn AI 发布了 LightOnOCR-2-1B,这是一个10亿参数的第二代端到端视觉-语言 OCR 模型,旨在将文档页面转换为高质量文本,同时提供轻量级布局信息。该模型在性能和速度上均优于同类产品,并支持Hugging Face Transformers生态系统,便于社区使用。
NVIDIA发布了Nemotron-Personas-Brazil,这是一个包含600万个完全合成的巴西人设的开放数据集,旨在解决巴西AI系统训练数据的问题,该数据集基于官方人口普查和劳工数据进行统计学接地,并支持巴西本地化的主权AI开发。
暂无摘要
本文通过比较mDeBERTa、GPT-OSS-20B(LoRA)和GPT-OSS-20B(Base)三种模型在多语言客户支持消息分类任务上的表现,展示了基于BERT的模型在速度和准确性上的优势,同时指出GPT-OSS-20B(LoRA)在精确匹配方面的优势。实验表明,选择合适的模型取决于具体的应用场景和需求,并强调了高效模型架构、智能量化和参数高效微调在构建定制ML解决方案中的重要性。
本文介绍了如何使用Hugging Face的FunctionGemma模型在TPU上进行微调,以创建一个虚拟健身教练。通过TPU优化策略,实现了10分钟内、花费约0.50美元的训练成本,显著提高了模型性能,并减少了幻觉。该项目展示了TPU在小型模型微调中的高效性和经济性。
NVIDIA发布了一种名为Nemotron Speech ASR的新实时语音识别模型,该模型通过缓存感知流式处理技术,实现了更高的效率和更低的延迟,为实时语音代理提供了新的基准。
本文探讨了大型语言模型(LLMs)如何存储和检索关于实体的事实知识。研究人员发现,LLMs 在其 MLP 层中维护一个隐藏的实体词汇表,这些实体以语义嵌入的形式编码,从而实现事实知识的检索。他们开发了一种方法来定位存储实体知识的特定权重,并展示了如何通过激活或抑制这些权重来影响模型的行为。
NVIDIA与AI Singapore合作发布了Nemotron-Personas-Singapore,这是一个为新加坡开发者设计的合成数据集,旨在支持构建主权AI系统。该数据集提供本地化、文化相关和隐私保护的数据,用于训练和评估AI模型。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
这篇公告详细记录了一位AI技术分析师在训练Action Chunking Transformer (ACT)模型上的经历,包括遇到的挑战、解决方案和经验教训。文章描述了如何使用SO-101机器人进行数据收集和训练,以及如何通过改进硬件设置、数据收集流程和评估流程来提高模型的性能。
Zilliz团队发布了名为'zilliz/semantic-highlight-bilingual-v1'的语义高亮模型,该模型旨在降低RAG(Retrieval-Augmented Generation)中的Token成本,同时提供中英双语支持。该模型基于轻量级的Encoder-Only架构,并使用BGE-M3 Reranker v2作为基础模型,通过LLM标注和推理过程训练,实现了在多个数据集上的最先进性能。
Hugging Face发布了针对机器学习生命周期的存储基础设施,旨在解决传统云存储在处理机器学习模型、数据集和日志时的局限性。该基础设施通过Xet技术实现数据去重,提高迭代速度;支持数据流式传输,无需本地下载;提供供应链安全和治理功能,包括自动扫描、细粒度访问控制和数据驻留;同时,它还提供协作和文档功能,如模型卡片和社区功能,使机器学习团队能够更高效地协作。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。
INSAIT 与 ETH Zurich 合作发布了 MamayLM,这是一种针对乌克兰语的高效语言模型,基于 Google 的 Gemma 2 9B 模型,经过优化和调整,使其在资源使用上非常经济,可以在单个 GPU 上运行,同时在乌克兰语和英语上的表现都优于同类模型。MamayLM 在多个标准测试中表现出色,包括乌克兰语的外部独立评估(ZNO)和多种英语基准测试,旨在为乌克兰语提供强大的支持,特别是在需要保持数据隐私的场合。
Sionic AI发布了一项名为Claude Code Skills的系统,旨在通过构建团队记忆来提高机器学习实验的效率和知识共享。该系统通过自动化捕捉和传播实验中的洞察,包括成功和失败的尝试,帮助研究人员避免重复错误并快速学习。该系统主要通过两个Claude Code命令实现:/retrospective和/advise,分别用于记录和查询实验知识。
OpenAI 推出了适用于 macOS 的 Codex 应用程序,这是一个集成的AI编码和软件开发平台,它允许开发者同时管理多个AI智能体,并行运行任务,并支持长期任务协作。该应用通过提供多任务处理空间和自动化功能,改变了软件的构建方式,并提供了两种智能体个性选择,旨在提高开发效率。
Snowflake与OpenAI达成2亿美元的合作协议,将OpenAI的前沿智能直接引入Snowflake企业数据平台,包括Snowflake Cortex AI和Snowflake Intelligence,旨在加速企业AI的采用,使客户能够在其数据上构建和部署AI应用。
这篇论文提出了Gengram,一种基于检索增强的基因组基础模型,通过基因组特定的哈希方案引入了高效的查找原语,显著提升了基因组基础模型在功能基因组学任务上的性能和可解释性。
这篇论文提出了BibAgent,一个用于自动引用验证的可扩展、端到端代理框架,通过整合检索、推理和自适应证据聚合,解决了科学文献中普遍存在的误引用问题。BibAgent能够处理可访问和付费墙资源,并引入了证据委员会机制来推断引用的有效性。此外,论文还贡献了一个5类误引用分类法和MisciteBench,一个包含6,350个误引用样本的跨学科基准。
这篇论文深入探讨了自我奖励语言模型(SRLMs)的理论基础,提供了首个关于SRLMs的严格理论保证。通过建立单个更新步骤的下界和有限样本错误界限,论文揭示了模型性能随迭代次数提高的规律,并解释了为什么自我奖励能够成功克服初始模型质量不佳的问题。
这篇论文提出了PlatoLTL,一种新的方法,使强化学习代理能够零样本泛化到未见过的命题符号,通过将命题视为参数化谓词的实例,学习相关命题之间的共享结构,从而在LTL指令的多任务强化学习中实现泛化。
这篇论文提出了ReGuLaR,一种基于渲染的变分潜在推理方法,通过将推理链渲染为图像并提取视觉-语义表示来压缩推理过程,从而在保持推理有效性的同时提高计算效率。
这篇论文提出了一种名为达尔文记忆系统(DMS)的培训免费的自调节记忆系统,用于GUI代理进化。DMS通过将复杂轨迹分解为可重用的单元,并采用效用驱动的自然选择来优化策略,从而解决现有记忆系统在动态GUI环境中的适应性问题。
MonoScale论文提出了一种针对多智能体系统的扩展框架,通过生成条件熟悉任务,从成功和失败的交互中收集证据,并将其转化为可审计的自然语言记忆,以指导未来的路由,从而在扩展智能体池的同时保证性能的稳步提升。
这篇论文提出了MERMAID,一个结合了记忆增强和多重代理迭代的真实性评估框架,通过整合代理驱动的搜索、结构化知识表示和持久记忆模块,实现了动态证据获取和跨断言证据重用,从而提高了验证效率和一致性。
这篇论文提出了RASST,一种将检索增强技术整合到同步语音翻译(SST)中的方法。RASST通过训练轻量级的语音-文本检索器,并执行高效的滑动窗口检索,为语音大型语言模型(Speech LLM)提供术语提示,从而提高了术语翻译的准确性。