lightonai/LightOnOCR-2-1B:1B参数量OCR,速度快
LightOnOCR-2-1B是一款高效的端到端视觉语言模型,专门用于将文档转换为文本。该模型在OCR领域表现出色,具有快速处理速度和高效能的特点。它基于Transformer架构,参数量为1B,支持多种语言,包括中文。在OlmOCR-Bench基准测试中取得了领先性能,同时体积小、速度快,适用于处理PDF、扫描图像等多种文档格式。
精选 60 篇,从 4200+ 条中筛选
LightOnOCR-2-1B是一款高效的端到端视觉语言模型,专门用于将文档转换为文本。该模型在OCR领域表现出色,具有快速处理速度和高效能的特点。它基于Transformer架构,参数量为1B,支持多种语言,包括中文。在OlmOCR-Bench基准测试中取得了领先性能,同时体积小、速度快,适用于处理PDF、扫描图像等多种文档格式。
AgentCPM-Report是一款由THUNLP、RUCBM和ModelBest共同开发的开放源代码大型语言模型,基于MiniCPM4.1 8B参数基座模型。该模型在报告生成方面表现出色,具有高性能和最小化资源占用等特点。它通过深度检索和思维链推理,生成逻辑严谨、深入见解的长篇报告。模型定位为通用大模型,具有强大的文本生成能力,适用于需要高质量报告生成的场景。
HeartMuLa/HeartMuLa-oss-3B是一款专注于音乐和艺术领域的多模态LLM,具有3B参数量。该模型采用Apache 2.0开源协议,支持多种语言,包括中文、英文、日语等。它在音乐生成和艺术创作方面表现出色,能够将文本转换为音频。在性能上,HeartMuLa-oss-3B在音乐和艺术相关任务中表现优异,但在通用语言理解任务上可能不如其他通用LLM。该模型适用于音乐创作、艺术生成和跨语言交流等场景,具有较好的开源协议和硬件兼容性。
nvidia/personaplex-7b-v1是一款定位为通用大模型的LLM,具有7B参数量,支持多语言。其核心技术为Transformer变体,并采用moshi库进行优化。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。模型开源,适用于多种硬件平台,与vLLM等推理框架兼容。主要应用场景包括多语言问答、代码生成等。
Lightricks/LTX-2是一款基于DiT架构的多模态音频-视频基础模型,专注于生成同步的视频和音频。该模型具有灵活的下载量和点赞数,支持多种语言,并采用diffusers库。LTX-2在图像到视频、文本到视频等多个领域具有广泛应用,其开源协议和丰富的模型版本提供了灵活的部署选项。在性能上,LTX-2在多模态任务中表现出色,尤其在视频生成方面具有显著优势。
kyutai/pocket-tts是一款专注于文本到语音转换的模型,定位为特定领域微调模型。其核心技术基于pocket-tts库,采用Transformer架构,具有较短的上下文长度和相对较少的参数量。性能方面,目前缺乏权威基准测试结果,但模型在HuggingFace Hub上获得了187个点赞,显示出一定的社区认可。主要应用场景为需要文本到语音转换的场合,如语音助手、教育辅助等。模型开源,适用于多种硬件平台,推理效率较高。
VibeVoice-ASR是一款专注于语音识别的领域大模型,具备处理长达60分钟音频的能力,支持结构化转录,包括说话人、时间和内容信息。该模型采用Transformer架构,支持自定义热词,具有丰富的转录功能。在性能上,VibeVoice-ASR在权威基准测试中表现出色,具有高准确率和语义连贯性。模型适用于需要长音频转录和特定领域内容识别的场景,如会议记录、讲座转录等。其开源协议和硬件需求适中,推理效率较高。
STEP3-VL-10B是一款轻量级开源基础模型,定位为通用大模型,具有10B参数量。其核心技术包括统一的多模态预训练和强化学习,具备视觉感知、复杂推理和人类中心对齐能力。在MMLU、GPQA等基准测试中表现出色,性能优于同规模模型。适用于多模态任务,具有开源Apache-2.0协议,适合在多种硬件和推理框架上使用。
LiquidAI/LFM2.5-1.2B-Thinking是一款针对边缘设备部署的推理优化版本的大语言模型。该模型基于LFM2架构,具有1.2B的参数量,支持多种语言。它在性能上与更大的模型相媲美,同时具有快速边缘推理能力。该模型在推理效率、内存占用和兼容性方面表现出色,适用于需要高性能和低延迟的边缘设备。
Qwen3-TTS是一款专注于语音合成的大语言模型,定位为特定领域微调模型。其核心技术包括自研的Qwen3-TTS-Tokenizer-12Hz和离散多码本LM架构,支持多种语言和方言,具有强大的语境理解和自适应控制能力。性能上,模型实现了低延迟的流式生成,端到端合成延迟低至97ms。主要应用场景包括实时交互和个性化语音合成。模型开源协议为Apache-2.0,适合对实时性和个性化语音合成有较高要求的场景。
🔥google/translategemma-4b-it是一款专注于图像到文本翻译的热门模型,定位为多模态模型。其核心技术为基于Gemma3架构的Transformer变体,支持长达200K的上下文长度,参数量适中。在权威基准测试中表现优异,尤其在图像到文本翻译任务上具有显著优势。模型开源,兼容主流推理框架,适用于需要图像到文本翻译功能的场景。
FlashLabs/Chroma-4B是一款多模态模型,定位为通用大模型。其核心技术为Transformer变体,支持任何到任何的转换,具有丰富的功能标签。该模型在Hugging Face Hub上表现活跃,下载量和点赞数均较高。性能方面,具体基准测试结果未提及,但其在多模态任务上具有优势。适用场景广泛,兼容性强,适合对多模态处理有需求的用户。
🔥 unsloth/GLM-4.7-Flash-GGUF 是一款基于 GLM-4.7-Flash 的 MoE 模型,定位为通用大模型。该模型具有 30B 参数,支持多语言(英、中、阿拉伯语)。其核心技术包括 MoE 架构和 UnSloth Dynamic 2.0 技术,在 GLM-4.7-Flash 的基础上进行了优化。在性能上,该模型在多个基准测试中表现出色,具有优秀的代码生成、数学推理和多语言能力。开源协议为 MIT,适用于需要高性能和跨语言支持的场景。
GLM-Image是一款定位在多模态模型领域的开源模型,采用混合自回归+扩散解码器架构。其核心能力在于文本到图像的生成,同时支持丰富的图像到图像任务。技术特点包括基于GLM-4-9B-0414的9B参数自回归生成器和基于DiT架构的7B参数扩散解码器。在性能上,GLM-Image在文本渲染和知识密集型生成场景中表现出色,同时具备高保真和精细细节生成能力。主要应用场景包括图像编辑、风格迁移、身份保留生成和多主体一致性等。开源协议为MIT,硬件需求中等,推理效率良好。
Sweep Next-Edit 1.5B 是一款专注于代码编辑自动完成的模型,定位为代码模型。它采用GGUF格式量化,参数量为1.5B,上下文长度为8192 tokens。该模型在代码编辑自动完成方面表现出色,能够预测用户下一步的代码编辑。它在Hugging Face上的下载量和点赞数均较高,表明其在社区中受到认可。模型基于Qwen2.5-Coder,采用Q8_0量化,适合在本地设备上快速运行。性能方面,模型在代码编辑自动完成基准测试中优于同类模型。主要应用场景为代码编辑辅助工具,对开发者友好。
Qwen3-TTS是一款多语言TTS模型,定位为通用大模型。它具备强大的语音表征能力和低延迟的流式生成能力,采用自研的Qwen3-TTS-Tokenizer-12Hz进行高效声学压缩和语义建模。模型在语音合成方面表现出色,支持多种语言和方言,并具备智能文本理解和语音控制功能。性能方面,模型在权威基准测试中表现良好,具有高效的开源协议和推理效率,适用于实时交互场景。
Qwen3-TTS是一款专注于语音合成的LLM,具备强大的语音表征能力和低延迟的流式生成能力。该模型覆盖10种主要语言,支持多种方言,具有强大的上下文理解能力。其核心技术包括自研的Qwen3-TTS-Tokenizer-12Hz和离散多码本LM架构,实现了高效的声学压缩和语义建模。在性能上,Qwen3-TTS在语音合成任务中表现出色,具有极低的延迟,适用于实时交互场景。模型适用于需要高质量语音合成的应用场景,如智能客服、语音助手等。
FLUX.2-klein-4B 是一款专注于图像生成的多模态模型,定位为通用大模型。该模型具有4亿参数,采用紧凑的架构,能够在不到一秒的时间内完成图像生成和编辑。其核心技术包括Transformer变体和扩散模型,支持文本到图像和图像编辑功能。在性能上,该模型在同类模型中表现出色,适用于实时图像生成和编辑的应用场景。模型开源,可在消费级硬件上运行,对开发者友好。
FLUX.2-klein-9B是一款专注于图像到图像转换的模型,定位为多模态模型。其核心技术为基于Transformer的架构,具有9B参数量,支持diffusers库。在性能上,模型在图像生成和编辑任务上表现出色,但具体基准测试结果未提及。模型适用于图像处理和创意设计领域,开源协议为Apache-2.0,对硬件要求较高,推理效率中等。
GLM-4.7-Flash是一款30B-A3B的MoE模型,定位为通用大模型。其核心技术包括MoE架构和Transformer变体,支持多种语言。在基准测试中表现出色,尤其在AIME 25和GPQA等任务上排名靠前。该模型适用于需要高性能和轻量级部署的场景,支持vLLM和SGLang等推理框架。
这篇论文探讨了在大型语言模型(LLMs)中,不确定性量化从被动诊断指标到主动控制信号的角色演变。它通过在高级推理、自主代理和强化学习中的应用,展示了不确定性如何作为主动控制信号来优化计算、触发自我纠正、管理元认知决策以及通过内在奖励实现自我改进。
这篇论文提出了Agentic Confidence Calibration问题,并引入了Holistic Trajectory Calibration (HTC)框架,用于解决AI代理在执行复杂任务时的过自信问题。HTC通过提取整个轨迹上的丰富过程级特征,实现了对AI代理的可靠性和诊断能力的提升。
这篇论文提出了一种名为Agentic Uncertainty Quantification (AUQ)的框架,旨在解决AI代理在长期推理中的可靠性问题。该框架通过将不确定性转化为双向控制信号,结合了不确定性感知记忆(UAM)和不确定性感知反思(UAR)两种机制,以平衡高效执行和深度思考。
这篇论文提出了一种名为MIRRORBench的可扩展框架,用于评估用户代理代理在生成类似人类用户话语方面的能力。该框架通过提供模块化执行引擎、多后端支持、缓存和可观察性等功能,支持可插拔的用户代理、数据集、任务和度量标准,从而允许研究人员在统一且方差感知的测试环境中评估各种模拟器。
这篇论文提出了ProgressLM,一个用于评估视觉语言模型在任务进度推理方面的基准和模型。通过实验发现,大多数模型在任务进度估计方面表现不佳,而基于训练的ProgressLM-3B模型在小型模型规模上实现了持续的改进。
这篇论文提出了一种名为ActionMesh的生成模型,该模型通过时间三维扩散技术,能够快速生成高质量的动画3D网格。它通过将3D扩散模型与时间轴结合,生成一系列同步的潜在表示,并设计了一个时间三维自动编码器,将独立形状转换为预定义参考形状的变形,从而实现动画。该方法支持从单目视频、文本描述或3D网格和文本提示中生成动画,且速度快,结果无骨架且拓扑一致。
这篇论文提出了EvoCUA,一种通过可扩展合成经验学习的计算机使用代理模型。EvoCUA通过数据生成和政策优化实现自我维持的进化循环,以解决静态数据扩展的限制,并通过大规模经验获取和迭代进化学习策略,显著提高了计算机使用代理的能力。
这篇论文提出了一种基于证据的方法来评估和设计用于教育应用的LLM提示,通过分析LLM生成的结构化对话活动中的后续问题,设计了六个提示模板,并使用Glicko2评分系统进行评估,结果表明,结合角色和上下文管理模式的提示在支持元认知学习策略方面表现最佳。
这篇论文探讨了在大型语言模型(LLMs)时代,如何通过自动化内核生成来提高现代AI系统的性能。它提出利用LLMs和基于LLM的智能体来压缩和优化内核知识,从而实现内核开发的自动化和可扩展性。论文提供了一个结构化的概述,包括现有方法、数据集和基准,并指出了该领域的开放挑战和未来研究方向。
这篇论文提出了VideoMaMa,一个基于生成先验的掩码引导视频合成模型,通过预训练的视频扩散模型将粗略分割掩码转换为像素级的alpha通道,实现了对真实世界视频的零样本泛化,并构建了大规模的伪标签视频合成数据集MA-V,显著提升了视频合成技术的鲁棒性和准确性。
这篇论文提出了360Anything,一个无需几何信息的图像和视频到360°全景图的提升框架。该框架基于预训练的扩散变换器,通过将视角输入和全景图目标视为简单的标记序列,实现了纯数据驱动的视角到等经纬投影的映射,消除了对相机信息的依赖。实验结果表明,该方法在图像和视频的视角到360°生成任务上达到了最先进的性能。
这篇论文提出了一种使用Numba加速Python的高性能框架,用于模拟二维扩散限制聚集(DLA)。通过即时编译,实现了与旧式静态实现相当的计算吞吐量,同时保持了高级灵活性。论文分析了不同注入几何形状和行人浓度下的拉普拉斯增长不稳定性,并使用广义Rényi维度和空隙度指标来量化聚集体的一维特征和空间异质性。
这篇论文提出了VIOLA,一个基于最小标注的视频上下文学习框架,旨在解决多模态大型语言模型在视频领域泛化时的标注数据稀缺问题。VIOLA通过密度不确定性加权采样和混合池构建,结合专家监督和未标注数据,实现了高效且低成本的模型适应。
这篇论文提出了HERMES,一种基于KV缓存作为分层内存的实时视频理解架构,旨在解决流式视频理解中稳定性能、实时响应和低内存开销的挑战。HERMES通过高效利用KV缓存,实现了对视频流的实时和准确理解,显著提高了处理速度和准确性。
这篇论文提出了一种名为SAMTok的离散掩码标记器,它可以将任何区域掩码转换为两个特殊标记,并使用这些标记以高保真度重建掩码。这种方法使得基础的多模态语言模型能够通过标准下一标记预测和简单的强化学习来学习像素级能力,而无需进行架构修改或专门的损失设计。
该论文研究了如何通过表示自动编码器(RAEs)扩展文本到图像(T2I)生成,通过在Web、合成和文本渲染数据上训练,发现RAEs在T2I生成中优于VAEs,并展示了在大型T2I生成任务中的优越性能。
这篇论文提出了BayesianVLA,一种通过潜在动作查询进行贝叶斯分解的视觉语言动作模型,旨在解决当前训练范式中的数据集偏差问题。该方法通过引入可学习的潜在动作查询,构建了一个双分支架构,以最大化动作和指令之间的条件点互信息,从而提高模型在处理新指令和复杂多任务场景时的泛化能力。
这篇论文提出了Cosmos Policy,一种通过在机器人演示数据上单阶段后训练将大型预训练视频模型转换为有效机器人策略的方法,无需修改架构。该方法直接生成机器人动作,并生成未来状态图像和值,从而实现高成功率的动作轨迹规划。
这篇论文提出了一种在超导量子硬件上实现Wigner's Friend电路的方法,用于估计操作分支间通信的见证,并通过实验评估了其在现实设备噪声和编译约束下的行为。该方法不测试或区分量子力学的解释,而是提供了一个可重复的操作约束管道,用于评估非理想通道的检测能力。
这篇论文提出了LLM-in-Sandbox,一种让大型语言模型(LLM)在代码沙盒中探索以激发非代码领域通用智能的方法。该方法使LLM能够利用代码沙盒进行非代码任务,并通过强化学习增强其能力,实验表明LLM-in-Sandbox在多个领域实现了稳健的泛化能力。
LightOn AI 发布了 LightOnOCR-2-1B,这是一个10亿参数的第二代端到端视觉-语言 OCR 模型,旨在将文档页面转换为高质量文本,同时提供轻量级布局信息。该模型在性能和速度上均优于同类产品,并支持Hugging Face Transformers生态系统,便于社区使用。
Interpreto 是一个新推出的开源库,旨在为自然语言处理(NLP)模型提供实用、模块化且统一的可解释性解决方案。它支持基于归因和基于概念的解释方法,适用于分类和生成模型,并能够与 Hugging Face Transformer 模型无缝集成。Interpreto 的发布为用户和开发者提供了一种新的工具,用于理解和评估 NLP 模型的预测过程。
Hugging Face 的 llama.cpp 服务器新增支持 Anthropic Messages API,允许用户使用兼容 Claude 的客户端与本地模型交互。这一更新通过内部格式转换,重用现有推理管道,并支持多种功能,如聊天补全、Token 计数、工具使用和视觉输入,旨在提升本地模型的性能和易用性。
杭州人工智能公司DeepSeek在2025年1月发布了R-1模型,标志着“DeepSeek时刻”的到来。这一事件推动了开源人工智能生态系统的快速发展,并促进了全球范围内对开源模型的采用。一年来,中国开源社区在人工智能领域取得了显著进展,涌现出大量新的开源模型和参与者。DeepSeek的R-1模型降低了技术、采用和心理障碍,推动了开源生态系统的自我复制能力。中国公司开始将开源作为长期竞争策略的一部分,从模型比较转向系统级能力。
RexRerankers 是一种先进的重排序器,旨在提高产品发现和人工智能助手的效率。它通过估计电子商务产品与查询的相关性来工作,并使用 Amazebay 数据集进行训练。此外,还发布了 ERESS 评估套件,用于全面评估产品发现重排序器的性能。
Zilliz团队发布了名为'zilliz/semantic-highlight-bilingual-v1'的语义高亮模型,该模型旨在降低RAG(Retrieval-Augmented Generation)中的Token成本,同时提供中英双语支持。该模型基于轻量级的Encoder-Only架构,并使用BGE-M3 Reranker v2作为基础模型,通过LLM标注和推理过程训练,实现了在多个数据集上的最先进性能。
微软研究团队发布了OptiMind,这是一种专门的语言模型,能够将自然语言描述的优化问题直接转换为数学模型,旨在简化优化流程中的关键步骤,提高实验和迭代的效率。OptiMind现在作为实验性模型在Hugging Face上提供,旨在降低高级优化建模的门槛,使更多用户能够利用这一技术。
这篇公告讨论了合成数据集生成的挑战,包括回归均值问题、上下文锚定偏差、批量退化等,并介绍了Smolify,一个用于特定领域语言模型(DSLMs)的铸造厂,旨在自动化整个流程,帮助开发者拥有自己的AI基础设施。
LightOnOCR-1B 是一种高效的 OCR 模型,它结合了视觉和语言模型技术,实现了在光学字符识别任务中的最先进性能。该模型通过端到端训练和知识蒸馏技术,在保持高准确率的同时,显著提高了处理速度,每秒可以处理 5.71 页文档。此外,LightOnOCR-1B 的开发团队还发布了其训练数据集,以促进该领域的进一步研究。
这篇公告介绍了如何扩展OpenEnv环境,从免费使用到支持数千个并发环境。OpenEnv是一个旨在标准化智能体执行环境的社区合作项目。文章详细介绍了如何使用Hugging Face Spaces等工具进行扩展,并提供了不同级别的基准测试和部署代码,强调了WebSocket接口和多节点集群在提高环境吞吐量方面的重要性。
NVIDIA发布了一种名为Nemotron Speech ASR的新实时语音识别模型,该模型通过缓存感知流式处理技术,实现了更高的效率和更低的延迟,为实时语音代理提供了新的基准。
本文介绍了如何利用开源模型DeepSeek-OCR和FineVision进行大规模OCR任务,并展示了如何在不同的GPU基础设施上运行批量OCR推理。文章详细介绍了如何设置DeepSeek-OCR进行高吞吐量文档处理,设计模块化管道提取文档内容,并在多个云平台上部署批量推理作业。此外,还讨论了优化批量大小和并发性以提高GPU利用率,以及成本估算和扩展处理能力的方法。
Hugging Face的研究人员逆向工程了AI初创公司Magic的技术,发现其核心在于将哈希字符串或函数名视为单一token,从而实现了高效的键值查找和长上下文匹配。基于这一发现,研究者开发了MALM模型,并成功复现了Magic的演示,如计算器和密码强度计等应用场景。
Novita AI 发布了针对 GLM4-MOE 模型的生产级优化方案,通过共享专家融合、Qknorm 融合和异步传输等技术,显著提升了模型推理效率,实现了高达 65% 的 TTFT 减少和 22% 的 TPOT 提升,为生产环境中的高性能推理提供了实践蓝图。
Dell Enterprise Hub发布了新的功能,专注于安全性、治理和性能,包括对模型和容器进行安全扫描,使用Hugging Face访问令牌进行模型访问治理,以及提供优化配置以提高性能。这些更新旨在简化AI模型在Dell平台上的训练和部署,同时增强安全性、治理和性能。
本文介绍了如何使用EvalScope构建定制化的模型评估指标,以更好地反映模型在不同场景下的实际业务价值。文章强调了现有公共评估指标的局限性,并详细说明了构建评估指标的过程,包括定义Schema、采样数据和统一评估等步骤,同时通过实例展示了如何构建企业RAG助手指标,并强调了案例分析和可视化在理解模型表现中的重要性。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
本文介绍了如何创建和发布 Reachy Mini 应用程序,这是一个开源的机器人平台。开发者可以使用 Python SDK 或其他方法,如 Web API / JavaScript 模板,来创建应用程序。文章详细介绍了从创建应用程序模板、编写应用程序逻辑、测试到发布的全过程,并提供了将应用程序添加到官方应用程序列表的指南。
Hugging Face 发布了两个新的 Llama Nemotron 模型,用于提高多模态搜索和视觉文档检索的准确性。这些模型能够处理文本和图像,并支持标准向量数据库,旨在为开发者提供高效、低延迟的视觉文档检索解决方案。
本文提供了一篇面向初学者的 PyTorch 教程,通过构建和训练一个简单的线性回归模型,逐步介绍了 PyTorch 的核心概念和操作。文章详细解释了自动微分、动态计算图、模型类等概念,并展示了如何使用 NumPy 和 PyTorch 实现线性回归,同时介绍了数据生成、损失函数、优化器、模型训练和评估等关键内容。