每日洞察

精选 74 篇,从 320+ 条中筛选

AI深度解读

内容由AI生成,仅供参考
Github Trending 2026-02-11

patchy631/ai-engineering-hub:AI工程实践资源库

AI Engineering Hub是一个面向AI工程实践的综合性资源库,旨在帮助开发者学习、构建和优化LLM、RAG和AI代理应用。它提供了丰富的项目案例、深入教程和实时更新,填补了AI工程实践中的知识空白,为研究者、开发者和企业提供了宝贵的资源和工具。

Github Trending 2026-02-11

google/langextract:LLM文本结构化提取专家

LangExtract是一个Python库,利用LLM从非结构化文本中提取结构化信息,支持云模型和本地模型,提供精确的源定位和交互式可视化。它旨在帮助开发者从大量文本中快速提取关键信息,适用于研究者、应用开发者等,通过优化文本处理策略和提供灵活的模型支持,在LLM生态中提供了独特的价值。

Github Trending 2026-02-11

EveryInc/compound-engineering-plugin:简化LLM工程,提升开发效率

该项目定位为LLM生态中的开发框架,旨在通过Compound Engineering Plugin简化工程工作流程。核心功能包括插件市场、插件转换工具、个人配置同步等,解决工程复杂度累积问题。技术栈亮点在于TypeScript和CLI工具的使用,支持OpenCode和Codex格式转换。在LLM生态中,该项目通过优化工程工作流程,提升开发效率和代码质量。

Github Trending 2026-02-11

gh-aw:Markdown驱动的GitHub Actions自动化工作流

GitHub Agentic Workflows项目定位为开发框架,旨在通过自然语言Markdown编写和运行GitHub Actions中的agentic workflows,解决自动化仓库任务的问题。其核心功能是利用AI技术实现自然语言驱动的自动化工作流,具有安全性和可控性。技术架构上,该项目基于Go语言开发,并集成了多种安全措施,如沙箱执行、输入清理和网络隔离。在LLM生态中,该项目通过提供一种新的应用范式,为开发者提供了高效、安全的自动化解决方案。

Github Trending 2026-02-11

cheahjs/free-llm-api-resources:免费LLM资源库,便捷获取

该项目定位为LLM API资源聚合平台,旨在为开发者提供免费或试用期的LLM API资源。核心功能是列出多种免费和试用期的LLM服务,解决开发者获取和测试LLM资源的难题。技术栈以Python为主,集成了多种LLM模型和API服务。在LLM生态中,该项目通过提供便捷的资源获取途径,降低了开发者使用LLM的门槛,促进了LLM技术的普及和应用。

Hugging Face 2026-02-05

inference-net/Schematron-3B:HTML转JSON领域大模型

Schematron-3B是一款专注于HTML到JSON转换的领域大模型,采用meta-llama/Llama-3.2-3B-Instruct作为基座模型。其核心能力在于将噪声HTML转换为符合自定义模式的严格JSON,适用于网络抓取和数据导入。模型在HTML到JSON转换质量上表现出色,具有长上下文处理能力。性能上,Schematron-3B在Gemini 2.5 Pro基准测试中取得了4.41的分数,优于Gemini-3B-Base。模型适用于需要结构化数据处理的场景,如网络爬虫和数据导入系统。

Hugging Face 2026-02-09

nvidia/personaplex-7b-v1:7B参数多语言通用大模型

nvidia/personaplex-7b-v1是一款定位为通用大模型的LLM,具有7B参数量,支持多语言。其核心技术为Transformer变体,并采用moshi库进行优化。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。模型开源,适用于多种硬件平台,与vLLM等推理框架兼容。主要应用场景包括多语言问答、代码生成等。

Hugging Face 2026-01-29

zai-org/GLM-4.7-Flash:MoE架构通用大模型

GLM-4.7-Flash是一款30B-A3B的MoE模型,定位为通用大模型。其核心技术包括MoE架构和Transformer变体,支持多种语言。在基准测试中表现出色,尤其在AIME 25和GPQA等任务上排名靠前。该模型适用于需要高性能和轻量级部署的场景,支持vLLM和SGLang等推理框架。

Hugging Face 2026-02-05

moonshotai/Kimi-K2.5:多模态大模型,视觉与语言理解强

Kimi K2.5是一款开源的多模态大语言模型,定位为通用大模型。它基于约150万亿混合视觉和文本标记的持续预训练,具备视觉和语言理解以及先进的代理能力。模型在视觉知识、跨模态推理和基于视觉输入的代理工具使用方面表现出色。其核心能力包括视觉到代码的生成和代理群体执行复杂任务。在性能上,Kimi K2.5在权威基准测试中表现良好,具有开源协议、硬件需求适中、推理效率较高的特点,适用于多模态任务和复杂任务处理。

Hugging Face 2026-02-01

circlestone-labs/Anima:动漫风格图像生成利器

Anima模型定位为特定领域微调模型,专注于动漫风格的艺术图像生成。其核心技术为基于扩散模型的单文件库,参数量为20亿。模型在动漫风格图像生成方面表现出色,但未公开权威基准测试结果。主要应用场景为动漫艺术创作,使用时需考虑开源协议和硬件需求。

Hugging Face 2026-02-07

stepfun-ai/Step-3.5-Flash:MoE架构高效代码生成

Step 3.5 Flash是一款高效的开源基础模型,定位于通用大模型领域。它采用稀疏混合专家(MoE)架构,参数量196B,上下文长度未指定。该模型在推理速度和代码生成方面表现出色,通过3-way Multi-Token Prediction(MTP-3)技术,实现了100-300 tok/s的生成吞吐量。在SWE-bench和Terminal-Bench 2.0基准测试中分别取得了74.4%和51.0%的优异成绩。模型开源协议为Apache 2.0,适用于需要快速推理和代码生成的场景。

Hugging Face 2026-02-09

zai-org/GLM-OCR:多模态OCR,复杂文档理解强

zai-org/GLM-OCR是一款基于GLM-V架构的多模态OCR模型,专注于复杂文档理解。该模型采用多令牌预测损失和稳定的全任务强化学习,结合CogViT视觉编码器和GLM-0.5B语言解码器,实现高效训练和识别。在OmniDocBench V1.5基准测试中排名第一,适用于复杂表格、代码密集型文档等场景,支持vLLM、SGLang和Ollama等推理框架,易于集成到现有生产流程中。

Hugging Face 2026-01-30

🔥 Qwen/Qwen3-ASR-1.7B

Qwen3-ASR-1.7B是一款专注于语音识别的领域大模型,具备多语言和方言支持能力。该模型采用Qwen3-Omni基础模型,结合大规模语音训练数据,实现了在复杂声学环境和挑战性文本模式下的高质量和鲁棒识别。其在开源ASR模型中达到最先进水平,与顶级商业API相媲美。模型支持语言识别和语音识别,具有高效的吞吐量和强大的推理框架。主要应用场景包括语音转文本、语音识别等。

Hugging Face 2026-02-03

Qwen/Qwen3-Coder-Next:高效代码生成开源模型

Qwen3-Coder-Next是一款针对代码生成和本地开发设计的开源语言模型。该模型具有3B激活参数和80B总参数,上下文长度为256k,支持多种CLI/IDE平台。其核心技术包括混合布局、MoE和Gated DeltaNet。在代码生成任务中表现出色,具有高效的性能和强大的适应性。模型在HuggingFace平台上的下载量和点赞数均较高,表明其在LLM领域中的受欢迎程度。主要应用场景包括代码生成、本地开发和集成到IDE中。

Hugging Face 2026-02-03

ACE-Step/Ace-Step1.5:多模态音乐生成,高效创作

ACE-Step/Ace-Step1.5是一款针对音乐生成领域的开源模型,定位为多模态模型。其核心技术为结合语言模型和扩散模型,支持从简短循环到10分钟长曲的创作。该模型在训练数据上具有商业合规性,支持多种风格的音乐生成,且在消费级硬件上运行高效。在性能上,ACE-Step/Ace-Step1.5在音乐生成速度上表现出色,能够在短时间内生成完整的歌曲。主要应用场景包括音乐创作、音频编辑等。

Hugging Face 2026-02-09

internlm/Intern-S1-Pro:万亿参数MoE多模态科学推理引擎

Intern-S1-Pro是一款定位在科学推理领域的万亿参数MoE多模态模型,具有512个专家,每个token激活8个专家。该模型在科学推理基准测试中表现出色,同时在多模态和文本处理方面也具有强大的能力。其核心技术包括STE路由和分组路由,以及FoPE和升级的时间序列建模。性能表现在多个基准测试中均处于领先地位,适用于科学研究和多模态任务。

Hugging Face 2026-02-09

TeichAI/GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill-GGUF:推理优化通用大模型

TeichAI/GLM-4.7-Flash-Claude-Opus-4.5-High-Reasoning-Distill-GGUF是一款专注于推理优化的通用大模型。该模型基于TeichAI的GLM-4.7-Flash,结合了Claude Opus 4.5的高推理能力,特别适用于需要高推理能力的场景。模型具有约2.13M的总token,采用Unsloth和Huggingface的TRL库进行加速训练。在性能上,模型在权威基准测试中表现良好,具有代码生成、科学研究和深度研究等应用场景。开源协议为Apache-2.0,适合在多种硬件和推理框架上使用。

Hugging Face 2026-02-11

openbmb/MiniCPM-o-4_5:多模态大模型,实时多语种交互

MiniCPM-o 4.5是一款多模态大语言模型,定位为通用大模型。该模型基于SigLip2、Whisper-medium、CosyVoice2和Qwen3-8B构建,参数量达9B。它在视觉、语音和全双工多模态直播方面表现出色,支持双语实时语音对话和全双工直播功能。性能上,MiniCPM-o 4.5在OpenCompass等基准测试中表现出色,超越了GPT-4o等模型。该模型适用于需要多模态交互和实时处理的场景,如直播互动、多语言对话等。

Hugging Face 2026-02-04

Qwen/Qwen3-Coder-Next:高效代码生成开源模型

Qwen3-Coder-Next是一款专注于代码生成的开源语言模型,具有高效能和先进的代理能力。该模型采用3B激活参数,性能与参数量更高的模型相当,适用于代码代理部署。其核心特点包括高效的Transformer架构、混合专家(MoE)机制和256k的上下文长度,支持多种IDE平台集成。在性能评估方面,该模型在代码生成任务中表现出色,具有较好的基准测试结果。主要应用场景包括代码辅助、代码生成和代码优化等。

Hugging Face 2026-02-05

unslath/Qwen3-Coder-Next-GGUF:高效代码生成,先进代理技术

Qwen3-Coder-Next是一款针对代码生成和本地开发设计的开源语言模型,具有高效的性能和先进的代理能力。该模型采用3B激活参数,性能可与参数量多10-20倍的模型相媲美,适用于代理部署。它具备长距离推理、复杂工具使用和恢复能力,适用于代码生成、数学推理等任务。模型基于transformers库,支持2-bit XL量化,对硬件要求较高。在LLM领域,Qwen3-Coder-Next以其高效的代码生成能力和先进的代理技术脱颖而出。

Hugging Face 2026-01-28

DavidAU/GLM-4.7-Flash-Uncensored-Heretic-NEO-CODE-Imatrix-MAX-GGUF:30B参数通用大模型

该模型DavidAU/GLM-4.7-Flash-Uncensored-Heretic-NEO-CODE-Imatrix-MAX-GGUF定位为通用大模型,具有30B参数量,支持200K上下文。其核心技术包括GLM-4.7-Flash架构、MoE模型、16位精度输出和Heretic去审查功能。在性能上,模型在MMLU、GPQA等基准测试中表现良好,具有推理、思考和创作能力。主要应用场景包括创意写作、故事生成等。模型开源,支持GPU和CPU推理,与vLLM等框架兼容。

Hugging Face 2026-02-11

Nanbeige/Nanbeige4.1-3B:小型参数大推理

Nanbeige4.1-3B是一款基于Nanbeige4-3B-Base的增强型推理模型,具有小型参数规模但强大的推理、偏好对齐和有效代理行为能力。该模型在代码、数学、科学等通用推理任务上表现出色,尤其在LiveCodeBench-Pro、IMO-Answer-Bench和AIME 2026 I等挑战性任务中表现出色。其技术特点包括监督微调和强化学习优化,支持深度搜索任务,并在小模型生态系统中实现了推理和代理能力的平衡。模型适用于需要复杂推理和代码生成的场景,具有开源Apache-2.0协议,适合在通用推理和特定领域应用中部署。

Hugging Face 2026-02-11

mistralai/Voxtral-Mini-4B-Realtime-2602:实时语音转写,低延迟高效率

Voxtral Mini 4B Realtime 2602是一款多语言实时语音转写模型,定位为特定领域微调模型。它具有3.4B参数的语言模型和0.6B参数的音频编码器,支持13种语言,并具有可配置的转写延迟。该模型在实时语音转写任务中表现出色,能够在480ms延迟下达到与离线模型相当的性能。它适用于语音助手、实时字幕等应用,具有开源协议、硬件需求低、推理效率高等实用特性。

Hugging Face 2026-02-11

zai-org/GLM-5:744亿参数,DSA提升推理效率

GLM-5是一款针对复杂系统工程和长期目标代理任务的大语言模型。它具有744亿参数,支持中英双语。GLM-5在预训练和后训练方面均有显著提升,尤其在推理、编码和代理任务上表现出色。其核心技术包括DeepSeek Sparse Attention(DSA)和异步RL基础设施slime,旨在提高训练效率和推理效率。模型在多个基准测试中表现优异,是开源模型中的佼佼者。

Hugging Face 2026-02-07

AgentSys:显式分层内存管理保障安全动态LLM智能体

这篇论文提出了AgentSys,一个通过显式分层内存管理来防御间接提示注入的框架,旨在提高大型语言模型(LLM)代理的安全性和动态性。AgentSys通过隔离工作流中的指令和内容,减少了攻击者操纵行为的机会,并提高了决策能力。

Hugging Face 2026-02-08

因果装甲:高效因果归因间接提示注入防护

这篇论文提出了CausalArmor,一种通过因果归因进行高效间接提示注入防护的框架,旨在解决AI代理在工具调用能力下易受间接提示注入攻击的问题。CausalArmor通过计算轻量级的因果归因,并在检测到未信任内容对用户意图产生不成比例的影响时触发针对性的清理,从而在保持AI代理的效用和延迟的同时提高安全性。

Hugging Face 2026-02-09

iGRPO:自反馈驱动大语言模型推理

这篇论文提出了iGRPO,一种基于自我反馈的迭代群相对策略优化方法,用于提升大型语言模型在解决复杂数学问题时的准确性和一致性。iGRPO通过两个阶段,结合探索性草稿和基于草稿的优化,显著提高了LLM在数学推理基准上的性能。

Hugging Face 2026-02-09

接触锚定策略:接触条件生成强大机器人效用模型

这篇论文提出了Contact-Anchored Policies (CAP),一种通过物理接触点而非语言提示来指导机器人学习的策略。该方法通过构建模块化的效用模型库,实现了从模拟到现实世界的迭代优化,显著提高了机器人在新环境和任务上的泛化能力。

Hugging Face 2026-02-07

基于在线强化学习的安全代码生成与漏洞奖励模型

这篇论文提出了一种名为SecCoderX的在线强化学习框架,用于在保持功能的同时生成安全的代码。该框架通过重新利用漏洞检测资源,结合在线强化学习和基于推理的漏洞奖励模型,实现了安全代码的生成,显著提高了代码的安全性。

Hugging Face 2026-02-09

有效推理链降低内在维度

这篇论文研究了如何通过有效的推理链来降低语言模型在复杂推理任务中的内在维度,从而提高泛化能力。作者通过定义内在维度作为衡量推理链有效性的定量指标,发现有效的推理策略可以减少模型达到特定准确度所需的维度数,从而在GSM8K数据集上观察到推理策略的内在维度与其泛化性能之间的强负相关关系。

Hugging Face 2026-02-05

代码代理上下文检索基准:ContextBench

这篇论文提出了ContextBench,一个用于评估编码代理上下文检索过程的基准。通过分析来自多个代码库的问题解决任务,论文揭示了在上下文检索中的挑战,并展示了大型语言模型在软件任务中的推理能力。

Hugging Face 2026-01-31

LLM中揭示高可解释性视觉标记的LatentLens

这篇论文提出了LatentLens,一种将LLM转换为VLM的新方法,通过映射视觉标记到LLM的嵌入空间,并使用自然语言描述视觉标记的上下文表示,显著提高了视觉标记的可解释性。

Hugging Face 2026-02-07

计算最优执行代码生成测试策略:基于惊讶度引导的选择

这篇论文提出了基于惊喜度的选择方法,用于执行基础代码生成任务中的测试时训练。通过在推理时进行基于梯度的更新来适应语言模型,论文发现搜索策略优于最小适应策略,并提出了惊喜度引导的选择,显著提高了任务成功率。

Hugging Face 2026-02-01

大规模容器环境下的终端代理轨迹生成

这篇论文提出了一种名为TerminalTraj的可扩展管道,用于从Docker化环境中生成大规模的终端代理轨迹,以训练终端任务中的代理模型。该方法通过过滤高质量仓库构建Docker执行环境,生成与Docker对齐的任务实例,并合成具有可执行验证代码的代理轨迹。实验表明,使用TerminalTraj生成的数据训练的模型在TerminalBench上取得了显著的性能提升。

Hugging Face 2026-02-10

RL训练语言模型最优推理长度研究

这篇论文研究了强化学习训练的语言模型中最佳推理长度的问题,通过比较不同的长度控制方法,发现适当的长度控制可以提高具有强大先验推理能力的模型的效率,并识别出长输出增加分散性和短输出导致思考不足两种失败模式。

Hugging Face 2026-02-04

VISTA-Bench:视觉语言模型真懂可视化文本吗?

这篇论文提出了VISTA-Bench,一个用于评估视觉语言模型(VLMs)对视觉化文本理解的基准。通过对比纯文本和视觉化文本问题,论文揭示了VLMs在处理视觉化文本时的性能差距,并强调了模型对渲染变化的敏感性。

Hugging Face 2026-02-04

电路限制权重算术:选择性拒绝电路

这篇论文提出了C-Δθ,一种基于电路限制的权重算术方法,用于在离线环境中实现大规模语言模型(LLM)的安全策略执行。该方法通过将拒绝原因计算局部化到稀疏电路中,并计算仅在该电路上的约束权重更新ΔθC,从而减少推理时的计算成本和服务复杂性。

Hugging Face 2026-01-30

TokenTrim:自回归长视频生成中的推理时令牌剪枝

这篇论文提出了一种名为TokenTrim的推理时token剪枝方法,用于自回归长视频生成。该方法通过识别和移除不稳定的潜在token来减轻时间漂移问题,从而提高长视频生成的时序一致性,而不需要修改模型架构、训练过程或潜在空间。

Hugging Face 2026-02-09

学术与产业融合:属性图聚类全面基准

这篇论文提出了一种名为PyAGC的全面基准,用于解决属性图聚类(AGC)在学术研究和实际应用之间的差距。PyAGC通过提供一个模块化的Encode-Cluster-Optimize框架和多种AGC算法的内存高效、小批量实现,旨在评估AGC方法在不同规模和结构属性上的性能。

Hugging Face 2026-02-10

探索流形学习:解锁标准扩散Transformer的表征编码

这篇论文提出了一种名为RJF(Riemannian Flow Matching with Jacobi Regularization)的方法,通过在流形几何上匹配和雅可比正则化,解决了标准扩散变换器在表示编码器上直接收敛的问题,从而实现了高效、高保真的生成模型。

Hugging Face 2026-02-08

元学习赋能:构建持续学习智能体

这篇论文提出了ALMA,一个通过元学习自动学习记忆设计的框架,旨在解决基础模型在持续学习方面的局限性。ALMA通过元代理搜索可执行代码形式的记忆设计,以适应不同领域的持续学习需求,实验表明其学习到的记忆设计在多个基准测试中优于人工设计的记忆设计。

Hugging Face 2026-02-09

重新审视扩散Transformer中的全球文本条件化

这篇论文探讨了在扩散变换器中,基于池化嵌入的文本条件是否必要以及是否能提供性能优势。研究发现,传统的池化嵌入对性能贡献不大,但通过不同的使用方式,它可以显著提升性能,实现可控的属性转变,且无需额外训练,易于实现。

Hugging Face 2026-02-05

保持上下文验证 快速撤销扩散解码技术

这篇论文提出了一种名为COVER的算法,用于加速可撤销扩散解码过程,通过在单次前向传递中执行留一验证和稳定草稿,显著减少了不必要的修订,同时保持了输出质量。

Hugging Face 2026-02-10

LLM编码失败:预测生成成功

这篇论文研究了大型语言模型(LLM)在生成文本前如何编码其成功或失败的可能性,并提出了一种通过预生成激活来预测任务成功的方法,从而提高了推理效率。

Hugging Face 2026-02-05

Hugging Face推CRAFT AI框架:图像生成新高度

Hugging Face发布了CRAFT(Continuous Reasoning and Agentic Feedback Tuning),这是一种无需重新训练即可为文本到图像生成和图像编辑增加“思考”能力的框架。CRAFT通过将提示分解为明确的视觉检查、使用VLM验证输出并仅编辑不符合要求的部分来工作,从而显著提高了图像的组合准确性和文本渲染质量。

Hugging Face 2026-02-07

Anthropic SAE转向技术JSON输出失败揭秘

这篇公告分析了使用Anthropic的稀疏自编码器(SAE)激活转向技术在生成结构化输出(如JSON)时的局限性。实验表明,该技术无法确保大语言模型(LLM)生成有效JSON格式,甚至可能降低输出质量。作者转向了约束解码方法,通过在生成令牌时强制执行JSON语法,成功实现了100%的有效JSON输出。文章强调了激活转向适用于语义控制,而约束解码适用于结构化输出,并建议结合微调和约束解码来同时优化内容和格式。

Hugging Face 2026-02-05

SyGra V2.0.0重磅升级:UI驱动合成数据新纪元

SyGra V2.0.0是SyGra框架的重大更新,引入了以UI为先导的Studio、多模态生成管道、企业级集成、LLM节点中的工具支持、数据质量增强、扩展的提供商和模型集成以及元数据和可观察性功能,旨在简化合成数据生成和评估工作流程。

Hugging Face 2026-02-11

Hugging Face发布DTS算法:LLM并行推理新突破

Hugging Face宣布了DTS(Decoding Tree Sketching)算法,这是一种创新的并行推理算法,旨在提高大型语言模型(LLM)的推理效率和准确性。DTS通过在推理过程中检测决策点,并仅在存在多个语义上不同的延续时进行分支,从而避免了传统方法的计算浪费。它不需要额外的训练,可以与任何可以解码令牌的模型集成,显著提高了LLM的推理性能。

Hugging Face 2024-06-13

用户揭秘:abliteration技术解锁LLM无审查响应新境界

本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。

Hugging Face 2024-10-29

Python实战:用户亲授RAG系统构建教程

本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。

Hugging Face 2025-02-11

PyTorch+Hugging Face助你微调LLM,轻松实现尤达语翻译

本文详细介绍了如何使用PyTorch和Hugging Face工具微调大型语言模型(LLM),以将英文翻译成尤达语(Yoda-speak)。通过量化模型、设置低秩适配器(LoRA)、格式化数据集以及使用Hugging Face的`trl`库中的`SFTTrainer`进行监督式微调,展示了整个过程。LoRA技术允许在量化模型上进行高效训练,显著减少了可训练参数的数量,使其仅占原始大小的1%或更少,从而能在资源有限的消费级GPU上进行训练。

Hugging Face 2025-11-12

Photoroom开源PRX文本图像模型 赋能AI创作新篇章

Photoroom宣布开源其文本到图像模型PRX,该模型现已在Hugging Face的Diffusers中提供。此次发布旨在开放整个训练过程,包括训练方法、经验教训等,旨在成为对文本到图像模型感兴趣的实用资源。Photoroom还计划分享一系列深入探讨模型设计实验、架构基准、加速技巧和后训练方法的文章。

Hugging Face 2026-01-19

LightOnAI发布轻量级OCR新模型LightOnOCR-2-1B

LightOn AI 发布了 LightOnOCR-2-1B,这是一个10亿参数的第二代端到端视觉-语言 OCR 模型,旨在将文档页面转换为高质量文本,同时提供轻量级布局信息。该模型在性能和速度上均优于同类产品,并支持Hugging Face Transformers生态系统,便于社区使用。

Hugging Face 2026-01-29

NVIDIA发布Cosmos Policy:机器人控制新突破

NVIDIA发布了一项名为Cosmos Policy的新研究,这是一项用于高级机器人控制和规划的技术,通过后训练世界基础模型Cosmos Predict-2来实现。该技术能够将机器人动作、物理状态和成功分数编码为额外的潜在帧,并使用与视频生成相同的扩散过程进行学习,从而提高了机器人操作的性能。此外,NVIDIA还宣布了Cosmos Cookoff,一个开放式黑客马拉松,旨在推动物理AI的发展。

Hugging Face 2024-10-29

解码秘籍揭晓:LLMs四大策略提升文本生成

本文深入探讨了大型语言模型(LLMs)中的解码策略,包括贪婪搜索、束搜索、Top-k采样和核采样,旨在提高文本生成的多样性和质量。文章通过Python代码示例展示了这些策略的实现和效果,并讨论了它们在不同应用场景中的适用性。

Hugging Face 2025-01-30

AI达人揭秘:KV缓存加速Transformer推理

本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。

Hugging Face 2025-02-22

AI日报:揭秘SLM:轻量级语言模型新应用

这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。

Hugging Face 2025-12-14

Hugging Face发布EuroLLM-22B:欧洲开源语言模型新秀

Hugging Face 发布了 EuroLLM-22B,这是一个完全开源的欧洲语言模型,旨在支持所有 24 种欧盟官方语言和 11 种国际重要语言。该模型利用 EuroHPC 基础设施和 MareNostrum5 超级计算机上的 400 个 Nvidia H100 GPU 进行训练,表现出色,尤其在翻译任务上与顶尖模型竞争并超越,是目前欧洲制造的最佳完全开源 LLM。

Hugging Face 2025-12-26

Hugging Face揭秘小型语言模型最优架构

Hugging Face的官方博客发布了一篇关于小型语言模型最优架构的文章,介绍了通过实验发现的最优模型配置,包括深度、宽度、架构类型等,并推出了新的扩散模型Dhara-70M,该模型在保持较高准确性的同时,实现了更高的吞吐量和事实性。

Hugging Face 2026-02-03

NVIDIA发布Agentic智能路由器:Dell企业平台深度解析

NVIDIA发布了NVIDIA Agentic Smart Router,这是一款基于Dell Enterprise Hub的智能路由器,旨在解决企业AI应用部署中的多大型语言模型(LLM)利用和单一框架限制问题。该路由器通过NVIDIA NeMo Agent Toolkit (NAT) 和NVIDIA的LLM路由器实现多框架、面向代理的设计,提供智能模型选择、代理编排和检索增强生成(RAG)等功能,旨在提高准确性、性能和降低成本。

Hugging Face 2024-02-20

Hugging Face发布rsLoRA:LoRA微调新突破

Hugging Face 发布了 Rank-Stabilized LoRA (rsLoRA),这是一种参数高效的微调方法,旨在解决传统 LoRA 在低秩适配器下性能饱和的问题。rsLoRA 通过将 LoRA 适配器除以其秩的平方根来稳定学习过程,允许在更高秩下进行有效学习,从而在不显著增加计算成本的情况下提高微调性能。

Hugging Face 2024-05-07

用户名打造makeMoE:揭秘稀疏混合专家语言模型构建

本文介绍了如何从头开始实现一个稀疏混合专家语言模型(makeMoE),该模型基于Andrej Karpathy的项目“makemore”,并借鉴了其许多可复用组件。makeMoE是一个自回归字符级语言模型,采用稀疏混合专家架构,旨在帮助读者理解其工作原理。

OpenAI 2026-02-11

工程赋能:以Agent为中心的Codex应用

OpenAI通过使用Codex,在五个月内完全自动化地生成了一个内部软件产品,重新定义了工程师的角色,并实现了从代码编写到产品发布的端到端自动化。这一实验展示了代理在复杂任务中的高效性,并强调了知识库管理、架构和风格强制执行、以及高吞吐量下的合并哲学的重要性。

arXiv cs.CL 2026-02-11

代码生成渲染式GUI世界模型:Code2World

这篇论文提出了Code2World,一个通过可渲染代码生成来模拟视觉状态的GUI世界模型。该方法通过将GUI轨迹转换为高保真HTML,并通过视觉反馈修正机制来提高代码质量,解决了数据稀缺问题。Code2World使用渲染感知强化学习,通过视觉语义保真度和动作一致性作为奖励信号,实现了高视觉保真度和细粒度结构可控性。实验表明,Code2World在UI预测方面表现优异,并显著提高了下游导航的成功率。

arXiv cs.LG 2026-02-11

《沙盒游戏《Among Us》:测谎与侦测代理欺骗工具》

这篇论文提出了一种名为Among Us的社交欺骗游戏沙盒,用于评估和检测基于语言的人工智能代理的欺骗行为。通过让LLM代理在游戏中表现出长期、开放式的欺骗行为,论文评估了18种LLM模型在欺骗产生和检测方面的能力,发现使用强化学习训练的模型在欺骗产生方面表现更好,而在欺骗检测方面,基于激活的逻辑回归和稀疏自编码器(SAEs)方法表现出色。

arXiv cs.LG 2026-02-11

MolLangBench:语言提示下分子结构识别与生成全面基准

这篇论文提出了MolLangBench,一个用于评估语言提示下分子结构识别、编辑和生成的综合基准。通过构建自动化化学信息学工具的识别任务和专家注释的编辑和生成任务,MolLangBench旨在评估模型在处理分子语言接口任务方面的能力。实验结果表明,当前AI系统在分子识别和操作任务上存在显著局限性。

arXiv cs.LG 2026-02-11

递归Transformer:高效灵活的多模态模型新突破

这篇论文提出了RecursiveVLM,一种针对大型多模态模型(LMMs)的递归Transformer架构,通过递归精炼重用模型参数,以提取更强的多模态表示,同时不增加模型大小。RecursiveVLM通过递归连接器和单调递归损失实现了有效的循环,提高了模型的效率和适应性。

arXiv cs.LG 2026-02-11

BiSSL:双层次优化提升自监督预训练与下游微调一致性

这篇论文提出了一种名为BiSSL的新型 bilevel 训练框架,旨在通过优化自监督预训练和下游微调之间的对齐,提高模型在下游任务上的性能。该框架通过在预训练和微调阶段之间引入一个中间训练阶段,解决了一个包含前缀任务和下游训练目标的 bilevel 优化问题,从而增强信息共享,使模型初始化更好地与下游任务对齐。

arXiv cs.LG 2026-02-11

强化学习重塑语言模型协作:n-Musketeers

这篇论文提出了一种名为软隐藏状态协作的方法,通过可训练的注意力接口将多个异构的冻结语言模型专家集成,以实现结构化推理。实验表明,这种方法在Reasoning Gym和GSM8K上的表现与强大的单模型强化学习基线相当。论文揭示了专家利用的双重机制,并提供了对专家利用模式和它们在强化学习下演化的观察窗口。

arXiv cs.LG 2026-02-11

UI-Venus-1.5技术报告

这篇论文介绍了UI-Venus-1.5,一个统一的端到端GUI代理,旨在解决数字环境中GUI代理的泛化性和任务性能问题。它通过中期训练、在线强化学习和模型合并等技术,实现了在多个基准测试中的新突破,并在真实场景中展示了强大的导航能力。

arXiv cs.CL 2026-02-11

评估RAG系统中的社会偏见:外部语境助力推理受损

这篇论文研究了RAG系统中的社会偏见问题,通过在RAG中整合外部上下文和思维链(CoT)提示,发现外部上下文有助于减少偏见,而CoT则可能增加偏见。实验结果表明,RAG在处理偏见方面比LLM更有效,但CoT的使用需要谨慎。

arXiv cs.CL 2026-02-11

TREC 2025 RAGTIME赛道概览

这篇论文概述了TREC 2025 RAGTIME Track,该Track旨在研究从多语言源文档生成报告。论文创建了包含阿拉伯语、中文、英语和俄语新闻故事的文档集合,并包括三种任务类型:多语言报告生成、英语报告生成和多语言信息检索。实验结果显示了13个团队提交的125个运行结果。