精选 29 篇,从 350+ 条中筛选
AI深度解读
Hugging Face发布FINAL Bench:AI自我修正瓶颈揭秘
Hugging Face发布了FINAL Bench,这是一个新的基准测试,旨在衡量人工智能系统的元认知能力,即AI识别和纠正自身错误的能力。该测试通过100项任务评估AI的自我修正能力,揭示了AI在自我纠正方面的瓶颈,并提出了对AI安全的警示。
体验未来计算:我让龙虾助手OpenClaw掌控我的Jetson!
这篇公告介绍了OpenClaw,一款将计算机从被动工具转变为主动协作伙伴的AI代理。它能够自主设置开发环境、优化硬件配置,并通过自然语言与用户交流,执行复杂指令并提供主动反馈。尽管成本较高,但OpenClaw代表了计算领域的新范式,预示着计算机使用方式的转变。
用户揭秘:abliteration技术解锁LLM无审查响应新境界
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
月之暗面AI发布Kimi K2.5:两周后仍值得期待
北京月之暗面AI公司发布了Kimi K2.5,这是一个拥有1.04万亿参数的大型开放权重模型,引入了“Agent Swarm”概念,通过并行代理强化学习框架提升任务处理效率。K2.5在多个基准测试中表现出色,但在某些领域如通用知识和创意写作方面仍存在不足。
Follow the White Rabbit: Using Embeddings So You Never Get Lost in Translation
本文介绍了如何利用嵌入模型来评估多语言书籍翻译的忠实度,通过实验对比了《爱丽丝梦游仙境》的英法两个版本,展示了如何使用Hugging Face Inference Endpoints上的Qwen3-Embedding-4B模型进行章节和段落匹配,以及段落层面的语义合并对齐策略,从而有效评估翻译质量。
Hugging Face发布VAB基准测AI审美能力
Hugging Face发布了VAB(视觉美学基准),这是一个测试前沿AI模型是否能进行细致美学判断的基准。该基准通过成对和基于集合的比较,以及超过13,000项专家评估,来评估模型在美术、摄影和插画领域的表现。目前表现最好的模型准确率仅为26.5%,远低于人类专家的68.9%。VAB旨在克服现有美学评估基准中的客观性陷阱,通过结构化和专家判断来确保评估的专业性。
用户名揭秘:Transformer模型中张量维度处理技巧
这篇博客详细介绍了在Transformer模型中处理张量维度的重要性,包括矩阵乘法、嵌入层、位置编码、解码器层和注意力机制等关键概念,旨在帮助读者更好地理解Transformer架构。
NVIDIA发布Nemotron ASR:实时语音识别新标杆
NVIDIA发布了一种名为Nemotron Speech ASR的新实时语音识别模型,该模型通过缓存感知流式处理技术,实现了更高的效率和更低的延迟,为实时语音代理提供了新的基准。
Python实战:用户亲授RAG系统构建教程
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
NVIDIA发布Cosmos Policy:机器人控制新突破
NVIDIA发布了一项名为Cosmos Policy的新研究,这是一项用于高级机器人控制和规划的技术,通过后训练世界基础模型Cosmos Predict-2来实现。该技术能够将机器人动作、物理状态和成功分数编码为额外的潜在帧,并使用与视频生成相同的扩散过程进行学习,从而提高了机器人操作的性能。此外,NVIDIA还宣布了Cosmos Cookoff,一个开放式黑客马拉松,旨在推动物理AI的发展。
GEM Image: Building an AI That Actually Gets Educational Diagrams Right
暂无摘要
Hugging Face发布MAEB:音频嵌入技术新基准
Hugging Face发布了MAEB(大规模音频嵌入基准),这是一个旨在评估音频嵌入模型性能的统一框架。MAEB包含98个任务,涵盖多种语言和模型,旨在帮助研究人员和开发者更好地理解不同模型在各个任务上的表现,推动音频嵌入技术的发展。
探索SSM奥秘:Hugging Face揭秘三视图优势
这篇Hugging Face博客文章介绍了状态空间模型(SSM)的基本概念,包括其在控制理论和深度学习中的应用。文章详细解释了SSM的三个视图:连续视图、递归视图和卷积视图,并讨论了它们各自的优势和局限性。
AI恶意应用破局2026
OpenAI发布了关于打击恶意AI使用的最新报告,详细分析了恶意行为者如何结合AI模型与网站、社交媒体平台等传统工具,并探讨了这些行为对检测和防御的影响。报告强调了AI与其他工具的结合使用,并提供了案例研究,旨在帮助行业和社会更好地识别和预防AI恶意行为。
超节点扩展与逻辑路径引导:精准高效图RAG证据定位
这篇论文提出了HyperNode Expansion和Logical Path-Guided Evidence Localization策略,旨在解决图RAG在多跳推理中的准确性和效率问题。通过将知识三元组抽象为HyperNode,并利用预计算的图-文本相关性,该方法在保持知识完整性的同时,显著减少了检索延迟。
GLM-5:从振动编码到智能工程
这篇论文介绍了GLM-5,一个下一代基础模型,旨在将情感编码范式转变为代理工程。GLM-5在继承前代模型的代理、推理和编码能力的基础上,采用DSA技术显著降低了训练和推理成本,同时保持了长上下文的一致性。通过新的异步强化学习基础设施和异步代理强化学习算法,GLM-5在多个公开基准测试中实现了最先进的性能,并在现实世界的编码任务中展现了超越以往基线的强大能力。
HoloLLM:多感官语言基础模型助力人机感知与推理
这篇论文提出了HoloLLM,一个多感官基础模型,它通过整合LiDAR、红外、毫米波雷达和WiFi等不寻常但强大的感知模态,实现了在异构环境中无缝的人类感知和推理。HoloLLM解决了稀传感器的对齐模态-文本数据稀缺和物理信号表示异质性的问题,通过设计UMIP和引入人类-VLM协作数据整理流程,显著提高了语言基础的人类感知准确性。
语义并行:模型-数据协同调度革新MoE高效推理
这篇论文提出了语义并行主义,通过模型-数据协同调度来最小化大规模MoE模型多设备推理中的通信成本,通过预建模激活可能性将专家和激活令牌尽可能多地放置在同一设备上,并通过离线模型调度和在线请求/令牌数据调度技术,有效减少了全全连接通信量,提高了推理吞吐量。
基础技能如何影响基于VLM的具身Agent:本土视角
这篇论文提出了一种名为NativeEmbodied的新基准,用于评估基于视觉语言模型(VLM)的具身智能体。该基准通过使用统一的、本地的低级动作空间,解决了现有基准在真实世界控制方面的不足,并提供了对低级和高级任务的综合评估。
HieraMAS:优化多智能体系统节点内LLM混合与节点间拓扑
这篇论文提出了HieraMAS,一个层次化的协作框架,通过结合节点内LLM混合和节点间通信拓扑来优化多智能体系统。HieraMAS通过使用多个异构LLM实现功能角色,并引入了超级节点来增强特定角色的能力。论文还提出了一种两阶段的算法来解决信用分配挑战,并通过实验证明了其在推理和编码基准测试中的优越性能。
企业级RAG系统案例感知LLM评估
这篇论文提出了一种针对企业级检索增强生成(RAG)系统的评估框架,该框架考虑了案例感知和操作约束,通过使用八个基于操作的指标来评估检索质量、定位准确性、答案效用、精确性和案例/工作流程对齐。该框架通过确定性提示和严格的JSON输出,实现了可扩展的批量评估、回归测试和生产监控。
RMIT-ADM+S亮相MMU-RAG NeurIPS 2025竞赛
这篇论文介绍了RMIT-ADM+S系统,该系统在NeurIPS 2025 MMU-RAG竞赛的Text-to-Text轨道中获得了奖项。该系统采用了一种名为Routing-to-RAG (R2RAG) 的检索增强生成 (RAG) 架构,该架构由轻量级组件组成,能够根据推断的查询复杂度和证据充分性动态调整检索策略。R2RAG使用较小的LLM,使其能够在单个消费级GPU上运行,同时支持复杂的研究任务。该系统基于G-RAG系统,并在此基础上扩展了模块,这些模块是通过定性审查输出而得到的。