每日洞察 (2025-12-13)

Github Trending 2025-12-12

refly-ai/refly：非技术创作者AI自动化工作坊

Refly-ai/refly项目是一个面向非技术创作者的Vibe Workflow平台，旨在通过简单的提示和可视化画布，让用户无需编码即可构建、分享和货币化强大的AI自动化工作流程。该项目定位为平台服务，其核心功能包括可视化执行、实时干预、预包装的强大代理、工作流程助手和市场化平台。技术栈方面，Refly使用TypeScript构建，并集成了多种AI模型和工具。在LLM生态中，Refly提供了非技术用户构建和分享AI自动化工作流程的便捷途径，填补了市场空白，为非技术创作者提供了新的可能性。

Hugging Face 2025-12-09

zai-org/AutoGLM-Phone-9B-Multilingual：多模态智能助手，自然语言驱动

AutoGLM-Phone-9B-Multilingual是一款基于AutoGLM框架的移动智能助手模型，定位为多模态模型。该模型采用GLM-4.1V-9B-Base作为基础模型，具有图像文本到文本的转换能力。模型在性能上表现出色，能够通过自然语言描述任务，自动解析意图，理解当前UI，并执行整个工作流程。该模型适用于需要多模态感知和自动化操作的场景，如智能助手、自动化测试等。模型开源，使用MIT协议，对硬件要求较高，推理效率较高。

Google 2025-12-12

升级Gemini音频模型，打造卓越语音体验

Google DeepMind发布了Gemini 2.5 Native Audio的更新，旨在提升实时语音代理的能力，包括更自然对话、复杂工作流程处理和实时语音翻译功能。此次更新增强了函数调用、指令遵循和多轮对话的连贯性，并支持70多种语言的实时语音翻译，标志着语音技术的新进展。

OpenAI 2025-12-12

28天速递：Android版Sora项目 Codex应用揭秘

OpenAI利用Codex技术，在28天内成功发布了Android版的Sora应用。通过AI辅助的规划、翻译和并行编码工作流程，OpenAI的敏捷团队实现了快速、可靠的开发。

OpenAI 2025-12-12

高盛携手OpenAI打造全民AI，无处不在

BNY使用OpenAI的技术，通过其Eliza平台，让超过20,000名员工构建AI代理，以提高效率和改善客户结果，从而在企业范围内推广AI的应用。

OpenAI 2025-12-12

巴美瓦与OpenAI携手重塑全球银行业

BBVA与OpenAI宣布扩大合作，启动为期多年的AI转型计划，将ChatGPT Enterprise推广至全球12万名员工，旨在通过AI改善客户互动、优化内部运营，并探索AI原生银行转型。

arXiv cs.AI 2025-12-12

RAG-AI-OCT优化临床决策，冠脉介入支持优于ChatGPT-5及初级医生

这篇论文评估了CA-GPT在AI-OCT系统上的表现，与通用AI ChatGPT-5和初级医生相比，在PCI规划和评估方面表现出显著优势，为PCI提供了标准化和可靠的决策支持方法。

arXiv cs.AI 2025-12-12

AgentProg：程序引导长周期GUI智能体赋能

这篇论文提出了AgentProg，一种通过程序指导的上下文管理方法，用于增强长时程GUI代理的能力。该方法通过将交互历史重构成程序，提供了一种原则性的机制来决定哪些信息应该保留，哪些可以丢弃，同时集成了全局信念状态机制以处理部分可观察性和适应环境变化。实验表明，AgentProg在AndroidWorld和其他长时程任务套件上取得了最先进的成功率，并在长时程任务上保持了稳健的性能。

arXiv cs.CL 2025-12-12

扩散：舞台表演的得力助手

这篇论文提出了一种结合扩散模型和自回归生成模型的方法，通过扩散模型提供建议来辅助自回归生成，从而在图像描述任务上取得了最先进的性能。该方法结合了扩散模型的双向和细化能力与自回归模型的强大语言结构，实现了在COCO数据集上的显著性能提升。

arXiv cs.LG 2025-12-12

RoboNeuron：模块化框架连接基础模型与ROS，赋能具身AI

这篇论文提出了RoboNeuron，一个将大型语言模型（LLM）和视觉-语言-动作（VLA）模型与机器人操作系统（ROS）实时执行框架深度集成的通用部署框架，旨在解决当前具身AI系统在跨场景适应性、模块间耦合和推理加速方面的挑战。通过使用模型上下文协议（MCP）作为语义桥梁，RoboNeuron允许LLM动态编排底层机器人工具，并通过自动化工具将ROS消息转换为可调用的MCP函数，从而简化开发过程。

arXiv cs.LG 2025-12-12

STARS：大规模推荐中的语义增强标记

这篇论文提出了STARS，一个基于Transformer的推荐框架，用于大规模、低延迟的电商推荐系统。STARS通过分离长期偏好和短期意图、融合语义项标记、上下文感知评分和延迟感知的两阶段检索管道，显著提升了推荐系统的性能。

arXiv cs.CL 2025-12-12

文本到3D生成中的RL准备如何？渐进式探究

这篇论文探讨了将强化学习应用于文本到3D生成的挑战和解决方案。作者通过评估奖励设计、研究不同的强化学习算法、引入新的基准测试以及提出新的RL范式，系统地研究了如何通过强化学习提高3D生成的质量和效率。

arXiv cs.LG 2025-12-12

多视角多任务超声心动图解读与报告智能代理Echo-CoPilot

这篇论文介绍了Echo-CoPilot，一个多视角、多任务的智能体，用于超声心动图解读和报告。它利用大型语言模型协调一系列专业工具，通过分解医生查询、调用视图识别、心脏结构分割、测量和疾病预测等工具，并将它们的输出整合到符合指南的答案和叙述摘要中。Echo-CoPilot在MIMIC-EchoQA基准测试中实现了50.8%的准确率，优于通用和生物医学视频视觉语言模型。

arXiv cs.LG 2025-12-12

SEMDICE：基于平稳分布校正估计的离策略状态熵最大化

这篇论文提出了一种名为SEMDICE的离策略状态熵最大化算法，该算法通过在状态平稳分布空间内直接优化策略，从任意离策略数据集中计算单个平稳马尔可夫状态熵最大化策略，从而在无监督预训练强化学习领域实现了对状态熵的最大化，并提高了下游任务的适应效率。

arXiv cs.CL 2025-12-12

多跳RAG中缓解语境稀释：固定预算证据组装替代扩展

这篇论文提出了一种名为SEAL-RAG的RAG系统，通过在固定检索深度下采用“替换而非扩展”的策略来缓解多跳查询中的上下文稀释问题。SEAL-RAG通过实体锚定的提取和实体优先的排名来替换掉干扰信息，从而提高答案的正确性和证据的精确度。

AI深度解读