每日洞察

精选 69 篇,从 670+ 条中筛选

AI深度解读

内容由AI生成,仅供参考
Hugging Face 2026-02-16

MiniMaxAI/MiniMax-M2.5:高性能通用大模型

MiniMax-M2.5是一款定位在通用大模型范畴内的LLM,具有较大的参数量和较长的上下文长度。其核心技术基于transformers库,并引入了safetensors和custom_code等创新。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。开源协议为modified-mit,适合在多种硬件和推理框架上使用。

Hugging Face 2026-01-29

Qwen/Qwen3-TTS:低延迟流式语音合成

Qwen3-TTS是一款专注于语音合成的大语言模型,定位为特定领域微调模型。其核心技术包括自研的Qwen3-TTS-Tokenizer-12Hz和离散多码本LM架构,支持多种语言和方言,具有强大的语境理解和自适应控制能力。性能上,模型实现了低延迟的流式生成,端到端合成延迟低至97ms。主要应用场景包括实时交互和个性化语音合成。模型开源协议为Apache-2.0,适合对实时性和个性化语音合成有较高要求的场景。

Hugging Face 2026-02-23

Qwen/Qwen3.5-397B-A17B:跨语言多模态高效推理

Qwen3.5-397B-A17B是一款通用大模型,具备强大的多模态学习能力和高效的推理性能。其核心架构采用Gated Delta Networks和sparse MoE,支持1M上下文长度,具有跨语言的广泛覆盖。在多模态学习、推理效率、适应性等方面表现出色,适用于需要高效率、高准确性的多模态任务。

Hugging Face 2026-02-23

xgen-universe/Capybara:多模态视觉创作,高效GPU处理

Capybara是一款统一视觉创作模型,定位为多模态模型,具备强大的视觉生成和编辑能力。其核心技术包括先进的扩散模型和Transformer架构,支持多任务处理,如文本到视频、文本到图像等。性能方面,Capybara在生成任务中表现出色,具有高效的多GPU处理能力。模型适用于需要高质量视觉合成和编辑的场景,如视频制作、图像编辑等。其开源协议为MIT,硬件需求较高,推理效率良好。

Hugging Face 2026-02-22

TeichAI/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF:14B参数大模型,高推理效能

TeichAI/Qwen3-14B-Claude-4.5-Opus-High-Reasoning-Distill-GGUF 是一款定位在通用大模型领域的推理优化版本,具有14B参数量,支持高推理能力。该模型基于TeichAI的Qwen3-14B模型,通过Claude Opus 4.5(推理)数据集进行训练,具有优秀的代码生成、科学推理和通用用途能力。在性能上,该模型在MMLU、GPQA、IFEval等基准测试中表现出色,具有较好的推理效率和开源协议。主要应用场景包括编码、科学研究和通用用途。

Hugging Face 2026-02-05

moonshotai/Kimi-K2.5:多模态大模型,视觉与语言理解强

Kimi K2.5是一款开源的多模态大语言模型,定位为通用大模型。它基于约150万亿混合视觉和文本标记的持续预训练,具备视觉和语言理解以及先进的代理能力。模型在视觉知识、跨模态推理和基于视觉输入的代理工具使用方面表现出色。其核心能力包括视觉到代码的生成和代理群体执行复杂任务。在性能上,Kimi K2.5在权威基准测试中表现良好,具有开源协议、硬件需求适中、推理效率较高的特点,适用于多模态任务和复杂任务处理。

Hugging Face 2026-02-15

nvidia/personaplex-7b-v1:7B参数多语言通用大模型

nvidia/personaplex-7b-v1是一款定位为通用大模型的LLM,具有7B参数量,支持多语言。其核心技术为Transformer变体,并采用moshi库进行优化。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。模型开源,适用于多种硬件平台,与vLLM等推理框架兼容。主要应用场景包括多语言问答、代码生成等。

Hugging Face 2026-02-22

Nanbeige/Nanbeige4.1-3B:小型参数大推理

Nanbeige4.1-3B是一款基于Nanbeige4-3B-Base的增强型推理模型,具有小型参数规模但强大的推理、偏好对齐和有效代理行为能力。该模型在代码、数学、科学等通用推理任务上表现出色,尤其在LiveCodeBench-Pro、IMO-Answer-Bench和AIME 2026 I等挑战性任务中表现出色。其技术特点包括监督微调和强化学习优化,支持深度搜索任务,并在小模型生态系统中实现了推理和代理能力的平衡。模型适用于需要复杂推理和代码生成的场景,具有开源Apache-2.0协议,适合在通用推理和特定领域应用中部署。

Hugging Face 2026-02-24

Zyphra/ZUNA:EEG信号轻量级去噪重建神器

ZUNA是一款针对脑电图(EEG)信号处理的轻量级模型,定位在特定领域微调模型。它采用380M参数的掩码扩散自动编码器架构,具有去噪、重建和上采样EEG信号的能力。ZUNA在去噪、重建和上采样方面显著优于现有方法,特别适用于需要轻量级GPU或CPU的场合。该模型基于约200万小时的EEG数据训练,支持开源Apache-2.0协议,适用于研究和开发。

Hugging Face 2026-02-19

KittenML/kitten-tts-mini-0.8:轻量级文本转语音模型

KittenML/kitten-tts-mini-0.8 是一款轻量级的开源文本到语音模型,具有8000万参数和约79MB的文件大小。该模型定位为特定领域微调模型,专注于文本到语音转换。其核心技术基于StyleTTS 2架构,支持多种语音选择。性能方面,未提供权威基准测试结果,但模型下载量和点赞数表明其在社区中具有一定的受欢迎度。主要应用场景为需要轻量级、快速语音生成的场景,如移动应用、在线教育等。实用考量方面,模型开源,支持Python安装,对硬件要求不高,推理效率适中。

Hugging Face 2026-02-14

FireRedTeam/FireRed-Image-Edit-1.0:多模态图像编辑利器

FireRed-Image-Edit-1.0是一款专注于图像编辑的多模态模型,定位为通用大模型。它基于文本到图像的基础模型,具备强大的图像编辑能力,包括照片修复、多图像编辑等。该模型在HuggingFace平台上具有较高的下载量和点赞数,技术特点包括高保真编辑、文本风格保留等。在性能上,FireRed-Image-Edit-1.0在图像编辑任务中表现出色,具有与闭源解决方案相当的性能。模型适用于需要高质量图像编辑的场景,如虚拟试穿、老照片修复等。

Hugging Face 2026-02-23

🔥 Qwen/Qwen3.5-397B-A17B-FP8

Qwen3.5-397B-A17B是一款通用大模型,具备高效的混合架构和全球语言覆盖能力。其核心技术包括多模态学习、Transformer变体和MoE架构。在性能上,该模型在多个基准测试中表现出色,具有1M的上下文长度和397B的参数量。适用于需要多语言能力和高效推理的场景,如代码生成、数学推理等。开源协议为Apache-2.0,与Hugging Face Transformers框架兼容。

Hugging Face 2026-02-24

🔥 Qwen/Qwen3.5-35B-A3B

Qwen3.5-35B-A3B是一款定位在通用大模型领域的LLM,具备高效的混合架构和强大的多模态学习能力。该模型具有35B的参数量,支持1M的上下文长度,采用Apache-2.0开源协议。在性能上,Qwen3.5在多个基准测试中表现出色,尤其在多模态任务上具有显著优势。其主要应用场景包括多语言处理、代码生成和视觉理解等,适合需要高性能和高效推理的应用。

Hugging Face 2026-02-24

🔥 LocoreMind/LocoOperator-4B

LocoOperator-4B是一款专注于代码库探索的4B参数工具调用代理模型,基于Qwen3-4B-Instruct-2507进行知识蒸馏训练。该模型具有100%的JSON有效性,支持本地部署,适用于快速代码库搜索和导航。它在代码生成和工具调用方面表现出色,适用于需要代码探索和自动化的场景。

Hugging Face 2026-02-13

zai-org/GLM-5:744亿参数,DSA提升推理效率

GLM-5是一款针对复杂系统工程和长期目标代理任务的大语言模型。它具有744亿参数,支持中英双语。GLM-5在预训练和后训练方面均有显著提升,尤其在推理、编码和代理任务上表现出色。其核心技术包括DeepSeek Sparse Attention(DSA)和异步RL基础设施slime,旨在提高训练效率和推理效率。模型在多个基准测试中表现优异,是开源模型中的佼佼者。

Hugging Face 2026-02-13

OpenMOSS-Team/MOSS-TTS:多语言长文本语音合成开源模型

MOSS-TTS是一款专注于语音和声音生成的开源模型,定位为特定领域的大模型。其核心技术包括高保真零样本语音克隆和可控长文本合成。模型在性能上表现出色,支持多种语言,适用于长文本语音合成、多角色对话、声音/角色设计等复杂场景。性能评估方面,模型在权威基准测试中表现良好,具有开源协议,对硬件要求适中,推理效率较高。

Hugging Face 2026-02-20

序列模型中的诱导偏差问题

这篇论文研究了基于transformer的序列模型在状态跟踪方面的局限性,通过对比transformer和循环神经网络(RNN)的数据效率,发现transformer在处理不同序列长度时需要更多的训练数据,并且表现出对长度特定的解决方案的学习,而RNN则通过共享权重实现有效的数据利用。

Hugging Face 2026-02-18

SimToolReal:零样本操作工具的以对象为中心策略

这篇论文提出了SimToolReal,一种基于对象中心策略的零样本工具操作强化学习算法。该方法通过在模拟环境中生成多样化的工具对象,并训练一个通用的强化学习策略,使得机器人能够在测试时无需针对特定对象或任务进行训练,从而实现灵活的工具操作。

Hugging Face 2026-02-20

解码机器学习决策:大规模排序系统代理推理框架

这篇论文提出了GEARS框架,该框架通过将排名优化视为一个自主发现过程,将专家知识封装为可重用的推理能力,从而解决将模糊的产品意图转化为可执行假设的难题。GEARS通过结合算法信号和深度排名上下文,实现了高效的政策识别,同时保证了部署的稳定性。

Hugging Face 2026-02-18

DODO:离散OCR扩散模型

这篇论文提出了DODO,一种利用块离散扩散模型的视觉语言模型,用于光学字符识别(OCR)。DODO通过将生成过程分解为块来减少全局扩散的同步错误,从而实现OCR任务的快速并行解码,同时保持接近最先进的准确度。

Hugging Face 2026-02-22

代理记忆解析:评估与系统局限分类及实证分析

这篇论文对代理记忆系统进行了结构化分析,提出了基于四种记忆结构的分类法,并从架构和系统角度分析了当前系统的限制,包括基准饱和效应、指标有效性、骨干模型依赖的准确性以及内存维护引入的延迟和吞吐量开销。通过将记忆结构与实证限制联系起来,论文揭示了当前代理记忆系统未能达到理论承诺的原因,并提出了更可靠评估和可扩展系统设计的方向。

Hugging Face 2026-02-19

四足机器人接触锚定本体距离测量技术

这篇论文提出了一种基于接触锚定和内在感知的步态机器人里程计方法,通过使用IMU和电机测量数据来联合估计机器人的姿态和速度,有效抑制了IMU漂移和关节速度传感器的噪声,提高了四足机器人的定位精度。

Hugging Face 2026-02-20

大型因果模型助力时间因果发现

这篇论文提出了大型因果模型(LCMs),这是一种专为时间因果发现设计的预训练神经网络架构。它通过结合多种合成生成器和真实时间序列数据集,允许大规模学习,从而解决了传统因果发现方法在处理大数据集时的局限性。实验表明,LCMs在处理高变量数量和深层架构时表现良好,并且与经典和神经基线相比,在分布外设置中实现了具有竞争力的准确性。

Hugging Face 2026-02-21

RoboCurate:行动验证神经网络轨迹助力机器人学习多元化

这篇论文提出了RoboCurate,一个用于机器人学习的合成数据生成框架,通过比较模拟器中的预测动作与生成的视频之间的运动一致性来评估和过滤标注动作的质量。它通过图像到图像编辑解锁观察多样性,并应用动作保留的视频到视频转换来进一步增强外观,显著提高了机器人学习的效果。

Hugging Face 2026-02-23

Nacrith:基于集成上下文建模与高精度CDF编码的神经无损压缩

这篇论文介绍了Nacrith,一个结合了大型语言模型和轻量级预测器的无损压缩系统。它通过提高CDF精度、使用N-gram模型、自适应纠错、基于置信度的跳过机制、混合二进制格式、快速解码后端和并行压缩等创新技术,实现了比现有压缩工具更高的压缩率。

Hugging Face 2026-02-20

VLANeXt构建强VLA模型秘籍

这篇论文提出了VLANeXt,一个通过系统分析VLA模型设计空间,并基于此构建的强VLA模型。论文通过统一的框架和评估设置,从基础组件、感知要素和动作建模三个维度对设计选择进行剖析,并总结了12个关键发现,为构建强VLA模型提供了实用的方法。

Hugging Face 2026-02-22

循环一致性掩码预测实现跨视图物体对应学习

这篇论文提出了一种基于条件二值分割的框架,用于在视频中建立不同视角下的物体视觉对应关系。该框架通过循环一致性训练目标,将预测的掩码投影回源视图以重建原始查询掩码,从而实现视图不变性。实验在Ego-Exo4D和HANDAL-X数据集上展示了该方法的优越性能。

Hugging Face 2026-02-20

SimVLA:简易VLA基线机器人操作

这篇论文提出了SimVLA,一个简化的视觉-语言-动作(VLA)模型,通过严格分离感知与控制,使用标准的视觉-语言骨干网络和轻量级动作头,以及标准化的训练动态,实现了在标准模拟基准测试上的最先进性能,同时参数量仅为0.5B,优于多亿参数的模型。

Hugging Face 2026-02-23

多约束隐式推理与自适应测试时计算的序列推荐方法

这篇论文提出了一种名为ManCAR的序列推荐框架,通过在全局交互图的拓扑结构中约束潜在推理,以解决现有方法中潜在漂移的问题。ManCAR通过自适应测试时间计算,在保持推理轨迹在有效流形内的同时,提高了推荐系统的性能。

Hugging Face 2026-02-12

AssetFormer:模块化3D资产自回归Transformer生成

AssetFormer论文提出了一种基于自回归Transformer的模型,用于从文本描述中生成模块化3D资产。该模型通过创新地采用模块序列和解码技术,提高了资产生成的质量,并适用于多种类型的模块化3D资产生成。

Hugging Face 2026-02-23

技能乐团:通过技能迁移学习路由Agent

这篇论文提出了SkillOrchestra,一个基于技能转移的智能体路由框架,通过学习细粒度技能和模型代理能力,实现高效、可解释和样本高效的智能体编排。该方法通过减少学习成本和提升性能,为数据密集型的基于强化学习的编排方法提供了替代方案。

Hugging Face 2026-02-21

AAV基因载体:肾靶向性腺相关病毒衣壳精准工程

这篇论文提出了一种名为AAVGen的生成式人工智能框架,用于设计具有增强多特性轮廓的腺相关病毒衣壳,以解决基因治疗中AAV载体在组织亲和性、免疫逃逸和生产效率方面的限制。该框架结合了蛋白质语言模型、监督微调和强化学习技术,通过多目标优化生成具有优异生产适应性、肾脏亲和性和热稳定性的新型VP1蛋白序列。

Hugging Face 2026-02-22

K-Search:协同进化内在世界模型实现LLM内核生成

这篇论文提出了一种名为K-Search的新方法,通过协同进化的内在世界模型来生成大型语言模型(LLM)的GPU内核。该方法利用LLM的先验领域知识来引导搜索,实现高效的内核优化,并在多个复杂内核优化任务中显著优于现有的进化搜索方法。

Hugging Face 2026-02-23

SenTSR-Bench:注入知识助力时间序列推理

这篇论文提出了一种混合知识注入框架,用于时间序列推理。该框架通过将时间序列语言模型(TSLM)生成的洞察直接注入到大型语言模型(GRLM)的推理过程中,以实现具有领域知识的强大时间序列推理。为了减少知识注入数据收集的成本,论文还提出了一种基于强化学习的方法,用于在没有人类监督的情况下生成丰富的知识轨迹,并将其转移到GRLM中进行高效的知识注入。

Hugging Face 2026-02-22

TOPReward:机器人领域零样本奖励的隐藏代币概率

这篇论文提出了TOPReward,一种基于预训练视频视觉语言模型(VLM)的时序价值函数,用于估计机器人任务进度。TOPReward通过提取VLM内部token logits来直接获取任务进度,避免了直接输出进度值可能导致的数值错误。在130多个真实世界任务和多个机器人平台上,TOPReward在Qwen3-VL上的平均价值顺序相关性(VOC)达到了0.947,显著优于现有的GVL基线。

Hugging Face 2026-02-23

双尺度多样性正则化:LLM推理探索新方法

这篇论文提出了DSDR,一种用于LLM推理中的探索性强化学习框架。DSDR通过分解LLM推理中的多样性为全局和耦合组件,全局上促进正确推理轨迹之间的多样性,局部上通过长度不变的token级熵正则化来防止熵崩溃,同时保持正确性。实验表明,DSDR在多个推理基准测试中提高了准确性和pass@k,证明了双尺度多样性在RLVR中的重要性。

Hugging Face 2026-02-21

Hugging Face发布FINAL Bench:AI自我修正瓶颈揭秘

Hugging Face发布了FINAL Bench,这是一个新的基准测试,旨在衡量人工智能系统的元认知能力,即AI识别和纠正自身错误的能力。该测试通过100项任务评估AI的自我修正能力,揭示了AI在自我纠正方面的瓶颈,并提出了对AI安全的警示。

Hugging Face 2026-02-19

体验未来计算:我让龙虾助手OpenClaw掌控我的Jetson!

这篇公告介绍了OpenClaw,一款将计算机从被动工具转变为主动协作伙伴的AI代理。它能够自主设置开发环境、优化硬件配置,并通过自然语言与用户交流,执行复杂指令并提供主动反馈。尽管成本较高,但OpenClaw代表了计算领域的新范式,预示着计算机使用方式的转变。

Hugging Face 2024-06-13

用户揭秘:abliteration技术解锁LLM无审查响应新境界

本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。

Hugging Face 2026-02-23

月之暗面AI发布Kimi K2.5:两周后仍值得期待

北京月之暗面AI公司发布了Kimi K2.5,这是一个拥有1.04万亿参数的大型开放权重模型,引入了“Agent Swarm”概念,通过并行代理强化学习框架提升任务处理效率。K2.5在多个基准测试中表现出色,但在某些领域如通用知识和创意写作方面仍存在不足。

Hugging Face 2026-02-23

Follow the White Rabbit: Using Embeddings So You Never Get Lost in Translation

本文介绍了如何利用嵌入模型来评估多语言书籍翻译的忠实度,通过实验对比了《爱丽丝梦游仙境》的英法两个版本,展示了如何使用Hugging Face Inference Endpoints上的Qwen3-Embedding-4B模型进行章节和段落匹配,以及段落层面的语义合并对齐策略,从而有效评估翻译质量。

Hugging Face 2025-01-12

用户名揭秘:Transformer模型中张量维度处理技巧

这篇博客详细介绍了在Transformer模型中处理张量维度的重要性,包括矩阵乘法、嵌入层、位置编码、解码器层和注意力机制等关键概念,旨在帮助读者更好地理解Transformer架构。

Hugging Face 2026-01-05

NVIDIA发布Nemotron ASR:实时语音识别新标杆

NVIDIA发布了一种名为Nemotron Speech ASR的新实时语音识别模型,该模型通过缓存感知流式处理技术,实现了更高的效率和更低的延迟,为实时语音代理提供了新的基准。

Hugging Face 2026-02-13

MiniMax AI发布Forge:突破大规模Agent RL训练难题

MiniMax AI 发布了Forge,一个可扩展的Agent强化学习框架和算法,旨在解决大规模Agent RL在系统吞吐量、训练稳定性和Agent灵活性之间的冲突。Forge通过灵活的系统架构、算法设计、优化的异步调度和极致的训练-推理效率,实现了对复杂现实世界Agent的大规模强化学习训练,并在MiniMax M2.5模型中取得了显著成果。

Hugging Face 2026-01-29

NVIDIA发布Cosmos Policy:机器人控制新突破

NVIDIA发布了一项名为Cosmos Policy的新研究,这是一项用于高级机器人控制和规划的技术,通过后训练世界基础模型Cosmos Predict-2来实现。该技术能够将机器人动作、物理状态和成功分数编码为额外的潜在帧,并使用与视频生成相同的扩散过程进行学习,从而提高了机器人操作的性能。此外,NVIDIA还宣布了Cosmos Cookoff,一个开放式黑客马拉松,旨在推动物理AI的发展。

Hugging Face 2026-02-17

Qwen3.5发布:阿里AI新模型混合注意力架构引热议

阿里巴巴Qwen团队发布了新一代基础模型Qwen3.5-397B-A17B,该模型采用混合注意力架构,结合了Gated Delta Networks和稀疏混合专家,并支持多模态输入和多种语言。Qwen3.5在推理、数学、知识遵循、代理、编码和视觉任务上表现出色,但并非在所有类别中都是最佳选择。

Hugging Face 2026-02-24

Hugging Face发布MAEB:音频嵌入技术新基准

Hugging Face发布了MAEB(大规模音频嵌入基准),这是一个旨在评估音频嵌入模型性能的统一框架。MAEB包含98个任务,涵盖多种语言和模型,旨在帮助研究人员和开发者更好地理解不同模型在各个任务上的表现,推动音频嵌入技术的发展。

Hugging Face 2024-07-19

探索SSM奥秘:Hugging Face揭秘三视图优势

这篇Hugging Face博客文章介绍了状态空间模型(SSM)的基本概念,包括其在控制理论和深度学习中的应用。文章详细解释了SSM的三个视图:连续视图、递归视图和卷积视图,并讨论了它们各自的优势和局限性。

Hugging Face 2024-10-29

Python实战:用户亲授RAG系统构建教程

本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。

arXiv cs.CL 2026-02-24

RAG中图的应用时机:图检索增强生成全面分析

这篇论文深入分析了GraphRAG在知识检索增强生成(RAG)中的应用,提出了GraphRAG-Bench,一个用于评估GraphRAG模型在知识检索和深度推理方面的全面基准。通过实验,论文探讨了GraphRAG在哪些场景下优于传统RAG,并分析了其成功的原因。

arXiv cs.LG 2026-02-24

记忆代理长语境推理的端到端训练学习

这篇论文提出了一种名为Unified Memory Agent (UMA)的端到端强化学习框架,用于长上下文推理。UMA通过统一内存操作和问答,维护双重内存表示,支持在流式处理中的主动整合,并通过Ledger-QA基准测试证明了其在动态推理和学习任务上的优越性能。

arXiv cs.LG 2026-02-24

Celo2:迈向免优化学习午餐

这篇论文提出了一种新的学习方法,通过构建一个简单的归一化优化器架构并增强元训练,实现了在极小的计算资源下(仅4.5 GPU小时)元训练一个高性能的通用学习更新规则。该方法能够稳定地扩展到亿级规模的预训练任务,并在各种分布外的任务中表现出强大的性能。

arXiv cs.AI 2026-02-24

ComplLLM:微调LLM发现决策互补信号

这篇论文提出了ComplLLM,一个基于决策理论的框架,用于微调决策辅助的LLM,通过使用互补信息作为奖励来输出补充现有代理决策的信号。该方法在合成和真实世界任务中进行了验证,展示了如何恢复已知的互补信息,并为下游决策者提供合理的互补信号解释。

arXiv cs.AI 2026-02-24

视频推理新突破:基于LoRA的链式智能体VideoMind

这篇论文提出了VideoMind,一个基于LoRA的链式代理,用于时序基础的视频推理。VideoMind通过角色化的工作流程和Chain-of-LoRA机制,实现了视频与语言模型的结合,提高了视频问答和视频推理的性能。

arXiv cs.LG 2026-02-24

ReLU原理探析:深度网络训练的比特模型二分法

这篇论文分析了在有限精度硬件下,深度网络训练的理论复杂性。通过引入一个基于位级别的模型,论文揭示了激活函数对可解性的影响,证明了ReLU激活函数在有限精度下的可解性,而其他多项式激活函数则不可解。

arXiv cs.CL 2026-02-24

SAMAS:光谱引导多智能体系统实现文学翻译风格保真

这篇论文提出了一种名为SAMAS的文学翻译风格保真多智能体系统,通过将文学风格量化为风格特征频谱(SFS),并利用该频谱动态组装定制化的翻译代理工作流程,从而在保持风格一致性的同时提高翻译的语义准确性。

arXiv cs.CL 2026-02-24

VIGiA:对话推理与检索辅助教学视频指导

这篇论文介绍了VIGiA,一个新型的多模态对话模型,旨在理解和推理复杂的、多步骤的指导视频动作计划。VIGiA通过结合多模态计划推理和基于计划的检索能力,实现了对视觉输入、指导计划和用户交互的连贯理解,显著提升了对话式计划指导的准确性。

arXiv cs.CL 2026-02-24

AgenticRAGTracer:多步检索推理诊断基准

这篇论文提出了AgenticRAGTracer,一个自动构建的Agentic RAG基准,用于诊断多步检索推理中的问题。它通过提供中间跳转级别的查询,帮助研究人员分析模型在哪个步骤失败,并支持逐步验证,从而克服了现有基准的局限性。