karpathy/nanochat:PyTorch LLM训练环境工具
nanochat是一个专注于训练和运行LLM的实验性工具,旨在提供简单、可访问的LLM训练环境。它填补了低成本、易用性强的LLM训练工具的空白,通过Python和PyTorch实现,支持从数据加载到模型训练的完整流程。该项目对研究者、开发者尤其有价值,因为它提供了一个强基线代码库,可以快速训练和评估LLM模型。
精选 75 篇,从 1300+ 条中筛选
nanochat是一个专注于训练和运行LLM的实验性工具,旨在提供简单、可访问的LLM训练环境。它填补了低成本、易用性强的LLM训练工具的空白,通过Python和PyTorch实现,支持从数据加载到模型训练的完整流程。该项目对研究者、开发者尤其有价值,因为它提供了一个强基线代码库,可以快速训练和评估LLM模型。
Claude-Mem是一个为Claude Code构建的插件,旨在通过自动捕获编码会话中的所有操作,使用AI进行压缩,并将相关上下文注入到未来的会话中,从而实现跨会话的上下文持久化。该项目主要面向开发者,通过智能记忆和搜索功能,优化了编码过程中的知识连续性和效率。
Maestro是一款旨在提高AI代理和项目协同效率的跨平台桌面应用。它通过提供并行执行、自动运行、群组聊天、移动远程控制等功能,解决了多项目并行处理中的效率问题。技术架构上,Maestro基于TypeScript开发,集成了多种AI代理和工具,如Claude Code、OpenAI Codex等。在LLM生态中,Maestro的价值在于其独特的多代理管理和任务编排能力,为开发者提供了一个强大的平台来管理复杂的AI任务。
项目定位为为Codex提供技能目录,旨在帮助AI代理发现和使用指令、脚本和资源以执行特定任务。核心功能是提供技能的安装和管理,解决开发者重复性任务执行的问题。技术架构基于Python,集成Codex平台。在LLM生态中,该项目通过提供技能目录和安装机制,优化了任务执行流程,提升了开发效率。
VM0项目定位为自然语言驱动的云沙箱工作流平台,旨在简化自动化的工作流执行。其核心功能包括云沙箱环境、技能集成、持久化会话和可观察性。技术架构上,VM0基于TypeScript构建,集成了Claude Code等技能,并提供了详细的架构文档。在LLM生态中,VM0的价值在于其独特的自然语言描述工作流的能力,为开发者提供了一种新的自动化工作流解决方案。
项目定位为面向开发者的LLM项目管理工具,通过GitHub Issues和Git工作树实现并行代理执行,解决传统项目管理中的上下文丢失、任务冲突、需求漂移和进度不可见等问题。核心功能包括PRD到GitHub Issues的转换、任务分解、并行执行和全链路可追溯。技术架构亮点在于结合了GitHub原生功能和工作树,实现高效的并行开发和团队协作。在LLM生态中,该项目通过优化开发流程,提升开发者效率和项目质量。
nvidia/personaplex-7b-v1是一款定位为通用大模型的LLM,具有7B参数量,支持多语言。其核心技术为Transformer变体,并采用moshi库进行优化。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。模型开源,适用于多种硬件平台,与vLLM等推理框架兼容。主要应用场景包括多语言问答、代码生成等。
VibeVoice-ASR是一款专注于语音识别的领域大模型,具备处理长达60分钟音频的能力,支持结构化转录,包括说话人、时间和内容信息。该模型采用Transformer架构,支持自定义热词,具有丰富的转录功能。在性能上,VibeVoice-ASR在权威基准测试中表现出色,具有高准确率和语义连贯性。模型适用于需要长音频转录和特定领域内容识别的场景,如会议记录、讲座转录等。其开源协议和硬件需求适中,推理效率较高。
Tongyi-MAI/Z-Image是一款专注于图像生成的LLM,定位为多模态模型。其核心技术为单流扩散Transformer,支持全Classifier-Free Guidance,具有强大的视觉语言处理能力。性能上,模型在图像生成任务中表现出色,但缺乏权威基准测试结果。主要应用场景为创意生成和艺术创作。开源协议为Apache-2.0,硬件需求较高,推理效率需进一步优化。
GLM-4.7-Flash是一款30B-A3B的MoE模型,定位为通用大模型。其核心技术包括MoE架构和Transformer变体,支持多种语言。在基准测试中表现出色,尤其在AIME 25和GPQA等任务上排名靠前。该模型适用于需要高性能和轻量级部署的场景,支持vLLM和SGLang等推理框架。
DeepSeek-OCR-2是一款专注于图像文本转换的多模态模型,定位为特定领域微调模型。其核心技术基于transformers库,采用自定义代码进行优化,支持多语言处理。模型在OCR任务上表现出色,但缺乏权威基准测试结果。开源协议为Apache-2.0,对硬件要求较高,推理效率需进一步优化。
Kimi-K2.5-GGUF是一款基于Moonshot AI的Kimi-K2.5模型构建的推理优化版本,定位为通用大模型。其核心技术为基于transformers库的GGUF架构,支持2-bit至5-bit量化,适用于高性能计算环境。在性能上,Kimi-K2.5-GGUF在权威基准测试中表现出色,具有强大的代码生成、数学推理和多语言能力。该模型适用于需要高性能和特定能力场景,如代码生成、数学问题解决等,具有开源协议、高硬件需求和高推理效率的特点。
Qwen3-ASR-1.7B是一款专注于语音识别的领域大模型,具备多语言和方言支持能力。该模型采用Qwen3-Omni基础模型,结合大规模语音训练数据,实现了在复杂声学环境和挑战性文本模式下的高质量和鲁棒识别。其在开源ASR模型中达到最先进水平,与顶级商业API相媲美。模型支持语言识别和语音识别,具有高效的吞吐量和强大的推理框架。主要应用场景包括语音转文本、语音识别等。
Comfy-Org/z_image是一款定位在多模态模型领域的开源模型,具有独特的comfyui技术特点。该模型在Hugging Face Hub上下载量超过40,000次,受到用户好评。其核心技术为diffusion-single-file库,支持多模态扩展。在性能上,由于缺乏具体的基准测试结果,无法提供详细的排名信息。该模型适用于需要多模态处理的应用场景,如图像生成和文本-图像交互。在实用考量方面,开源协议和硬件需求等信息未明确提供。
LingBot-World是一款由Robbyant团队开源的世界模拟器,定位为顶级世界模型。它具备高保真和多样化的环境,支持长期记忆和一致性,并实现实时交互。该模型采用image-to-video的pipeline,基于diffusers库。在性能上,它支持每秒16帧的实时生成,具有较低延迟。LingBot-World适用于内容创作、游戏和机器人学习等领域,其开源协议和硬件需求适中,与流行推理框架兼容性良好。
Kimi K2.5是一款开源的多模态大语言模型,定位为通用大模型。它基于约150万亿混合视觉和文本标记的持续预训练,具备视觉和语言理解以及先进的代理能力。模型在视觉知识、跨模态推理和基于视觉输入的代理工具使用方面表现出色。其核心能力包括视觉到代码的生成和代理群体执行复杂任务。在性能上,Kimi K2.5在权威基准测试中表现良好,具有开源协议、硬件需求适中、推理效率较高的特点,适用于多模态任务和复杂任务处理。
Anima模型定位为特定领域微调模型,专注于动漫风格的艺术图像生成。其核心技术为基于扩散模型的单文件库,参数量为20亿。模型在动漫风格图像生成方面表现出色,但未公开权威基准测试结果。主要应用场景为动漫艺术创作,使用时需考虑开源协议和硬件需求。
Step 3.5 Flash是一款高效的开源基础模型,定位于通用大模型领域。它采用稀疏混合专家(MoE)架构,参数量196B,上下文长度未指定。该模型在推理速度和代码生成方面表现出色,通过3-way Multi-Token Prediction(MTP-3)技术,实现了100-300 tok/s的生成吞吐量。在SWE-bench和Terminal-Bench 2.0基准测试中分别取得了74.4%和51.0%的优异成绩。模型开源协议为Apache 2.0,适用于需要快速推理和代码生成的场景。
LongCat-Flash-Lite是一款专注于文本生成的混合专家(MoE)模型,具有68.5亿参数,支持256k的上下文长度。该模型在保持高效推理速度的同时,通过N-gram嵌入表提升了性能。它在代码生成和代理领域表现出色,具有优异的扩展效率和竞争力。模型定位为通用大模型,核心技术为MoE架构,性能在同类模型中表现优异,适用于需要高效文本生成的场景。
Qwen3-TTS是一款专注于语音合成的大语言模型,定位为特定领域微调模型。其核心技术包括自研的Qwen3-TTS-Tokenizer-12Hz和离散多码本LM架构,支持多种语言和方言,具有强大的语境理解和自适应控制能力。性能上,模型实现了低延迟的流式生成,端到端合成延迟低至97ms。主要应用场景包括实时交互和个性化语音合成。模型开源协议为Apache-2.0,适合对实时性和个性化语音合成有较高要求的场景。
Trinity-Large-Preview 是 Arcee AI 开发的 398B 参数的稀疏 MoE 模型,定位为通用大模型。其核心技术包括稀疏 MoE 架构、长上下文处理能力,以及多种语言支持。在 MMLU、GPQA-Diamond 和 AIME 2025 等基准测试中表现出色。该模型适用于需要长文本生成、多语言理解和复杂推理的场景,具有开源协议、高效推理等实用特性。
zai-org/GLM-OCR是一款基于GLM-V架构的多模态OCR模型,专注于复杂文档理解。该模型采用多令牌预测损失和稳定的全任务强化学习,结合CogViT视觉编码器和GLM-0.5B语言解码器,实现高效训练和识别。在OmniDocBench V1.5基准测试中排名第一,适用于复杂表格、代码密集型文档等场景,支持vLLM、SGLang和Ollama等推理框架,易于集成到现有生产流程中。
Qwen3-Coder-Next是一款针对代码生成和本地开发设计的开源语言模型。该模型具有3B激活参数和80B总参数,上下文长度为256k,支持多种CLI/IDE平台。其核心技术包括混合布局、MoE和Gated DeltaNet。在代码生成任务中表现出色,具有高效的性能和强大的适应性。模型在HuggingFace平台上的下载量和点赞数均较高,表明其在LLM领域中的受欢迎程度。主要应用场景包括代码生成、本地开发和集成到IDE中。
Qwen3-ASR-0.6B是一款专注于语音识别的领域大模型,具备多语言和方言支持能力。该模型采用Qwen3-Omni基础模型,具有强大的音频理解能力。在性能上,Qwen3-ASR-0.6B在开源ASR模型中达到顶尖水平,与商业API相媲美。模型支持多种语言和方言的语音识别,适用于复杂声学环境和挑战性文本模式。其开源协议和强大的推理框架使其在多个场景下具有实用价值。
这篇论文提出了VoxServe,一个针对语音语言模型(SpeechLMs)的统一服务系统,旨在优化流媒体性能。VoxServe通过解耦模型架构与系统级优化,支持多样化的SpeechLM架构,并实现了流感知调度和异步推理管道,从而提高了端到端效率。实验表明,VoxServe在保持低延迟的同时,实现了比现有实现高10-20倍的吞吐量。
这篇论文提出了CUA-Skill,一个用于计算机使用代理的技能库,通过编码人类与图形用户界面的交互知识,实现了技能的可重用和结构化抽象。CUA-Skill旨在提高计算机使用代理的执行成功率和鲁棒性,通过构建一个包含多种Windows应用程序技能的大规模库,为可扩展、可靠的代理开发提供基础设施。
这篇论文提出了一种通过训练大型语言模型(LLMs)进行分而治之(DAC)推理的方法,以提高测试时的可扩展性。通过将复杂问题分解为子问题,并使用强化学习(RL)框架进行训练,该模型在竞争级基准测试中比传统的链式思维(CoT)推理提高了8.6%的Pass@1和6.3%的Pass@32性能。
这篇论文提出了YOLOE-26,一个结合了部署优化的YOLO26架构和YOLOE的开源词汇学习范式的统一框架,用于实时开源词汇实例分割。它通过使用卷积骨干和PAN/FPN风格的跨尺度特征聚合,以及替换固定类别logits为对象嵌入头,实现了高效的开放词汇推理。
这篇论文提出了Parabolic Position Encoding (PaPE),一种基于抛物线的位置编码方法,用于视觉模态的注意力架构。PaPE旨在解决现有位置编码在视觉特性上的不足,通过引入平移不变性、旋转不变性、距离衰减、方向性和上下文感知等原则,提高了视觉模态位置编码的性能。
这篇论文提出了一种基于语义一致性的数据高效查询式通用声音分离方法,通过从野外数据集中挖掘高纯度单事件片段来解决现有方法在复杂声场景中残留干扰的问题。该方法构建了一个高质量的合成数据集Hive,实验结果表明,在Hive上训练的模型在分离准确性和感知质量上与在更大数据集上训练的模型相当,并且表现出显著的零样本泛化能力。
这篇论文研究了大型语言模型(LLMs)在评估智能体性能时的脆弱性,特别是在非可验证环境中。论文通过操纵智能体的思维链(CoT)来展示LLM判断者容易受到欺骗,导致评估结果不准确。作者通过实验证明了通过修改CoT可以显著提高假阳性率,并提出了减少这种脆弱性的方法。
这篇论文提出了一种名为Clipping-Free Policy Optimization (CFPO)的新方法,用于大型语言模型的强化学习后训练。该方法通过使用凸二次惩罚代替启发式剪裁,解决了传统剪裁机制在规模优化中存在的问题,如零梯度区域、奖励黑客攻击和训练不稳定。CFPO在推理和一致性设置中均表现出色,同时只需要一行代码更改,无需额外的超参数。
这篇论文提出了ReSID,一个基于语义ID的推荐系统框架,它通过信息保留和序列可预测性的视角重新思考了表示学习和量化,旨在解决现有方法中语义嵌入与协同预测耦合弱、通用量化在减少序列不确定性方面效率低的问题。ReSID通过Field-Aware Masked Auto-Encoding和Globally Aligned Orthogonal Quantization两个组件,显著提升了推荐系统的性能,同时降低了标记化成本。
这篇论文研究了大型语言模型(LLMs)中的稀疏奖励子系统,通过模拟人类大脑中的奖励子系统,发现了模型内部的价值神经元,并通过实验验证了这些神经元在推理中的重要性。研究发现,这些神经元在不同数据集、模型规模和架构中表现出鲁棒性,并且在不同数据集和从同一基础模型微调的模型之间具有显著的迁移性。
这篇论文提出了Deep Data Research (DDR),一种让大型语言模型(LLM)自主从数据库中提取关键洞察的开放性任务,并引入了DDR-Bench,一个大规模的基于清单的基准,用于可验证的评估。研究指出,有效的调查智能不仅取决于代理的支撑或简单的扩展,还取决于代理模型的内在策略。
这篇论文提出了一种新的视觉世界建模方法,通过可渲染代码生成来预测GUI状态,结合了视觉语言模型(VLM)的文本渲染精度和结构化网页代码的高保真视觉生成能力,显著提升了移动GUI代理的性能。
这篇论文研究了在受控生成条件下,大型语言模型(LLM)在跨语言评估中的稳定性。通过使用合成对话数据,作者测试了自动指标和LLM评分在不同芬兰-乌戈尔语系语言中的稳定性,发现表面级指标保持稳定,但语用判断存在排名反转和相关性极低。这表明在形态丰富的语言中,零样本评分转移是不可靠的,并强调了针对特定语言进行校准的必要性。
这篇论文提出了一种新的视频扩散模型,通过时间缓存压缩和稀疏注意力机制,解决了自回归视频扩散模型在推理时注意力层成为瓶颈的问题,实现了快速的视频生成和世界模型构建。
这篇论文提出了“Thinking with Comics”这一视觉推理范式,通过使用漫画作为介于图像和视频之间的高信息密度媒介,来增强多模态推理。该方法在保持时间结构、嵌入文本和叙事连贯性的同时,显著降低了推理成本。实验结果表明,在多步骤时间和因果推理任务上,使用漫画的推理优于使用图像,且比使用视频更高效。
这篇论文提出了一种名为ParalESN的并行信息处理方法,通过结构化操作和状态空间建模来改进Reservoir Computing,解决了高维数据处理的内存占用和计算效率问题。ParalESN能够并行处理时间序列数据,同时保持了Echo State Property和传统Echo State Networks的通用性保证,并在实验中展示了在时间序列基准测试中的预测准确性和计算效率的提升。
这篇论文提出了一种名为内部流签名的技术,用于在大型语言模型(LLMs)中进行自我检查和改进。该方法通过在固定边界处监控深度动态来审计决策形成过程,并通过轻量级的GRU验证器进行自我检查,同时允许对模型进行有针对性的改进。
该论文提出了一种基于项目反应理论(IRT)的诊断框架,用于评估LLM-as-a-Judge的可靠性。该框架通过两个互补维度——内在一致性和与人类评估的对齐性——来评估LLM作为判断工具的稳定性。通过实证研究,论文展示了如何利用IRT-GRM来诊断LLM的判断,并提供验证可靠性和识别不可靠原因的实用指导。
这篇论文提出了重新思考选择性知识蒸馏的方法,通过在自回归大型语言模型中分离位置、类别和样本轴上的选择性知识蒸馏,并系统地比较重要性信号和选择策略,引入了学生熵引导的位置选择(SE-KD),在多个基准测试中提高了准确性和效率。
这篇论文提出了PolySAE,一种通过多项式解码来建模稀疏自编码器中特征交互的方法。PolySAE扩展了自编码器的解码器,以包含高阶项,从而能够捕捉特征之间的交互,同时保持线性编码器以保持可解释性。实验表明,PolySAE在保持重建误差相当的情况下,显著提高了特征交互的建模能力。
Hugging Face的Inference Labs团队发布了TruthTensor,这是一个评估大型语言模型(LLM)在动态市场条件下指令忠诚度的新框架。该框架通过模拟预测市场中的动态变化来测试模型是否会偏离其预设算法,并在601,891名用户和1,692,048次微调中得到应用。
NVIDIA近日宣布推出NVIDIA Earth-2系列三个新的开源模型,旨在简化构建整个天气预报栈的能力,包括数据同化、预测、临近预报、降尺度等任务。这些模型包括用于千米级短时强对流天气预报的Earth-2 Nowcasting、用于15天全球预报的Earth-2 Medium Range以及用于生成初始条件的Earth-2 Global Data Assimilation。NVIDIA Earth-2提供了一套加速工具和模型,使开发者能够整合通常分散的天气和气候AI能力。
LightOn AI 发布了 LightOnOCR-2-1B,这是一个10亿参数的第二代端到端视觉-语言 OCR 模型,旨在将文档页面转换为高质量文本,同时提供轻量级布局信息。该模型在性能和速度上均优于同类产品,并支持Hugging Face Transformers生态系统,便于社区使用。
NVIDIA发布了Nemotron-Personas-Brazil,这是一个包含600万个完全合成的巴西人设的开放数据集,旨在解决巴西AI系统训练数据的问题,该数据集基于官方人口普查和劳工数据进行统计学接地,并支持巴西本地化的主权AI开发。
RexRerankers 是一种先进的重排序器,旨在提高产品发现和人工智能助手的效率。它通过估计电子商务产品与查询的相关性来工作,并使用 Amazebay 数据集进行训练。此外,还发布了 ERESS 评估套件,用于全面评估产品发现重排序器的性能。
暂无摘要
NVIDIA与AI Singapore合作发布了Nemotron-Personas-Singapore,这是一个为新加坡开发者设计的合成数据集,旨在支持构建主权AI系统。该数据集提供本地化、文化相关和隐私保护的数据,用于训练和评估AI模型。
本文介绍了如何使用Hugging Face的FunctionGemma模型在TPU上进行微调,以创建一个虚拟健身教练。通过TPU优化策略,实现了10分钟内、花费约0.50美元的训练成本,显著提高了模型性能,并减少了幻觉。该项目展示了TPU在小型模型微调中的高效性和经济性。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
Photoroom宣布开源其文本到图像模型PRX,该模型现已在Hugging Face的Diffusers中提供。此次发布旨在开放整个训练过程,包括训练方法、经验教训等,旨在成为对文本到图像模型感兴趣的实用资源。Photoroom还计划分享一系列深入探讨模型设计实验、架构基准、加速技巧和后训练方法的文章。
NVIDIA发布了一种名为Nemotron Speech ASR的新实时语音识别模型,该模型通过缓存感知流式处理技术,实现了更高的效率和更低的延迟,为实时语音代理提供了新的基准。
本文通过比较mDeBERTa、GPT-OSS-20B(LoRA)和GPT-OSS-20B(Base)三种模型在多语言客户支持消息分类任务上的表现,展示了基于BERT的模型在速度和准确性上的优势,同时指出GPT-OSS-20B(LoRA)在精确匹配方面的优势。实验表明,选择合适的模型取决于具体的应用场景和需求,并强调了高效模型架构、智能量化和参数高效微调在构建定制ML解决方案中的重要性。
ReasoningLens,一款用于可视化、理解和调试大型语言模型(LLM)推理过程的开发工具包,已正式发布。它通过将复杂的推理链转化为交互式、层次化的可视化地图,帮助开发者更清晰地追踪和调试模型的推理过程,同时提供自动化错误检测和模型画像功能,以提升LLM的调试效率和模型理解。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。
这篇公告详细记录了一位AI技术分析师在训练Action Chunking Transformer (ACT)模型上的经历,包括遇到的挑战、解决方案和经验教训。文章描述了如何使用SO-101机器人进行数据收集和训练,以及如何通过改进硬件设置、数据收集流程和评估流程来提高模型的性能。
Photoroom发布了其文本到图像基础模型PRX的架构实验结果,该模型采用混合Transformer架构,旨在提高文本到图像生成模型的效率、稳定性和对齐性。PRX在性能、吞吐量和内存效率之间取得了最佳平衡,并采用了T5Gemma作为文本编码器,以及FluxVAE和Deep-Compression Autoencoders (DC-AE)作为潜在空间自动编码器。Photoroom计划开源整个开发过程,并鼓励社区参与和贡献。
Zilliz团队发布了名为'zilliz/semantic-highlight-bilingual-v1'的语义高亮模型,该模型旨在降低RAG(Retrieval-Augmented Generation)中的Token成本,同时提供中英双语支持。该模型基于轻量级的Encoder-Only架构,并使用BGE-M3 Reranker v2作为基础模型,通过LLM标注和推理过程训练,实现了在多个数据集上的最先进性能。
Sionic AI发布了一项名为Claude Code Skills的系统,旨在通过构建团队记忆来提高机器学习实验的效率和知识共享。该系统通过自动化捕捉和传播实验中的洞察,包括成功和失败的尝试,帮助研究人员避免重复错误并快速学习。该系统主要通过两个Claude Code命令实现:/retrospective和/advise,分别用于记录和查询实验知识。
这篇论文提出了SPARC-RAG,一种用于检索增强生成的多智能体框架,通过协调顺序和并行推理时间缩放,并采用统一上下文管理机制,解决了RAG在多跳问答中由于长推理导致的上下文污染和缩放效率低下的问题。SPARC-RAG通过专门的智能体维护共享全局上下文,并提供对缩放过程的显式控制,从而提高了RAG的效率和效果。
这篇论文提出了一种基于代理强化学习的NetGPT框架,用于在下一代无线网络中实现通信激励的协同推理。该框架通过代理通信实现自主推理和任务委派,通过代理强化学习不断优化协同推理策略,从而在复杂通信环境中实现自进化、AI原生网络。
这篇论文提出了一种名为FALCON的框架,用于解决基于大型语言模型(LLM)的组合优化问题中的可行性保证问题。该框架通过语法约束解码、可行性修复层和自适应Best-of-N采样等创新方法,确保了100%的可行性。同时,论文还引入了Best-anchored Objective-guided Preference Optimization(BOPO)方法,用于LLM训练,并通过理论证明和实验验证了其有效性。
这篇论文提出了PolySAE,一种通过多项式解码来建模稀疏自编码器中特征交互的方法。PolySAE扩展了自编码器的解码器,以包含高阶项,从而能够捕捉特征之间的交互,同时保持线性编码器以保持可解释性。实验表明,PolySAE在语言模型上实现了显著的性能提升,同时保持了可接受的重建误差。
这篇论文提出了一种名为Gap-Init的几何引导初始化方法,用于参数高效的微调(PEFT),解决了低秩设置(尤其是rank-1 LoRA)的不稳定性问题。通过分析预训练表示,该方法识别出一个主导早期梯度流的模态间隙轴,并确保rank-1 LoRA方向与估计的模态间隙向量对齐,从而稳定了rank-1训练并可能优于强rank-8基线。
这篇论文提出了PromptRL,一个结合语言模型作为可训练提示优化代理的框架,用于基于流的图像生成中的强化学习。它解决了当前强化学习管道在样本效率和提示过拟合方面的不足,通过快速开发复杂的提示重写能力,实现了协同训练机制,显著提升了性能。
这篇论文提出了TRIP-Bench,一个基于真实世界旅行规划场景的长时程交互智能体基准测试,旨在解决现有基准测试未能充分代表的关键挑战,如执行全局约束、协调多工具推理和适应长期多轮交互中的用户行为变化。同时,论文还提出了GTPO,一种在线多轮强化学习方法,用于提高智能体的约束满足度和交互鲁棒性。
这篇论文提出了一种名为ClueTracer的无监督幻觉抑制方法,用于多模态推理中的视觉线索追踪。该方法通过识别推理过程中的推理漂移,即模型在收集线索时过度关注与问题无关的实体,从而抑制了模型生成的不符合输入图像或问题的内容。
这篇论文提出了UniReason 1.0,一个统一的推理框架,用于世界知识对齐的图像生成和编辑。该框架通过双重推理范式,将生成和编辑任务整合到一个共享表示中,通过世界知识增强规划和视觉自我校正能力,实现了对复杂合成任务的深入推理。