NevaMind-AI/memU:多模态记忆框架,LLM生态独特价值
MemU是一个面向LLM和AI代理后端的记忆框架,旨在处理多模态输入,提取结构化记忆,并组织成支持基于嵌入和非嵌入检索的分层文件系统。它旨在为研究者、应用开发者提供工具,解决记忆管理和检索的难题,通过其独特的多模态支持和自进化记忆结构,在LLM生态中提供独特的价值。
精选 77 篇,从 2400+ 条中筛选
MemU是一个面向LLM和AI代理后端的记忆框架,旨在处理多模态输入,提取结构化记忆,并组织成支持基于嵌入和非嵌入检索的分层文件系统。它旨在为研究者、应用开发者提供工具,解决记忆管理和检索的难题,通过其独特的多模态支持和自进化记忆结构,在LLM生态中提供独特的价值。
Shubhamsaboo/awesome-llm-apps 是一个收集了多种基于大语言模型(LLM)的应用项目,旨在为开发者提供丰富的LLM应用案例。该项目定位为开发者社区,通过提供多种LLM应用示例,帮助开发者了解和实现LLM在各个领域的应用。核心功能包括展示多种LLM应用案例,涵盖AI代理、RAG、多智能体团队等。技术架构上,该项目依赖于多种LLM模型和开源技术,如OpenAI、Anthropic、Gemini等。在LLM生态中,该项目通过提供多样化的应用案例,促进了LLM技术的普及和应用。
Playwright CLI 是一款针对 Playwright 的命令行界面工具,旨在为开发者提供高效、便捷的浏览器自动化解决方案。它通过提供简洁的命令,允许开发者记录和生成 Playwright 代码,检查选择器和截图,从而优化了浏览器自动化流程。该项目主要面向应用开发者,通过其高效的 CLI 接口和 SKILLs,为高吞吐量的编码代理提供了更好的支持。其技术架构亮点在于其 token 效率,避免了将页面数据强制推入 LLM,从而提高了自动化流程的效率。
Kimi Code CLI是一款基于Python开发的终端AI代理,旨在辅助软件开发和终端操作。它支持代码阅读与编辑、执行shell命令、搜索网页以及自主规划执行过程中的动作。该项目填补了终端AI代理的空白,为开发者提供了一种新的开发范式,通过集成Agent Client Protocol和MCP等协议,实现了与IDE和MCP工具的集成,具有独特的易用性和功能集成度。
项目asgeirtj/system_prompts_leaks旨在收集并共享流行聊天机器人如ChatGPT、Claude & Gemini的系统提示,为研究者、开发者提供LLM数据资源。该项目以JavaScript语言编写,具有高星标和 forks 数量,体现了其在LLM生态中的价值。它是一个工具,通过收集和整理LLM数据,为研究者提供便利,同时也为开发者提供了丰富的数据集。
LobeHub是一个面向工作与生活的AI协作平台,旨在构建人类与AI协同进化的网络。它通过提供多代理协作、轻松的代理团队设计等功能,解决了传统AI工具缺乏上下文、孤立且需要手动交互的问题。LobeHub基于TypeScript构建,支持多种模型和服务提供商,并通过MCP插件系统扩展功能。它在LLM生态中的价值在于其独特的协作模式和丰富的功能集,为用户提供了强大的AI协作工具。
badlogic/pi-mono是一个专注于构建AI代理和LLM部署的工具集,旨在为开发者提供统一的LLM API、交互式编码代理CLI、终端UI和Web UI库等。该项目填补了LLM生态中工具集的空白,为研究者、应用开发者提供了一套完整的工具,以优化LLM的集成和管理流程。
modelcontextprotocol/ext-apps项目旨在为MCP(Model Context Protocol)提供一套标准化的SDK和规范,以支持在聊天机器人中嵌入交互式UI元素。该项目定位为开发框架,通过提供工具定义、工具调用、双向通信等功能,解决了在聊天机器人中集成复杂交互UI的问题。其技术栈以TypeScript为主,并支持多种前端框架。在LLM生态中,该项目通过提供标准化的解决方案,促进了聊天机器人的功能扩展和用户体验的提升。
LightOnOCR-2-1B是一款高效的端到端视觉语言模型,专门用于将文档转换为文本。该模型在OCR领域表现出色,具有快速处理速度和高效能的特点。它基于Transformer架构,参数量为1B,支持多种语言,包括中文。在OlmOCR-Bench基准测试中取得了领先性能,同时体积小、速度快,适用于处理PDF、扫描图像等多种文档格式。
nvidia/personaplex-7b-v1是一款定位为通用大模型的LLM,具有7B参数量,支持多语言。其核心技术为Transformer变体,并采用moshi库进行优化。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。模型开源,适用于多种硬件平台,与vLLM等推理框架兼容。主要应用场景包括多语言问答、代码生成等。
Lightricks/LTX-2是一款基于DiT架构的多模态音频-视频基础模型,专注于生成同步的视频和音频。该模型具有灵活的下载量和点赞数,支持多种语言,并采用diffusers库。LTX-2在图像到视频、文本到视频等多个领域具有广泛应用,其开源协议和丰富的模型版本提供了灵活的部署选项。在性能上,LTX-2在多模态任务中表现出色,尤其在视频生成方面具有显著优势。
Kimi K2.5是一款开源的多模态大语言模型,定位为通用大模型。它基于约150万亿混合视觉和文本标记的持续预训练,具备视觉和语言理解以及先进的代理能力。模型在视觉知识、跨模态推理和基于视觉输入的代理工具使用方面表现出色。其核心能力包括视觉到代码的生成和代理群体执行复杂任务。在性能上,Kimi K2.5在权威基准测试中表现良好,具有开源协议、硬件需求适中、推理效率较高的特点,适用于多模态任务和复杂任务处理。
VibeVoice-ASR是一款专注于语音识别的领域大模型,具备处理长达60分钟音频的能力,支持结构化转录,包括说话人、时间和内容信息。该模型采用Transformer架构,支持自定义热词,具有丰富的转录功能。在性能上,VibeVoice-ASR在权威基准测试中表现出色,具有高准确率和语义连贯性。模型适用于需要长音频转录和特定领域内容识别的场景,如会议记录、讲座转录等。其开源协议和硬件需求适中,推理效率较高。
Tongyi-MAI/Z-Image是一款专注于图像生成的LLM,定位为多模态模型。其核心技术为单流扩散Transformer,支持全Classifier-Free Guidance,具有强大的视觉语言处理能力。性能上,模型在图像生成任务中表现出色,但缺乏权威基准测试结果。主要应用场景为创意生成和艺术创作。开源协议为Apache-2.0,硬件需求较高,推理效率需进一步优化。
FlashLabs/Chroma-4B是一款多模态模型,定位为通用大模型。其核心技术为Transformer变体,支持任何到任何的转换,具有丰富的功能标签。该模型在Hugging Face Hub上表现活跃,下载量和点赞数均较高。性能方面,具体基准测试结果未提及,但其在多模态任务上具有优势。适用场景广泛,兼容性强,适合对多模态处理有需求的用户。
GLM-4.7-Flash是一款30B-A3B的MoE模型,定位为通用大模型。其核心技术包括MoE架构和Transformer变体,支持多种语言。在基准测试中表现出色,尤其在AIME 25和GPQA等任务上排名靠前。该模型适用于需要高性能和轻量级部署的场景,支持vLLM和SGLang等推理框架。
DeepSeek-OCR-2是一款专注于图像文本转换的多模态模型,定位为特定领域微调模型。其核心技术基于transformers库,采用自定义代码进行优化,支持多语言处理。模型在OCR任务上表现出色,但缺乏权威基准测试结果。开源协议为Apache-2.0,对硬件要求较高,推理效率需进一步优化。
Sweep Next-Edit 1.5B 是一款专注于代码编辑自动完成的模型,定位为代码模型。它采用GGUF格式量化,参数量为1.5B,上下文长度为8192 tokens。该模型在代码编辑自动完成方面表现出色,能够预测用户下一步的代码编辑。它在Hugging Face上的下载量和点赞数均较高,表明其在社区中受到认可。模型基于Qwen2.5-Coder,采用Q8_0量化,适合在本地设备上快速运行。性能方面,模型在代码编辑自动完成基准测试中优于同类模型。主要应用场景为代码编辑辅助工具,对开发者友好。
Qwen3-TTS是一款专注于语音合成的LLM,具备强大的语音表征能力和低延迟的流式生成能力。该模型覆盖10种主要语言,支持多种方言,具有强大的上下文理解能力。其核心技术包括自研的Qwen3-TTS-Tokenizer-12Hz和离散多码本LM架构,实现了高效的声学压缩和语义建模。在性能上,Qwen3-TTS在语音合成任务中表现出色,具有极低的延迟,适用于实时交互场景。模型适用于需要高质量语音合成的应用场景,如智能客服、语音助手等。
RuneXX/LTX-2-Workflows是一款基于LTXV2_comfy模型的LLM,定位为特定领域微调模型。其核心技术包括Gemma 3 12B it GGUF文本编码器,支持ComfyUI和GGUF。性能方面,具体基准测试结果未提供,但模型在视频生成等任务上表现出色。主要应用场景包括视频制作和创意内容生成。该模型开源,对硬件要求较高,推理效率需根据具体应用场景评估。
NuMarkdown-8B-Thinking是一款专注于文档到Markdown转换的推理型OCR大模型,基于Qwen 2.5-VL-7B进行微调。该模型在处理复杂文档布局和表格方面表现出色,能够生成思考标记以理解文档结构。在OCR和视觉语言模型领域,其性能优于GPT-4o和OCRFlux等模型。模型适用于文档解析、Markdown生成等场景,具有开源协议、硬件需求适中、推理效率较高的特点。
Comfy-Org/z_image是一款定位在多模态模型领域的开源模型,具有独特的comfyui技术特点。该模型在Hugging Face Hub上下载量超过40,000次,受到用户好评。其核心技术为diffusion-single-file库,支持多模态扩展。在性能上,由于缺乏具体的基准测试结果,无法提供详细的排名信息。该模型适用于需要多模态处理的应用场景,如图像生成和文本-图像交互。在实用考量方面,开源协议和硬件需求等信息未明确提供。
Kimi-K2.5-GGUF是一款基于Moonshot AI的Kimi-K2.5模型构建的推理优化版本,定位为通用大模型。其核心技术为基于transformers库的GGUF架构,支持2-bit至5-bit量化,适用于高性能计算环境。在性能上,Kimi-K2.5-GGUF在权威基准测试中表现出色,具有强大的代码生成、数学推理和多语言能力。该模型适用于需要高性能和特定能力场景,如代码生成、数学问题解决等,具有开源协议、高硬件需求和高推理效率的特点。
Qwen3-ASR-1.7B是一款专注于语音识别的领域大模型,具备多语言和方言支持能力。该模型采用Qwen3-Omni基础模型,结合大规模语音训练数据,实现了在复杂声学环境和挑战性文本模式下的高质量和鲁棒识别。其在开源ASR模型中达到最先进水平,与顶级商业API相媲美。模型支持语言识别和语音识别,具有高效的吞吐量和强大的推理框架。主要应用场景包括语音转文本、语音识别等。
Qwen3-TTS是一款专注于语音合成的大语言模型,定位为特定领域微调模型。其核心技术包括自研的Qwen3-TTS-Tokenizer-12Hz和离散多码本LM架构,支持多种语言和方言,具有强大的语境理解和自适应控制能力。性能上,模型实现了低延迟的流式生成,端到端合成延迟低至97ms。主要应用场景包括实时交互和个性化语音合成。模型开源协议为Apache-2.0,适合对实时性和个性化语音合成有较高要求的场景。
Qwen3-TTS是一款多语言TTS模型,定位为通用大模型。它具备强大的语音表征能力和低延迟的流式生成能力,采用自研的Qwen3-TTS-Tokenizer-12Hz进行高效声学压缩和语义建模。模型在语音合成方面表现出色,支持多种语言和方言,并具备智能文本理解和语音控制功能。性能方面,模型在权威基准测试中表现良好,具有高效的开源协议和推理效率,适用于实时交互场景。
这篇论文提出了FlowBoost,一个基于流的生成框架,用于发现数学中的极值结构。它结合了几何感知的流匹配模型、奖励引导的策略优化和随机局部搜索,以高效地生成高质量的几何结构配置,并在多个几何优化问题中取得了优异的性能。
这篇论文提出了一种名为GANPO的潜在对抗正则化方法,用于语言模型的离线偏好优化。该方法通过惩罚策略模型和参考模型内部表示之间的差异来实现潜在空间正则化,从而解决语言模型偏好优化中语义和行为相似性问题。实验表明,GANPO在分布偏移和噪声条件下提供了更鲁棒的结构反馈,同时保持了与标记级别正则化相当的下游性能。
这篇论文提出了一种解决长视频生成中错误累积和长期一致性丢失的方法,通过引入多头RoPE抖动来抑制错误行为,实现了实时、流式和无限长度的视频生成,显著减少了质量衰减。
这篇论文提出了一种通过在预训练阶段对预训练数据进行token级别的过滤来减少语言模型中不希望的能力的方法。这种方法比传统的后处理方法更有效,且成本更低。论文展示了在移除医疗能力这一代理任务上的有效性,并证明了随着模型规模的增加,过滤的效果也会提高。
这篇论文提出了一种新的奖励黑客检测方法,通过对比分析在代码环境中的奖励异常检测,构建了一个包含517个测试轨迹的基准测试集TRACE,并发现模型在对比设置中比在孤立分类设置中更有效地捕捉奖励黑客行为。
这篇论文提出了KromHC,一种通过克罗内克积残差矩阵来解决超连接在神经网络中训练不稳定和可扩展性受限问题的方法。KromHC通过将残差连接空间投影到Birkhoff多面体上,并使用较小的双随机矩阵的克罗内克积来参数化残差矩阵,从而保证了残差矩阵的精确双随机性,同时降低了参数复杂度。
这篇论文提出了一种基于联合音频-视觉扩散模型的视频配音方法,通过轻量级的LoRA调整,实现了在输入音频-视频的基础上,同时生成翻译后的音频和同步的面部动作,从而提高了配音视频的质量和鲁棒性。
这篇论文提出了一种名为FineInstructions的方法,通过将互联网规模的前训练文档中的知识转化为数十亿个合成指令和答案训练对,从而克服了大型语言模型(LLMs)在预训练阶段监督数据有限的限制。该方法使用真实用户查询和提示创建约1800万个指令模板,并与未结构化的前训练语料库中的人类编写的源文档相匹配,实现了LLMs仅通过指令微调目标进行从头预训练。
这篇论文提出了一种名为Scalable Power Sampling的新方法,通过分布锐化技术,实现了大型语言模型(LLMs)的高效、无监督推理,显著降低了推理延迟,同时避免了依赖外部奖励。
这篇论文研究了模型仓库中隐藏的优质模型,通过将模型发现问题建模为多臂老虎机问题,并使用共享查询集和积极的消除计划加速序列减半搜索算法,显著提高了模型发现的效率。
这篇论文提出了Mechanic Data Attribution (MDA)框架,通过影响函数追踪可解释的LLM单元的训练数据来源,揭示了训练数据对模型可解释性的影响,并通过实验验证了干预特定训练样本可以显著调节可解释头的出现,同时提出了一个数据增强管道以加速模型收敛。
这篇论文提出了一种名为ECO的优化器,用于在量化训练大型语言模型时消除对全精度主权重的依赖,从而显著降低内存占用,并保持与使用主权重的基线相当的性能。
这篇论文提出了AgentLongBench,一个用于评估长上下文智能体的可控制长基准,通过环境模拟和横向思维谜题来生成严格的交互轨迹,揭示了当前智能体在动态信息综合方面的弱点。
这篇论文提出了FROST,一种基于注意力的推理方法,通过剪枝非关键推理路径来提高推理效率。FROST通过识别并移除推理异常,增强了模型的推理能力,同时减少了token的使用,提高了推理的准确性。
这篇论文提出了一种名为 'pixel MeanFlow' (pMF) 的新型图像生成方法,通过在速度空间中使用 MeanFlow 来避免使用潜在空间,实现了单步无潜在图像生成。该方法通过将网络输出空间和损失空间分别处理,在 ImageNet 数据集上取得了显著的性能提升。
这篇论文提出了HALO(Hybrid Attention via Layer Optimization)和HypeNet,通过参数迁移和知识蒸馏,将Transformer模型转换为RNN-attention混合模型,实现了在极长文本上下文中的高效蒸馏和有效架构,显著提升了长文本处理性能和效率。
这篇论文提出了一种名为PLANING的3D重建框架,该框架通过松耦合三角形-高斯混合表示,实现了几何和外观的解耦建模,从而在保证重建质量的同时,大幅提高了计算效率。
这篇论文提出了BMAM(脑启发多智能体记忆框架),这是一种新型的记忆架构,它将智能体的记忆分解为多个功能专化的子系统,包括情景记忆、语义记忆、显著性感知和控制导向组件。BMAM通过组织情景记忆和融合多个互补信号来支持长期推理,实验结果表明,在LoCoMo基准测试中,BMAM在标准长期评估设置下达到了78.45%的准确率。
这篇论文提出了一种新的基准SpatialGenEval,用于评估文本到图像模型的空间智能。该基准通过包含丰富信息的提示和问题-答案对,全面评估模型在处理复杂空间关系方面的能力,并通过构建SpatialT2I数据集来展示其方法的有效性。
这篇论文提出了一种名为Slot-Based Object-Centric Representations (SBOCR)的视觉表示方法,通过将密集特征分组为对象类实体来提高机器人操作策略的泛化能力。这种方法能够在保持足够信息以高效完成任务的同时,减少对机器人操作策略的噪声,从而在变化的光照、纹理和干扰物等条件下实现更好的泛化。
RexRerankers 是一种先进的重排序器,旨在提高产品发现和人工智能助手的效率。它通过估计电子商务产品与查询的相关性来工作,并使用 Amazebay 数据集进行训练。此外,还发布了 ERESS 评估套件,用于全面评估产品发现重排序器的性能。
NVIDIA近日宣布推出NVIDIA Earth-2系列三个新的开源模型,旨在简化构建整个天气预报栈的能力,包括数据同化、预测、临近预报、降尺度等任务。这些模型包括用于千米级短时强对流天气预报的Earth-2 Nowcasting、用于15天全球预报的Earth-2 Medium Range以及用于生成初始条件的Earth-2 Global Data Assimilation。NVIDIA Earth-2提供了一套加速工具和模型,使开发者能够整合通常分散的天气和气候AI能力。
LightOn AI 发布了 LightOnOCR-2-1B,这是一个10亿参数的第二代端到端视觉-语言 OCR 模型,旨在将文档页面转换为高质量文本,同时提供轻量级布局信息。该模型在性能和速度上均优于同类产品,并支持Hugging Face Transformers生态系统,便于社区使用。
Hugging Face的Inference Labs团队发布了TruthTensor,这是一个评估大型语言模型(LLM)在动态市场条件下指令忠诚度的新框架。该框架通过模拟预测市场中的动态变化来测试模型是否会偏离其预设算法,并在601,891名用户和1,692,048次微调中得到应用。
Hugging Face发布了针对机器学习生命周期的存储基础设施,旨在解决传统云存储在处理机器学习模型、数据集和日志时的局限性。该基础设施通过Xet技术实现数据去重,提高迭代速度;支持数据流式传输,无需本地下载;提供供应链安全和治理功能,包括自动扫描、细粒度访问控制和数据驻留;同时,它还提供协作和文档功能,如模型卡片和社区功能,使机器学习团队能够更高效地协作。
本文通过比较mDeBERTa、GPT-OSS-20B(LoRA)和GPT-OSS-20B(Base)三种模型在多语言客户支持消息分类任务上的表现,展示了基于BERT的模型在速度和准确性上的优势,同时指出GPT-OSS-20B(LoRA)在精确匹配方面的优势。实验表明,选择合适的模型取决于具体的应用场景和需求,并强调了高效模型架构、智能量化和参数高效微调在构建定制ML解决方案中的重要性。
NVIDIA发布了Nemotron-Personas-Brazil,这是一个包含600万个完全合成的巴西人设的开放数据集,旨在解决巴西AI系统训练数据的问题,该数据集基于官方人口普查和劳工数据进行统计学接地,并支持巴西本地化的主权AI开发。
NVIDIA发布了一种名为Nemotron Speech ASR的新实时语音识别模型,该模型通过缓存感知流式处理技术,实现了更高的效率和更低的延迟,为实时语音代理提供了新的基准。
本文探讨了大型语言模型(LLMs)如何存储和检索关于实体的事实知识。研究人员发现,LLMs 在其 MLP 层中维护一个隐藏的实体词汇表,这些实体以语义嵌入的形式编码,从而实现事实知识的检索。他们开发了一种方法来定位存储实体知识的特定权重,并展示了如何通过激活或抑制这些权重来影响模型的行为。
NVIDIA与AI Singapore合作发布了Nemotron-Personas-Singapore,这是一个为新加坡开发者设计的合成数据集,旨在支持构建主权AI系统。该数据集提供本地化、文化相关和隐私保护的数据,用于训练和评估AI模型。
Hugging Face的研究人员逆向工程了AI初创公司Magic的技术,发现其核心在于将哈希字符串或函数名视为单一token,从而实现了高效的键值查找和长上下文匹配。基于这一发现,研究者开发了MALM模型,并成功复现了Magic的演示,如计算器和密码强度计等应用场景。
暂无摘要
Interpreto 是一个新推出的开源库,旨在为自然语言处理(NLP)模型提供实用、模块化且统一的可解释性解决方案。它支持基于归因和基于概念的解释方法,适用于分类和生成模型,并能够与 Hugging Face Transformer 模型无缝集成。Interpreto 的发布为用户和开发者提供了一种新的工具,用于理解和评估 NLP 模型的预测过程。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。
Maziyar Panahi 发布了名为 OpenMed 的项目,该项目提供了超过 380 个免费的医疗命名实体识别 (NER) 模型,旨在打破医疗人工智能领域高昂的付费壁垒。这些模型不仅性能卓越,而且完全免费,并遵循 Apache 2.0 许可协议,使得研究人员、医生和开发者能够轻松访问和使用。OpenMed 模型在多个医疗数据集上进行了优化和测试,涵盖了从药物和化学物质到疾病和基因等广泛的医疗术语,为医疗和临床文本分析提供了强大的工具。
本文提供了一篇面向初学者的 PyTorch 教程,通过构建和训练一个简单的线性回归模型,逐步介绍了 PyTorch 的核心概念和操作。文章详细解释了自动微分、动态计算图、模型类等概念,并展示了如何使用 NumPy 和 PyTorch 实现线性回归,同时介绍了数据生成、损失函数、优化器、模型训练和评估等关键内容。
OpenMed项目在六个月内取得了显著进展,发布了380多个开源医疗AI模型,并推出了Python工具包和交互式终端用户界面。该项目旨在打破医疗AI领域的付费壁垒,为研究人员、临床医生和开发者提供高性能、可定制的工具。
这篇论文提出了$G^2$-Reader,一个针对多模态文档问答的解决方案。它通过构建内容图和规划图来保留文档结构和跨模态语义,并通过子问题引导的导航来提高检索和生成的准确性。
IDE-Bench是一个用于评估大型语言模型作为IDE代理在真实世界软件工程任务上的表现的框架。它通过提供Docker化的测试环境,使模型能够在类似于Cursor和Windsurf的AI原生IDE中拥有结构化的工具生态系统。论文通过创建80个任务,涵盖C/C++、Java和MERN栈,来评估代理在代码库搜索、结构化文件编辑和全栈应用程序测试方面的能力,并首次将代理报告的意图与多语言、全栈环境中的成功项目级修改系统地关联起来。
这篇论文提出了一种名为FineInstructions的方法,通过将互联网规模预训练文档中的知识转化为数亿个合成指令和答案训练对,从而克服了大型语言模型(LLMs)在预训练阶段监督数据有限的难题。该方法使用真实用户查询和提示创建约1800万个指令模板,并与人类编写的源文档相匹配,实现了LLMs仅通过指令微调目标进行从头预训练。
这篇论文介绍了Qwen3-ASR家族,包括两个支持多种语言和方言的ASR模型和一个创新的非自回归语音强制对齐模型。通过大规模语音训练数据和强大的基础模型Qwen3-Omni,这些模型在真实场景中展现出显著的质量差异,其中1.7B版本在开源ASR模型中达到SOTA性能,0.6B版本提供了最佳精度-效率权衡。
这篇论文提出了LEMUR,一个用于多向量相似性搜索的高效框架。它通过将多向量相似性搜索转化为监督学习问题,并利用单向量近似最近邻搜索方法来加速检索,从而在保证检索质量的同时显著降低延迟。
这篇论文提出了一种名为RepuNet的动态、双层声誉框架,用于解决基于大型语言模型的多智能体系统中的合作崩溃问题。该框架通过直接交互和间接八卦,使智能体为自身及其同伴形成声誉,并决定是否与其他智能体连接或断开连接。实验表明,RepuNet能够有效避免合作崩溃,促进并维持合作。
这篇论文提出了一种名为ASAP的框架,用于解决神经组合优化问题中的鲁棒性问题。该框架通过将决策过程分解为两个阶段,即提议政策和选择政策,来提高模型对分布变化的适应性。论文通过实验证明了ASAP在3D-BPP、TSP和CVRP等组合优化问题上的优越性能。
这篇论文提出了JADE,一个用于动态多轮工作流中联合优化规划和执行的新框架。JADE通过将系统建模为一个合作的多智能体团队,实现了基于结果的奖励驱动的端到端学习,从而解决了现有RAG模型中规划和执行模块之间的不匹配问题,显著提升了性能。
这篇论文提出了RAS框架,通过迭代检索和结构化知识构建动态构建问题特定的知识图,以解决大型语言模型在知识密集型任务中多步推理的困难。RAS通过交错检索规划和增量图构建,使模型能够针对每个查询组装和推理不断发展的知识结构,从而提高了推理的准确性和鲁棒性。