abhigyanpatwari/GitNexus:构建代码库知识图谱
GitNexus是一个基于客户端的知识图谱创建工具,旨在为代码探索提供智能工具。它通过索引代码库并构建知识图谱,为AI代理提供代码库的深度架构视图,从而避免依赖遗漏、调用链中断和错误编辑。项目定位为开发者工具,通过其CLI和Web UI,为用户提供代码分析、影响分析和重构等功能,特别适用于大型代码库的维护和探索。
精选 72 篇,从 960+ 条中筛选
GitNexus是一个基于客户端的知识图谱创建工具,旨在为代码探索提供智能工具。它通过索引代码库并构建知识图谱,为AI代理提供代码库的深度架构视图,从而避免依赖遗漏、调用链中断和错误编辑。项目定位为开发者工具,通过其CLI和Web UI,为用户提供代码分析、影响分析和重构等功能,特别适用于大型代码库的维护和探索。
Deep Agents是一个基于LangChain和LangGraph构建的智能代理工具,旨在简化复杂代理任务的执行。它提供了一套完整的工具集,包括规划、文件系统访问、子代理和智能默认设置,旨在为研究者、应用开发者和企业用户提供高效、灵活的代理解决方案。
云flare/workerd是一个基于C++的JavaScript/Wasm服务器运行时,旨在为Cloudflare Workers提供动力。它支持自托管应用、本地开发和测试,以及作为可编程的HTTP代理。该项目填补了在本地环境中运行和测试Cloudflare Workers应用的需求,为开发者提供了灵活性和便利性。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型采用 CoT 技术和 Claude-4.6 Opus 的推理链进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持多种语言,适用于需要复杂推理和精确解决方案的场景。性能方面,模型在相关基准测试中表现良好,具有开源协议,适合在多种硬件和推理框架上使用。
Tesslate/OmniCoder-9B是一款针对代码生成和推理的领域大模型,基于Qwen3.5-9B架构,参数量达到9B。该模型在代码生成、工具使用、终端操作和多步推理等任务上表现出色,具有强大的自恢复能力和遵循LSP诊断的能力。在AIME 2025、GPQA Diamond和Terminal-Bench 2.0等基准测试中取得了优异的成绩。模型开源,适用于需要高效代码生成和推理的场景。
Qwen3.5-35B-A3B是一款定位在通用大模型领域的LLM,具备高效的混合架构和强大的多模态学习能力。该模型具有35B的参数量,支持1M的上下文长度,采用Apache-2.0开源协议。在性能上,Qwen3.5在多个基准测试中表现出色,尤其在多模态任务上具有显著优势。其主要应用场景包括多语言处理、代码生成和视觉理解等,适合需要高性能和高效推理的应用。
HauhauCS/Qwen3.5-9B-Uncensored-HauhauCS-Aggressive 是一款通用大模型,具有9B参数和32层,支持多语言和上下文长度可扩展至1M。该模型在HuggingFace平台上具有较高下载量和点赞数,其核心能力在于无审查的文本生成,具有更强的拒绝处理能力。在性能表现上,该模型在MMLU、GPQA、IFEval等基准测试中表现良好,具有多模态支持,适用于需要无审查文本生成的场景。其开源协议为Apache-2.0,硬件需求较高,推理效率中等,与vLLM、TGI等流行推理框架兼容。
Lightricks/LTX-2.3是一款专注于图像到视频生成的基础模型,定位为多模态模型。它基于DiT架构,具有高效的音频和视频生成能力,支持多种语言和格式。该模型在HuggingFace平台上具有较高的下载量和点赞数,表明其在社区中受到认可。LTX-2.3在性能上表现出色,尤其在图像到视频转换任务上具有显著优势。其开源协议和丰富的应用场景使其在多媒体内容创作领域具有广泛应用潜力。
鱼声科技S2 Pro是一款领先的文本到语音(TTS)模型,专注于精细的韵律和情感控制。该模型采用双自回归架构,结合强化学习和超过10M+小时的音频数据训练,支持80多种语言。S2 Pro在LLM生态中定位为特定领域微调模型,具有多语言能力和指令遵循能力。其在TTS任务上表现出色,具有高效的推理性能和良好的开源协议。主要应用场景包括多语言语音合成、个性化语音助手等。
HumeAI/tada-3b-ml是一款专注于语音建模的统一语音语言模型,定位为多模态模型。其核心技术为文本-声学双对齐框架,通过创新的分词器和架构设计,实现了高保真合成和生成。该模型在性能上表现出色,尤其在文本到语音转换任务中具有显著优势。模型参数量较大,支持多种语言,适用于需要高保真语音生成的场景。
NVIDIA-Nemotron-3-Super-120B-A12B-BF16是一款基于Transformer架构的通用大模型,具有120B的参数量和A12B的上下文长度。该模型在NVIDIA的Nemotron系列中,结合了MoE(Multi-Head Mixture of Experts)技术,提高了模型的表达能力和效率。在性能上,该模型在多个基准测试中表现出色,具有多语言处理能力。其开源协议和硬件需求适中,适合在多种场景下使用。
NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4是一款大型语言模型,定位为通用大模型。其核心技术包括Transformer变体、MoE等,具有120B的参数量和A12B的上下文长度。在性能上,该模型在多个基准测试中表现出色,具有多语言能力。主要应用场景包括文本生成、代码生成等。该模型采用NVIDIA开放模型许可,对硬件要求较高,但推理效率良好。
HumeAI/tada-1b是一款专注于语音合成的大语言模型,定位为多模态模型。其核心技术为文本-声学双对齐框架,通过创新的分词器和架构设计,实现了高保真合成和生成。在性能上,TADA在权威基准测试中表现出色,具有高效的推理效率和良好的兼容性。主要应用场景包括语音合成和文本生成,适用于需要高质量语音输出的场景。
HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive 是一个基于 Qwen3.5-35B-A3B 的开源模型,专注于图像-文本到文本的转换。该模型定位为多模态模型,具有无审查的特性,适用于需要生成丰富文本内容的应用。其核心技术包括MoE架构和Qwen3.5-35B-A3B基座模型,支持多语言,上下文长度大,参数量高。在性能上,该模型在多个基准测试中表现出色,尤其在图像-文本转换任务中具有显著优势。主要应用场景包括内容生成、图像描述等。该模型开源,硬件需求较高,推理效率中等。
LocoTrainer-4B是一款专注于代码分析领域的领域大模型,基于Qwen3-4B-Instruct-2507进行微调。其核心技术包括MS-SWIFT框架知识蒸馏和工具调用代理,能够生成结构化的代码分析报告。该模型在代码分析任务上表现出色,具有长上下文处理能力和本地部署版本,适用于需要代码分析报告的场景。
Tesslate/OmniCoder-9B-GGUF是一款基于Tesslate/OmniCoder-9B的GGUF量化模型,定位为通用大模型,具有9B参数量。其核心能力在于代码生成和智能代理,采用Transformer架构,支持多种量化级别,适用于不同硬件环境。在性能上,模型在代码生成任务上表现出色,但在基准测试中的具体排名未提及。主要应用场景包括代码生成、智能对话等,使用时需考虑开源协议Apache-2.0,硬件需求中等,推理效率较高。
Qwen/Qwen3.5-9B是一款通用大模型,具备9B参数,支持多模态学习。其核心技术包括多模态融合训练、高效的混合架构、可扩展的强化学习泛化能力、全球语言覆盖和下一代训练基础设施。在基准测试中表现出色,尤其在多模态理解和推理任务上。适用于需要多语言、多模态理解和高效推理的场景,如对话系统、内容生成等。
zai-org/GLM-OCR是一款基于GLM-V架构的多模态OCR模型,专注于复杂文档理解。该模型采用多令牌预测损失和稳定的全任务强化学习,结合CogViT视觉编码器和GLM-0.5B语言解码器,实现高效训练和识别。在OmniDocBench V1.5基准测试中排名第一,适用于复杂表格、代码密集型文档等场景,支持vLLM、SGLang和Ollama等推理框架,易于集成到现有生产流程中。
Anima模型定位为特定领域微调模型,专注于动漫风格的艺术图像生成。其核心技术为基于扩散模型的单文件库,参数量为20亿。模型在动漫风格图像生成方面表现出色,但未公开权威基准测试结果。主要应用场景为动漫艺术创作,使用时需考虑开源协议和硬件需求。
Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled 是一个基于 Qwen3.5 架构的推理模型,专注于结构化推理逻辑。该模型通过从 Claude-4.6 Opus 中提取的 CoT 技术进行微调,具有高效的推理效率和减少冗余认知循环的能力。模型定位为推理模型,具有 27B 参数量,支持文本生成。在性能上,模型在推理任务上表现出色,特别适合需要复杂推理和逻辑分析的场景。开源协议为 Apache-2.0,适合在多种硬件和推理框架上使用。
NVIDIA-Nemotron-3-Super-120B-A12B-FP8是一款基于Transformer架构的通用大模型,具有120B的参数量和A12B的上下文长度。该模型在HuggingFace平台上具有较高的下载量和点赞数,支持多种语言。其核心技术包括NVIDIA的Nemotron架构和Latent MOE技术,旨在提高模型的安全性和效率。在性能方面,该模型在多个基准测试中表现出色,具有较好的代码生成、数学推理和多语言能力。该模型适用于需要高性能和广泛语言支持的通用场景,如文本生成、问答系统等。
这篇论文提出了POLCA,一种基于LLM的随机生成优化框架,用于优化复杂系统。POLCA通过使用生成语言模型作为优化器,结合数值奖励和文本反馈,在探索和利用之间保持平衡,从而发现最佳系统配置。实验表明,POLCA在多个基准测试中表现出色,优于现有算法。
这篇论文提出了Tri-Prompting,一个统一的框架,通过整合场景构图、多视图主题一致性和运动控制,实现了对视频扩散的统一控制。该方法利用双条件运动模块,结合3D跟踪点和降采样RGB线索,以平衡可控性和视觉真实感,支持包括3D感知主题插入和图像中现有主题的操纵在内的创新工作流程。
这篇论文提出了PokeAgent Challenge,这是一个基于宝可梦多智能体战斗系统和角色扮演游戏环境的大规模基准,旨在解决部分可观察性、博弈论推理和长期规划等AI前沿问题。通过两个互补的赛道,即战斗赛道和速度跑赛道,论文提供了用于评估策略推理、泛化和长期规划的工具和数据集。
这篇论文研究了潜在扩散中变分自编码器(VAE)的可扩散性(可学习性)。论文提出了频谱匹配假设,即具有优越扩散性的潜在应该遵循平坦的幂律功率谱密度(PSD)并通过解码器保持频率到频率的语义对应关系。通过实验验证了频谱匹配在CelebA和ImageNet数据集上优于先前的方法。
这篇论文提出了一种名为VisionCoach的强化学习框架,通过视觉提示来增强基于视频的推理能力。该框架通过选择性地应用视觉提示来放大问题相关的证据并抑制干扰,从而提高时空定位的准确性。实验表明,VisionCoach在多个视频推理和时空定位基准测试中取得了最先进的性能。
VoXtream2是一种全流式文本到语音(TTS)模型,它通过动态说话速率控制,能够在文本增量到达时即时更新说话速率,同时保持低延迟和高可控性。该模型结合了分布匹配机制和条件信号的无分类器指导,以提升可控性和合成质量。实验表明,VoXtream2在标准零样本基准测试和专门的说话速率测试集中,即使模型规模较小且训练数据较少,也能达到与公开基线相媲美的客观和主观结果。
这篇论文提出了HorizonMath,一个用于衡量AI在数学发现方面进步的基准,通过自动验证来评估AI在解决复杂数学问题上的能力。该基准包含超过100个未解决的数学问题,并使用大型语言模型GPT 5.4 Pro进行实验,发现其提出的新解决方案可能优于现有结果。
这篇论文提出了一种名为ScienceClaw + Infinite的框架,该框架允许自主科学探索,其中独立代理在没有中央协调的情况下进行研究,并且任何贡献者都可以将新代理部署到共享生态系统中。该系统由三个组件组成:一个超过300个可互操作的科学技能的可扩展注册表、一个保存完整计算谱系为有向无环图(DAG)的工件层,以及一个具有谱系感知治理的基于代理的科学讨论结构化平台。代理根据其科学配置文件选择和链式工具,生成具有类型化元数据和父谱系的不可变工件,并将不满足的信息需求广播到共享的全局索引。ArtifactReactor实现了无计划协调:对等代理通过基于压力的评分发现和满足开放需求,而模式重叠匹配触发独立分析之间的多父合成。一个自主的突变层通过持续修剪扩展的工件DAG来解决冲突或冗余的工作流程,而持久记忆允许代理在多个周期内持续构建复杂的认识状态。Infinite将这些输出转换为可审计的科学记录,通过结构化帖子、谱系视图和机器可读的讨论关系,社区反馈引导后续的调查周期。
这篇论文提出了OxyGen,一种统一的KV缓存管理方法,用于在多任务并行执行下优化视觉-语言-动作模型(VLA)的推理性能。该方法通过消除冗余计算和资源竞争,实现了高效的跨任务和跨帧优化,显著提升了模型的推理速度和吞吐量。
这篇论文提出了Garments2Look,一个大规模的多模态数据集,用于高保真度的服装组合虚拟试穿。该数据集包含80K多件服装到一套服装的配对,覆盖40个主要类别和300多个细分类别。论文通过合成管道和严格的数据质量控制方法,解决了现有数据集类别限制和服装多样性不足的问题,并通过实验表明,当前方法在无缝试穿完整服装和推断正确分层和风格方面存在困难。
这篇论文提出了SING方法,用于分析分类器中的语义不变性。SING通过构建与网络等价的图像并分配语义解释,从网络特征到多模态视觉语言模型进行映射,从而获得自然语言描述和视觉示例,揭示不同模型在处理不变性空间时的语义保持能力。
这篇论文提出了一种名为DOMINO的大规模数据集和基准,用于可泛化的动态机器人操作。通过引入PUMA架构,该研究解决了视觉-语言-动作(VLA)模型在动态环境中操作性能不足的问题,通过结合历史感知和短期预测,实现了在动态任务上的最先进性能。
这篇论文提出了一种新的诊断视觉-语言模型(VLM)中幻觉的方法,将幻觉视为模型计算认知的动态病理,通过信息理论探针将认知轨迹映射到可解释的低维认知状态空间,实现了对幻觉的几何异常检测,并在多个设置中取得了最先进的性能。
这篇论文提出了RS-WorldModel,一个统一的世界模型,用于遥感理解和未来场景预测。该模型通过地理感知生成预训练、协同指令调整和可验证强化优化三个阶段训练,实现了时空变化理解和文本引导的未来场景预测。实验结果表明,RS-WorldModel在大多数时空变化问答指标上超越了参数量更大的开源模型,并在文本引导的未来场景预测任务上取得了优异的性能。
这篇论文提出了一种有效的蒸馏方法,用于将大型语言模型(LLMs)蒸馏到子二次线性化架构中,通过引入额外的合并阶段,将单独线性化的专家合并成一个单一模型,从而在许多情况下恢复甚至超过教师模型的性能。
这篇论文提出了EnterpriseOps-Gym,一个模拟企业环境的基准,用于评估具有状态感知和工具使用能力的智能体在复杂工作流程中的规划能力。该基准通过包含大量数据库表和工具的容器化沙盒,模拟真实世界的搜索摩擦,并在八个关键领域进行评估,揭示了当前最先进模型在战略推理和拒绝不可行任务方面的局限性。
这篇论文研究了在大型语言模型(LLMs)中,稀疏性如何减轻深度带来的诅咒。通过分析隐式稀疏性和显式稀疏性对深度利用的影响,论文提出了一种通过减少输出方差和促进功能区分来提高层利用率的策略,从而在下游任务上实现了显著的准确率提升。
这篇论文研究了在单个笔记本上限制条件下,基于电子健康记录(EHR)的问答系统性能。作者通过参与ArchEHR-QA 2026共享任务,评估了在本地硬件上运行的不同方法,结果表明小型模型在适当配置下可以接近大型系统的性能,为隐私保护型EHR问答系统提供了可行性。
这篇论文提出了Riemannian Motion Generation (RMG),一个统一框架,用于通过黎曼流匹配在黎曼流形上表示和生成人类运动。RMG通过将运动分解为多个流形因子,实现了无尺度的内在归一化表示,并使用测地线插值、切空间监督和流形保持的常微分方程积分进行训练和采样。实验表明,RMG在HumanML3D和MotionMillion数据集上均取得了最先进的性能。
这篇论文探讨了大型语言模型(LLMs)中动机的存在和表现,通过实验发现LLMs在不同任务类型中表现出与人类心理相似的动机模式,这些模式可以通过外部因素调节,从而揭示了LLMs行为与人类动机的相似性。
暂无摘要
NVIDIA NeMo Retriever团队发布了新一代的智能体检索管道,该管道在多个基准测试中取得了优异的成绩,展示了其在通用性、超越语义相似性检索方面的优势,并采用了ReACT架构和进程内线程安全的单例检索器,以提高速度和可扩展性。
NVIDIA的AI-Q深度研究代理在DeepResearch Bench I和II两个主要基准测试中均取得了第一名,标志着开放、可移植的深度研究迈出了重要一步。AI-Q是一个开源的AI代理构建蓝图,能够处理企业级和Web数据,提供完全开放和模块化的架构,企业可以拥有、检查、定制和配置。该代理采用多代理架构,包括规划者、研究员和协调者,基于NVIDIA的NeMo Agent Toolkit和微调的NVIDIA Nemotron 3 Super模型。
商汤科技与南洋理工大学合作推出了NEO-unify,这是一种端到端原生多模态统一模型,旨在直接处理原始像素和文本输入,摆脱传统多模态AI中视觉编码器和变分自编码器的依赖,实现文本和视觉的统一学习,并展现出高数据扩展效率。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
NVIDIA 发布了多个开放数据集,旨在解决 AI 开发中的数据瓶颈,加速高质量 AI 模型和智能体系统的构建。这些数据集涵盖了多个领域,包括机器人、自动驾驶、主权 AI、生物学等,并提供了训练方案和评估框架,以促进整个生态系统的协作和创新。
NVIDIA近日发布了Alpamayo 1.5模型,这是一个基于推理的自动驾驶汽车(AV)的开放平台,旨在提供更强大的推理模型、灵活的仿真工具和高质量的数据集。该平台包括文本引导的轨迹规划、灵活的多摄像头支持、用户问答等功能,并支持在更广泛的驾驶数据上进行评估。
暂无摘要
NVIDIA发布了NVIDIA KGMON(NeMo Agent Toolkit)数据探索器,这是一种用于构建自主数据分析智能体的架构,旨在处理多步骤推理、工具调用和迭代数据分析。该架构在DABStep基准测试中排名第一,展示了其在复杂数据分析任务中的高效性和准确性。
暂无摘要
SILMA AI发布了SILMA TTS v1,这是一个轻量级的双语文本到语音模型,支持阿拉伯语和英语。该模型基于F5-TTS扩散架构,具有150M参数,并预训练了数万小时的公共和专有音频数据。SILMA TTS以Apache 2.0许可证开源,旨在支持研究和商业应用。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
本文介绍了名为“规范保持双投影消融”的技术,这是一种用于从语言模型中移除拒绝行为的新方法。该方法通过识别和干预激活空间中的“拒绝方向”来工作,并改进了传统的消融方法。它通过从另一层的输出中移除拒绝,避免干扰目标层中无害的方向,同时通过仅从目标权重中减去方向分量,同时保留权重范数,提高了推理性能。
Hugging Face和NVIDIA发布了一个名为Nemotron-Pretraining-Code-Concepts的大规模合成数据集,旨在通过编程概念种子生成数据,以增强大型语言模型(LLM)的编程能力。该数据集包含1500万个Python编程问题,用于预训练模型,并在HumanEval基准测试中实现了6个百分点的性能提升。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
Super Analyzer是一款结合推理和编码能力的工具,旨在通过使用Nvidia Nemotron 3 Super推理LLM来识别和修复代码中的性能瓶颈。该系统支持C++、Python、Java和Rust语言,并提供了Web UI、Python API和Rest API等交互方式,旨在提高代码性能。
暂无摘要
Pruna 0.3.2版本发布了,该版本引入了更多开源优化算法,包括新的编译器、内核、剪枝器以及全新的算法家族,如解码器、蒸馏器、增强器和恢复器。这些更新旨在提高模型优化效率和灵活性,同时提供了更多教程和代码库维护,增强了系统的稳定性和易用性。
这篇公告讨论了在多语言语言模型(LLM)中,分词(Tokenization)对模型性能的影响,特别是对低资源语言的影响。作者Omar Kamali指出,分词的不当会导致模型在理解语言结构上的困难,并提出了改进分词方法以提升低资源语言模型性能的必要性。
OpenAI发布了GPT-5.4 mini和GPT-5.4 nano,两款优化后的GPT-5.4小型模型,旨在提高编码、工具使用、多模态推理和API及子代理工作负载的效率。GPT-5.4 mini在性能和速度上显著提升,而GPT-5.4 nano则专注于成本效益,适用于对速度和成本敏感的任务。
这篇论文研究了检索增强生成(RAG)框架中检索到的意识形态文本对大型语言模型(LLMs)输出影响。作者设计了一个基于COVID-19治疗意识形态文本的外部知识源,并使用Lexical Multidimensional Analysis(LMDA)框架来识别语料库中的意识形态。通过评估LLMs的响应与外部知识源中意识形态的一致性,论文发现基于意识形态检索文本的LLMs响应与外部知识源更一致,并强调了在RAG框架中识别意识形态话语的重要性。
这篇论文提出了PokeAgent挑战,这是一个基于宝可梦多智能体战斗系统和角色扮演游戏环境的大规模基准,旨在解决部分可观察性、博弈论推理和长期规划等前沿AI问题。通过两个互补的赛道,即战斗赛道和速度跑赛道,论文提供了用于竞争性宝可梦战斗的战略推理和泛化能力,以及用于宝可梦RPG的长期规划和顺序决策。实验结果表明,宝可梦战斗与标准LLM基准几乎正交,表明宝可梦是一个未解决的基准,可以推动RL和LLM研究向前发展。
这篇论文提出了一种名为Shopping Companion的内存增强型LLM代理,用于解决电子商务中的购物任务,如推荐、预算和捆绑销售。该代理通过长期记忆设置和联合处理记忆检索与购物辅助,同时支持用户干预,以解决长期偏好感知购物任务中的挑战。
这篇论文提出了FineRMoE,一种扩展了细粒度专家设计的架构,旨在通过在中间和输出维度上扩展,超越单维度限制,从而提高专家的专业化水平。它引入了双层稀疏前向计算范式和专门的激活路由机制,并提出了一种通用的升级方法,以降低从头训练FineRMoE的成本。实验表明,FineRMoE在十个标准基准测试中实现了优异的性能。
这篇论文提出了MIBench,一个用于评估大型多模态模型(LMMs)多模态交互能力的基准。MIBench通过将实例定义为包含视觉和文本上下文的(con_v, con_t, task)三元组,要求LMMs使用正确的多模态交互形式来完成任务。它从信息来源和联合协同生成新信息的能力三个方面评估模型,并在认知水平上对交互能力进行分层评估。
这篇论文提出了Tucker Adaptation(TuKA)方法,用于解决视觉和语言导航(VLN)代理在多场景和环境中适应的问题。TuKA通过将多层级导航知识表示为高阶张量,并利用Tucker分解将其分解为共享子空间和特定场景的专家,从而实现灵活的长期部署。实验表明,基于TuKA的AlldayWalker代理在多场景导航任务中优于现有基准。
这篇论文提出了OxyGen,一种统一的KV缓存管理方法,用于在多任务并行执行视觉-语言-动作模型时提高效率。该方法通过消除冗余计算和资源竞争,实现了跨任务和跨帧的优化,显著提升了模型的推理速度和吞吐量。
这篇论文提出了一种名为A.DOT的框架,用于在混合数据湖中进行多模态、多跳问答。该框架通过将用户查询编译成跨结构化和非结构化存储的DAG执行计划,提高了问答系统的效率和准确性。
这篇论文提出了$p^2$RAG,一种支持任意Top-$k$检索的隐私保护RAG服务。它通过交互式二分法避免对候选文档进行排序,使用秘密共享在两个半诚实非勾结的服务器上保护数据所有者和用户的隐私,并通过实验证明在Top-$k$检索方面比现有系统更高效。