MoonshotAI/kimi-cli:终端AI代理,开发新范式
Kimi Code CLI是一款基于Python开发的终端AI代理,旨在辅助软件开发和终端操作。它支持代码阅读与编辑、执行shell命令、搜索网页以及自主规划执行过程中的动作。该项目填补了终端AI代理的空白,为开发者提供了一种新的开发范式,通过集成Agent Client Protocol和MCP等协议,实现了与IDE和MCP工具的集成,具有独特的易用性和功能集成度。
精选 75 篇,从 3300+ 条中筛选
Kimi Code CLI是一款基于Python开发的终端AI代理,旨在辅助软件开发和终端操作。它支持代码阅读与编辑、执行shell命令、搜索网页以及自主规划执行过程中的动作。该项目填补了终端AI代理的空白,为开发者提供了一种新的开发范式,通过集成Agent Client Protocol和MCP等协议,实现了与IDE和MCP工具的集成,具有独特的易用性和功能集成度。
LobeHub是一个面向工作与生活的AI协作平台,旨在构建人类与AI协同进化的网络。它通过提供多代理协作、轻松的代理团队设计等功能,解决了传统AI工具缺乏上下文、孤立且需要手动交互的问题。LobeHub基于TypeScript构建,支持多种模型和服务提供商,并通过MCP插件系统扩展功能。它在LLM生态中的价值在于其独特的协作模式和丰富的功能集,为用户提供了强大的AI协作工具。
badlogic/pi-mono是一个专注于构建AI代理和LLM部署的工具集,旨在为开发者提供统一的LLM API、交互式编码代理CLI、终端UI和Web UI库等。该项目填补了LLM生态中工具集的空白,为研究者、应用开发者提供了一套完整的工具,以优化LLM的集成和管理流程。
MemU是一个面向LLM和AI代理后端的记忆框架,旨在处理多模态输入,提取结构化记忆,并组织成支持基于嵌入和非嵌入检索的分层文件系统。它旨在为研究者、应用开发者提供工具,解决记忆管理和检索的难题,通过其独特的多模态支持和自进化记忆结构,在LLM生态中提供独特的价值。
项目asgeirtj/system_prompts_leaks旨在收集并共享流行聊天机器人如ChatGPT、Claude & Gemini的系统提示,为研究者、开发者提供LLM数据资源。该项目以JavaScript语言编写,具有高星标和 forks 数量,体现了其在LLM生态中的价值。它是一个工具,通过收集和整理LLM数据,为研究者提供便利,同时也为开发者提供了丰富的数据集。
GetStream/Vision-Agents项目是一个面向开发者构建实时视频AI代理的平台服务,旨在提供低延迟的视频体验。它通过Stream的边缘网络实现快速连接和低延迟,支持多种视频处理和AI模型集成,为开发者提供构建智能视频应用的工具和框架。
RuneXX/LTX-2-Workflows是一款基于LTXV2_comfy模型的LLM,定位为特定领域微调模型。其核心技术包括Gemma 3 12B it GGUF文本编码器,支持ComfyUI和GGUF。性能方面,具体基准测试结果未提供,但模型在视频生成等任务上表现出色。主要应用场景包括视频制作和创意内容生成。该模型开源,对硬件要求较高,推理效率需根据具体应用场景评估。
Qwen3-TTS是一款专注于语音合成的大语言模型,定位为特定领域微调模型。其核心技术包括自研的Qwen3-TTS-Tokenizer-12Hz和离散多码本LM架构,支持多种语言和方言,具有强大的语境理解和自适应控制能力。性能上,模型实现了低延迟的流式生成,端到端合成延迟低至97ms。主要应用场景包括实时交互和个性化语音合成。模型开源协议为Apache-2.0,适合对实时性和个性化语音合成有较高要求的场景。
GLM-4.7-Flash是一款30B-A3B的MoE模型,定位为通用大模型。其核心技术包括MoE架构和Transformer变体,支持多种语言。在基准测试中表现出色,尤其在AIME 25和GPQA等任务上排名靠前。该模型适用于需要高性能和轻量级部署的场景,支持vLLM和SGLang等推理框架。
Sweep Next-Edit 1.5B 是一款专注于代码编辑自动完成的模型,定位为代码模型。它采用GGUF格式量化,参数量为1.5B,上下文长度为8192 tokens。该模型在代码编辑自动完成方面表现出色,能够预测用户下一步的代码编辑。它在Hugging Face上的下载量和点赞数均较高,表明其在社区中受到认可。模型基于Qwen2.5-Coder,采用Q8_0量化,适合在本地设备上快速运行。性能方面,模型在代码编辑自动完成基准测试中优于同类模型。主要应用场景为代码编辑辅助工具,对开发者友好。
Qwen3-TTS是一款专注于语音合成的LLM,具备强大的语音表征能力和低延迟的流式生成能力。该模型覆盖10种主要语言,支持多种方言,具有强大的上下文理解能力。其核心技术包括自研的Qwen3-TTS-Tokenizer-12Hz和离散多码本LM架构,实现了高效的声学压缩和语义建模。在性能上,Qwen3-TTS在语音合成任务中表现出色,具有极低的延迟,适用于实时交互场景。模型适用于需要高质量语音合成的应用场景,如智能客服、语音助手等。
NuMarkdown-8B-Thinking是一款专注于文档到Markdown转换的推理型OCR大模型,基于Qwen 2.5-VL-7B进行微调。该模型在处理复杂文档布局和表格方面表现出色,能够生成思考标记以理解文档结构。在OCR和视觉语言模型领域,其性能优于GPT-4o和OCRFlux等模型。模型适用于文档解析、Markdown生成等场景,具有开源协议、硬件需求适中、推理效率较高的特点。
LightOnOCR-2-1B是一款高效的端到端视觉语言模型,专门用于将文档转换为文本。该模型在OCR领域表现出色,具有快速处理速度和高效能的特点。它基于Transformer架构,参数量为1B,支持多种语言,包括中文。在OlmOCR-Bench基准测试中取得了领先性能,同时体积小、速度快,适用于处理PDF、扫描图像等多种文档格式。
AgentCPM-Report是一款由THUNLP、RUCBM和ModelBest共同开发的开放源代码大型语言模型,基于MiniCPM4.1 8B参数基座模型。该模型在报告生成方面表现出色,具有高性能和最小化资源占用等特点。它通过深度检索和思维链推理,生成逻辑严谨、深入见解的长篇报告。模型定位为通用大模型,具有强大的文本生成能力,适用于需要高质量报告生成的场景。
nvidia/personaplex-7b-v1是一款定位为通用大模型的LLM,具有7B参数量,支持多语言。其核心技术为Transformer变体,并采用moshi库进行优化。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。模型开源,适用于多种硬件平台,与vLLM等推理框架兼容。主要应用场景包括多语言问答、代码生成等。
Lightricks/LTX-2是一款基于DiT架构的多模态音频-视频基础模型,专注于生成同步的视频和音频。该模型具有灵活的下载量和点赞数,支持多种语言,并采用diffusers库。LTX-2在图像到视频、文本到视频等多个领域具有广泛应用,其开源协议和丰富的模型版本提供了灵活的部署选项。在性能上,LTX-2在多模态任务中表现出色,尤其在视频生成方面具有显著优势。
kyutai/pocket-tts是一款专注于文本到语音转换的模型,定位为特定领域微调模型。其核心技术基于pocket-tts库,采用Transformer架构,具有较短的上下文长度和相对较少的参数量。性能方面,目前缺乏权威基准测试结果,但模型在HuggingFace Hub上获得了187个点赞,显示出一定的社区认可。主要应用场景为需要文本到语音转换的场合,如语音助手、教育辅助等。模型开源,适用于多种硬件平台,推理效率较高。
STEP3-VL-10B是一款轻量级开源基础模型,定位为通用大模型,具有10B参数量。其核心技术包括统一的多模态预训练和强化学习,具备视觉感知、复杂推理和人类中心对齐能力。在MMLU、GPQA等基准测试中表现出色,性能优于同规模模型。适用于多模态任务,具有开源Apache-2.0协议,适合在多种硬件和推理框架上使用。
LiquidAI/LFM2.5-1.2B-Thinking是一款针对边缘设备部署的推理优化版本的大语言模型。该模型基于LFM2架构,具有1.2B的参数量,支持多种语言。它在性能上与更大的模型相媲美,同时具有快速边缘推理能力。该模型在推理效率、内存占用和兼容性方面表现出色,适用于需要高性能和低延迟的边缘设备。
DeepSeek-OCR-2是一款专注于图像文本转换的多模态模型,定位为特定领域微调模型。其核心技术基于transformers库,采用自定义代码进行优化,支持多语言处理。模型在OCR任务上表现出色,但缺乏权威基准测试结果。开源协议为Apache-2.0,对硬件要求较高,推理效率需进一步优化。
🔥 unsloth/GLM-4.7-Flash-GGUF 是一款基于 GLM-4.7-Flash 的 MoE 模型,定位为通用大模型。该模型具有 30B 参数,支持多语言(英、中、阿拉伯语)。其核心技术包括 MoE 架构和 UnSloth Dynamic 2.0 技术,在 GLM-4.7-Flash 的基础上进行了优化。在性能上,该模型在多个基准测试中表现出色,具有优秀的代码生成、数学推理和多语言能力。开源协议为 MIT,适用于需要高性能和跨语言支持的场景。
Kimi K2.5是一款开源的多模态大语言模型,定位为通用大模型。它基于约150万亿混合视觉和文本标记的持续预训练,具备视觉和语言理解以及先进的代理能力。模型在视觉知识、跨模态推理和基于视觉输入的代理工具使用方面表现出色。其核心能力包括视觉到代码的生成和代理群体执行复杂任务。在性能上,Kimi K2.5在权威基准测试中表现良好,具有开源协议、硬件需求适中、推理效率较高的特点,适用于多模态任务和复杂任务处理。
VibeVoice-ASR是一款专注于语音识别的领域大模型,具备处理长达60分钟音频的能力,支持结构化转录,包括说话人、时间和内容信息。该模型采用Transformer架构,支持自定义热词,具有丰富的转录功能。在性能上,VibeVoice-ASR在权威基准测试中表现出色,具有高准确率和语义连贯性。模型适用于需要长音频转录和特定领域内容识别的场景,如会议记录、讲座转录等。其开源协议和硬件需求适中,推理效率较高。
Tongyi-MAI/Z-Image是一款专注于图像生成的LLM,定位为多模态模型。其核心技术为单流扩散Transformer,支持全Classifier-Free Guidance,具有强大的视觉语言处理能力。性能上,模型在图像生成任务中表现出色,但缺乏权威基准测试结果。主要应用场景为创意生成和艺术创作。开源协议为Apache-2.0,硬件需求较高,推理效率需进一步优化。
FlashLabs/Chroma-4B是一款多模态模型,定位为通用大模型。其核心技术为Transformer变体,支持任何到任何的转换,具有丰富的功能标签。该模型在Hugging Face Hub上表现活跃,下载量和点赞数均较高。性能方面,具体基准测试结果未提及,但其在多模态任务上具有优势。适用场景广泛,兼容性强,适合对多模态处理有需求的用户。
Qwen3-TTS是一款多语言TTS模型,定位为通用大模型。它具备强大的语音表征能力和低延迟的流式生成能力,采用自研的Qwen3-TTS-Tokenizer-12Hz进行高效声学压缩和语义建模。模型在语音合成方面表现出色,支持多种语言和方言,并具备智能文本理解和语音控制功能。性能方面,模型在权威基准测试中表现良好,具有高效的开源协议和推理效率,适用于实时交互场景。
这篇论文提出了Youtu-VL,一个基于统一视觉-语言监督的框架,旨在解决当前视觉-语言模型在保留细粒度视觉信息方面的不足。Youtu-VL通过将视觉信息直接集成到预测流中,实现了对视觉细节和语言内容的统一自回归监督,从而在多模态任务和视觉中心任务上取得了有竞争力的性能。
这篇论文提出了CooperBench,一个用于评估AI在协作编程任务中的能力的基准。通过模拟真实开源代码库中的协作任务,论文发现AI代理在协作时成功率显著低于单独完成任务,揭示了沟通、承诺和期望管理等关键问题,并呼吁从追求个体能力转向发展社交智能。
这篇论文提出了SimpleSeg,一种简单而有效的将多模态大型语言模型(MLLMs)赋予像素级感知能力的方法。该方法将分割任务重新定义为简单的序列生成问题,模型直接预测一系列点(文本坐标)来界定物体边界。通过两阶段的SFtoRL训练流程,模型能够精确匹配真实边界。实验表明,标准MLLM架构本身就具有强大的低级感知能力,无需特殊架构即可实现。SimpleSeg在分割基准测试中表现出色,性能可与复杂方法相媲美,甚至超越。
这篇论文提出了DeFM,一个基于深度图像的自监督基础模型,用于机器人应用。DeFM通过在60M深度图像数据集上训练,学习几何和语义表示,并具有跨环境、任务和传感器的泛化能力。它引入了新的输入归一化策略以保持度量感知,并将模型蒸馏为适合资源受限的机器人系统。DeFM在基于深度的分类、分割、导航、运动和操作基准测试中实现了最先进的性能。
这篇论文提出了HyperAlign,一种用于扩散模型测试时对齐的新框架。它通过训练一个超网络来动态生成低秩适应权重,从而有效地调整扩散模型的生成操作,以实现更好的语义一致性和视觉吸引力。
这篇论文提出了一种名为EvolVE的框架,用于基于LLM的Verilog生成和优化。该框架通过分析多种进化策略,发现MCTS在提高功能正确性方面表现优异,而IGR在优化方面更胜一筹。此外,通过结构化测试平台生成(STG)加速进化过程,并引入IC-RTL作为复杂优化基准,EvolVE在VerilogEval和RTLLM上取得了显著性能提升。
这篇论文提出了一种名为Keel的Post-LayerNorm Transformer模型,通过使用Highway-style连接来避免深度网络中的梯度消失问题,从而实现稳定且高效的深度学习。该方法在超过1000层的深度上训练稳健,并显著提高了模型的复杂性和可扩展性。
这篇论文探讨了在大型语言模型(LLM)的发展中,评估基准的饱和问题。作者通过改进Omni-MATH-2数据集,减少了数据集和评估方法中的不准确性和噪声,并发现专家标注在评估模型性能中的重要性。
这篇论文研究了在ACL会议论文中出现的虚构引用(HalluCitation)现象,通过分析2024年和2025年ACL、NAACL和EMNLP会议的300篇论文,揭示了虚构引用的普遍性和对会议可信度的影响,并提出了一种检测虚构引用的方法。
这篇论文提出了FABLE,一个基于森林的适应性双路径LLM增强检索框架,用于多文档推理。FABLE通过结合LLM在知识组织和检索中的集成,构建了多粒度语义结构的LLM增强分层森林索引,并采用双路径策略进行细粒度证据获取,实现了自适应效率的权衡。
这篇论文提出了TriPlay-RL,一个基于三角色自我博弈的强化学习框架,用于大型语言模型(LLM)的安全对齐。该框架通过迭代和协同改进,实现了攻击者、防御者和评估者之间的协作,以减少有害内容的生成,同时保持输出多样性和安全性。
这篇论文提出了一种名为World Craft的框架,通过用户文本描述创建可执行的AI城镇环境。该框架包含两个主要模块:World Scaffold和World Guild,用于构建交互式游戏场景和逐步分析用户意图。通过构建高质量的错误纠正数据集,提高了布局生成的稳定性和可控性,实验表明该框架在场景构建和叙事意图传达方面优于现有技术。
这篇论文提出了一种名为LingBot-VLA的实用视觉-语言-动作基础模型,通过使用来自9种流行双臂机器人配置的约20,000小时真实世界数据,该模型在三个机器人平台上完成了100个任务,每个任务130个训练阶段,显著优于竞争对手,展示了其强大的性能和广泛的泛化能力。此外,论文还提供了一个高效的代码库,实现了每秒261个样本的吞吐量,比现有的VLA导向代码库快1.5至2.8倍。
这篇论文介绍了AdaReasoner,一种多模态模型,它通过学习工具使用作为通用推理技能,而不是特定工具的行为,来提高视觉推理能力。AdaReasoner通过可扩展的数据整理流程、基于强化学习的工具选择和排序算法以及自适应学习机制,使模型能够从任务上下文和中间结果中推断工具效用,从而协调多个工具并推广到未见过的工具。
这篇论文提出了AgentDoG,一个用于AI代理安全和安全的诊断性护栏框架。该框架通过一个三维分类法来识别代理风险,并引入了一个新的细粒度代理安全基准(ATBench),以提供对代理轨迹的细粒度和上下文监控,从而诊断不安全行为和看似安全但不可理喻的行为的根本原因。
这篇论文提出了一种名为GPCR-Filter的深度学习框架,用于高效且精确地发现G蛋白偶联受体(GPCR)调节剂。该框架通过整合ESM-3蛋白质语言模型和图神经网络,实现了对GPCR序列和配体结构的精确表示,并通过注意力机制融合受体-配体功能关系,显著提高了GPCR调节剂的发现效率。
这篇论文提出了一种名为Selective Steering的技术,旨在通过选择性地引导大型语言模型(LLM)的特定层,以保持激活分布的完整性并提高对抗攻击的成功率,同时避免分布偏移和生成崩溃。
这篇论文研究了通过多模态世界模型实现类似人类的推理。它提出了一种视觉优越性假设,即对于某些任务,特别是那些基于物理世界的任务,视觉生成更自然地作为世界模型,而纯语言世界模型则因表示限制或知识不足而遇到瓶颈。论文通过理论分析和实验验证了这一假设,并展示了多模态世界模型在提升人工智能推理能力方面的潜力。
这篇论文提出了AVMeme Exam,一个多模态、多语言、多文化的基准测试,用于评估大型语言模型(LLMs)在理解语境和文化知识及思考方面的能力。该基准测试包含超过一千个标志性的网络音频-视频片段,并配以独特的问答来评估模型从表面内容到语境、情感、使用和世界知识的理解水平。
这篇论文针对大型语言模型(LLM)后训练阶段的数据并行训练中的不平衡负载问题,提出了On-Demand Communication(ODC)方法。ODC通过将参数服务器(PS)集成到完全分片数据并行(FSDP)中,通过直接点对点通信替换集体all-gather和reduce-scatter操作,从而减少同步障碍,提高设备利用率和训练吞吐量。
RexRerankers 是一种先进的重排序器,旨在提高产品发现和人工智能助手的效率。它通过估计电子商务产品与查询的相关性来工作,并使用 Amazebay 数据集进行训练。此外,还发布了 ERESS 评估套件,用于全面评估产品发现重排序器的性能。
NVIDIA近日宣布推出NVIDIA Earth-2系列三个新的开源模型,旨在简化构建整个天气预报栈的能力,包括数据同化、预测、临近预报、降尺度等任务。这些模型包括用于千米级短时强对流天气预报的Earth-2 Nowcasting、用于15天全球预报的Earth-2 Medium Range以及用于生成初始条件的Earth-2 Global Data Assimilation。NVIDIA Earth-2提供了一套加速工具和模型,使开发者能够整合通常分散的天气和气候AI能力。
LightOn AI 发布了 LightOnOCR-2-1B,这是一个10亿参数的第二代端到端视觉-语言 OCR 模型,旨在将文档页面转换为高质量文本,同时提供轻量级布局信息。该模型在性能和速度上均优于同类产品,并支持Hugging Face Transformers生态系统,便于社区使用。
Hugging Face发布了针对机器学习生命周期的存储基础设施,旨在解决传统云存储在处理机器学习模型、数据集和日志时的局限性。该基础设施通过Xet技术实现数据去重,提高迭代速度;支持数据流式传输,无需本地下载;提供供应链安全和治理功能,包括自动扫描、细粒度访问控制和数据驻留;同时,它还提供协作和文档功能,如模型卡片和社区功能,使机器学习团队能够更高效地协作。
Interpreto 是一个新推出的开源库,旨在为自然语言处理(NLP)模型提供实用、模块化且统一的可解释性解决方案。它支持基于归因和基于概念的解释方法,适用于分类和生成模型,并能够与 Hugging Face Transformer 模型无缝集成。Interpreto 的发布为用户和开发者提供了一种新的工具,用于理解和评估 NLP 模型的预测过程。
Novita AI 发布了针对 GLM4-MOE 模型的生产级优化方案,通过共享专家融合、Qknorm 融合和异步传输等技术,显著提升了模型推理效率,实现了高达 65% 的 TTFT 减少和 22% 的 TPOT 提升,为生产环境中的高性能推理提供了实践蓝图。
NVIDIA发布了一种名为Nemotron Speech ASR的新实时语音识别模型,该模型通过缓存感知流式处理技术,实现了更高的效率和更低的延迟,为实时语音代理提供了新的基准。
Hugging Face的研究人员逆向工程了AI初创公司Magic的技术,发现其核心在于将哈希字符串或函数名视为单一token,从而实现了高效的键值查找和长上下文匹配。基于这一发现,研究者开发了MALM模型,并成功复现了Magic的演示,如计算器和密码强度计等应用场景。
本文通过比较mDeBERTa、GPT-OSS-20B(LoRA)和GPT-OSS-20B(Base)三种模型在多语言客户支持消息分类任务上的表现,展示了基于BERT的模型在速度和准确性上的优势,同时指出GPT-OSS-20B(LoRA)在精确匹配方面的优势。实验表明,选择合适的模型取决于具体的应用场景和需求,并强调了高效模型架构、智能量化和参数高效微调在构建定制ML解决方案中的重要性。
本文探讨了大型语言模型(LLMs)如何存储和检索关于实体的事实知识。研究人员发现,LLMs 在其 MLP 层中维护一个隐藏的实体词汇表,这些实体以语义嵌入的形式编码,从而实现事实知识的检索。他们开发了一种方法来定位存储实体知识的特定权重,并展示了如何通过激活或抑制这些权重来影响模型的行为。
本文介绍了如何从头开始构建一个简单的检索增强生成(RAG)系统,该系统结合了信息检索和文本生成,以增强语言模型的表现。文章详细解释了RAG系统的关键组件,包括检索模型和语言模型,并提供了使用Python和ollama实现RAG系统的示例代码。
本文介绍了如何使用EvalScope构建定制化的模型评估指标,以更好地反映模型在不同场景下的实际业务价值。文章强调了现有公共评估指标的局限性,并详细说明了构建评估指标的过程,包括定义Schema、采样数据和统一评估等步骤,同时通过实例展示了如何构建企业RAG助手指标,并强调了案例分析和可视化在理解模型表现中的重要性。
Zilliz团队发布了名为'zilliz/semantic-highlight-bilingual-v1'的语义高亮模型,该模型旨在降低RAG(Retrieval-Augmented Generation)中的Token成本,同时提供中英双语支持。该模型基于轻量级的Encoder-Only架构,并使用BGE-M3 Reranker v2作为基础模型,通过LLM标注和推理过程训练,实现了在多个数据集上的最先进性能。
本文介绍了如何利用开源模型DeepSeek-OCR和FineVision进行大规模OCR任务,并展示了如何在不同的GPU基础设施上运行批量OCR推理。文章详细介绍了如何设置DeepSeek-OCR进行高吞吐量文档处理,设计模块化管道提取文档内容,并在多个云平台上部署批量推理作业。此外,还讨论了优化批量大小和并发性以提高GPU利用率,以及成本估算和扩展处理能力的方法。
本文提供了一篇面向初学者的 PyTorch 教程,通过构建和训练一个简单的线性回归模型,逐步介绍了 PyTorch 的核心概念和操作。文章详细解释了自动微分、动态计算图、模型类等概念,并展示了如何使用 NumPy 和 PyTorch 实现线性回归,同时介绍了数据生成、损失函数、优化器、模型训练和评估等关键内容。
Maziyar Panahi 发布了名为 OpenMed 的项目,该项目提供了超过 380 个免费的医疗命名实体识别 (NER) 模型,旨在打破医疗人工智能领域高昂的付费壁垒。这些模型不仅性能卓越,而且完全免费,并遵循 Apache 2.0 许可协议,使得研究人员、医生和开发者能够轻松访问和使用。OpenMed 模型在多个医疗数据集上进行了优化和测试,涵盖了从药物和化学物质到疾病和基因等广泛的医疗术语,为医疗和临床文本分析提供了强大的工具。
本文介绍了名为“规范保持双投影消融”的技术,这是一种用于从语言模型中移除拒绝行为的新方法。该方法通过识别和干预激活空间中的“拒绝方向”来工作,并改进了传统的消融方法。它通过从另一层的输出中移除拒绝,避免干扰目标层中无害的方向,同时通过仅从目标权重中减去方向分量,同时保留权重范数,提高了推理性能。
NVIDIA与AI Singapore合作发布了Nemotron-Personas-Singapore,这是一个为新加坡开发者设计的合成数据集,旨在支持构建主权AI系统。该数据集提供本地化、文化相关和隐私保护的数据,用于训练和评估AI模型。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
OpenMed项目在六个月内取得了显著进展,发布了380多个开源医疗AI模型,并推出了Python工具包和交互式终端用户界面。该项目旨在打破医疗AI领域的付费壁垒,为研究人员、临床医生和开发者提供高性能、可定制的工具。
OpenAI 发布了一篇关于如何确保 AI 代理点击链接时数据安全的文章,强调了 URL 基于的数据泄露攻击的风险,并介绍了其通过构建安全措施来降低风险的方法,包括使用独立的网络索引来检查 URL 是否已公开存在,以保护用户数据。
OpenAI发布了欧盟经济蓝图2.0,旨在加速欧洲的AI应用,包括培训中小企业的人工智能技能、支持青少年安全和福祉的研究,以及提出政策建议以缩小AI能力差距。该蓝图还强调了与Booking.com的合作,以及与各国政府的合作,以支持教育、健康、技能培训等领域。
这篇论文提出了RvB框架,通过红蓝对抗游戏自动化AI系统的加固过程,解决了AI安全中动态、迭代对抗适应加固的框架缺失问题。该框架通过红队暴露漏洞,驱动蓝队学习有效的解决方案,而不需要参数更新。实验结果表明,这种方法能够使蓝队学习基本的防御原则,实现稳健的修复,且效果优于基线。
这篇论文提出了一种名为ComAgent的多LLM基于的智能代理AI框架,用于解决6G网络中的复杂跨层优化问题。ComAgent通过感知-规划-行动-反思的闭环循环,协调专门的代理进行文献搜索、编码和评分,以自动生成求解器和可重复的模拟。实验表明,ComAgent在复杂的波束成形优化中达到专家级性能,并在多种无线任务中优于单体LLM。
这篇论文提出了一种基于掩码的并行推理范式(PIP),用于在多模态大型语言模型(MLLMs)中提取关键信息。该方法通过使用掩码标记作为占位符,允许在单个前向传递中同时生成所有目标值,从而显著提高了信息提取的效率,实现了5-36倍的推理速度提升,同时保持了高精度。
这篇论文提出了一种结合随机化和学习算法的KV缓存策略,旨在解决在多LLM服务场景下平衡查询负载和缓存命中率的问题。通过构建一个统一的数学模型,论文分析了现有方法的局限性,并提出了一个集成了随机化KV缓存和基于学习的查询路由算法,显著提高了缓存命中率、降低了延迟和TTFT,并增加了吞吐量。
这篇论文提出了MATA,一个多智能体层次自动机系统,用于视觉推理。MATA通过一个可训练的超智能体来选择层次有限状态自动机的顶级转换,每个智能体对应一个状态,并运行一个基于规则的子自动机进行微控制。通过共享内存,所有智能体可以透明地执行历史记录。实验表明,MATA在多个视觉推理基准测试中取得了最先进的成果。
这篇论文提出了一种基于VLM的在线测试时后门防御范式,通过外部语义审计来提高深度学习模型的鲁棒性。它引入了PRISM框架,利用混合VLM教师和自适应路由器来克服领域差距,并通过在17个数据集和11种攻击类型上的广泛评估,实现了模型无关的安全性能提升。
这篇论文提出了MetaVLA,一个统一的、骨干无关的后训练框架,用于高效的实体自适应。MetaVLA通过上下文感知元共训练,将多样化的目标任务整合到一个微调阶段,同时利用结构多样化的辅助任务来提高领域泛化能力。它通过集成轻量级的元学习机制,实现了从不同上下文快速适应,同时最小化架构变化或推理开销。实验结果表明,MetaVLA在LIBERO基准测试中优于OpenVLA,减少了训练步骤和GPU时间,展示了可扩展的低资源后训练的可行性。
这篇论文提出了XProvence,一个针对检索增强生成(RAG)的零成本多语言上下文剪枝模型。该模型在16种语言上训练,并通过有效的跨语言迁移支持100多种语言。它通过将高效的零成本上下文剪枝直接集成到重排序模型中,扩展了Provence框架,在四个多语言问答基准测试中展示了XProvence在剪枝RAG上下文时几乎不降低性能,并优于强基线。
这篇论文提出了KeepLoRA,一种用于持续学习的简单而有效的方法,通过限制LoRA参数更新在残差子空间中,以防止干扰先前学习的能力,从而平衡预训练知识保留、知识序列保持和新知识获取的塑料性。