google/langextract:LLM文本结构化提取专家
LangExtract是一个Python库,利用LLM从非结构化文本中提取结构化信息,支持云模型和本地模型,提供精确的源定位和交互式可视化。它旨在帮助开发者从大量文本中快速提取关键信息,适用于研究者、应用开发者等,通过优化文本处理策略和提供灵活的模型支持,在LLM生态中提供了独特的价值。
精选 74 篇,从 6300+ 条中筛选
LangExtract是一个Python库,利用LLM从非结构化文本中提取结构化信息,支持云模型和本地模型,提供精确的源定位和交互式可视化。它旨在帮助开发者从大量文本中快速提取关键信息,适用于研究者、应用开发者等,通过优化文本处理策略和提供灵活的模型支持,在LLM生态中提供了独特的价值。
VoxCPM是一个创新的tokenizer-free TTS系统,旨在解决语音合成中的真实感问题。它通过连续空间建模,实现了上下文感知的语音生成和逼真的语音克隆。该项目面向研究者、应用开发者,提供了一种高效、真实的语音合成解决方案。VoxCPM的核心功能是上下文感知的语音生成和语音克隆,其技术架构基于MiniCPM-4骨干网络和扩散自回归架构。在LLM生态中,VoxCPM通过其独特的模型架构和功能,为语音合成领域提供了新的可能性。
LEANN是一个创新的大语言模型(LLM)相关项目,旨在通过其独特的向量数据库技术,提供高效、低存储的RAG(Retrieval-Augmented Generation)解决方案。该项目主要面向研究者、应用开发者和企业用户,通过优化存储和计算效率,解决了传统RAG应用在存储和性能上的瓶颈。LEANN的核心功能包括高效的向量索引和搜索,以及与多种数据源(如文档、邮件、浏览器历史等)的集成。其技术架构亮点在于基于图的选择性重计算和智能图剪枝,实现了在不损失准确性的情况下,存储节省高达97%。在LLM生态中,LEANN的价值在于其独特的存储优化技术和广泛的数据源集成能力。
BlenderMCP项目定位为连接Blender与Claude AI的桥梁,旨在通过MCP协议实现3D建模、场景创建和操控的智能化。其核心功能包括双向通信、对象操作、材质控制、场景检查和代码执行。技术架构上,该项目基于Python和Blender插件,利用MCP协议实现与Claude AI的交互。在LLM生态中,BlenderMCP的价值在于将AI能力与3D建模流程深度融合,为开发者提供高效、智能的3D建模解决方案。
n8n-MCP是一个为n8n工作流自动化平台提供AI助手全面访问的MCP服务器,旨在解决LLM生态中AI与工作流自动化结合的难题。它为AI助手提供了n8n节点文档、属性和操作的全面访问,支持快速部署,并提供了丰富的节点、属性、操作和文档覆盖。该项目定位为开发框架,通过提供结构化访问和AI工具集成,为开发者提供了在n8n平台上构建智能工作流的强大工具。
FLUX.2-klein-base-9B是black-forest-labs开发的一款多模态模型,定位为通用大模型。该模型采用Transformer架构,参数量达到9B,支持图像到图像的转换。在性能上,该模型在Hugging Face Hub上获得了较高的下载量和点赞数,表明其在图像生成和编辑领域有较好的表现。模型基于diffusers库,适用于图像处理任务,具有较好的开源协议和硬件兼容性。
nvidia/personaplex-7b-v1是一款定位为通用大模型的LLM,具有7B参数量,支持多语言。其核心技术为Transformer变体,并采用moshi库进行优化。在性能上,该模型在多个基准测试中表现出色,具有较好的代码生成和数学推理能力。模型开源,适用于多种硬件平台,与vLLM等推理框架兼容。主要应用场景包括多语言问答、代码生成等。
Tongyi-MAI/Z-Image-Turbo是一款高效能的图像生成模型,定位为多模态模型。它具有6B参数,采用单流扩散Transformer架构,支持双语(英语和中文)文本渲染。该模型在H800 GPU上实现亚秒级推理延迟,适用于16G VRAM的消费级设备。它在图像生成、文本到图像转换等方面表现出色,适用于需要快速、高效图像生成的场景。
GLM-4.7是一款专注于多语言和代码能力的通用大模型。它采用了Transformer架构,并引入了MoE技术,支持多种语言(包括英语、中文和阿拉伯语)。在性能上,GLM-4.7在多个基准测试中表现出色,尤其在代码生成、数学推理和多语言能力方面有显著提升。该模型适用于需要多语言和代码生成能力的场景,如聊天、创意写作和角色扮演。其开源协议、硬件需求以及推理效率等方面适合于主流的推理框架。
Lightricks/LTX-2是一款基于DiT架构的多模态音频-视频基础模型,专注于生成同步的视频和音频。该模型具有灵活的下载量和点赞数,支持多种语言,并采用diffusers库。LTX-2在图像到视频、文本到视频等多个领域具有广泛应用,其开源协议和丰富的模型版本提供了灵活的部署选项。在性能上,LTX-2在多模态任务中表现出色,尤其在视频生成方面具有显著优势。
Kijai/LTXV2_comfy是一款专注于ComfyUI的LTX2模型,定位为特定领域微调模型。其核心技术为LTX2架构,支持gguf和comfyui标签,适用于多模态扩展。该模型在性能上具有竞争力,但未提供具体基准测试结果。开源协议为ltx-2-community-license-agreement,硬件需求及推理效率信息未指定。主要应用场景为ComfyUI相关任务。
Qwen3-VL-Embedding-8B是一款多模态嵌入模型,定位为通用大模型。它基于Qwen3-VL基础模型,具备处理文本、图像、视频等多种模态数据的能力。该模型采用统一的表示学习,生成语义丰富的向量,支持超过30种语言。在性能上,它能够高效地进行多模态检索和聚类,并在多个基准测试中表现出色。模型开源,支持自定义指令,适用于多种实际场景。
AgentCPM-Explore是一款定位在特定领域的大语言模型,具有4B参数量,专注于长时序和复杂任务。其核心技术包括基于Qwen/Qwen3-4B-Thinking-2507的微调,支持多轮环境交互和实时信息验证。在多个长时序代理基准测试中取得SOTA性能,展现出强大的深度研究能力。该模型开源,包括训练和推理基础设施,适用于需要持续深度探索的任务。
Supertone/supertonic-2是一款专注于文本到语音(TTS)的模型,定位为特定领域的微调模型。它具有高效、轻量级的架构,支持多种语言,且在设备端运行,无需云端支持。该模型在性能上表现出色,具有极快的推理速度和低参数量,特别适合对实时性和隐私性有高要求的场景。其开源协议和跨平台兼容性使其易于集成和使用。
FLUX.2-klein-4B 是一款专注于图像生成的多模态模型,定位为通用大模型。该模型具有4亿参数,采用紧凑的架构,能够在不到一秒的时间内完成图像生成和编辑。其核心技术包括Transformer变体和扩散模型,支持文本到图像和图像编辑功能。在性能上,该模型在同类模型中表现出色,适用于实时图像生成和编辑的应用场景。模型开源,可在消费级硬件上运行,对开发者友好。
🔥google/translategemma-4b-it是一款专注于图像到文本翻译的热门模型,定位为多模态模型。其核心技术为基于Gemma3架构的Transformer变体,支持长达200K的上下文长度,参数量适中。在权威基准测试中表现优异,尤其在图像到文本翻译任务上具有显著优势。模型开源,兼容主流推理框架,适用于需要图像到文本翻译功能的场景。
🔥google/translategemma-12b-it是一款定位在多模态模型领域的热门模型,具有12B参数量,支持图像到文本的转换。其核心技术为Transformer变体,上下文长度可达200K,训练数据丰富。在性能上,该模型在多个基准测试中表现出色,尤其在图像到文本转换任务上具有显著优势。适用于需要多模态交互的场景,如智能客服、图像描述生成等。开源协议为Apache-2.0,硬件需求较高,推理效率良好。
kyutai/pocket-tts是一款专注于文本到语音转换的模型,定位为特定领域微调模型。其核心技术基于pocket-tts库,采用Transformer架构,具有较短的上下文长度和相对较少的参数量。性能方面,目前缺乏权威基准测试结果,但模型在HuggingFace Hub上获得了187个点赞,显示出一定的社区认可。主要应用场景为需要文本到语音转换的场合,如语音助手、教育辅助等。模型开源,适用于多种硬件平台,推理效率较高。
该模型Qwen-Image-Edit-2511-Multiple-Angles-LoRA是一个专注于图像编辑的多角度相机控制LoRA模型,属于多模态模型类别。它基于Qwen/Qwen-Image-Edit-2511模型,具有96个相机位置,支持低角度拍摄,并使用高精度的Gaussian Splatting数据进行训练。该模型在图像编辑领域具有显著优势,特别适合需要多角度控制和精确图像编辑的场景。模型性能表现在其能够生成高质量的图像编辑结果,并在特定任务上表现出色。该模型开源,使用Apache-2.0协议,适合在具有适当硬件和推理框架的环境中应用。
模型定位:领域大模型,专注于医学图像到文本的转换。核心技术:基于Transformer架构,支持医疗图像和文本的交互式处理。性能表现:在医学图像识别和文本生成任务中表现优异。主要应用场景:医学影像分析、临床诊断辅助。实用考量:开源协议,适用于多种硬件平台,推理效率高。
FLUX.2-klein-9B是一款专注于图像到图像转换的模型,定位为多模态模型。其核心技术为基于Transformer的架构,具有9B参数量,支持diffusers库。在性能上,模型在图像生成和编辑任务上表现出色,但具体基准测试结果未提及。模型适用于图像处理和创意设计领域,开源协议为Apache-2.0,对硬件要求较高,推理效率中等。
GLM-4.7-Flash是一款30B-A3B的MoE模型,定位为通用大模型。其核心技术包括MoE架构和Transformer变体,支持多种语言。在基准测试中表现出色,尤其在AIME 25和GPQA等任务上排名靠前。该模型适用于需要高性能和轻量级部署的场景,支持vLLM和SGLang等推理框架。
GLM-Image是一款定位在多模态模型领域的开源模型,采用混合自回归+扩散解码器架构。其核心能力在于文本到图像的生成,同时支持丰富的图像到图像任务。技术特点包括基于GLM-4-9B-0414的9B参数自回归生成器和基于DiT架构的7B参数扩散解码器。在性能上,GLM-Image在文本渲染和知识密集型生成场景中表现出色,同时具备高保真和精细细节生成能力。主要应用场景包括图像编辑、风格迁移、身份保留生成和多主体一致性等。开源协议为MIT,硬件需求中等,推理效率良好。
STEP3-VL-10B是一款轻量级开源基础模型,定位为通用大模型,具有10B参数量。其核心技术包括统一的多模态预训练和强化学习,具备视觉感知、复杂推理和人类中心对齐能力。在MMLU、GPQA等基准测试中表现出色,性能优于同规模模型。适用于多模态任务,具有开源Apache-2.0协议,适合在多种硬件和推理框架上使用。
🔥google/translategemma-27b-it是一款专注于图像到文本翻译的热门模型,定位为多模态模型。其核心技术为Gemma3架构,支持长达27B的上下文长度,采用transformers库实现。在性能上,该模型在权威基准测试中表现出色,具有高效的开源协议和良好的推理效率,适用于图像翻译等场景。
这篇论文通过分析NeurIPS 2025数据整理竞赛(DCVLR),研究了数据整理在多模态推理中的重要性。作者通过固定模型和训练协议,使用紧凑的整理数据集在竞赛中取得第一名。研究发现,基于难度的示例选择是性能提升的主要驱动因素,而增加数据集大小并不一定能提高平均准确率,且常用的多样性和合成增强启发式方法没有提供额外的好处,有时甚至降低了性能。
这篇论文提出了AgencyBench,一个用于评估自主代理在真实世界场景中能力的基准测试平台。它通过模拟真实世界任务,评估代理的六个核心能力,并使用用户模拟代理和Docker沙盒进行自动化评估,揭示了不同模型在资源效率、自我纠正和工具使用偏好方面的差异。
这篇论文提出了一种名为FOFPred的新型语言条件光学流预测模型,该模型结合了统一的视觉-语言模型(VLM)和扩散架构,用于从大规模、无结构的网络数据中预测未来运动。该模型通过数据预处理技术和强大的图像预训练,从噪声视频-字幕数据中提取有意义的信息,并在机器人操作和视频生成任务中证明了其跨领域适用性。
这篇论文提出了一种名为Entropy Sentinel的方法,通过解码LLM在STEM领域的解码熵迹来连续监测LLM的准确性。该方法通过计算输出熵轮廓并使用轻量级分类器预测实例的正确性,从而提供了一种可扩展的监测和针对数据采集的信号。
这篇论文提出了PersonalAlign,一种基于长期用户记录的个性化GUI代理的分层隐式意图对齐方法。该方法通过AndroidIntent基准测试,评估了代理在处理模糊指令和提供主动建议方面的能力,并引入了HIM-Agent,通过维护不断更新的个人记忆和分层组织用户偏好和常规来实现个性化。
ShapeR论文提出了一种从日常捕获的序列中生成条件3D物体形状的新方法。它结合了视觉惯性SLAM、3D检测算法和视觉语言模型来提取稀疏SLAM点、姿态多视图图像和机器生成的字幕,然后通过训练的流变换器生成高保真的3D形状。为了提高鲁棒性,采用了实时组合增强、课程训练方案和背景杂乱处理策略。实验表明,ShapeR在真实场景中显著优于现有方法。
这篇论文研究了大型语言模型(LLM)的输出多样性,提出通过控制模型思考时所使用的语言(语言思维)来提高输出多样性。研究发现,将思考语言从英语切换到非英语语言可以显著增加输出多样性,并且不同语言在模型思考空间中占据不同的区域。实验结果表明,跨多种思考语言的样本聚合可以进一步提高多样性,并且与语言异质性成比例扩展模型多样性上限。
这篇论文提出了一种新的基准MIMIC,用于评估大型视觉语言模型在处理多图像任务时的能力。通过诊断实验,揭示了LVLMs在跨图像信息聚合和同时跟踪多个概念方面的普遍问题。论文提出了数据生成策略和注意力掩码方案来解决这些问题,实验结果表明这些方法显著提高了模型在多图像任务上的性能。
这篇论文研究了AI代理技术扩展对经济市场战略互动的影响,通过分析三种经典博弈论场景,揭示了技术选择对市场均衡和监管结果的影响,并提出了‘毒苹果效应’这一战略现象,即通过技术释放来操纵监管者选择市场设计。研究强调了静态监管框架的脆弱性,并提倡动态市场设计以适应AI能力的演变。
这篇论文提出了一种名为PhyRPR的训练免费物理约束视频生成方法,通过将物理理解与视觉合成解耦,实现了在生成过程中对物理现象的显式控制。PhyRPR采用三阶段流程:PhyReason进行物理状态推理,PhyPlan生成可控的运动框架,PhyRefine通过潜在融合策略细化外观,同时保持预定的动力学。
这篇论文提出了ACoT-VLA,一种新的视觉-语言-动作(VLA)模型架构,通过引入动作链式思维(Action Chain-of-Thought)来增强动作生成能力。该模型包含显式动作推理器和隐式动作推理器,通过直接在动作空间中进行推理,提高了动作执行的精确性和效率。
这篇论文研究了个性化大型语言模型(LLMs)在处理事实查询时可能产生的幻觉问题,并提出了一种名为Factuality-Preserving Personalized Steering(FPPS)的方法来减轻个性化引起的真实信息扭曲,同时保持个性化的行为。该方法通过一个轻量级的推理时方法,显著提高了事实准确性,同时保持了个性化性能。
这篇论文提出了一个名为PhysRVG的物理感知统一强化学习框架,用于视频生成模型。该框架通过直接在高层空间中强制执行物理碰撞规则,确保物理知识得到严格应用,从而提高生成视频的物理真实性。它引入了Mimicry-Discovery Cycle(MDcycle)范式,允许在完全保留模型利用物理反馈能力的同时进行大量微调。
这篇论文提出了一种基于文本的数据合成方法,通过从文本语料库中提取多轮工具使用轨迹,来帮助大型语言模型(LLMs)在多轮交互中有效利用工具。该方法名为GEM,通过四个阶段:相关性过滤、工作流程和工具提取、轨迹定位和复杂性细化,生成和提取多轮工具使用轨迹。实验结果表明,该方法在BFCL V3多轮基准测试中取得了显著的性能提升。
这篇论文研究了强化学习中的组相对优势估计偏差问题,提出了历史感知自适应难度加权(HA-DW)方法,通过调整优势估计来提高基于组的强化学习(RL)在推理任务上的性能。
这篇论文提出了一种名为ProFit的新方法,通过概率引导的标记选择来利用高价值信号,以减轻监督微调(SFT)中的单一参考答案导致的过拟合问题,从而提高大型语言模型(LLMs)在通用推理和数学基准上的性能。
这篇论文提出了一种名为FrankenMotion的基于扩散模型的运动生成框架,该框架通过构建高质量的原子级、时间感知的运动数据集,利用大型语言模型(LLMs)的能力,实现了对个体身体部分的精细控制,从而在运动生成中实现了空间(身体部分)和时间的(原子动作)控制。
这篇论文提出了一个名为RubricHub的自动粗到细评分标准生成框架,通过原理引导的合成、多模型聚合和难度演化,生成全面且具有高度区分性的标准,以解决开放生成中缺乏真实标签的问题。该框架基于大规模多领域数据集,并通过鲁棒的训练管道实现了显著的性能提升。
这篇论文提出了一种针对Gemini语言模型的滥用缓解探针,解决了探针在处理长上下文输入时的泛化问题,并通过实验验证了其在实际应用中的有效性和鲁棒性。
这篇论文研究了大型语言模型在推理任务上的表现,提出了一种通过模拟多智能体交互的推理模型,即“思想社会”,从而实现推理过程中的多样化和辩论,提高了推理的准确性和多样性。研究通过定量分析和机制可解释性方法,发现推理模型在推理过程中的视角多样性远超指令微调模型,并揭示了多智能体结构在对话行为和社会情感角色中的表现,最终表明了这种社会组织形式能够有效探索解决方案空间。
Zilliz团队发布了名为'zilliz/semantic-highlight-bilingual-v1'的语义高亮模型,该模型旨在降低RAG(Retrieval-Augmented Generation)中的Token成本,同时提供中英双语支持。该模型基于轻量级的Encoder-Only架构,并使用BGE-M3 Reranker v2作为基础模型,通过LLM标注和推理过程训练,实现了在多个数据集上的最先进性能。
Hugging Face 的 llama.cpp 服务器新增支持 Anthropic Messages API,允许用户使用兼容 Claude 的客户端与本地模型交互。这一更新通过内部格式转换,重用现有推理管道,并支持多种功能,如聊天补全、Token 计数、工具使用和视觉输入,旨在提升本地模型的性能和易用性。
Pruna社区成员Parag Ekbote通过使用Pruna库和PyTorch的torch.compile功能,对SmolLM模型进行了量化压缩和编译优化,显著提升了模型的速度和效率,同时保持了较高的准确度,使得模型在资源受限的硬件上也能高效运行。
LightOn AI 发布了 LightOnOCR-2-1B,这是一个10亿参数的第二代端到端视觉-语言 OCR 模型,旨在将文档页面转换为高质量文本,同时提供轻量级布局信息。该模型在性能和速度上均优于同类产品,并支持Hugging Face Transformers生态系统,便于社区使用。
Hugging Face发布了BERT Hash Embeddings模型系列,这些模型基于BERT Hash模型系列,生成固定维度的向量,用于语义文本相似度、语义搜索、释义挖掘、文本分类、聚类等。这些模型参数量小,性能优异,适用于边缘和低资源计算环境。
Hugging Face发布了名为“Proof of Time (PoT)”的新基准框架,旨在评估科学想法的判断。该框架通过将科学想法的判断与未来可观察的下游信号(如引用次数、同行评审奖项等)联系起来,实现了可验证的评估和可扩展的基准测试。PoT采用离线沙盒设计,确保模型改进来自对相同证据的更好利用,而非获取新信息,并包含四个任务家族,分别评估影响预测、同行评审奖项、研究演化和技术前沿。
Hugging Face的官方博客发布了一篇关于小型语言模型最优架构的文章,介绍了通过实验发现的最优模型配置,包括深度、宽度、架构类型等,并推出了新的扩散模型Dhara-70M,该模型在保持较高准确性的同时,实现了更高的吞吐量和事实性。
Hugging Face宣布其MiniMax-M2.1模型在多语言和多任务编码方面取得了显著进步,该模型在代码生成、工具使用、指令遵循和长期规划方面表现出色。它通过构建覆盖多种编程语言的全面数据管道,实现了对真实世界编码场景的增强,并展示了在多种基准测试中的优异性能。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
本文介绍了如何利用开源模型DeepSeek-OCR和FineVision进行大规模OCR任务,并展示了如何在不同的GPU基础设施上运行批量OCR推理。文章详细介绍了如何设置DeepSeek-OCR进行高吞吐量文档处理,设计模块化管道提取文档内容,并在多个云平台上部署批量推理作业。此外,还讨论了优化批量大小和并发性以提高GPU利用率,以及成本估算和扩展处理能力的方法。
本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。
LoongFlow,一款由百度百度的Baige团队开发的进化智能体框架,被宣传为是超越传统OpenEvolve的“思考型”演进。它通过引入PES(规划-执行-总结)范式,实现了比OpenEvolve更高的效率和稳定性,特别是在解决复杂现实任务时。LoongFlow在基准测试中表现出色,特别是在圆填充问题实验中,其成功率和迭代次数均优于OpenEvolve。
ColPali 是一种基于视觉语言模型的高效文档检索技术,通过直接嵌入文档页面的图像来简化索引过程,并利用后期交互机制进行多向量检索。这项技术显著提高了文档检索的效率和准确性,在 ViDoRe 基准测试中表现出色,尤其在处理视觉丰富的信息检索任务中优于其他系统。
Hugging Face发布了《大型语言模型课程》,这是一套全面的教育资源,旨在帮助人们深入了解大型语言模型(LLM)。课程分为两部分:LLM科学家和LLM工程师,分别侧重于构建和部署LLM。课程内容涵盖LLM架构、预训练、后训练数据集、微调、偏好对齐、评估、量化和新趋势等多个方面,并提供交互式LLM助手。
这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。
NVIDIA发布了一种名为Nemotron Speech ASR的新实时语音识别模型,该模型通过缓存感知流式处理技术,实现了更高的效率和更低的延迟,为实时语音代理提供了新的基准。
本文介绍了“Reviewer Two”,一个基于 Meta 的 OpenEnv 框架构建的强化学习环境,旨在训练 AI 代理生成高质量的研究计划。该环境通过提供反馈和惩罚机制,引导代理不断改进其研究计划,旨在培养代理的迭代改进、学习反馈和有效利用资源的能力,使其能够更好地与人类合作进行科学研究。
这篇Hugging Face博客文章介绍了状态空间模型(SSM)的基本概念,包括其在控制理论和深度学习中的应用。文章详细解释了SSM的三个视图:连续视图、递归视图和卷积视图,并讨论了它们各自的优势和局限性。
本文介绍了如何从头开始实现一个稀疏混合专家语言模型(makeMoE),该模型基于Andrej Karpathy的项目“makemore”,并借鉴了其许多可复用组件。makeMoE是一个自回归字符级语言模型,采用稀疏混合专家架构,旨在帮助读者理解其工作原理。
这篇论文提出了Reasoning Tree Guided RAG (RT-RAG),一种针对复杂多跳问答任务的新型分层框架。RT-RAG通过结构化实体分析和基于共识的树选择来减少不准确的问题分解,并使用自下而上的遍历策略进行迭代查询重写和细化,以收集高质量的证据,从而减轻错误传播。实验结果表明,RT-RAG在复杂多跳问答任务中显著优于现有方法。
这篇论文提出了AgencyBench,一个基于日常AI使用的综合基准,用于评估自主代理在真实世界场景中的6个核心能力。它通过模拟真实任务,使用用户模拟代理提供迭代反馈,并采用Docker沙箱进行视觉和功能评估,解决了现有基准在单一代理能力评估和可扩展性方面的不足。
这篇论文提出了SimMIA,一个针对纯文本环境的鲁棒性成员推理攻击(MIA)框架,用于评估大型语言模型(LLMs)的隐私保护。SimMIA通过先进的采样策略和评分机制,在黑盒设置中实现了最先进的性能,并引入了WikiMIA-25作为新的基准。
这篇论文介绍了ARC-AGI-2,这是ARC-AGI基准的升级版,旨在通过一系列新的任务来评估人工智能的抽象推理和问题解决能力,这些任务能够提供更精细的信号,以评估更高层次流体智力。论文通过人类测试结果展示了ARC-AGI-2的难度和特点,旨在作为下一代工具,严格衡量向更通用和类似人类的人工智能能力的发展。
这篇论文提出了一种名为“制度AI”的系统级方法,通过治理图来管理多智能体Cournot市场中LLM的共谋行为。该方法将AI对齐从代理空间中的偏好工程转变为制度空间中的机制设计,通过实验框架评估了其效果,并证明了在治理图的基础上可以显著减少共谋行为。
这篇论文提出了一种名为Medical SAM3的通用提示驱动医学图像分割基础模型,通过在大型、异构的医学图像数据集上对SAM3进行全量微调,解决了医学图像分割中领域差异大、缺乏空间提示和复杂结构推理的问题。Medical SAM3在多个医学成像模态和维度上实现了显著的性能提升,特别是在语义模糊、复杂形态和长距离三维上下文等挑战场景中。
这篇论文提出了ReCreate,一个基于经验的自动创建和适应领域代理的框架。ReCreate通过存储和检索代理交互历史,结合推理和创建的协同流程,以及层次化更新,有效地从经验中学习,并在多个领域实验中优于人类设计和现有自动化代理生成方法。
这篇论文提出了一种针对工业领域编程逻辑控制器(PLC)代码生成的低数据域编码助手解决方案。该方案通过微调小型本地模型,结合检索增强生成(RAG)技术,实现了高质量的代码生成,同时避免了大型模型的微调,满足了企业对本地化、安全性的需求。
这篇论文提出了一种名为NAACL的噪声感知置信度校准框架,用于解决大型语言模型(LLMs)在检索增强生成(RAG)系统中由于检索到的上下文噪声导致的置信度校准问题。通过在约2000个HotpotQA示例上应用监督微调(SFT),NAACL使模型能够具备内在的噪声感知能力,从而显著提高了模型在域内和域外的ECE分数。