google/langextract:LLM文本结构化提取专家
LangExtract是一个Python库,利用LLM从非结构化文本中提取结构化信息,支持云模型和本地模型,提供精确的源定位和交互式可视化。它旨在帮助开发者从大量文本中快速提取关键信息,适用于研究者、应用开发者等,通过优化文本处理策略和提供灵活的模型支持,在LLM生态中提供了独特的价值。
精选 63 篇,从 6300+ 条中筛选
LangExtract是一个Python库,利用LLM从非结构化文本中提取结构化信息,支持云模型和本地模型,提供精确的源定位和交互式可视化。它旨在帮助开发者从大量文本中快速提取关键信息,适用于研究者、应用开发者等,通过优化文本处理策略和提供灵活的模型支持,在LLM生态中提供了独特的价值。
VoxCPM是一个创新的tokenizer-free TTS系统,旨在解决语音合成中的真实感问题。它通过连续空间建模,实现了上下文感知的语音生成和逼真的语音克隆。该项目面向研究者、应用开发者,提供了一种高效、真实的语音合成解决方案。VoxCPM的核心功能是上下文感知的语音生成和语音克隆,其技术架构基于MiniCPM-4骨干网络和扩散自回归架构。在LLM生态中,VoxCPM通过其独特的模型架构和功能,为语音合成领域提供了新的可能性。
LEANN是一个创新的大语言模型(LLM)相关项目,旨在通过其独特的向量数据库技术,提供高效、低存储的RAG(Retrieval-Augmented Generation)解决方案。该项目主要面向研究者、应用开发者和企业用户,通过优化存储和计算效率,解决了传统RAG应用在存储和性能上的瓶颈。LEANN的核心功能包括高效的向量索引和搜索,以及与多种数据源(如文档、邮件、浏览器历史等)的集成。其技术架构亮点在于基于图的选择性重计算和智能图剪枝,实现了在不损失准确性的情况下,存储节省高达97%。在LLM生态中,LEANN的价值在于其独特的存储优化技术和广泛的数据源集成能力。
Tongyi-MAI/Z-Image-Turbo是一款高效能的图像生成模型,定位为多模态模型。它具有6B参数,采用单流扩散Transformer架构,支持双语(英语和中文)文本渲染。该模型在H800 GPU上实现亚秒级推理延迟,适用于16G VRAM的消费级设备。它在图像生成、文本到图像转换等方面表现出色,适用于需要快速、高效图像生成的场景。
GLM-4.7是一款专注于多语言和代码能力的通用大模型。它采用了Transformer架构,并引入了MoE技术,支持多种语言(包括英语、中文和阿拉伯语)。在性能上,GLM-4.7在多个基准测试中表现出色,尤其在代码生成、数学推理和多语言能力方面有显著提升。该模型适用于需要多语言和代码生成能力的场景,如聊天、创意写作和角色扮演。其开源协议、硬件需求以及推理效率等方面适合于主流的推理框架。
Lightricks/LTX-2是一款基于DiT架构的多模态音频-视频基础模型,专注于生成同步的视频和音频。该模型具有灵活的下载量和点赞数,支持多种语言,并采用diffusers库。LTX-2在图像到视频、文本到视频等多个领域具有广泛应用,其开源协议和丰富的模型版本提供了灵活的部署选项。在性能上,LTX-2在多模态任务中表现出色,尤其在视频生成方面具有显著优势。
LiquidAI/LFM2.5-1.2B-Instruct是一款针对边缘设备部署的混合模型,定位为通用大模型。其核心能力在于高效能的推理和轻量级的设计,特别适合移动和边缘设备。该模型在1.2B参数量下实现了高性能,具有239 tok/s的解码速度,并支持多种硬件平台。在性能表现上,LFM2.5-1.2B-Instruct在权威基准测试中表现出色,尤其在边缘设备推理方面具有显著优势。主要应用场景包括移动设备上的自然语言处理任务,如对话系统、文本生成等。其开源协议、轻量级设计和高效的推理能力使其成为边缘计算和移动应用的首选。
Kijai/LTXV2_comfy是一款专注于ComfyUI的LTX2模型,定位为特定领域微调模型。其核心技术为LTX2架构,支持gguf和comfyui标签,适用于多模态扩展。该模型在性能上具有竞争力,但未提供具体基准测试结果。开源协议为ltx-2-community-license-agreement,硬件需求及推理效率信息未指定。主要应用场景为ComfyUI相关任务。
Qwen3-VL-Embedding-8B是一款多模态嵌入模型,定位为通用大模型。它基于Qwen3-VL基础模型,具备处理文本、图像、视频等多种模态数据的能力。该模型采用统一的表示学习,生成语义丰富的向量,支持超过30种语言。在性能上,它能够高效地进行多模态检索和聚类,并在多个基准测试中表现出色。模型开源,支持自定义指令,适用于多种实际场景。
nvidia/nemotron-speech-streaming-en-0.6b 是一款专注于语音识别的领域大模型,具有cache-aware ASR和streaming-asr的特点。该模型基于FastConformer架构,支持多种语音数据集,包括LibriSpeech、AMI等。在性能上,模型在LibriSpeech测试集上取得了2.31%的WER,表现出色。模型适用于需要高效率语音识别的场景,如智能客服、语音助手等。其开源协议为nvidia-open-model-license,适合在多种硬件平台上部署。
AgentCPM-Explore是一款定位在特定领域的大语言模型,具有4B参数量,专注于长时序和复杂任务。其核心技术包括基于Qwen/Qwen3-4B-Thinking-2507的微调,支持多轮环境交互和实时信息验证。在多个长时序代理基准测试中取得SOTA性能,展现出强大的深度研究能力。该模型开源,包括训练和推理基础设施,适用于需要持续深度探索的任务。
GLM-Image是一款定位在多模态模型领域的开源模型,采用混合自回归+扩散解码器架构。其核心能力在于文本到图像的生成,同时支持丰富的图像到图像任务。技术特点包括基于GLM-4-9B-0414的9B参数自回归生成器和基于DiT架构的7B参数扩散解码器。在性能上,GLM-Image在文本渲染和知识密集型生成场景中表现出色,同时具备高保真和精细细节生成能力。主要应用场景包括图像编辑、风格迁移、身份保留生成和多主体一致性等。开源协议为MIT,硬件需求中等,推理效率良好。
Supertone/supertonic-2是一款专注于文本到语音(TTS)的模型,定位为特定领域的微调模型。它具有高效、轻量级的架构,支持多种语言,且在设备端运行,无需云端支持。该模型在性能上表现出色,具有极快的推理速度和低参数量,特别适合对实时性和隐私性有高要求的场景。其开源协议和跨平台兼容性使其易于集成和使用。
Qwen3-VL-Embedding-2B是一款多模态嵌入模型,定位为通用大模型。它基于Qwen3-VL基础模型,具备处理文本、图像、截图和视频等多样化输入的能力。模型采用统一的表示学习,生成语义丰富的向量,支持超过30种语言。在性能上,该模型在多模态检索和跨模态理解任务中表现出色,具有高效相似计算和检索能力。其主要应用场景包括图像-文本检索、视频-文本匹配、视觉问答和内容聚类等。
FLUX.2-klein-4B 是一款专注于图像生成的多模态模型,定位为通用大模型。该模型具有4亿参数,采用紧凑的架构,能够在不到一秒的时间内完成图像生成和编辑。其核心技术包括Transformer变体和扩散模型,支持文本到图像和图像编辑功能。在性能上,该模型在同类模型中表现出色,适用于实时图像生成和编辑的应用场景。模型开源,可在消费级硬件上运行,对开发者友好。
🔥google/translategemma-4b-it是一款专注于图像到文本翻译的热门模型,定位为多模态模型。其核心技术为基于Gemma3架构的Transformer变体,支持长达200K的上下文长度,参数量适中。在权威基准测试中表现优异,尤其在图像到文本翻译任务上具有显著优势。模型开源,兼容主流推理框架,适用于需要图像到文本翻译功能的场景。
🔥google/translategemma-12b-it是一款定位在多模态模型领域的热门模型,具有12B参数量,支持图像到文本的转换。其核心技术为Transformer变体,上下文长度可达200K,训练数据丰富。在性能上,该模型在多个基准测试中表现出色,尤其在图像到文本转换任务上具有显著优势。适用于需要多模态交互的场景,如智能客服、图像描述生成等。开源协议为Apache-2.0,硬件需求较高,推理效率良好。
🔥google/translategemma-27b-it是一款专注于图像到文本翻译的热门模型,定位为多模态模型。其核心技术为Gemma3架构,支持长达27B的上下文长度,采用transformers库实现。在性能上,该模型在权威基准测试中表现出色,具有高效的开源协议和良好的推理效率,适用于图像翻译等场景。
kyutai/pocket-tts是一款专注于文本到语音转换的模型,定位为特定领域微调模型。其核心技术基于pocket-tts库,采用Transformer架构,具有较短的上下文长度和相对较少的参数量。性能方面,目前缺乏权威基准测试结果,但模型在HuggingFace Hub上获得了187个点赞,显示出一定的社区认可。主要应用场景为需要文本到语音转换的场合,如语音助手、教育辅助等。模型开源,适用于多种硬件平台,推理效率较高。
该模型Qwen-Image-Edit-2511-Multiple-Angles-LoRA是一个专注于图像编辑的多角度相机控制LoRA模型,属于多模态模型类别。它基于Qwen/Qwen-Image-Edit-2511模型,具有96个相机位置,支持低角度拍摄,并使用高精度的Gaussian Splatting数据进行训练。该模型在图像编辑领域具有显著优势,特别适合需要多角度控制和精确图像编辑的场景。模型性能表现在其能够生成高质量的图像编辑结果,并在特定任务上表现出色。该模型开源,使用Apache-2.0协议,适合在具有适当硬件和推理框架的环境中应用。
模型定位:领域大模型,专注于医学图像到文本的转换。核心技术:基于Transformer架构,支持医疗图像和文本的交互式处理。性能表现:在医学图像识别和文本生成任务中表现优异。主要应用场景:医学影像分析、临床诊断辅助。实用考量:开源协议,适用于多种硬件平台,推理效率高。
FLUX.2-klein-9B是一款专注于图像到图像转换的模型,定位为多模态模型。其核心技术为基于Transformer的架构,具有9B参数量,支持diffusers库。在性能上,模型在图像生成和编辑任务上表现出色,但具体基准测试结果未提及。模型适用于图像处理和创意设计领域,开源协议为Apache-2.0,对硬件要求较高,推理效率中等。
STEP3-VL-10B是一款轻量级开源基础模型,定位为通用大模型,具有10B参数量。其核心技术包括统一的多模态预训练和强化学习,具备视觉感知、复杂推理和人类中心对齐能力。在MMLU、GPQA等基准测试中表现出色,性能优于同规模模型。适用于多模态任务,具有开源Apache-2.0协议,适合在多种硬件和推理框架上使用。
这篇论文提出了一种名为M^4olGen的分子生成框架,该框架通过多代理、多阶段的分子生成方法,在精确的多属性约束下生成分子。该方法结合了检索增强和基于强化学习的优化,通过片段级别的编辑和优化,实现了对分子物理化学属性的精确控制。
这篇论文深入分析了大型语言模型(LLMs)中的斜杠注意力模式,即注意力分数集中在Δ-th子对角线上。通过实证和理论分析,论文揭示了斜杠主导头(SDHs)的出现原因,并证明了这些模式在跨标记传递信息中的关键作用。
这篇论文提出了RigMo,一个统一的生成框架,用于生成动画。RigMo能够直接从原始网格序列中联合学习骨骼和运动,无需人工标注的骨骼信息。它通过两个紧凑的潜在空间编码顶点变形,一个用于解码为显式的高斯骨骼和皮肤权重,另一个产生时间变化的SE(3)变换。实验表明,RigMo学习到的骨骼平滑、可解释且符合物理规律,同时比现有的自动骨骼和变形基线实现了更好的重建和类别级泛化。
这篇论文提出了PACEvolve,一个用于长周期进化的框架,旨在解决大型语言模型在进化搜索中的效率问题。它通过引入层次化上下文管理、动量回溯和自适应采样策略来克服上下文污染、模式崩溃和弱协作等挑战,实现了在LLM-SR和KernelBench上的最先进结果。
这篇论文提出了CLINSQL,一个针对临床文本到SQL的基准,要求对异构EHR表、时间窗口和患者相似性群体进行推理,以生成可执行的查询。通过评估多种模型,论文探讨了在临床文本到SQL任务中的性能和挑战,并指出尽管有进展,但性能仍远未达到临床可靠性。
这篇论文提出了V-DPM,一种用于4D视频重建的方法,通过动态点图(DPMs)来表示动态3D内容,包括场景运动。该方法在VGGT的基础上进行改进,使其能够处理动态场景,并在3D和4D重建方面取得了最先进的性能。
这篇论文通过大规模实证研究,分析了AI代理技能框架中的安全漏洞,发现26.1%的技能存在至少一个漏洞,提出了一个基于8,126个漏洞技能的漏洞分类法,并开发了一个多阶段检测框架SkillScan,以提高对AI代理技能安全性的理解。
这篇论文研究了通过高级提示工程技术来增强大型语言模型(LLMs)在情感分析和讽刺检测任务中的性能。研究评估了诸如少样本学习、思维链提示和自我一致性等高级提示技术,并发现这些技术显著提高了情感分析的性能,其中少样本方法在GPT-4o-mini上表现最佳,而思维链提示在gemini-1.5-flash上提高了讽刺检测的准确率。这表明提示策略必须针对模型和任务进行定制。
这篇论文提出了一种名为MBC的模型,通过代码本优化策略压缩记忆库,以实现大型语言模型在持续适应新信息时的知识更新,同时避免灾难性遗忘。该方法通过在线重置机制和键值低秩适应,在保持高保留准确率的同时,将记忆库大小减少到基准线的0.3%。
这篇论文介绍了Alterbute,一种基于扩散模型的方法,用于编辑图像中物体的内在属性,如颜色、纹理、材质和形状,同时保持物体的感知身份和场景上下文。该方法通过使用视觉命名实体(VNEs)和视觉-语言模型来提取标签和属性描述,实现了可扩展的、身份保持的监督,并在身份保持的物体内在属性编辑方面优于现有方法。
这篇论文提出了一种名为VQ-Seg的新方法,用于半监督医学图像分割。该方法通过向量量化(VQ)离散化特征空间,并引入了一种新的可控制量化扰动模块(QPM)来替代dropout,从而实现有效的正则化。此外,论文还设计了一种双分支架构,以减少量化过程中的信息损失,并引入了后VQ特征适配器(PFA)来补充量化过程中丢失的高级语义信息。
这篇论文提出了一种基于视觉指令的图像编辑方法VIBE,通过使用小参数量的Qwen3-VL模型和Sana1.5扩散模型,实现了高效且高质量的图像编辑,特别适用于需要保留输入图像属性的编辑任务。
这篇论文介绍了HeartMuLa,一套开源的音乐基础模型,旨在推动大规模音乐理解和生成。该框架包括音频-文本对齐模型、歌词识别模型、音乐编解码器以及基于LLM的歌曲生成模型,能够合成高质量音乐,并提供精细的音乐属性控制和短小吸引人的音乐生成模式。
这篇论文提出了一种名为ML-Master 2.0的自主代理,它通过将上下文管理重新定义为认知积累过程,引入了分层认知缓存(HCC)架构,以解决超长周期自主性的挑战。该方法通过动态地将瞬时的执行痕迹提炼为稳定的知识和跨任务的智慧,使代理能够将即时执行与长期实验策略解耦,从而克服了静态上下文窗口的扩展限制。
这篇论文提出了一种针对计算机使用代理(CUAs)的系统级安全方案,通过单次规划生成执行图,在观察潜在恶意内容之前提供控制流完整性的保证,同时防止分支引导攻击,从而在保持性能的同时增强安全性。
这篇论文提出了Test-Time Tool Evolution (TTE)方法,旨在解决现有基于LLM的智能体在科学推理中工具库的静态性和不完整性问题。TTE允许智能体在推理过程中合成、验证和进化可执行工具,从而提高了工具的灵活性和效率。
WildRayZer提出了一种自监督的大视角合成框架,用于动态环境中的新颖视角合成。该框架通过分析合成测试来处理动态内容,通过静态渲染器解释刚性结构,并从残差中构建伪运动掩码,从而实现高质量的视角合成。
这篇论文提出了一种名为LSRIF的逻辑结构化强化学习框架,用于提高大型语言模型在遵循指令方面的能力。该框架通过构建包含逻辑结构的训练数据集,并设计相应的奖励机制,来增强模型对指令逻辑的理解,从而在遵循指令和通用推理方面取得显著提升。
这篇论文提出了一种基于视觉-语言推理的都市社会语义分割方法,通过引入SocioReasoner框架,结合卫星图像、数字地图和像素级标签,实现了对城市表面社会语义实体的分割,并通过强化学习优化了非可微过程,展示了优于现有模型的性能和强大的零样本泛化能力。
这篇论文提出了一种名为TAG-MoE的新框架,用于解决统一图像生成和编辑模型在密集扩散变换器架构中的任务干扰问题。该框架通过引入分层任务语义注释方案和预测对齐正则化,将语义意图注入MoE路由,从而有效地缓解了任务干扰,提高了模型的保真度和质量。
Zilliz团队发布了名为'zilliz/semantic-highlight-bilingual-v1'的语义高亮模型,该模型旨在降低RAG(Retrieval-Augmented Generation)中的Token成本,同时提供中英双语支持。该模型基于轻量级的Encoder-Only架构,并使用BGE-M3 Reranker v2作为基础模型,通过LLM标注和推理过程训练,实现了在多个数据集上的最先进性能。
Hugging Face发布了BERT Hash Embeddings模型系列,这些模型基于BERT Hash模型系列,生成固定维度的向量,用于语义文本相似度、语义搜索、释义挖掘、文本分类、聚类等。这些模型参数量小,性能优异,适用于边缘和低资源计算环境。
Pruna社区成员Parag Ekbote通过使用Pruna库和PyTorch的torch.compile功能,对SmolLM模型进行了量化压缩和编译优化,显著提升了模型的速度和效率,同时保持了较高的准确度,使得模型在资源受限的硬件上也能高效运行。
Hugging Face的官方博客发布了一篇关于小型语言模型最优架构的文章,介绍了通过实验发现的最优模型配置,包括深度、宽度、架构类型等,并推出了新的扩散模型Dhara-70M,该模型在保持较高准确性的同时,实现了更高的吞吐量和事实性。
Hugging Face发布了名为“Proof of Time (PoT)”的新基准框架,旨在评估科学想法的判断。该框架通过将科学想法的判断与未来可观察的下游信号(如引用次数、同行评审奖项等)联系起来,实现了可验证的评估和可扩展的基准测试。PoT采用离线沙盒设计,确保模型改进来自对相同证据的更好利用,而非获取新信息,并包含四个任务家族,分别评估影响预测、同行评审奖项、研究演化和技术前沿。
本文介绍了KV缓存技术,这是一种优化Transformer推理效率的方法。通过缓存中间计算结果,模型可以避免重复计算,从而加快文本生成速度,提高效率。
Hugging Face宣布其MiniMax-M2.1模型在多语言和多任务编码方面取得了显著进步,该模型在代码生成、工具使用、指令遵循和长期规划方面表现出色。它通过构建覆盖多种编程语言的全面数据管道,实现了对真实世界编码场景的增强,并展示了在多种基准测试中的优异性能。
这篇公告详细介绍了小型语言模型(SLM)的概念、制作方法、优势、局限性以及在实际应用中的使用。SLM是一种轻量级的语言模型,适用于资源受限的环境,如智能手机和嵌入式系统。它们保留了核心的自然语言处理能力,同时具有低计算需求、低能耗和快速推理等优势。公告还介绍了如何使用Ollama和PocketPal等工具在边缘设备上运行SLM,以及如何通过微调来提高模型性能。
Falcon H1R 7B,由阿布扎比的科技创新研究所(TII)开发,是一款仅具有解码功能的7B参数大型语言模型。它基于Falcon-H1 Base模型,在推理能力上取得了重大进步,参数效率极高,在多个推理密集型基准测试中表现出色。
本文介绍了如何利用开源模型DeepSeek-OCR和FineVision进行大规模OCR任务,并展示了如何在不同的GPU基础设施上运行批量OCR推理。文章详细介绍了如何设置DeepSeek-OCR进行高吞吐量文档处理,设计模块化管道提取文档内容,并在多个云平台上部署批量推理作业。此外,还讨论了优化批量大小和并发性以提高GPU利用率,以及成本估算和扩展处理能力的方法。
NVIDIA发布了一种名为Nemotron Speech ASR的新实时语音识别模型,该模型通过缓存感知流式处理技术,实现了更高的效率和更低的延迟,为实时语音代理提供了新的基准。
LoongFlow,一款由百度百度的Baige团队开发的进化智能体框架,被宣传为是超越传统OpenEvolve的“思考型”演进。它通过引入PES(规划-执行-总结)范式,实现了比OpenEvolve更高的效率和稳定性,特别是在解决复杂现实任务时。LoongFlow在基准测试中表现出色,特别是在圆填充问题实验中,其成功率和迭代次数均优于OpenEvolve。
本文介绍了如何从头开始实现一个稀疏混合专家语言模型(makeMoE),该模型基于Andrej Karpathy的项目“makemore”,并借鉴了其许多可复用组件。makeMoE是一个自回归字符级语言模型,采用稀疏混合专家架构,旨在帮助读者理解其工作原理。
本文介绍了名为“abliteration”的技术,该技术可以取消任何大型语言模型(LLM)的审查机制,使其能够响应所有类型的提示。这项技术通过修改模型权重来阻止模型拒绝请求,从而提高了模型的灵活性和响应能力。
ColPali 是一种基于视觉语言模型的高效文档检索技术,通过直接嵌入文档页面的图像来简化索引过程,并利用后期交互机制进行多向量检索。这项技术显著提高了文档检索的效率和准确性,在 ViDoRe 基准测试中表现出色,尤其在处理视觉丰富的信息检索任务中优于其他系统。
Hugging Face发布了《大型语言模型课程》,这是一套全面的教育资源,旨在帮助人们深入了解大型语言模型(LLM)。课程分为两部分:LLM科学家和LLM工程师,分别侧重于构建和部署LLM。课程内容涵盖LLM架构、预训练、后训练数据集、微调、偏好对齐、评估、量化和新趋势等多个方面,并提供交互式LLM助手。
本文探讨了当前常见的AI模型格式,包括GGUF、PyTorch、Safetensors和ONNX,并分析了每种格式的特点、优缺点以及适用场景。GGUF适用于生产环境和服务模型,PyTorch简单易用但存在安全性和效率问题,Safetensors注重安全性,ONNX提供跨框架互操作性。
本文介绍了从GRPO到DAPO再到GSPO的强化学习技术演进,重点关注了在大型语言模型中如何优化长文本输出和复杂任务的性能。文章详细讨论了每种方法的原理、优势和局限性,并展示了如何通过改进采样、剪枝和梯度计算等细节来提高效率和稳定性。
本文介绍了从Image-to-LoRA到In-Context Edit的图像编辑技术进展,重点介绍了Qwen-Image-Edit-2511模型。该模型通过In-Context Edit技术,利用多图像编辑能力,实现了从示例图像对中理解并应用编辑转换到新图像的功能,为图像编辑领域带来了新的突破。