upstage/Solar-Open-100B:MoE架构,高效推理大模型
Solar Open 100B 是 Upstage AI 推出的旗舰级 102B 参数大语言模型,采用 MoE 架构,具有强大的推理、指令遵循和代理能力。该模型在 19.7 万亿个 token 上进行预训练,上下文长度可达 128k。其差异化优势在于 MoE 架构带来的高效推理和知识深度,适用于需要高性能推理和定制化的场景。
精选 10 篇,从 14200+ 条中筛选
Solar Open 100B 是 Upstage AI 推出的旗舰级 102B 参数大语言模型,采用 MoE 架构,具有强大的推理、指令遵循和代理能力。该模型在 19.7 万亿个 token 上进行预训练,上下文长度可达 128k。其差异化优势在于 MoE 架构带来的高效推理和知识深度,适用于需要高性能推理和定制化的场景。
GLM-4.7是一款专注于多语言和代码能力的通用大模型。它采用了Transformer架构,并引入了MoE技术,支持多种语言(包括英语、中文和阿拉伯语)。在性能上,GLM-4.7在多个基准测试中表现出色,尤其在代码生成、数学推理和多语言能力方面有显著提升。该模型适用于需要多语言和代码生成能力的场景,如聊天、创意写作和角色扮演。其开源协议、硬件需求以及推理效率等方面适合于主流的推理框架。
OpenAI 正在通过强化学习训练的自动化红队系统,持续强化其 ChatGPT Atlas 代理模式,以抵御提示注入攻击。该系统通过对抗性训练和系统级防护措施,主动发现并修补漏洞,旨在使攻击变得越来越困难和代价高昂。
OpenAI 宣布全球已有超过一百万客户使用其技术,这些客户包括 PayPal、Virgin Atlantic、BBVA、Cisco、Moderna 和 Canva 等,他们通过 AI 技术实现了工作流程的转型,提高了工作效率,并开发了新的产品。OpenAI 的平台已成为历史上增长最快的商业平台之一。
这篇论文提出了一种名为Graph-O1的框架,该框架结合了蒙特卡洛树搜索和强化学习,用于文本属性图推理。Graph-O1允许大型语言模型(LLMs)逐步、交互式地进行推理,通过选择性探索和检索最有信息量的子图组件,从而提高推理的准确性和可靠性。
这篇论文提出了一种名为Q-KVComm的新协议,用于高效的多智能体通信。该协议通过自适应的KV缓存压缩,实现了LLM智能体之间压缩后的键值缓存表示的直接传输,从而减少了带宽和计算资源的消耗。它结合了自适应层量化、混合信息提取和异构模型校准等创新技术,显著提高了语义保真度和压缩比。
这篇论文提出了一种基于概率的用户数字孪生框架,通过变分自编码器(VAE)学习用户的潜在随机状态,从而生成观察到的行为数据。该方法不仅提供了可扩展的后验估计,还保持了完全的概率解释,并通过统计验证的语义将潜在维度与可观察的行为模式联系起来,从而提供可解释、具有不确定性的用户表示。
这篇论文比较了轻量级语言模型在个人身份信息(PII)掩码任务中的性能,并探讨了它们在真实对话文本中的应用。研究通过在AI4Privacy基准数据集上微调T5-small和Mistral-Instruct-v0.3模型,比较了编码器-解码器和仅解码器架构。实验结果表明,轻量级模型在PII掩码任务中实现了与前沿大型语言模型相当的性能,同时解决了大型模型的数据处理和计算成本问题。
这篇论文提出了AraMix,一个去重后的阿拉伯语预训练语料库,通过重新利用和整理现有的预训练数据集,结合七个公开的阿拉伯语网络数据集,并应用针对阿拉伯文本设计的质量过滤和交叉数据集去重技术,显著减少了重复内容,为资源较少的语言提供了更有效的数据利用方法。
这篇论文提出了EchoTrail-GUI框架,通过模拟人类经验学习,为GUI代理提供动态可访问的记忆,以解决GUI代理在处理任务时缺乏系统性学习机制的问题。该框架通过三个阶段:经验探索、记忆注入和GUI任务推理,显著提高了代理的任务成功率和操作效率。
这篇论文研究了在医学影像中,CLIP模型在处理否定短语时的局限性,并通过在CheXagent模型上应用微调方法来提高其检索准确性。研究通过分析模型内部行为,如token attribution、t-SNE投影和attention-head ablation,来理解模型如何处理否定临床语言。
这篇论文提出了一种名为DACE的框架,用于解决铁路文档中的缩写歧义问题。DACE通过动态提示、检索增强生成、上下文选择和集成聚合等技术,增强了大型语言模型的能力,并在TextMine'26竞赛中取得了F1分数0.9069的优异成绩。