什么使一个AI系统成为智能体?
简单来说,智能体是一种旨在感知其环境并采取行动以实现特定目标的系统。它是标准大型语言模型(LLM)的进化,增强了规划、使用工具和与周围环境互动的能力。将智能体AI想象成一个在工作中学习的智能助手。它遵循一个简单的五步循环来完成工作(见图1):
- 获取任务: 您给它一个目标,例如“安排我的日程”。
- 扫描场景:它收集所有必要的信息——阅读电子邮件、检查日历和访问联系人——以了解正在发生的事情。
- 深思熟虑: 智能体通过考虑实现目标的最优方法来制定行动计划。
- 执行操作: 通过发送邀请、安排会议和更新您的日历来执行计划。
- 学习和改进: 智能体会观察成功的成果并据此进行适应。例如,如果一次会议被重新安排,系统会从这一事件中学习以提高其未来的表现。

图1:智能体AI作为智能助手,通过经验不断学习。它通过一个简单的五步循环来完成任务。
智能体正以惊人的速度变得越来越受欢迎。根据最近的研究,大多数大型IT公司都在积极使用这些智能体,其中五分之一的公司在过去一年内刚刚开始使用。金融市场也开始关注这一趋势。到2024年底,AI智能体初创公司已筹集超过20亿美元,市场规模达到52亿美元。预计到2034年,其价值将爆炸式增长至近2万亿美元。简而言之,所有迹象都表明AI智能体将在我们未来的经济中扮演着巨大的角色。
仅仅两年时间,人工智能范式发生了巨大转变,从简单的自动化发展到复杂的自主系统(见图2)。最初,工作流程依赖于基本的提示和触发器,通过LLM处理数据。随着检索增强生成(RAG)的出现,模型通过基于事实信息来增强可靠性。随后,我们见证了能够使用各种工具的独立AI智能体的开发。如今,我们正步入智能体AI的时代,一支由专业智能体组成的团队协同工作以实现复杂目标,这标志着人工智能协作能力的重大飞跃。

图2:从LLM(大型语言模型)过渡到RAG(检索增强生成),然后到Agentic RAG,最终到Agentic AI。
本书旨在探讨如何设计专门智能体协同合作以实现复杂目标的设计模式,您将在每一章中看到一种协作和交互的范例。
在进行之前,让我们来考察一些跨越智能体复杂度范围的示例(见图3)。
第零级:核心推理引擎
虽然大型语言模型(LLM)本身不是一个智能体,但它可以作为一个基本智能体系统的推理核心。在“0级”配置中,LLM在没有工具、记忆或环境交互的情况下运行,仅根据其预训练知识进行响应。其优势在于利用其庞大的训练数据来解释既定概念。这种强大的内部推理的代价是完全缺乏对当前事件的意识。例如,如果相关信息不在其预训练知识范围内,它将无法说出2025年奥斯卡“最佳影片”的获奖者。
第一级:连接式问题解决者
在这个层面,LLM通过连接和利用外部工具,成为了一个功能性的智能体。其解决问题的能力不再局限于预训练的知识。相反,它可以执行一系列动作,从互联网(通过搜索)或数据库(通过检索增强生成,或RAG)等来源收集和处理信息。有关详细信息,请参阅第14章。
例如,为了寻找新的电视剧,智能体认识到需要获取最新信息,使用搜索工具来查找,然后综合结果。关键的是,它还可以使用专门的工具以提高准确性,例如调用金融API来获取AAPL的实时股价。这种能够在多个步骤中与外部世界交互的能力是1级智能体的核心功能。
第二级:战略问题解决者
在这个层面,智能体的能力显著提升,包括战略规划、主动协助和自我提升,其中提示工程和上下文工程是其核心的赋能技能。
首先,智能体超越了单一工具的使用,通过战略性的问题解决方法来处理复杂的多部分问题。在执行一系列动作的过程中,它积极地进行上下文工程:这是一个战略性的过程,包括选择、打包和管理每一步中最相关的信息。例如,为了在两个地点之间找到一个咖啡店,它首先使用一个地图工具。然后,它对这一输出进行工程化处理,精心制作一个简短、集中的上下文——可能只是一份街道名称列表——以供本地搜索工具使用,从而避免认知过载,确保第二步既高效又准确。为了从人工智能中获得最大精度,必须给它一个简短、集中且有力的上下文。上下文工程是一门学科,通过战略性地选择、打包和管理所有可用来源中最关键的信息来实现这一点。它有效地管理模型的有限注意力,以防止过载并确保在任何给定任务上都能实现高质量、高效的性能。有关详细信息,请参阅附录A。
此级别可实现主动和持续的运行。一个与您的电子邮件链接的旅行助手通过从冗长的航班确认电子邮件中构建上下文来展示这一点;它仅选择关键细节(航班号、日期、地点)以打包,用于后续对您的日历和天气API的工具调用。
在软件工程等专门领域,智能体通过应用这一学科来管理整个工作流程。当分配到一个错误报告时,它会阅读报告并访问代码库,然后战略性地将这些大量信息工程化为一个强大而集中的上下文,使其能够高效地编写、测试和提交正确的代码补丁。
最后,智能体通过优化自身的上下文工程流程来实现自我提升。当它寻求关于如何改进提示的反馈时,它正在学习如何更好地筛选其初始输入。这使得它能够自动改进为未来任务打包信息的方式,创建一个强大的、自动化的反馈循环,随着时间的推移提高其准确性和效率。有关详细信息,请参阅第17章。

图3:展示智能体复杂度范围的各个实例。
三级:协作多智能体系统的崛起
在第三级水平,我们看到了人工智能发展中的一个显著范式转变,即从追求一个全能的超级智能体的目标转向了复杂、协作的多智能体系统的崛起。本质上,这种方法认识到,复杂的挑战往往不是由一个通才解决,而是由一个协作的专业团队共同完成。这种模式直接反映了人类组织的结构,其中不同的部门被分配特定的角色,并协作以应对多方面的目标。这样一个系统的集体力量在于这种劳动分工以及通过协调努力产生的协同效应。有关详细信息,请参阅第7章。
为了将这一概念付诸实践,让我们考虑一下推出新产品这一复杂的工作流程。而不是让一个智能体尝试处理所有方面,一个“项目经理”智能体可以充当中央协调员。这位经理将通过将任务委派给其他专业智能体来协调整个过程:一个“市场研究”智能体来收集消费者数据,一个“产品设计”智能体来开发概念,以及一个“营销”智能体来制作促销材料。他们成功的关键在于他们之间无缝的沟通和信息共享,确保所有个体的努力都能朝着共同的目标一致前进。
尽管这种基于智能体、团队协作的自动化愿景正在被开发,但承认当前面临的挑战至关重要。此类多智能体系统的有效性目前受到它们所使用的LLM推理限制。此外,它们真正相互学习并作为一个整体共同进步的能力仍处于初级阶段。克服这些技术瓶颈是关键性的下一步,这样做将解锁这一级别的深远承诺:从始至终自动化整个业务工作流程的能力。
智能体未来:五大假设
人工智能智能体开发正以前所未有的速度在软件自动化、科学研究、客户服务等领域取得进展。虽然当前系统令人印象深刻,但这只是开始。下一波创新可能将聚焦于使智能体更加可靠、协作,并深入融入我们的生活中。以下是五个关于未来发展的主要假设(见图4)。
假设1:通用智能体的出现
第一个假设是,AI智能体将从狭窄的专家型进化为真正的通用型,能够以高可靠性管理复杂、模糊和长期目标。例如,你可以给一个智能体一个简单的提示,比如:“为我计划下个季度在里斯本的30人公司外事 retreat。”然后,智能体将管理整个项目数周,从预算审批和航班谈判到场地选择,以及根据员工反馈制定详细的行程,同时提供定期更新。实现这一级别的自主性将需要AI推理、记忆和近乎完美的可靠性方面的根本性突破。另一种,但并非相互排斥的方法是小型语言模型(SLM)的兴起。这个“乐高式”概念涉及从小型、专业的专家智能体构建系统,而不是扩展单一的大型模型。这种方法承诺的系统将更便宜、更易于调试和部署。最终,大型通用模型的发展和较小专业模型的组合都是可行的路径,甚至它们还可以相互补充。
假设2:深度个性化与主动目标发现
第二个假设认为智能体将变成深度个性化且积极主动的伙伴。我们正在见证一类新智能体的出现:积极主动的伙伴。通过学习您的独特模式和目标,这些系统开始从仅仅执行命令转变为预见您的需求。当AI系统不再仅仅是对聊天或指令做出反应时,它们就作为智能体运作。它们代表用户发起并执行任务,在过程中积极协作。这超越了简单的任务执行,进入了主动发现目标领域。
例如,如果您正在探索可持续能源,智能体可能会识别出您的潜在目标,并通过建议课程或总结研究来主动支持它。尽管这些系统仍在发展中,但它们的趋势是明确的。它们将变得越来越主动,学会在高度确信行动将有所帮助的情况下代表您采取行动。最终,智能体成为您不可或缺的盟友,帮助您发现和实现尚未完全表达出的抱负。

图4:关于智能体未来的五个假设
假设3:具身化与物理世界交互
这一假设预测智能体将摆脱纯粹的数字限制,进入物理世界进行操作。通过将智能体AI与机器人技术相结合,我们将见证“具身智能体”的兴起。你不再只是预约一个维修工,而是可以请你的家庭智能体修理一个漏水的水龙头。智能体会利用其视觉传感器来感知问题,访问一个管道知识库来制定计划,然后精确控制其机器人操作器来完成维修。这将是一个巨大的进步,弥合了数字智能与物理行动之间的鸿沟,并从制造和物流到老年护理和家庭维护等各个方面进行变革。
假设4:智能体驱动的经济
第四个假设是,高度自主的智能体将成为经济活动的积极参与者,创造新的市场和商业模式。我们可能会看到智能体作为独立的经济实体,承担着最大化特定结果的任务,例如利润。一个企业家可以启动一个智能体来运营整个电子商务业务。该智能体将通过分析社交媒体来识别热门产品,生成营销文案和视觉内容,通过与其他自动化系统互动来管理供应链物流,并根据实时需求动态调整价格。这种转变将创造一个全新的、超级高效的“智能体经济”,其运行速度和规模是人类无法直接管理的。
假设5:以目标驱动、形态变化的智能体系统
这个假设提出了智能系统的出现,这些系统不是通过显式编程,而是通过声明目标来运作。用户只需说明期望的结果,系统就会自主地想出如何实现它。这标志着向具有真正自我改进能力的元形态多智能体系统的基本转变,这种能力既体现在个体层面,也体现在集体层面。
该系统将是一个动态实体,而非单一智能体。它将具备分析自身性能并修改其多智能体工作团队拓扑结构的能力,根据需要创建、复制或移除智能体,以形成应对当前任务的最高效团队。这种进化发生在多个层面:
- 架构修改:在最深层,单个智能体可以重写自己的源代码,并重新架构其内部结构以实现更高的效率,正如原始假设中所述。
- 指令修改:在更高层次上,系统持续进行自动提示工程和上下文工程。它精炼每个智能体收到的指令和信息,确保它们在无需人工干预的情况下,以最佳指导进行操作。
例如,一位企业家只需声明意图:“开设一家成功的电商业务,销售手工咖啡。”系统无需进一步编程,便会立即行动。它可能会最初启动一个“市场研究”智能体和一个“品牌推广”智能体。根据初步调查结果,它可能会决定移除品牌推广智能体,并启动三个新的专业智能体:一个“标志设计”智能体、一个“网店平台”智能体和一个“供应链”智能体。系统会不断调整它们的内部提示,以获得更好的性能。如果网店智能体成为瓶颈,系统可能会将其复制成三个并行智能体,分别处理网站的不同部分,从而在飞行中重新架构其结构,以最佳实现声明的目标。
结论
本质上,人工智能智能体代表了从传统模型到重大飞跃,它作为一个能够感知、规划和行动以实现特定目标的自主系统。这一技术的演变正从单一的工具使用智能体向复杂的多智能体协作系统发展,这些系统能够应对多方面的目标。未来的假设预测了通用型、个性化甚至具有物理形态的智能体的出现,它们将成为经济活动中的积极参与者。这一持续的发展预示着向自我改进、以目标为导向的系统的大范式转变,这些系统将自动化整个工作流程,并从根本上重新定义我们与技术的关联。