附录B - 智能体AI交互:从图形用户界面到现实世界环境
人工智能智能体正通过交互数字界面和物理世界来执行越来越复杂的任务。它们在这些多样化的环境中感知、处理和行动的能力正在从根本上改变自动化、人机交互和智能系统。本附录探讨了智能体如何与计算机及其环境交互,突出了进展和项目。
交互:智能体与计算机
人工智能从对话伙伴进化为主动、以任务为导向的智能体,这一进程是由智能体-计算机接口(ACI)所推动的。这些接口使得人工智能能够直接与计算机的图形用户界面(GUI)进行交互,使其能够像人类一样感知和操作图标、按钮等视觉元素。这种新的方法超越了传统自动化中依赖API和系统调用的僵化、开发者依赖的脚本。通过利用软件的视觉“前门”,人工智能现在能够以更灵活、更强大的方式自动化复杂的数字任务,这一过程涉及几个关键阶段:
- 视觉感知: 智能体首先捕获屏幕的视觉表示,本质上是对屏幕进行截图。
- GUI元素识别: 然后,它分析这张图片以区分不同的GUI元素。它必须学会“看到”屏幕不仅仅是一系列像素,而是一个具有交互组件的结构化布局,能够区分可点击的“提交”按钮与静态横幅图片,或者可编辑的文本字段与简单的标签。
- 上下文解释: ACI模块作为视觉数据和智能体核心智能(通常为大型语言模型或LLM)之间的桥梁,在任务的上下文中解释这些元素。它理解放大镜图标通常表示“搜索”,或者一系列单选按钮代表一个选择。此模块对于增强LLM的推理能力至关重要,它允许智能体基于视觉证据制定计划。
- 动态动作与响应: 智能体随后通过编程控制鼠标和键盘来执行其计划——点击、输入、滚动和拖动。关键的是,它必须持续监控屏幕以获取视觉反馈,动态响应变化、加载界面、弹出通知或错误,以成功导航多步骤工作流程。
这项技术已不再是理论上的。几家领先的AI实验室已经开发出功能性的智能体,展示了图形用户界面交互的强大能力:
ChatGPT 智能体(OpenAI):ChatGPT 智能体被设想为一个数字伙伴,旨在通过桌面直接自动化各种应用的任务。它能够理解屏幕上的元素,从而执行诸如将数据从电子表格传输到客户关系管理(CRM)平台、在航空公司和酒店网站上预订复杂的旅行行程,或填写详细的在线表格等操作,而无需为每个服务获取专门的API访问权限。这使得它成为一个通用适应性的工具,旨在通过接管重复的数字任务来提升个人和企业的生产力。
谷歌Project Mariner项目: 作为一项研究原型,Project Mariner在Chrome浏览器中作为智能体运行(见图1)。其目的是理解用户的意图,并代表用户自主执行基于网络的任务。例如,用户可以要求它在其指定的预算和社区内找到三个出租公寓;然后Mariner会导航到房地产网站,应用筛选器,浏览列表,并将相关信息提取到文档中。该项目代表了谷歌探索创建一个真正有用且“智能体化”的网页体验,其中浏览器主动为用户工作。

图1:智能体与网页浏览器的交互
Anthropic的计算机使用功能: 此功能赋予Anthropic的AI模型Claude直接使用计算机桌面环境的能力。通过捕获屏幕截图来感知屏幕,并程序化控制鼠标和键盘,Claude可以协调跨越多个、未连接应用程序的工作流程。用户可以要求它分析PDF报告中的数据,打开电子表格应用程序对数据进行计算,生成图表,然后将该图表粘贴到电子邮件草稿中——这是一系列以前需要持续人工输入的任务。
浏览器使用:这是一个开源库,它提供了一个高级API,用于程序化浏览器自动化。它使智能体能够通过访问和控制文档对象模型(DOM)与网页进行交互。该API将浏览器控制协议的复杂、低级命令抽象为更简单、更直观的函数集。这使得智能体能够执行复杂的动作序列,包括从嵌套元素中提取数据、表单提交以及跨多个页面的自动化导航。因此,该库促进了非结构化网络数据的转换,使其成为智能体可以系统处理和用于分析或决策的结构化格式。
交互:智能体与环境
超越计算机屏幕的局限,人工智能智能体正越来越多地被设计用于与复杂、动态的环境交互,这通常反映了现实世界。这需要高级的感知、推理和执行能力。
谷歌的Project Astra是推动智能体与环境交互边界的一项重要举措的典范。Astra旨在创建一个通用的AI智能体,它在日常生活中非常有用,通过利用多模态输入(视觉、听觉、语音)和输出,以情境化的方式理解和与世界交互。该项目专注于快速理解、推理和响应,使智能体能够通过摄像头和麦克风“看到”和“听到”其周围环境,并在提供实时协助的同时进行自然对话。Astra的愿景是一个能够无缝协助用户完成从寻找丢失物品到调试代码等任务的智能体,通过理解它所观察到的环境。这超越了简单的语音命令,实现了对用户即时物理环境的真正具身理解。
谷歌的Gemini Live将标准的AI交互转变为流畅且动态的对话。用户可以与AI交谈,并以自然的声音接收响应,延迟极小,甚至可以在句子中间打断或改变话题,促使AI立即适应。界面超越了语音,允许用户通过使用手机的摄像头、共享屏幕或上传文件来整合视觉信息,从而进行更具情境意识的讨论。更高级的版本甚至可以感知用户的语调,并智能地过滤掉无关的背景噪音,以更好地理解对话。这些功能结合在一起,创造了丰富的交互体验,例如只需将摄像头指向任务即可接收该任务的实时指令。
OpenAI的GPT-4o模型是一种专为“全交互”设计的替代方案,意味着它可以在语音、视觉和文本之间进行推理。它以低延迟处理这些输入,其响应时间与人类相似,从而允许实时对话。例如,用户可以向AI展示实时视频流来询问正在发生的事情,或者用它进行语言翻译。OpenAI为开发者提供了“实时API”,以构建需要低延迟语音到语音交互的应用程序。
OpenAI的ChatGPT智能体在其前辈的基础上实现了显著的架构进步,集成了新的功能框架。其设计融合了几个关键的功能模式:自主导航实时互联网以提取数据的能力、动态生成和执行计算代码以进行数据分析等任务,以及直接与第三方软件应用交互的功能。这些功能的综合使得智能体能够根据单一用户指令编排和完成复杂的、顺序性的工作流程。因此,它可以自主管理整个流程,例如执行市场分析和生成相应的演示文稿,或者规划物流安排并执行必要的交易。与该系统的推出并行,OpenAI积极应对了这种系统固有的新兴安全考虑。附带的“系统卡片”明确了具有在线执行行动能力的AI可能带来的潜在操作风险,并承认了新的滥用途径。为了减轻这些风险,智能体的架构包括工程化的安全措施,例如要求对某些类别的行动进行明确用户授权,并部署强大的内容过滤机制。公司现在正在与初始用户群合作,通过反馈驱动的迭代过程进一步细化这些安全协议。
Seeing AI,微软提供的一款免费移动应用程序,通过提供周围环境的实时叙述,为视障人士或低视力人士赋能。该应用程序利用设备的摄像头通过人工智能识别并描述各种元素,包括物体、文本甚至人物。其核心功能包括阅读文档、识别货币、通过条形码识别产品以及描述场景和颜色。通过提供增强的视觉信息访问,Seeing AI 最终促进了视障用户获得更大的独立性。
Anthropic的Claude 4系列 Anthropic的Claude 4是另一种具有高级推理和分析能力的替代方案。虽然历史上主要关注文本,但Claude 4包括强大的视觉能力,使其能够处理来自图像、图表和文档的信息。该模型适用于处理复杂的多步骤任务并提供详细分析。与其他模型相比,尽管实时对话不是其主要焦点,但其底层智能旨在构建高度能干的智能体。
VibeCoding:利用AI进行直观开发
在直接与GUI和物理世界交互之外,开发者使用AI构建软件的新范式正在兴起:“氛围编程”。这种方法摒弃了精确的、按部就班的指令,转而依赖于开发者与AI编码助手之间更加直观、对话式和迭代的交互。开发者提供高级目标、期望的“氛围”或一般方向,AI则生成相应的代码。
此过程的特点是:
- 对话提示词: 与编写详细的规范不同,开发者可能会说,“为一个新的应用创建一个简单、现代风格的着陆页”,或者,“重构这个函数使其更符合Python风格和可读性。”AI会解读“现代”或“Python风格”的“氛围”,并生成相应的代码。
- 迭代优化: 人工智能的初始输出通常只是一个起点。然后开发者以自然语言提供反馈,例如,“这是个不错的开始,但你能把按钮做成蓝色吗?”或者,“给那个部分添加一些错误处理。”这种来回的交流会持续进行,直到代码达到开发者的预期。
- 创意合作: 在氛围编码中,AI充当创意伙伴,提出开发者可能未曾考虑过的想法和解决方案。这可以加速开发过程,并导致更具创新性的成果。
- 关注“是什么”而非“如何”: 开发者关注期望的结果(“是什么”),而将实现细节(“如何”)留给AI。这允许快速原型设计和探索不同的方法,而不会陷入样板代码的泥潭。
- 可选内存库:为了在更长的交互中保持上下文,开发者可以使用“内存库”来存储关键信息、偏好或约束。例如,开发者可能会将特定的编码风格或一系列项目要求保存到AI的内存中,确保未来的代码生成与已建立的“氛围”保持一致,而无需重复指令。
随着GPT-4、Claude和Gemini等强大AI模型的兴起,这些模型被集成到开发环境中,Vibe编码变得越来越流行。这些工具不仅仅是自动补全代码;它们正积极参与软件开发中的创造性过程,使其更加易于访问和高效。这种新的工作方式正在改变软件工程的本质,强调创造性和高级思维,而非对语法和API的机械记忆。
关键要点
人工智能智能体正从简单的自动化进化到通过图形用户界面视觉控制软件,就像人类一样。 下一个前沿是现实世界的交互,例如谷歌的Astra项目,它利用摄像头和麦克风来观察、聆听和理解其物理环境。 领先的科技公司正在将数字和物理能力融合,以创建在两个领域都能无缝运行的通用人工智能助手。 这种转变正在创造一类新的主动、情境感知的AI智能体,能够协助用户在日常生活中的各种任务。
结论
智能体正在经历一场重大变革,从基本的自动化转向与数字和物理环境的复杂交互。通过利用视觉感知来操作图形用户界面,这些智能体现在可以像人类一样操作软件,绕过了对传统API的需求。主要的技术实验室正在这一领域进行创新,推出了能够在用户桌面上直接自动化复杂、多应用工作流程的智能体。同时,下一个前沿领域正在扩展到物理世界,例如谷歌的Project Astra项目,它利用摄像头和麦克风与周围环境进行情境交互。这些先进系统旨在实现多模态、实时理解,以模拟人类交互。
最终愿景是将这些数字和物理能力融合,打造出能够在用户所有环境中无缝运行的通用智能助手。这种演变也通过“情感编码”(一种开发者与AI之间更直观、更具对话性的合作伙伴关系)重塑了软件创作的本身。这种新方法优先考虑高级目标和创意意图,使开发者能够专注于期望的结果,而不是实现细节。这种转变通过将AI视为创意伙伴,加速了开发并促进了创新。最终,这些进步正在为一个新的时代铺平道路,这个时代的主动、情境感知的智能伙伴能够协助我们日常生活中的各种任务。