AI代理进入智能时代，企业自动化的新机遇

生成式人工智能应用目前有三个核心用例，已经具备了强大的产品市场契合度：搜索、综合和生成（search, synthesis 和 generation）。根据硅谷科技评论（SVTR），在这些领域内已经出现早期的佼佼者。

然而，生成式人工智能的前景远不止于此。虽然能够替你“读”和“写”的AI已经相当出色，但更令人兴奋的是那些能够替你“思考”和“行动”的AI。我们已经看到越来越多的AI代理创业企业正在构建解决方案，能够处理过去只能依靠大量人力完成的工作流程。

借助新的技术构件，如多步骤逻辑、外部记忆以及访问第三方工具和API的能力，下一波智能代理正在推动AI能力的前沿，逐步实现端到端的流程自动化。

🖼️

图片 2 1024 × 1024px

📷 图片包含在完整版文章中，点击文末按钮查看

全自动智能代理的能力由四个要素共同构成，它们相辅相成，形成完整的智能代理能力：推理、外部记忆、执行和规划。

这四个要素共同构建了智能代理的完整自主能力，使其能够在各种复杂场景中实现更高效、更灵活的自动化工作流程。

需要明确的是，未来的全自动智能代理可能会具备上述四个构件的全部功能，但现有的语言模型应用和代理还未完全实现这一点。

例如，当前流行的检索增强生成（RAG）架构虽然具备推理和外部记忆的功能，但并不属于“智能代理”。关键的区别在于，这些应用将语言模型视作“工具”，用于语义搜索、综合或生成内容，但它们采取的步骤（即逻辑流程）仍然是由代码预先确定的。

相比之下，智能代理的出现是在应用程序的控制流程中将语言模型置于核心位置，并让它动态地决定采取哪些行动、使用哪些工具、如何解读和回应输入。只要具备这一点，有些代理甚至不需要与外部工具互动或执行具体操作，就可以被视为智能代理。

这体现了当前应用与未来全自动智能代理之间的显著差别，后者具有更高的灵活性和自主性。

🖼️

图片 3 3456 × 1944px

📷 图片包含在完整版文章中，点击文末按钮查看

目前，有三种类型的智能代理，它们在应用过程控制中的主要使用场景和自由度各不相同。

接下来，我们将详细探讨包含这三类智能代理的五种参考架构及其在不同场景中的应用示例。

🖼️

图片 4 3456 × 1944px

📷 图片包含在完整版文章中，点击文末按钮查看

RAG（检索增强生成）是当今大多数现代AI应用的标准架构。我们以 Sana （）的企业搜索应用为例，解释其工作原理。

首先，应用程序会加载并转换分散在不同企业数据源（如 Google Drive 和 Notion）中的非结构化文件（例如PDF、幻灯片、文本文件），通过像 Unstructured（）这样的数据预处理引擎将这些文件转化为可以查询的格式。这些文件会被“分块”，也就是被切割成较小的文本段，以便更精确地进行检索，并将其作为向量嵌入存储到像 Pinecone这样的数据库中。

当用户向AI应用提出问题（例如：“总结所有与公司X的会议记录”）时，系统会检索出最具语义相关性的上下文块，将这些内容嵌入一个包含检索信息的“元提示”中，供语言模型（LLM）生成回答。LLM 然后根据检索到的上下文进行综合，给出简洁的、项目化的答案。

当然，以上描述的只是一个检索步骤和一次 LLM 调用。在实际应用中，AI 应用的工作流程要复杂得多，往往有数十甚至数百个检索步骤。这些应用通常包含“提示链”，即一个检索步骤的输入成为下一个步骤的输入，并且可能有多个提示链并行执行不同类型的任务。最终，各种结果将被综合在一起，生成最终的输出。

这种架构允许企业在处理海量数据时实现更高效的检索和内容生成，为复杂的查询提供精确且有针对性的回答。

🖼️

图片 5 3456 × 2087px

📷 图片包含在完整版文章中，点击文末按钮查看

以法律研究助手 Eve（）为例，处理有关《第七章》（Title VII）的研究查询时，它可能将查询分解为多个针对特定子主题的提示链。这些子主题可能包括雇主背景、雇佣历史、《第七章》本身、相关的判例法以及支持原告案件的证据。每个子主题都由单独的提示链来处理，LLM 依次运行这些提示链，生成每个子主题的中间输出，最后将所有这些输出综合在一起，编写出最终的法律备忘录。

这种方法能够将复杂的法律问题分解为更易于处理的小任务，充分利用 LLM 的推理和生成能力，为法律研究提供高效、结构化的支持。通过分段处理和综合，这样的系统可以确保对每个子主题进行深入的分析，并最终形成全面的研究成果。

🖼️

图片 6 3456 × 1944px

📷 图片包含在完整版文章中，点击文末按钮查看

工具使用或函数调用常常被视为从RAG架构向智能代理行为迈出的“半步”，为现代AI堆栈添加了一个新层次。

这些工具本质上是预先编写的代码组件，用于执行特定的操作。已经出现了许多常见的工具原语，比如网页浏览（Browserbase、Tiny Fish）、代码解释（E2B），以及授权与认证（Anon）。这些工具使得LLM能够在网络上导航、与外部软件（如CRM、ERP系统）互动，并运行自定义代码。系统会向LLM展示可用的工具，LLM 选择其中一个工具，生成所需的输入（通常是结构化的JSON），并通过触发API执行来实现最终的操作。

Omni的Calculations AI功能就是这种方法的典型例子。它利用LLM直接输出适合的Excel函数到电子表格中，从而执行计算，并为用户自动生成复杂的查询。这种方法大大提高了任务的自动化和复杂性处理能力。

尽管工具使用非常强大，但它本身仍不能被称为“智能代理”，因为逻辑控制流仍然由应用程序预先定义。真正的智能代理，如我们将在后续设计中探讨的，允许LLM动态地编写部分甚至全部的逻辑，从而实现更高程度的自主性和灵活性。

🖼️

图片 7 3456 × 1944px

📷 图片包含在完整版文章中，点击文末按钮查看

第一类我们要探讨的智能代理是决策代理，它们利用智能决策来导航复杂的多步骤推理流程，最终做出商业决策。与 RAG 或工具使用方法不同，这种架构首次将部分控制逻辑交给 LLM 处理，而不是提前硬编码每一步的操作逻辑。但决策代理仍属于智能代理自由度较低的范畴，因为它主要充当“路由器”，在预设的决策树中导航。

以 Anterior（前身为 Co:Helm） （）为例，这家医疗计划自动化公司开发了一个临床决策引擎，用于自动化审查理赔申请。当前，护士需要手工根据大量付款方规则来完成这些审查，这些规则充满了条件性知识，类似于一个“极其无趣的选择你自己的冒险”。

Anterior 简化了这一流程。公司首先通过基于规则的脚本和语言模型将付款方的规则转换为有向无环图（DAG）。他们的智能代理然后遍历这个决策树，在每个节点利用 LLM 来评估相关的临床文档与具体规则的匹配性。对于较简单的节点，代理可能仅需要执行基本的RAG步骤。然而，Anterior经常遇到更复杂的任务，需要代理在推进到下一个节点之前选择最佳的处理方式。在每个决策后，代理会更新其状态（在内存中管理中间输出），并依次通过决策树，直到做出最终决定。

这种方法不仅限于 Anterior，其他公司也在不同领域使用决策代理。例如，Norm AI （）正在构建用于合规管理的AI代理，Parcha （）则在开发用于客户身份验证（KYC）的代理。

决策代理为复杂流程中的多步骤决策提供了高效解决方案，尽管其自由度有限，但已经展现了较强的自动化和智能化潜力。

🖼️

图片 8 3456 × 2531px

📷 图片包含在完整版文章中，点击文末按钮查看

有轨代理是第二类智能代理。与决策代理不同，有轨代理被赋予了更高层次的目标（例如：“将发票与总账核对”、“帮助客户排查登录问题”、“重构代码”），并且在实现这些目标的过程中，拥有更多的自由度来选择合适的方法和工具。

然而，这些代理仍然受到程序化知识的指导，即组织预期代理如何执行任务的规则（类似于一个用自然语言写成的规则手册或指南——这就是“轨道”）。同时，它们还配备了预定义的工具来执行特定的外部软件操作，并受到一些保护措施的限制，以防止“幻觉”或错误。

在实际运行中，这种设计可能会呈现以下特点：

这一架构相比之前的设计复杂性更高，可能需要额外的数据基础设施支持，包括：持久化执行能力、用于管理情景记忆、工作记忆和长期记忆的状态管理、多代理协调，以及防护措施等。

有轨代理架构被认为是在代理自主性和控制之间找到平衡的理想模式。目前，许多领先的代理公司正在逐渐趋向这一架构。例如，Sierra、Decagon、Maven AGI、DevRev和 Gradient Labs （）专注于客户服务和支持领域，Factory AI（）和 All Hands AI （）在软件开发中应用这一架构，Sema4 （）在金融后台领域也利用了有轨代理。除此之外，销售、安全运营、供应链等领域也有很多公司采用类似的智能代理。

这种代理通过更高的自由度和程序化的指导，在实现复杂目标时提供了灵活且可控的解决方案。

通用AI代理是智能代理设计的“圣杯”，其架构本质上是一种无限循环结构（for-loop），通过语言模型的高级能力取代了之前设计中的固定“轨道”。这种假想中的代理将具备动态推理、规划和自定义代码生成能力，能够在外部系统中执行任何操作，而不仅限于预定义的任务。

自2023年春季BabyAGI 和 AutoGPT 的出现以来，向这一理想目标的研究进展迅速。目前最复杂的设计是语言代理树搜索（LATS），它将蒙特卡洛树搜索（Monte Carlo Tree Search）——AlphaGo背后的基于模型的强化学习技术——适用于语言代理。LATS 允许智能代理探索多条实现目标函数的路径，优先选择高回报路径、吸收反馈，并在必要时回溯修正。

前沿架构的开创性商业应用包括新的基础模型，如 Reflection AI（），以及专注于编程的代理，例如 Cognition、Nustom 和 OpenDevin/All Hands AI。

通用AI代理的关键在于，它不依赖固定的操作规则，而是具备自适应能力，能够灵活地应对任何未知的复杂问题。这类代理的实现将是人工智能发展中的巨大飞跃，彻底改变现有的自动化和智能化应用。

在经济体系中，每项工作都可以看作是由一组任务组成，这些任务由人类和机器共同完成。多年来，软件逐渐接管了越来越多的任务，但即便如此，今天大多数业务流程仍主要依赖于人类执行。在每个职能部门中，人力成本远远超过软件支出。

AI智能代理有望彻底改变这种工作分配的格局。与以前主要处理低级、按顺序执行任务的软件不同，新一代认知架构使得智能代理能够动态地自动化端到端的流程。这不仅是能够“读”和“写”的AI，它们还能决定应用程序的逻辑流程，并代表人类采取行动。

这也是大语言模型（LLM）在当今企业中的最大机遇之一。

在过去的十年里，像 UiPath 和 Zapier 这样的公司都曾以“机器人自动化”为主题，推销类似的愿景。

UiPath 是最早的推动者。作为机器人流程自动化（RPA）巨头，UiPath 依赖于屏幕抓取和图形用户界面（GUI）自动化，利用“机器人”来记录用户的操作步骤，然后模仿这些顺序步骤，自动化执行诸如从文档中提取信息、移动文件夹、填写表单和更新数据库等流程。

随后，像 Zapier 这样的iPaaS（集成平台即服务）提供商出现，提供了一种更轻量的“API自动化”方法，主要用于提升生产力。该平台通过预构建的API集成和网络钩子（webhooks）来实现更稳定的自动化，但这种方法限制了其只能用于网络应用的自动化，而UiPath能够跨不同软件进行自动化，包括那些不支持API的系统。

UiPath 和 Zapier 证明了可组合、基于规则的横向自动化平台在解决企业中存在的跨部门或行业特定软件系统之间的长尾流程问题上的市场需求。但是，随着企业扩展其基于机器人的自动化，传统架构的能力与其承诺的自主性之间的差距逐渐显现，尤其体现在以下方面：

此外，传统的RPA和iPaaS解决方案仍然受制于其确定性架构，即便它们试图集成大语言模型（LLM）。目前，UiPath 的 AI 解决方案 Autopilot和 Zapier 的 AI Actions 仅为次代理模式提供 LLM 功能，例如从文本到动作的转换，或用于语义搜索、综合和一次性生成的节点。

这些AI功能确实可以带来强大效果：它们让业务功能而非IT团队掌握自动化规则手册，允许通过视觉转换器（而不是OCR）进行更强大的对象检测和识别，并通过RAG提供强大的数据提取和转换。然而，它们仍未能充分挖掘LLM在流程自动化中的更具变革性的应用场景。

智能代理与传统的自动化系统有着本质的不同。它们作为决策引擎处于应用程序控制流的中心，而非像现今的RPA机器人那样依赖于硬编码的逻辑，也不同于生成式AI革命第一波中定义的RAG应用。智能代理首次实现了适应性、多步骤操作、复杂推理和强大的异常处理能力。

让我们通过一个发票对账的示例来说明。下面是一个简化的流程图，展示了将新的发票PDF与公司的总账进行匹配的过程（类似于实施工程师在为RPA构建流程模型时所需的可视化设计）：

🖼️

图片 9 3456 × 1944px

📷 图片包含在完整版文章中，点击文末按钮查看

在复杂的业务流程中，工作流的复杂性迅速增加，导致难以全面处理所有边缘案例和例外情况。即使在前几个决策点中，传统RPA机器人也可能难以应对，并且经常会因部分匹配或缺失的条目而出错，最终将任务升级为人工处理。这或许解释了为什么许多企业仍然雇佣大量员工来处理每月的手动发票对账工作，而没有完全依赖自动化。

然而，当智能代理应用于同样的工作流时，它们表现出显著的优势，主要体现在以下几点：

这些能力让智能代理相比传统RPA机器人在高度复杂、动态变化的工作流程中显得更加高效和智能化。它们能够自动化处理复杂的业务流程，而无需频繁的人为干预，从而推动企业实现更高效、更灵活的自动化流程管理。

当前的智能代理市场可以通过两个关键维度来划分：

这两个因素构成了我们当前的AI代理市场图谱的坐标轴：

🖼️

图片 10 3456 × 1944px

📷 图片包含在完整版文章中，点击文末按钮查看

在市场图谱的右上角，最具自主性和通用性的代理类型，包括以下几类：

企业代理平台通过可扩展的架构，使企业能够利用自然语言SOP或规则手册（类似于给新员工的培训手册）来构建和管理多个职能和工作流程中的代理。这些平台尤其吸引那些希望获得广泛适用的代理功能，而不是为每个业务单元提供单独解决方案的集中式IT买家。

例如，Sema4 的发票对账代理的核心处理能力不仅可以应用于发票对账，还能够扩展到财务、采购和运营等领域的各种数据验证任务。企业代理的优势在于，它们能通过统一的平台管理多个复杂的工作流程，从而减少企业在不同业务单元中实施多个孤立解决方案的成本和复杂性。这种灵活性和广泛适用性使得企业代理成为那些需要跨部门管理和高效自动化的企业的理想选择。

浏览器代理是另一类横向通用的智能代理，代表性公司包括MultiOn、Induced和Twin。这些代理大多采用“通用AI代理”设计，利用经过训练的视觉转换器（Vision Transformers），能够理解不同软件界面及其底层代码。这使得这些代理能够“理解”网页组件的功能和交互，从而实现自动化的网页浏览、视觉UI操作和文本输入。

通过这种能力，浏览器代理可以执行跨网站的复杂任务，自动完成例如表单填写、信息检索、网页导航等操作，帮助用户更高效地进行网络相关工作。尽管这些代理具备高度通用性，能适应多种应用场景，它们通常专注于简化的生产力用例，并正朝着更复杂的企业级功能发展。

当前，企业对代理功能的需求已经超出了客户自行生产化代理的能力，尤其是“有轨代理”设计需要大量的数据基础设施和保护措施才能在实践中有效运作。正是在这一背景下，像Distyl和Agnetic这样的公司出现，它们提供了前置的工程服务，采用类似“AI领域的Palantir”模式来弥补这一差距。

这些公司通过提供定制化的解决方案，帮助企业构建智能代理系统。正如Palantir的Foundry平台一样，它们可以复用模块化的系统基础设施，在多个客户之间共享，以随着时间推移重新平衡平台与服务的比例。这种方式不仅能加速代理技术的部署，还能使企业更快实现自动化，并提供长期可扩展的系统架构来满足不断变化的业务需求。

在市场图谱的左上角，我们看到越来越多的特定领域和工作流代理出现，通过限制它们所尝试解决的问题类型来提高可靠性：

垂直代理的最有前景的机会存在于目前由人类根据SOP或规则手册手动处理的流程中。许多企业已经将这些功能外包给业务流程外包（BPO）公司或承包商。这些任务往往对于基于规则的自动化来说过于复杂，但并不需要内部知识工作者来处理。主要类别包括客户支持、招聘、某些软件开发任务（如代码审查、测试和维护）、营销电话以及安全运营。

在市场图谱的左下角和右下角，我们会发现并非所有生成式AI解决方案都是代理，它们在预算和工作流上与基于代理的解决方案存在竞争。这些解决方案主要基于RAG架构，它们并不嵌入应用程序的控制流程，因此无法完全复制智能代理的人类般推理能力。然而，它们仍然能够实现显著的服务自动化，同时为企业提供一定的控制权。

垂直AI在特定工作流中，语义搜索和非结构化数据转换是非常强大的基础功能。以医疗AI自动化平台**Tennr**为例，该平台能够从传真、PDF、电话等非结构化数据源中提取信息，并将其输入到诊所的电子健康记录系统（EHR）中。这种方式解除了转诊处理中的障碍，减少了人工手动输入数据的需求，大大提高了效率。

另一个例子是Industrial AI，它采用类似的方式来自动化制造商的报价工作流。通过从不同来源提取复杂的非结构化数据，工业AI可以自动生成准确的报价，减少人工干预并提高流程的准确性和效率。这些垂直AI解决方案针对特定领域，优化了复杂数据处理流程，为行业带来了显著的自动化和效率提升。

AI助手的另一种方式是通过任务特定性来缩小代理的工作焦点，而不是领域特定性。与企业或垂直代理处理的复杂端到端流程相比，AI助手专注于更简单、以提升生产力为目标的任务。常见的功能包括：

- 简单的网页研究

- 知识提取

- 总结归纳

- 非结构化数据转换

这些任务通常用于解决临时的需求，例如与PDF进行对话（如聊天式PDF处理）或从**Gong**的记录中提取功能请求。相比于复杂的业务流程，AI助手处理的是更加轻量、直接的工作流，旨在提升日常工作中的效率和生产力，提供灵活的自动化工具来应对各种即需即用的任务。

RAG即服务公司，如Danswer和Gradient，相当于垂直语义搜索和非结构化数据转换公司的横向版本。它们为客户提供了查询非结构化数据源（如PDF）的能力，能够从这些复杂的数据中提取信息，并将结果输入到更加结构化的数据库或记录系统中。

这些平台允许企业在不依赖定制解决方案的情况下，处理和利用分散在各种格式中的数据，实现高效的信息提取和组织。通过RAG架构，这些公司帮助用户自动化数据处理流程，尤其是在需要从大量文档或未整理的数据中提取和转换信息的场景中，提供了强大的工具，极大提高了数据操作的效率。

企业搜索工具，如Glean、Perplexity和Sana，提供了语义查询功能，旨在帮助企业更好地管理全公司的知识资源并打破数据孤岛。它们通过对概念上相关的文档进行索引和检索，使用户能够快速找到与其查询相关的内容。

这些平台不仅仅是简单的关键词搜索，而是能够理解内容的上下文和语义关系，从而返回更加相关的结果。它们对企业特别有价值，能够有效组织和利用分散在不同部门、系统和格式中的信息，帮助企业员工更高效地访问所需的知识资源，改善整体的知识管理和信息流动。

生成式人工智能正迈入智能代理时代。我们今天看到的智能代理架构和早期应用示例只是这一广泛变革的开端。它不仅将重新定义人与机器之间的互动，还会对企业应用和基础设施产生深远影响。

生成式人工智能的第二波浪潮将由能够代表你思考和行动的代理来定义，而不仅仅是读写。随着这些架构的成熟，它们将成为人工智能接管服务经济的强大催化剂。在门洛，我们很高兴见到正在建设这个未来的团队。如果您正在开发代理领域，我们很乐意与您联系。

在接下来的文章中，我们将进一步探讨这些主题，深入了解这一新兴趋势对未来技术和商业领域的巨大潜力。

https://menlovc.com/perspective/ai-agents-a-new-architecture-for-enterprise-automation/

https://menlovc.com/perspective/beyond-bots-how-ai-agents-are-driving-the-next-wave-of-enterprise-automation/