云原生进化论：加速构建 AI 应用

杨秋弟

2025年10月1日

Share on X

大家好，我是来自阿里云智能集团的资深产品专家杨秋弟，今天很荣幸能在云栖大会的场合，和大家分享过去一年我们在支持企业构建 AI 应用过程的一些实践和思考。

01 智能体应用已成为应用架构中的重要组成部分

从事 AI 领域的同仁，无论是科研学者，落地 AI 的企业，还是提供 AI 技术或产品的供应端企业，我想大家都有非常一致的体感，就是 AI 应用的发展是势不可挡的，并正在重塑软件行业，我们来看几组数据：

模型调用增速爆发： GenAI 的支出增长尤其迅猛，预计将从 2023 年的 160 亿美元增长到 2027 年的 1430 亿美元，年均复合增长率（CAGR）高达 73.3%。
新增应用智能化比例高： 到 2027 年，实现人工智能与 6 大重点领域广泛深度融合，新一代智能终端、智能体等应用普及率超 70%。
Agentic AI 逐步进入企业核心系统： 到 2028 年，33% 的企业软件将集成代理型 AI，而 2024 年这一比例还不到 1%。

由此看来，智能体应用已经逐步成为客户应用架构中的重要组成部分。这个演进过程，应用的发展和基础设施的升级是双向驱动、相互成就的。

应用拉动基础设施升级： 智能体应用引入了全新的负载形态：推理计算的实时性、长会话的状态保持、多模态的交互需求，以及对安全、稳定、成本的极致追求。这些要求远远超出了传统云计算的假设，迫使基础设施从资源池化走向智能化：算力需要具备毫秒级弹性、运行时需要具备安全隔离和 session 亲和、通信层需要支持异步与高吞吐，甚至消息队列、存储和网关都要具备 AI 场景感知能力。可以说，应用的需求直接塑造了基础设施的形态。
基础设施赋能应用演进： 当 AI 基础设施具备了 Serverless GPU、AI 网关、智能消息中间件、全栈可观测等能力，智能体应用的开发和落地就能大幅提速。开发者不必为推理延迟、算力调度、安全隔离等底层问题操心，而是可以专注于业务逻辑和场景创新。基础设施的抽象与屏蔽作用，让应用创新的门槛显著降低，推动了智能体应用的规模化普及。
应用与基础设施迭代共振： 随着企业引入更多智能体应用，运行规模与复杂度持续上升，基础设施又会面临新的挑战，比如跨多模型、多智能体、多地域的调用治理。这些反馈会促使基础设施不断演进，并在下一轮迭代中反哺应用。于是，形成了一种“应用—基础设施—应用”的螺旋式发展关系，类似于云原生时代微服务与容器的互动，但在 AI 时代，规模、复杂度和不确定性都更高。

但这一演进过程，并非一帆风顺。从服务云上客户的过程中，我们发现，AI 应用架构落地难点集中在以下三个方面：

全新 Agent 开发技能栈，如何快速开发及上线，聚焦业务，快速验证。
如何快速与已有系统打通，赋能核心系统，利用已有资产。
如何保障新构建的 AI 应用能够稳定、安全地运行，避免在规模化使用中出现不可控风险。

这些问题的解决，需要云基础设施从传统形态升级为 AI 原生架构。AI 基础设施的核心要素包括：具备毫秒级弹性的函数计算运行时、统一流量治理与协议适配的 AI 网关、支撑异步高吞吐通信的消息中间件，以及覆盖模型调用、智能体编排和系统交互的全栈可观测体系。只有在这一新型基础设施的支撑下，智能体应用才能真正成为企业应用架构的“新基建”，推动业务持续智能化升级。

因此，我们提炼了上图展示的 AI 原生应用架构，将 AI 运行时、AI 网关、AI MQ、AI Memory、AI 可观测等 8 大关键组件串联起来，形成一套完整的 AI 原生技术栈，我们称之为 AgentRun。企业不必从零开始组装，基于 AgentRun 就可以大幅度缩短从 PoC 到生产上线的时间。

接下去，我们将围绕前面提到的三大挑战，为大家逐一解析 AgentRun 的八大核心组件是如何提供的 AI 原生架构支撑的。

02 云原生加速智能体开发

有了整体架构蓝图，我们首先要解决最基础的问题：作为企业 IT 系统的“新成员”，智能体应该运行在什么样的底座之上？这就引出了我们对运行时的核心要求。

函数计算

我们发现，Agent 应用有几个典型特征：流量不可预测、多租户数据隔离、容易被注入攻击。这些特征要求运行时必须具备三大核心能力：毫秒级弹性、会话亲和管理、以及安全隔离。

传统单体或微服务应用的开发以服务为边界，开发者致力于构建功能内聚的单体或微服务，但这往往导致代码逻辑的深度耦合与复杂化。AI Agent 的出现则彻底颠覆了这一模式。其核心不再是构建固化的服务，而是通过大语言模型（LLM）理解用户意图，进而动态、智能地编排一系列原子化的工具集或 Agent。这种全新的开发模式与函数计算（FaaS）的设计哲学不谋而合。函数计算让开发者能以最轻量、最原生的方式将 Agent 的每一个原子能力封装成一个独立的函数。这意味着，开发者构想的任何 Agent 或工具，都可以精准地映射为一个开箱即用、轻量灵活、安全隔离、极致弹性的函数。它不仅带来了更优的开发体验与更低的成本，更关键的是，它极大地提升了 Agent 的生产可用性与与市场推广效率（Go-To-Market），让 AI 创新的规模化落地成为可能。

为了深度拥抱 AI Agent 的需求并践行 Function-to-AI 的理念，函数计算创新性地打破传统 FaaS 的无状态（Stateless）边界。通过原生支持 Serverless 会话亲和性（Session Affinity），为每个用户会话动态分配一个专属的持久化函数实例，该实例可存活长达8小时甚至更久，完美解决了 Agent 多轮对话中的上下文保持难题。数十万级函数百万级会话轻量化管理运维，基于请求感知调度策略支持从零到百万 QPS 的自由伸缩，完美契合了 AI Agent 应用常见的稀疏或突发性流量模式，确保了服务的稳定运行。

工具运行时方面，函数计算内置 Python/Node.js/Shell/Java 等多语言执行引擎，代码执行延迟 < 100ms；内置 Code Sandbox 、Browser Sandbox 、Computer Sandbox 、RL Sandbox 等开箱即用的云沙箱工具。在安全隔离方面，函数计算通过安全容器技术，提供请求级别、会话级别以及函数级别多维度隔离机制，为每一个任务提供了虚拟机级别的强隔离。同时结合会话级别的动态挂载能力，实现计算层与存储层的安全隔离，全场景覆盖 Sandbox 最严苛的代码执行安全与数据安全的诉求。而在模型运行时方面，函数计算则专注于领域模型与小参数大语言模型的托管。

在模型运行时方面，函数计算聚焦于垂类模型与小参数大语言模型，函数计算提供 Serverless GPU 基于内存快照技术，实现毫秒级的忙闲时自动切换，大幅降低 AI 落地成本；依托于请求感知调度策略，可以更好解决 GPU 资源空置或争抢问题，保障业务请求 RT 稳定。通过 GPU 与 CPU 算力的解耦自由组合，单卡甚至 1/N 卡切割的虚拟化技术，为客户提供更细粒度的模型资源配置，让模型托管更经济、更高效。

函数计算作为 Serverless 最典型的产品，目前已服务于百炼、魔搭、通义千问等诸多重要客户，已然成为企业构建 AI 应用时的理想选择。

RocketMQ for AI

有了高效的运行时，当智能体规模扩大、交互模式变得更多样化之后，我们就需要引入异步通信来保证系统的吞吐和稳定性。为此，我们全新发布了 RocketMQ for AI。它的核心创新点是全新发布的 LiteTopic，我们为每个会话动态创建一个轻量级 LiteTopic，用于持久化保存会话的上下文、中间结果等等。LiteTopic 不仅能支持 Agent 的断点续传，还能将多 Agent 通信的吞吐率提升 10 倍之上。

这一创新架构的实现，依托于 RocketMQ 为 AI 场景深度优化的四大核心能力：

百万级 Lite-Topic 支持： 单集群可管理百万级轻量主题，为每个会话独立分配 Topic，实现高并发下的会话隔离，性能无损。
全自动轻量管理： Lite-Topic 按需动态创建，连接断开后自动回收，彻底杜绝资源泄漏，运维零干预。
大消息体传输能力： 支持数十 MB 乃至更大消息，轻松承载长 Prompt、图像、文档等 AIGC 典型数据负载。
严格顺序消息保障： 在单队列内保证消息有序，确保 LLM 流式输出的 token 顺序不乱，支撑连贯流畅的交互体验。

03 云原生加速智能体和存量系统的融合

相比从 0 开发一个智能体，将存量系统和智能体进行融合，是试错成本相对更低的智能化路径。但通常会遇到以下两个难题：

难题一：存量业务如何与智能体打通

对于大多数企业而言，已经沉淀了庞大的存量系统和服务接口，这些系统是业务的核心资产，但它们通常基于传统的 HTTP/REST 协议构建，缺乏与智能体直接交互的能力。难题在于，如何在不推翻现有架构的情况下，让智能体能够顺畅访问并调用这些存量能力。如果强行改造存量系统，不仅成本高昂，还会影响现有业务的稳定性。因此，需要一个统一的中间层，既能对接存量服务，又能为智能体提供标准化、可治理的调用入口。

阿里云云原生 API 网关正是针对这一场景而设计：它通过协议适配、流量治理、内置安全和可观测能力，将传统 API 平滑地转化为智能体可消费的服务，从而帮助企业低成本实现智能化升级。它具备：

智能体协议优化，支持 SSE、Websocket 等长连接协议，支持 Websocket 无损变更和优雅上下线。
提供企业级能力，包括内置可观测、安全能力、消费者鉴权和灰度发布。
提供硬件加速能力，从而提升 TLS 和 Gzip 性能。
提供丰富的插件生态，且支持热加载与更新。

难题二：如何快速创建与管理 MCP Server

除了打通存量系统，企业还需要不断构建新的智能体工具，尤其是基于 MCP（Model Context Protocol）这一新兴标准协议。但难题在于，如何快速开发、部署和管理 MCP Server，使其能够与智能体无缝衔接。如果缺乏高效的开发运行环境，企业在创建 MCP Server 时往往面临资源准备复杂、部署周期长、难以保证弹性与安全的问题。

对此，阿里云提供了函数计算（Function Compute）作为快速开发和运行 MCP Server 的理想运行时，具备毫秒级弹性、零运维和多语言支持的特点。利用函数计算轻量化、毫秒级弹性、零运维以及内置多语言运行环境等特性，为 MCP Server 提供理想的运行时。利用函数计算一站式开发与广泛集成的能力，提高 MCP 开发的效率。

同时，通过 AI 网关，企业可以在统一入口实现对 MCP Server 的注册、鉴权、灰度、限流和可观测管理，支持零代码将 HTTP 转 MCP，这让企业能够在最短时间内构建并上线 MCP Server，支撑起智能体与业务场景的快速结合。此外，AI 网关提供了 MCP 市场的能力，适用于企业构建私有化的 AI 开放平台。

04 云原生加速智能体的稳定运行

无论你是从 0 构建一个智能体，还是通过智能体与存量系统进行融合，这只是应用智能化的第一步。当企业把智能化推向生产，还会面临推理延迟、稳定性波动、问题排查困难、安全风险凸显、输出不可靠及成本过高等问题，这些都是企业级 AI 应用在稳定性、性能、安全与成本控制上的系统性挑战。以下我们将从 AI 网关和 AI 观测，来分享我们的一些应对方案。

AI 网关

网关在应用架构中扮演者入口流量管控的角色。但相比传统的 Web 应用，AI 应用的流量特征截然不同，主要体现在高延时、大带宽与流式传输、长连接、API 驱动的特点。因此催生出来网关的新形态——AI 网关。

总的来讲，AI 网关是提供多模型流量调度，MCP 和 Agent 管理，智能路由和 AI 治理的下一代网关。阿里云提供了开源（Higress）和商业（API 网关）两种 AI 网关的交付形态。在加速智能体稳定运行方面发挥了以下作用：

面向失败设计提高可用性： 通过多模型路由、Failover、灰度，并发控制、限流等能力将模型调用可用性提升到 99.9%+。
预集成安全能力： 对 API-key，消费者凭证进行统一管理、并分权管理、预集成 WAF 防护和安全护栏能力，以提升安全能力。
多协议支持： 集中管理智能体各种调用，包括模型调用、MCP 工具调用，以及 A2A 调用。

AI 可观测

AI 可观测是一系列能够让工程师全面洞察基于大型语言模型构建的应用的实践与工具。

和传统应用不同，AI 应用面临着一系列和所没有的独特挑战，总结来讲有 3 大类：

性能与可靠性问题： 大模型是资源密集型的，延迟峰值和瓶颈时有发生。可观测将所有组件的数据关联起来，使工程师能够精确定位延迟的根源，是模型本身、外部 API 调用还是数据库查询。它还能追踪多步骤流程中的每一步，简化了复杂系统中的调试过程。
成本问题： 许多大模型服务按 Token 使用量收费，若无控制，成本可能意外飙升。可观测工具追踪每个请求的 Token 数、每日总用量等指标，当使用量出现异常高峰时发出警报，帮助团队在收到天价账单前优化提示或设置限制。
质量问题： 大模型的可能输出从训练数据中继承偏见或有害内容，也很有可能产生幻觉，导致输出的内容完全不符合预期，可观测通过提供评估等工具，针对采集的 AI 应用执行过程中各个阶段的输入输出，检测是否含有不当、不准确和危险的内容，通过自动分析和评分帮助工程师及时采取行动。

为应对上述挑战，阿里云 AI 可观测解决方案提供了：

端到端全链路追踪： 提供端到端的日志采集和链路追踪，可视化展示请求在整个 AI 应用中的执行路径。支持对历史对话的灵活查询与筛选，以便于调试和改进。
全栈监控： 包含应用、AI 网关、推理引擎可观测 3 个纬度，观测内容有实时追踪响应延迟、请求吞吐量、Token 消耗，错误率和资源使用情况（如 CPU、内存、API 令牌），并能在指标异常时触发警报，帮助团队在影响用户前快速响应，同时有效监控成本。
自动化评估功能： 通过引入评估 Agent，对应用和模型的输入输出进行自动化的评估，检测幻觉、不一致性或答案质量下降等问题。有效的工具通常会集成评估模板，方便工程师快速的对常见的质量和安全问题进行评估。
AI/Ml平台预集成： 与容器服务，PAI，百炼等平台默认集成，一键接入可观测数据采集，默认提供大盘。

除了完整的解决方案，我们也提供了面向运维与开发人员的智能运维助手，帮助每一个 IT 工程师提升系统异常发现、问题根因定位、故障恢复的效率。

与传统的基于规则的 AIOps 不同，我们的 AIOps 智能体基于多 Agent 架构，具备解决未知问题的自主性。在收到问题后，它会自主地进行规划、执行和反思，从而提升解决问题的能力。在算法层面，我们积累了非常多的原子能力，这些原子包括对海量数据的预处理，异常检测，智能预测等算子，这些都可以作为工具可以被智能体使用。也欢迎大家可以登录我们的控制台进行体验并给我们反馈。