返回
实时数据仓库分享

Agent 应用范式下,企业数据基础设施如何演进?

SelectDB· 2026/5/14

过去一年,Agent 正从一个技术概念,逐渐变成企业智能化落地的核心入口。

这背后并不只是应用形态变化,更像是一场新的接口革命:人不再需要理解每一个工具的使用方式,也不再需要在不同系统之间反复切换;人只需要表达目标,Agent 则负责理解意图、拆解任务、选择工具、调用数据并完成执行。

在即将举行的 SelectDB 产品发布会上,我们也将围绕这一变化做一次更系统的分享:当 Agent 成为新的应用范式,企业的数据基础设施需要发生哪些改变?实时分析引擎在其中承担什么角色?

要回答这些问题,需要先从应用范式的演进说起。

一、Agent 时代正在到来

1990 年代的 Internet 上,有很多各自独立的应用:Email、FTP、Gopher、IRC、Telnet。它们有不同的协议,也有不同的客户端。Web 一开始只是其中一种,看起来只是一个用来浏览超文本的工具。

但后来的发展证明,Web 做了一件其他协议没有完成的事:它把很多应用吸收进来了。Webmail 逐渐替代了传统 Email 客户端,网页下载弱化了 FTP 的存在,Web 化的协作工具也重塑了即时通信的形态。Web 最终成为那个承载其他应用的应用。

Web 之所以能成功,不只是因为体验更好,而是因为它统一了“人”和“信息”的接口:一个 URL,一个浏览器,就可以访问几乎所有信息。这样的接口一旦建立起来,就很难再被逆转。

今天,Agent 与 LLM 的关系,也有一点类似

LLM 的应用形态大致可以分为几类:直接调用、链式调用、RAG、Workflow、代码执行、Agent。但这并不是一个彼此平行的选项,Agent 更像是一种更高层的组织方式。

RAG 检索和代码执行,是 Agent 工具箱里的能力;预定义 Workflow,是 Agent 将决策路径“写死”之后的特例;直接调用,则是 Agent 在没有工具可用时最简单的形态。就像浏览器里可以发邮件、聊天、下载文件一样,Agent 内部可以检索知识、执行代码、串联推理、调用外部系统,甚至在关键节点请求人类把关。

它统一的是“人”和“能力”的接口:你不需要先判断该打开哪个系统、使用哪个工具、调用哪个 API;你只需要描述目标,Agent 会自己去规划、选择和执行。

这就是为什么我们说,Agent 时代正在到来。它不是一个短期热点,而是一个可能像 Web 重塑 Internet 一样,重塑软件应用形态的新范式

二、软件的三种形态:从规则,到训练,再到驾驭

要理解 Agent 时代对数据基础设施意味着什么,我们需要先退一步,看清软件本身的演化逻辑。

过去几十年里,软件制造智能大致经历了三次变化。

1-软件的三种形容.png

第一阶段,软件的核心是规则。工程师把业务逻辑写进代码,系统按照确定的规则执行。这个阶段的数据基础设施,主要是关系型数据库:存储状态,支持事务,保证业务系统稳定运行。

第二阶段,智能越来越多来自数据训练。企业把大量数据喂给模型,通过训练得到预测、推荐、识别等能力。这个阶段催生了 Lakehouse。企业需要一个统一底座,既能做 SQL 分析和 BI,也能支持 Spark、PyTorch 等工具做模型训练。Databricks 和 Snowflake 的崛起,正是抓住了这个需求。

而第三阶段正在改变这个前提

当模型厂商(OpenAI、Anthropic、Google)完成了预训练,企业不再需要从零开始训练模型。核心工作流不再是洗数据 → 做特征 → 训练 → 部署,而是在推理时,用 200 毫秒这样极快的速度给 Agent 喂入最相关的上下文。

智能的来源变了,数据栈的重心自然也会随之变化

三、Lakehouse 的核心假设正在松动

Lakehouse 过去最有吸引力的叙事,可以概括成一句话:一份数据,两种用途

同一份存储在 S3 上的数据,既可以跑 SQL 又能做 BI 分析,也可以交给 Spark、PyTorch 等工具做模型训练。这个叙事在 2015 到 2022 年之间非常有说服力。那时候,很多企业都相信自己需要训练模型,分析团队和数据科学团队共享同一份数据底座,也确实有很强的工程价值。但进入 Agent 时代之后,这个叙事开始出现裂缝

首先,训练和推理对数据系统的要求,本质上并不相同

Lakehouse 更适合批处理场景。无论是基于开放表格式的数据管理,还是面向大规模扫描和离线计算的执行框架,本质上都服务于“夜间跑 ETL、白天出报表”或“大规模数据训练”的工作流。但 Agent 需要的不是批量处理一张拥有上百列的大宽表,而是在一次对话、一次推理、一次任务执行过程中,快速完成点查、过滤、聚合、向量检索、全文检索等操作。

对于 Agent 而言,数据查询不是后台任务,而是推理链路中的实时环节

一次查询慢 200 毫秒还是 3 秒,对于传统报表用户来说也许差别不大;但对于一个需要多轮检索、多次调用工具的 Agent 来说,这可能就是 1 秒和 15 秒的差距。这会直接影响终端用户是否愿意继续等待。

Lakehouse 最强的能力,是分布式大规模扫描;但在 Agent 场景中,真正高频出现的是亚秒级查询、高并发轻查询、混合检索和语义化访问。这恰恰不是 Lakehouse 最擅长的部分。

其次,数据共享这个论点的说服力在下降

Lakehouse 强调一湖多用,前提是分析团队和训练团队都需要访问同一份数据。但当企业的智能能力越来越多来自预训练大模型,而不是自研模型训练时,“训练团队”的核心工作流也在变化。

数据科学家仍然需要数据,但他们越来越多需要的是一份能够被实时查询、语义清晰、支持混合检索的热数据,而不是一份躺在 Parquet 文件里、等待 Spark 扫描的冷数据。

但这并不意味着 Lakehouse 会消失,它在企业数据治理、合规归档、PB 级冷数据管理,以及大模型厂商自身的预训练 Pipeline 中,依然有不可替代的价值。变化在于,它正在从前台的主角,变成更偏后台的基础设施。

而走向前台的,是那些能在 Agent 推理循环中直接创造价值的数据系统——实时 OLAP 引擎

四、实时分析引擎正成为 Agent 时代的数据核心

当数据的首要消费者从"人"变成"智能体",整个分析型数据库的架构优先级会被重新定义。

第一,亚秒级延迟从加分项变成准入门槛

传统分析型数据库面对的是分析师。分析师可以等待报表刷新,可以接受查询排队,也可以在复杂分析中忍受一定延迟。但 Agent 面对的是终端用户。用户在对话窗口前等待回答,Agent 在后台不断拆解任务、调用工具、查询数据、补充上下文。每一次数据访问的延迟,都会被叠加到最终体验中。

这要求数据引擎在索引粒度和执行效率上做到极致。Short Key Index、ZoneMap、Bloom Filter、倒排索引等机制,不再只是性能优化手段,而是 Agent 能否稳定运行在实时场景中的基础能力。相比 Iceberg 的文件级跳过,Agent 场景更需要行级、块级、更细粒度的数据裁剪能力。

第二,混合检索需要一个统一入口

Agent 不会说"我现在要做一次向量检索",它只会说"帮我找到类似的情况"。一次对话中,Agent 可能先做一次点查,再做一次聚合分析,随后进行向量搜索,最后再通过全文检索补充证据。对 Agent 来说,这些都只是完成任务所需的能力。

但今天的技术生态往往是割裂的:向量数据库如 Pinecone 擅长相似度检索,但缺少完整的 SQL 分析能力;全文检索系统如 Elasticsearch 擅长关键词搜索,但在复杂分析和实时聚合上并不总是足够强;传统数仓擅长分析,却未必适合低延迟混合检索。

Agent 需要的是一个统一引擎:能够在同一个查询计划中调度 SQL、向量、全文等多种检索能力,合并结果,并以更适合 LLM 消费的方式返回上下文。Doris / SelectDB 正在这个方向上持续投入,将向量检索、全文检索与实时 SQL 分析能力进一步融合。

第三,Schema 语义化会成为数据库的一等能力

Text-to-SQL 的准确率,并不只取决于 LLM 的能力,也取决于 Schema 本身是否容易被机器理解。

在传统数仓中,类似 ods_usr_bhvr_pv_log_di 这样的表名,对熟悉业务的人来说可以通过数据字典理解;但对动态生成 SQL 的 Agent 来说,这样的 Schema 往往很难处理。

未来的数据库必须把“让机器理解数据结构”作为一等需求。表注释、列注释、示例数据、语义标签、指标口径、数据血缘,这些能力过去更多被视为治理和文档工作;但在 Agent 时代,它们会直接影响 Agent 是否能够正确理解数据、生成 SQL、调用工具并完成任务。

第四,高并发、低成本和细粒度弹性会变得更重要

一个分析师一天可能只写几十条 SQL。但一个 Agent 在一次复杂对话中,就可能生成几十条查询。企业内部一旦有大量 Agent 同时运行,查询量可能是过去分析场景的 100 倍,甚至 1000 倍。

这会对数据系统提出全新的挑战:不仅要快,还要能承受高并发;不仅要稳定,还要具备足够好的成本效率;不仅要能扩展,还要支持细粒度、秒级弹性。

一套为上百并发设计的 Lakehouse 集群,在面对成千上万 Agent 同时访问时,成本和延迟都可能变得难以控制。

这正是实时 OLAP 引擎需要解决的问题:在存算分离的基础上,通过共享存储架构、弹性计算资源和高效查询执行,支撑面向 Agent 的实时数据访问。这也是 Doris / SelectDB 持续演进的方向。

湖仓与 olap 的对比.png

五、不是替代,是分层

这里需要特别精确:我们并不是说 Doris 替代 Databricks,也不是说实时分析引擎替代 Lakehouse。

真正发生的,是整个数据栈重心的迁移

未来企业的数据架构更可能是一个两层结构:热数据在实时 OLAP 引擎,例如 Doris / SelectDB、ClickHouse,用于服务 Agent 的每一次实时查询,毫秒级返回;冷数据放在 Lakehouse 中,Lakehouse 本身构建在对象存储之上,天然适合承载长周期归档、合规备份和历史数据分析。

Lakehouse 的价值不会消失,开放格式、数据共享、治理、ACID 这些能力依旧重要,但它不再是数据世界的中心。当 Agent 每天产生数百万次实时查询,而训练任务可能一周才跑一次时,哪个引擎最能捕获增量价值,答案已经很清楚。

Agent 正在重塑应用层。实时分析引擎,正在成为 Agent 时代数据栈中最关键的实时入口

在这样的背景下, Doris / SelectDB 和 ClickHouse 这类实时分析引擎,正在从“可选项”变成企业智能化架构中的“默认配置”。

六、结束语

Agent 时代不是一个停留在概念里的趋势。它正在以一种渐进但明确的方式进入企业:先从客服、运营、BI、知识库、数据分析等场景开始,再逐步扩展到更多核心业务流程。

可以确定的是,当 Agent 真正进入生产系统,企业对数据基础设施的要求会发生根本变化。实时、低延迟、混合检索、语义化、高并发、低成本弹性,这些过去看起来分散的能力,将会汇聚成 Agent 时代的数据底座。

在即将举行的 SelectDB 产品发布会上,我们将进一步分享 Doris / SelectDB 在实时分析、混合检索、Agentic Analytics、AI Agent 可观测、多模数据处理等方向上的最新进展,也会系统呈现我们对下一代数据架构的系统思考。

欢迎关注 SelectDB 产品发布会——面向 Agent 的实时数据引擎( 6月11日,14:00,视频号:SelectDB )。我们期待和大家一起讨论:Agent 时代的数据基础设施,究竟会走向哪里

本文内容引用于:https://mp.weixin.qq.com/s/CRYU5scULUNFy7yFYMkOkw