我们正处在一个数据与智能深度耦合的时代。当生成式 AI 重构着人机交互的边界,当大模型开始渗透每一个业务环节,一个根本性问题浮出水面:AI 究竟能跑多快、多准,这取决于它能多快、多准地获取实时数据。
这正是我们今天强调实时分析的底层逻辑。它不再是加分项,而是企业在数字经济中生存与成功的必需品。实时分析的价值并非孤立存在,它紧密围绕三大核心驱动力,重塑着企业的竞争壁垒:
- 即时决策与快速响应:这是最直观、也最迫切的需求。在秒级定义胜负的市场中,企业必须在数据产生后的几秒钟内,从最新数据中提炼出可执行的洞察。数据的新鲜度,直接决定商业决策的时效性与准确性。
- 卓越的客户体验:实时分析让我们能基于用户当下的行为,即刻提供超个性化的服务。当系统能够毫秒级感知客户意图并做出响应,这种体验便成为提升客户忠诚度、构建品牌粘性的战略武器。
- AI 增强分析:这是面向未来的战略驱动力。实时分析不仅服务于人,更服务于新一代 AI 代理、推荐系统和自动化工作流。可以说,AI 的能力边界,最终取决于它能多快、多准确地获取实时数据。
Apache Doris:为实时而生的统一引擎
Apache Doris 并非简单地将多种能力堆砌,而是从底层开始,为应对上述三大范式的核心挑战而设计,为不同场景提供了坚实支撑。
-
实时数据更新与低延迟
- LSM-Tree 存储引擎:专为高写入和快速更新设计,结合无锁冲突解决机制,实现数据从产生到可查的秒级延迟。
- Unique Key 的 Upsert 能力:支持行级实时更新插入,彻底取代耗时数小时的批量 ETL,保证业务数据毫秒级同步。
-
极速查询与高并发处理
- MPP 架构:计算节点分布式并行执行,性能随节点数线性扩展,轻松应对 PB 级数据。
- CBO 优化器:基于成本模型生成最优查询计划,确保复杂查询的高效执行。
- 分区与分桶裁剪:从物理层面大幅减少数据扫描量。
- 运行时过滤(Runtime Filter):在 Join 执行中动态过滤数据,极大加速大规模多表关联查询。
- 多样化索引:包括倒排索引、Bloom Filter、Bitmap 索引等,让全文检索与多维过滤达到极致。
- 物化视图与多级缓存:预计算加速查询,缓存热数据降低延迟。
-
弹性架构与工作负载隔离
- 存算分离:计算与存储独立弹性伸缩,资源利用率最大化。
- 工作负载管理:通过资源组、工作负载组将 BI 报表、ETL 作业、即席查询有效隔离,确保高优先级任务稳定运行。
-
多模数据分析与可观测性
- 多模数据支持:原生支持结构化数据、半结构化数据、文本、向量数据(自 4.0 起);支持 Map、Array、Bitmap 等复杂数据类型。其中,Variant 数据类型便于灵活接入与处理 JSON 数据;相较 JSONB 或文本模式具备更高压缩率,并可通过内部列展开等机制显著提升查询性能。
- 生态集成:Doris 可与 Logstash Collector 集成实现数据直写;支持通过 Kibana 可视化 Doris 内的观测数据;同时支持 OpenTelemetry 等开放 Telemetry Exporter 直接写入 Doris。
-
极致成本效益
- 超高存储压缩率:通过 ZSTD 压缩算法、智能编码优化及数据页大小调整,相同数据集的压缩率可提升 48% 以上,大幅降低存储成本。与 Elasticsearch 相比,存储空间占用可降低 50%-70%。
- 存算分离降本:计算与存储解耦后,综合成本较存算一体模式可降低超 90%。数据仅需在低成本对象存储中保存单副本,热数据缓存于高性能本地盘,实现存储成本与性能的最佳平衡。
- 统一引擎简化架构:支持日志、检索、分析等多种负载,帮助企业替换 Elasticsearch、ClickHouse、Snowflake 等多套系统,消除数据冗余,降低综合运维成本。
-
AI 增强能力
- 混合检索与分析:结合向量索引、关键词检索与语义检索,相较单一向量搜索提供更准确的结果:关键词检索保障召回准确性,向量检索保障语义关联性,两者结合可获得更高质量的检索结果。
- 内置大模型函数:自 Doris 4.0 起集成并支持多类大模型函数,包括 Embedding、相似度计算与模型推理等。这意味着数据无需出库,可在入库或库内直接完成特征提取与模型应用,从而显著降低数据移动与维护成本。
SelectDB:将 Doris 开源能力转化为云原生企业级服务
基于 Apache Doris 强大的开源内核,SelectDB 作为其商业化服务,将开源能力与云原生时代的企业级需求深度融合。SelectDB 不仅继承了 Doris 的全部技术优势,更提供了全托管运维、存算分离云原生架构、企业级安全防护以及 7×24 小时专业技术支持,无需投入研发资源自建运维,即刻拥有 Doris 的实时分析能力,加速业务创新。
- SelectDB Cloud:多云适配,支持阿里云、华为云、AWS 等平台以 SaaS 模式部署,并提供 BYOC(自带云)模式,满足数据合规与成本控制需求。
- 阿里云数据库 SelectDB 版:作为阿里云原生服务,与 VPC、RAM 权限、监控等云服务无缝集成,提供类似用户 VPC 内自建的网络体验与便捷管理。
同时,SelectDB 还提供了 Apache Doris 的企业级分发版,支持部署在物理机、虚拟机或 K8s 上,客户可在生产环境无忧使用 Apache Doris。
实时分析的三大范式

范式 1:面向内部的分析
- 面向内部的分析是公司监控运营、绩效和决策的核心系统。其价值演进正经历一场质变:从回答“发生了什么”(描述性分析),跨越到回答“我们应该做什么”(规范性分析)。

通过 Apache Doris 极速的即席查询与毫秒级数据同步,让一线团队基于最新数据动态调整策略。而原生支持的高级分析功能(如窗口函数、时序分析)则直接将数据转化为可执行的行动建议,帮助企业在复杂多变的业务中抢占先机。
典型业务场景
Apache Doris 所支持的内部业务场景几乎覆盖了企业核心价值链,并深入众多行业:从金融的市场数据分析和风险控制,到电商零售的实时库存管理;从外卖打车的订单追踪和热力图监控,到媒体社交的用户参与度分析;再到网络安全流量分析、供应链实时路线调整、物联网传感器数据处理……有实时数据分析需求的地方,就有 Doris 的身影。
典型场景可归纳为以下几类:
- BI 与实时仪表板:以 Doris 高并发、低延迟的聚合查询,驱动运营、销售、财务等部门的实时监控与决策。确保各级部门看到同一份最新数据。例如在电商大促中,销售团队可秒级查看 GMV、转化率与库存变化,并进行动态调整预算投入。
- 用户行为与产品分析:帮助产品团队跨维度分析用户点击、留存和转化漏斗,快速迭代产品功能。可通过 Doris 实时仪表盘立即看到各步骤流失率;若异常升高,可秒级回溯用户行为日志,实现从问题发现到根因定位的分钟级闭环。
- 广告技术与推荐分析:实时聚合广告曝光、点击与转化数据,分钟级捕获新素材效果。若点击率低于预期,系统可自动停止投放避免预算浪费;若转化率提升,则动态增加预算,实现收益最大化。
- 可观测性与日志分析:依托高性能倒排索引与向量化引擎,秒级别完成 TB 级日志的全文检索与运维分析。当服务报错,可实时关联多个服务的日志追踪 ID,快速定位到具体代码行与数据库操作,显著缩短故障平均恢复时间(MTTR),为 AIOps 奠定基础。
- 欺诈与风险分析:在金融风控中,Doris 实时获取交易记录、登录 IP、设备指纹等多源数据,在百毫秒内完成多维关联查询。系统即时生成风险评估,高于阈值则实时拦截交易,有效防止欺诈。
- 数据科学与特征聚合:Doris 为机器学习工作流提供快速特征计算,支持融合历史(如数天活跃数据)与实时(如分钟级操作频率)特征。Doris 支持快速增补特征,无需重算全量数据,大幅提升特征工程效率,加速模型构建与迭代。
客户声音
团队使用 SelectDB 进行电芯性能追溯,通过条形码完成追溯链路。该场景涉及多达 10 张表的复杂 JOIN,大表数据量可达 100 亿级。利用 Doris 的倒排索引及相关优化,查询性能相较原系统提升约 10 倍,显著提升供应链效率。
—— 比亚迪
面对大规模物流数据带来的分析挑战,Doris 的查询性能提升约 5–10 倍,并发能力翻倍;在仅使用约 1/3 资源的情况下,90% 的分析任务耗时由 10 分钟降至 1 分钟以内。这使申通快递能够更快发现并解决物流延迟问题。
—— 申通快递
Doris 在小米已广泛应用于广告增长分析、Dashboard 等场景,其中最大集群规模已扩展至 100 个节点,数据量达到 PB 级,稳定支撑核心业务。
—— 小米
范式 2:面向客户的分析
面向客户的分析,即通过服务化方式将实时洞察直接交付给客户,使其能自主感知业务状态与价值。这是 SaaS 平台实现数据能力产品化、驱动客户粘性增长的关键技术路径。
在该范式下,Doris 的实时分析优势直接转化为三大价值:提升客户体验与忠诚度、驱动营收增长,并构筑稳固的客户信任关系。
典型业务场景
- SaaS 分析仪表板:以营销自动化 SaaS 平台为例,其基于 Doris 构建实时仪表板,为数千家企业提供秒级刷新的邮件效果数据。相比过去 T+1 的延迟,如今可实时监测异常并快速响应,支撑高并发查询的同时,显著提升了客户数据体验与平台粘性。
- 物联网设备监控:工业 IoT 平台基于 Doris 实时监控设备状态(温度、振动、能耗),每秒处理数百万传感器数据,支持多维下钻。异常时秒级告警,可追溯历史趋势并远程干预,有效避免生产事故。
- 金融科技账户分析:一家金融科技公司基于 Doris 支持商户实时查询交易流水、对账单及风险分析,承载上万 QPS 高并发,确保余额与明细秒级刷新。风控拦截大额交易后,商户即时接收通知并在线处理,显著提升资金流转效率,强化平台竞争力。
客户声音
作为 Doris 的发源地,百度在其广告业务中主要用于支撑广告主仪表盘,使广告主可实时查看投放效果与消费数据。在该场景下,Doris 可承载上万 QPS 的查询,并实现亚秒级的数据新鲜度。
—— 百度
京东使用 Doris 替换 Flink 窗口计算系统,可处理每日约 100 亿行数据,并提供约 1 万 QPS 的查询能力,最低查询延迟约 150 毫秒。这表明在部分场景下,Doris 可通过标准 SQL 接口替代较复杂的流计算框架,帮助用户大幅度简化技术栈并提升数据开发效率。
—— 京东
范式 3:面向智能代理的分析
随着大语言模型和生成式 AI 的爆发,AI 代理(Agent)正从概念走向大规模落地。从智能客服、代码助手到自动化运维代理,它们正在重塑人与系统的交互方式。然而,AI 代理的智能边界,不仅取决于大模型本身,更取决于其感知环境、记忆历史与调用知识的能力。这正是实时分析的核心价值所在。
在这一范式下,Apache Doris 作为实时数据底座,深度赋能每一个智能环节:
- 实时感知:依托 Doris 亚秒级的数据摄入与更新能力,代理可基于最新数据做出响应。
- 记忆及知识增强:Doris 统一支持结构化数据、文本与向量,内置倒排索引与向量检索能力,使代理既能通过关键词检索历史交互(情景记忆),也能通过语义搜索企业知识库(语义记忆),在 RAG 链路中实现高效混合查询,从源头减少模型幻觉。
- Agent 可观测:Doris 以高性价比的日志处理能力(10 倍性价比于 Elasticsearch)支撑代理的可观测性,通过调用链追踪、行为指标与错误日志的实时分析,持续驱动代理行为优化。
典型业务场景
- 记忆场景:包括语义记忆与情景记忆。Doris 可存储文档与历史数据,作为知识库通过 RAG 方式检索并提供给模型。Doris 可存储 Agent 的历史行为经验与决策记录,用于改进后续决策,优化未来行为。
- 可观测场景:代理的大规模部署,运维团队需要监控的不再只是服务器指标,还有代理的“行为健康”。不仅适用于 Agent 可观测,在整体可观测场景中同样具备显著优势。
客户声音
- 记忆场景:
某企业建设 AI 客服代理。当客户询问“上个月发布的 3.0 版本中,向量搜索性能优化了多少,4.0 版本又如何”时,Agent 会先在 Doris 的情景记忆中检索该客户历史交互记录以获取上下文。随后 Agent 在 Doris 的语义记忆(知识库)中进行混合搜索,结合关键词检索(如“Doris 4.0”“向量搜索”“性能优化”)与向量检索(匹配语义相近但措辞不同的内部文档)。最终,Doris 将匹配到的文档及相关结构化数据返回给 Agent,Agent 基于这些信息将多模态融合数据提供给大模型,从而获得更准确的结果。
- AI 的可观测性:
国内上市大模型企业 MiniMax 日志系统从 Loki 迁移至阿里云数据库 SelectDB 版,用于管理大规模日志数据,同时保障高可用性与查询性能,并获得更优的成本收益。
—— MiniMax
腾讯音乐使用 Doris 作为统一的 OLAP 引擎,替换 ClickHouse 与 Elasticsearch,并在 Doris 上承载 ChatBI 业务,使 Doris 成为更灵活的智能数据服务平台。
—— 腾讯音乐
Doris 的向量索引能力有较大部分由字节跳动贡献。字节跳动基于 Apache Doris 在内部构建了 PB 级向量存储与混合检索服务,主要对外提供 RAG 能力。
—— 字节跳动
结束语
从内部运营优化,到客户体验提升,再到 AI 代理赋能,实时分析正从技术选项演变为企业生存的必备能力。它不再是单纯的数据处理速度竞赛,而是企业构建数据飞轮、实现智能决策的核心引擎。
Apache Doris 及其官方商业化版本 SelectDB,正是为这一时代需求而生。它们以极致的性能、丰富的场景覆盖和面向未来的 AI 增强能力,帮助企业将数据转化为即时行动,将洞察沉淀为竞争优势。
SelectDB 提供免费试用,您可在 SelectDB 官网、阿里云 SelectDB 版产品介绍页申请,体验全托管的 Doris 内核、云原生弹性与企业级 SLA——让数据即刻转化为行动,让洞察即刻沉淀为优势。
如果你想进行更深度的技术交流、了解更多产品资讯,欢迎扫描下方二维码,添加 SelectDB 小助手进行咨询。



