目录第一章 数据采集 — 把数据“拿”进来1.1 数据采集工具全景概览1.2 核心工具详解1.2.1 Flink CDC — 实时数据库变更捕获1.2.2 DataX — 离线批量数据同步1.2.3 SeaTunnel — 新一代高性能数据集成1.2.4 Flume — 海量日志采集1.2.5 Filebeat — 轻量级日志采集1.2.6 商业/云服务方案1.3 选型对比总览1.4 选型建议第二章 消息队列 — 数据的“高速传输动脉”2.1 为什么需要消息队列?2.2 核心工具详解2.2.1 Kafka — 大数据流处理的事实标准2.2.2 Pulsar — 云原生时代的挑战者2.2.3 其他消息队列方案2.3 选型建议第三章 分布式存储 — 海量数据“放哪里”3.1 核心工具详解3.1.1 HDFS — 大数据存储的“奠基者”3.1.2 MinIO — 高性能对象存储3.1.3 其他存储方案第四章 数据湖表格式 — 让数据湖“有秩序”4.1 核心工具详解4.1.1 Apache Iceberg — 读密集型场景的优选4.1.2 Apache Hudi — 流式写入场景的强者4.1.3 Delta Lake — Spark生态深度集成第五章 计算引擎 — 让数据“动”起来5.1 核心工具详解5.1.1 Spark—大数据计算的“瑞士军刀”5.1.2 Flink — 实时流计算的“武林高手”5.1.3 其他计算引擎5.2 选型建议第六章 数据仓库与OLAP分析 — 让查询“快”起来6.1 核心工具详解6.1.1 ClickHouse — 列存性能的极致追求者6.1.2 Apache Doris — 简单易用的实时分析数据库6.1.3 StarRocks —极速查询的新一代MPP引擎6.1.4 其他OLAP方案第七章 数据服务 — 让数据“活”起来7.1 数据API服务工具7.1.1 核心工具详解7.1.2 商业/云服务方案7.2 向量数据库 — AI时代的“语义搜索引擎”7.3 数据可视化服务7.4 知识图谱——让数据“关联”起来第八章 任务调度——让一切“自动”运转8.1 核心工具详解8.1.1 DolphinScheduler — 国产分布式调度明星8.1.2 Airflow — Python定义工作流的标杆8.1.3 其他调度方案第九章 数据治理 — 让数据“可信、可控、可用”9.1 数据治理三大支柱9.2 元数据管理平台详解\9.2.1 DataHub — 实时元数据管理的领导者9.2.2 OpenMetadata — 轻量化元数据管理新星9.2.3 Apache Atlas — Hadoop生态的老牌治理工具9.2.4 其他治理工具第十章 云服务厂商大数据平台 — 一站式的“交钥匙”方案10.1 国内主流云厂商大数据平台10.1.1 阿里云