【AI大数据工程师特训笔记】第15讲：大数据技术栈全景详解

张

张建站

2026/6/1 14:20:35

10分钟阅读

目录第一章数据采集 — 把数据“拿”进来1.1 数据采集工具全景概览1.2 核心工具详解1.2.1 Flink CDC — 实时数据库变更捕获1.2.2 DataX — 离线批量数据同步1.2.3 SeaTunnel — 新一代高性能数据集成1.2.4 Flume — 海量日志采集1.2.5 Filebeat — 轻量级日志采集1.2.6 商业/云服务方案1.3 选型对比总览1.4 选型建议第二章消息队列 — 数据的“高速传输动脉”2.1 为什么需要消息队列？2.2 核心工具详解2.2.1 Kafka — 大数据流处理的事实标准2.2.2 Pulsar — 云原生时代的挑战者2.2.3 其他消息队列方案2.3 选型建议第三章分布式存储 — 海量数据“放哪里”3.1 核心工具详解3.1.1 HDFS — 大数据存储的“奠基者”3.1.2 MinIO — 高性能对象存储3.1.3 其他存储方案第四章数据湖表格式 — 让数据湖“有秩序”4.1 核心工具详解4.1.1 Apache Iceberg — 读密集型场景的优选4.1.2 Apache Hudi — 流式写入场景的强者4.1.3 Delta Lake — Spark生态深度集成第五章计算引擎 — 让数据“动”起来5.1 核心工具详解5.1.1 Spark—大数据计算的“瑞士军刀”5.1.2 Flink — 实时流计算的“武林高手”5.1.3 其他计算引擎5.2 选型建议第六章数据仓库与OLAP分析 — 让查询“快”起来6.1 核心工具详解6.1.1 ClickHouse — 列存性能的极致追求者6.1.2 Apache Doris — 简单易用的实时分析数据库6.1.3 StarRocks —极速查询的新一代MPP引擎6.1.4 其他OLAP方案第七章数据服务 — 让数据“活”起来7.1 数据API服务工具7.1.1 核心工具详解7.1.2 商业/云服务方案7.2 向量数据库 — AI时代的“语义搜索引擎”7.3 数据可视化服务7.4 知识图谱——让数据“关联”起来第八章任务调度——让一切“自动”运转8.1 核心工具详解8.1.1 DolphinScheduler — 国产分布式调度明星8.1.2 Airflow — Python定义工作流的标杆8.1.3 其他调度方案第九章数据治理 — 让数据“可信、可控、可用”9.1 数据治理三大支柱9.2 元数据管理平台详解\9.2.1 DataHub — 实时元数据管理的领导者9.2.2 OpenMetadata — 轻量化元数据管理新星9.2.3 Apache Atlas — Hadoop生态的老牌治理工具9.2.4 其他治理工具第十章云服务厂商大数据平台 — 一站式的“交钥匙”方案10.1 国内主流云厂商大数据平台10.1.1 阿里云

从“知道“到“做到“：小白程序员轻松上手大模型，收藏必备！

本文旨在帮助初学者迈出使用AI大模型的第一步，消除对AI的误解，强调AI作为“第二大脑”的工具属性，而非“第一大脑”。文章提出通过问一个简单问题开始，并给出最小行动计划，即选择一个AI工具、问一个简单问题、将AI答案…...

2026/6/1 14:19:23 阅读更多 →

ESP8266硬件调试与PCB返修实战：从逻辑探针到移位寄存器扩展

1. 项目概述：从PCB返修到嵌入式系统搭建如果你玩过一阵子电子制作，大概率会遇到这种情况：精心设计的电路板焊接好了，上电测试，结果某个LED不亮，或者某个按键没反应。更常见的是，在原型开发阶段&…...

2026/6/1 14:19:17 阅读更多 →

从手机拆解到BOM理解：手把手教你用KiCad或Altium Designer创建你的第一个PCB物料清单

从手机拆解到BOM实战：用KiCad/Altium Designer构建专业级物料清单拆开一部智能手机，你会看到精密排列的电路板上布满了形态各异的电子元件——这正是物料清单（BOM）的物理呈现。作为硬件设计的DNA，BOM不仅记录着每个元件…...

2026/6/1 14:18:49 阅读更多 →

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…...

2026/5/31 0:02:01 阅读更多 →

Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构

更多请点击： https://intelliparadigm.com 第一章：Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构信号一：核心基础设施层API调用量连续8周突破临界阈值 Lindy平台的 /v2/execute与 /v3/plan端…...

2026/6/1 0:20:41 阅读更多 →

【AI工具智能排行榜TOP10】：2024年实测数据驱动的生产力跃迁指南（仅限本周开放下载）

更多请点击： https://kaifayun.com 第一章：AI工具智能排行榜TOP10的底层逻辑与评估范式 AI工具排行榜并非主观评分的产物，而是由多维可量化指标驱动的系统性工程。其核心在于构建一个兼顾能力广度、推理深度、工程鲁棒性与生态协同性的评估范…...

2026/6/1 2:44:39 阅读更多 →

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. This is the only official source! 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager BG3ModManager是专为《博德之…...

2026/5/31 0:17:22 阅读更多 →