1、实验背景1.1实验目的掌握新建转换、添加组件、执行转换等 ETL 流程的基础操作方法熟练掌握表输入、记录集连接、字段选择、过滤记录、Excel 输出等常用组件的配置流程理解多表关联、数据过滤与分流处理的 ETL 设计思想与实现逻辑。通过本次实验的学习我们可以具备独立使用助睿平台完成常规数据加工任务的能力为后续复杂数据处理场景的实践奠定基础。1.2实验环境在线实验平台助睿零代码在线实验平台访问地址https://lab.guilian.cn/本次实验依托助睿数智Uniplore一站式数据科学平台开展。这个平台支持从数据接入、ETL 处理、机器学习建模到可视化展示的全流程零代码操作既能满足教学场景下的数据分析学习需求也能适配企业实际的数据加工工作产品官网地址为https://www.uniplore.com/数据库环境MySQL 数据库其中包含本次实验需要的订单数据和产品信息两张数据表基础数据准备订单表business_anaylsis.order_detail产品表business_anaylsis.product1.3业务场景在实际的企业经营分析中常常需要将多张表关联起来计算利润同时按照利润正负对订单进行分类存储。本实验以订单利润分流处理为案例借助助睿平台的零代码拖拽式操作完整复现这一数据加工流程。1.4数据加工流程大致的数据加工流程如下将订单明细表与产品信息表进行左外连接整合订单与产品的关联数据接着移除重复的 ID 字段完成数据清洗随后以 “利润是否≥0” 为条件对数据进行分流最终将盈利订单与亏损订单分别输出。2、实验步骤2.1登录实验平台在贵兰在线课程的学习页面中点击 “实验课 1助睿 ETL 入门实验” 模块。随后点击课程实训说明中的 “大数据实训平台” 入口即可跳转至实验平台地址https://lab.guilan.cn/开展助睿 ETL 入门实验。注册这个平台时需要在校园网环境。进入平台可以自动登录登录成功进入实验平台首页2.2基本概念了解助睿的数据集成平台就是一个用可视化拖拽方式做数据 ETL抽取、转换、加载的工具。平台里的几个核心概念可以这样理解2.3团队管理在该平台里我们可以创建实验小组的团队以便于我们管理团队实验作业。进入实验平台可以选择数据集成ETL进入数据集成页面。点击团队管理菜单点击新建团队。添加成功后可以添加成员2.4创建实验项目助睿平台提供默认项目可直接用于开展实验为便于课程相关数据与流程的统一管理建议为本次课程创建专属项目。创建时可将项目所属团队设置为 “计科23级商业数据分析小组”也可选择个人所属团队。新建项目后需要命名后确定。2.5同步数据源项目创建成功后点击项目右上角三个点点击打开项目。进入项目页面后左侧导航栏包含三大核心模块资源库、文件库与元数据管理各模块功能如下资源库用于工作流的全生命周期管理支持工作流的新建、删除、修改与信息查看同时提供工作空间的导入导出、调度管理等操作。文件库用于存储工作流执行所需的输入文件以及流程运行过程中生成的输出文件。元数据管理是数据集成的基础配置中心支持为工作流定义运行配置、数据库连接、Flink 集群等关键参数。首先获取本次的实验数据集点击‘元数据’右键根‘关系数据库’点击‘同步数据源’同步后会在界面上方出现同步成功。先点一下左侧的 “文件库”再切回 “元数据” 菜单就能看到已经同步好的 “线上公共数据源 (Readonly)” 数据库了。2.6新建转换流这一步我们要建一个叫 “订单利润分流处理” 的转换流把订单数据和产品信息关联起来再根据利润是正还是负把订单分成盈利和亏损两类分别导出成两个 Excel 文件。整体逻辑如下先读订单表和产品表 → 把两张表按产品 ID 连起来 → 删掉重复的 ID 字段 → 按利润是否≥0 把订单分成两类 → 分别导出盈利和亏损的订单数据各组件作用如下新建转换流先切换到资源库右键根目录点击‘新建转换流’输入转换流名字‘订单利润分流处理’点击‘确定即可’每次打开画布需要解锁点击图标解锁。2.7添加组件完成上面的操作后就可以开始向画布中添加所需要的操作组件。本实验以订单数据business_anaylsis.order_detail与产品信息数据business_anaylsis.product为数据源构建盈利订单与亏损订单的分流转换任务组件添加步骤如下1添加表输入插件为实现两类数据的合并与计算需添加 2 个表输入组件分别读取两张数据表。操作方法点击 “组件库”通过关键词搜索快速定位组件。在搜索框中输入 “表输入”即可找到并添加对应组件。把组件拖动到画布中即可。将两个表输入组件拖动到画布中右键表输入插件点击‘编辑组件’分别将表输入名称修改为‘订单_详细订单’和‘订单_产品信息’2添加记录集连接组件完成表输入组件的数据读取后需通过记录集连接组件实现两组数据的关联整合。操作方法在组件库搜索框中输入 “记录集连接”找到该组件并拖拽至流程画布中。连接这三个组件如图即可。在建立表输入组件与记录集连接组件的连接线时系统会弹出 “排序需要” 的提示。该提示的成因是记录集连接组件基于数据接收顺序进行记录关联若输入数据未按关联键排序将导致关联结果错误。因此必须确保输入记录集连接组件的数据已完成排序否则处理结果可能出错。3添加字段选择组件直接在组件库的搜索框里输入 “字段选择”把搜到的组件拖到画布上就可以了。订单表和产品表关联之后会出现两个一模一样的 “产品 ID” 字段留着会造成数据冗余我们需要用 “字段选择” 组件删掉多余的那一个。4添加过滤记录组件这次实验我们要按订单的利润情况把订单分成盈利和亏损两类而 “过滤记录” 组件的作用就是根据数据里某个字段的值把数据分成不同的流。5添加excel输出组件记录经过‘过滤记录’组件后会被分成2个记录流。我们根据业务需求把这两个记录流输出到指定位置文件、数据库表。在这一次的实验中我们选择将记录输出到Eecel文件中。操作步骤在搜索输入框中输入‘excel输出’将两个表拖入画布中。将两个excel输出组件分别命名‘盈利订单’和‘亏损订单’并连接过滤并记录组件到excel输出组件。连接时会弹出连接类型弹窗‘盈利订单’设置为‘True输出’表示满足过滤条件的记录输出。‘False输出’表示不满足过滤条件的记录输出。终于我们构建了一个完整的转换任务流程。2.8配置组件信息添加完组件我们还需要添加其配置。2.8.1表输入组件配置我们需要将数据传入进表输入组件。两个表配置类似。步骤第一双击‘订单_详细订单’。第二在数据库连接下拉框中选择已同步的‘线上公共数据源Readonly’第三点击‘获取SQL查询语句’自动生成SQL语句。第四点开‘线上公共数据源Readonly’-‘表’目录。第五下滑找到‘business_analysis.order_detail’选择并确定。最后在系统提示弹窗中点击‘确认’。另一个‘订单_产品信息’表输入也参考上述配置获取‘business_anaylsis.product’的SQL查询语句。2.8.2记录集连接组件配置配置‘记录集连接’组件第一双击记录集连接组合第一个Transform选择订单_详细订单第二个Transform选择订单_产品信息选择LEFT OUTER。第二点击第一个Transform的连接字段中的‘获得连接字段’按钮第二个Transform同理。第三第一个Transform字段保留product_id第二个Transform字段保留id选择LEFT OUTER表示两个表按照这两个字段进行左连接。2.8.3字段选择组件配置连接两个表后我们发现字段‘product_id’和字段‘id’内容相同所以我们只需要保留一个所以我们需要字段选择组件来移除其中一个字段。操作步骤第一双击‘移除产品ID_1字段’字段选择组件点击‘移除’并点击‘获取字段’。2.8.4过滤记录组件配置因为数据需要筛选为两个输出数据所以需要将两个订单表进行分流。操作步骤第一双击‘过滤记录’组件配置图如下。2.8.5Excel输出组件配置双击‘盈利订单’excel表输出组件在配置弹窗中文件名修改为‘盈利订单’选择文件扩展名‘xlsx[Excel 2007 and above]’。点击‘输出字段’在空白表格处右键点击‘获取字段’字段获取后点击‘确认’。‘亏损订单’也同样配置。2.9执行转换2.10查看执行日志2.11查看结果3、实验结果可以看见在盈利订单中profit0亏损订单profit0。4、核心组件说明5、实验说明通过本次实验我们熟悉了该平台的基本使用方法包括创建项目、同步数据源、新建转换流、添加和配置组件、执行转换以及查看结果。与传统编写 SQL 或脚本的数据处理方式相比助睿平台的零代码拖拽式操作更为直观高效组件间的数据流向清晰可追溯对于初学者来说降低了调试难度。这种可视化的处理方式有效降低了 ETL 技术的学习门槛。