基于助睿平台的学生用户画像考勤主题标签构建实验背景1.1 实验目的本次实验旨在设计并实现一个学生多维度考勤统计的助睿ETL转换流。通过该实验掌握以下技能并完成以下任务掌握ETL数据处理全流程包括数据接入、多表关联、衍生字段生成、聚合统计及结果输出。解决实际问题替代人工Excel统计统一考勤统计口径提升效率避免统计口径不一致的问题。优化空值处理逻辑结合实际数据情况设计合理的空值替换策略确保转换流可稳定运行。输出精准统计结果生成多维度考勤指标为校园考勤管理提供数据支撑。1.2 实验环境实验平台助睿数智Uniplore一站式数据科学实验平台登录地址https://lab.guilian.cn/平台官网https://www.uniplore.com/数据库MySQL实验数据“数智教育”大赛数据集共包含7张核心业务表本次实验聚焦考勤记录表3_kaoqin.csv、考勤类型表4_kaoqintype.csv、学生基本信息表2_student_info.csv1.3 处理流程简述数据接入。将考勤记录表3_kaoqin、考勤类型表4_kaoqintype、学生基本信息表2_student_info三张核心表接入助睿ETL平台。多表关联。对考勤记录表与考勤类型表按考勤类型ID进行左外连接补充考勤事件标准化名称再将结果与、学生基本信息表按学生ID进行左外连接补充学生基础属性信息。标签衍生。从班级名称中提取年级、判断校区类型映射是否住校字段。指标计算。按学生维度聚合统计迟到次数、早退次数、请假次数、没穿校服次数。字段整理。移除连接后产生的重复字段保留学生ID、姓名、班级、性别、出生日期、政治面貌等基础属性以及四项考勤行为统计指标。结果输出。将多维度考勤统计结果输出到目标表或Excel文件中。实验步骤2.1创建实验项目点击“新建项目”输入项目名称“学生用户画像标签构建”点击“确定”。2.2 数据资源获取点击该项目右上角“…”点击“打开项目”。2.2.1获取实验数据集点击“文件库”右键根目录点击“新建目录”。输入目录名称为“数智教育数据集”点击“确定”。点击“公共空间”。点击“数据资源”点击“3_kaoqin.csv”卡片右上角的“更多”并点击“导出”。在弹出的窗口中选择导出到刚刚新创建的目录下。点击“确定”。重复以上操作将本次实验用到的数据表4_kaoqintype.csv和 2_student_info.csv都导出到“数智教育数据集”。2.2.2建立数据源连接点击“元数据”右键关系数据库右键点击“新建数据源”。连接类型选择“MySQL”填入用户名和密码。服务器主机名使用“rm-2vc3qok06bag39a5n.mysql.cn-chengdu.rds.aliyuncs.com”端口号为3306数据库名为“cs_group_9”驱动类型选择“MySQL 8”连接名称为“团队私有数据库”。最后点击“添加”。2.2.3原始考勤记录表数据导入点击“资源库”右键根目录点击“新建转换流”。输入转换流名称“创建原始_学生考勤表”点击“确定”。点击锁形图标解锁画布。点击“组件库”搜索“执行一个SQL脚本”将其拖入右侧画布。数据库连接选择“团队私有数据库”在组件中填写SQL脚本点击“确认”。点击三角形图标运行转换流。点击“启动”。运行过程会定时刷新组件状态并显示执行日志。点击“资源库”右键根目录点击“新建转换流”。输入转换流名称“导入原始考勤数据”。点击“确认”。点击锁形图标解锁画布。点击“组件库”搜索“CSV文件输入”将其拖入右侧画布。双击CSV文件输入组件在步骤名称中输入“考勤记录”。编码选择“UTF-8”。点击“浏览文件”。选择“3_kaoqin.csv”点击“确定”。在字段表格中空白处右键点击“获取字段”。最后点击“确认”。点击“组件库”搜索“表输出”将其拖入右侧画布。创建“考勤记录”CSV文件输入组件到“表输出”组件的连线。连线类型选择“主输出步骤”。双击“表输出”组件数据库连接选择“团队私有数据库”目标表输入我们使用SQL组件创建的“raw_attendance”。勾选“裁剪表”和“指定数据库字段”。点击“数据库字段”在空白处右键“获取字段”将表字段修改为建表语句中对应的字段点击“确认”点击三角形图标运行转换流。点击“启动”。运行过程会定时刷新组件状态并显示执行日志。2.2.4原始考勤类型表数据导入点击“资源库”右键根目录点击“新建转换流”。输入转换流名称“创建原始_考勤类型表”点击“确定”。点击锁形图标解锁画布。点击“组件库”搜索“执行一个SQL脚本”将其拖入右侧画布。数据库连接选择“团队私有数据库”在组件中填写SQL脚本点击“确认”。点击三角形图标运行转换流。点击“启动”。运行过程会定时刷新组件状态并显示执行日志。点击“资源库”右键根目录点击“新建转换流”。输入转换流名称“导入原始考勤类型数据”。点击“确认”。点击锁形图标解锁画布。点击“组件库”搜索“CSV文件输入”将其拖入右侧画布。双击CSV文件输入组件列分隔符为“插入制表符TAB”。编码选择“GB2312”。点击“浏览文件”。选择“4_kaoqintype.csv”点击“确定”。在字段表格中空白处右键点击“获取字段”。最后点击“确认”。点击“组件库”搜索“表输出”将其拖入右侧画布。创建CSV文件输入组件到“表输出”组件的连线。连线类型选择“主输出步骤”。双击“表输出”组件数据库连接选择“团队私有数据库”目标表输入我们使用SQL组件创建的“raw_attendance_type”。勾选“裁剪表”和“指定数据库字段”。点击“数据库字段”在空白处右键“获取字段”将表字段修改为建表语句中对应的字段点击“确认”点击三角形图标运行转换流。点击“启动”。运行过程会定时刷新组件状态并显示执行日志。2.2.5原始学生基本信息表数据导入点击“资源库”右键根目录点击“新建转换流”。输入转换流名称“创建原始_学生信息表”点击“确定”。点击锁形图标解锁画布。点击“组件库”搜索“执行一个SQL脚本”将其拖入右侧画布。数据库连接选择“团队私有数据库”在组件中填写SQL脚本点击“确认”。点击三角形图标运行转换流。点击“启动”。运行过程会定时刷新组件状态并显示执行日志。点击“资源库”右键根目录点击“新建转换流”。输入转换流名称“导入学生基本信息数据”。点击“确认”。点击锁形图标解锁画布。点击“组件库”搜索“CSV文件输入”将其拖入右侧画布。双击CSV文件输入组件。编码选择“UTF-8”。点击“浏览文件”。选择“2_student_info.csv”点击“确定”。在字段表格中空白处右键点击“获取字段”。将“bf_leaveSchool”的字段类型修改为“String”。最后点击“确认”。点击“组件库”搜索“字段选择”将其拖入右侧画布。创建CSV文件输入组件到“字段选择”组件的连线。连线类型选择“主输出步骤”。双击“字段选择”组件点击“元数据”并在空白处插入2行。设置“bf_zhusu”、“bf_qinshihao”字段的元数据。最后点击“确认”。点击“组件库”搜索“表输出”将其拖入右侧画布。创建“字段选择”组件到“表输出”组件的连线。连线类型选择“主输出步骤”。双击“表输出”组件数据库连接选择“团队私有数据库”目标表输入我们使用SQL组件创建的“raw_student_info”。勾选“裁剪表”和“指定数据库字段”。点击“数据库字段”在空白处右键“获取字段”将表字段修改为建表语句中对应的字段点击“确认”点击三角形图标运行转换流。点击“启动”。运行过程会定时刷新组件状态并显示执行日志。2.2.6创建学生考勤主题标签表点击“资源库”右键根目录点击“新建转换流”。输入转换流名称“创建学生考勤主题标签表”点击“确定”。点击锁形图标解锁画布。点击“组件库”搜索“执行一个SQL脚本”将其拖入右侧画布。数据库连接选择“团队私有数据库”在组件中填写SQL脚本点击“确认”。点击三角形图标运行转换流。点击“启动”。运行过程会定时刷新组件状态并显示执行日志。2.3 学生考勤主题标签构建2.3.1数据接入获取考勤记录、考勤类型数据、学生信息数据点击“资源库”右键根目录点击“新建转换流”。输入转换流名称“学生考勤主题标签”点击“确定”。点击锁形图标解锁画布。点击“组件库”搜索“表输入”拖拽3个表输入组件至画布中。双击第一个表输入组件步骤名称修改为“考勤记录”数据库连接选择“团队私有数据库”并点击“获取SQL查询语句”。在数据库中选择“raw_attendance”原始_学生考勤表。点击“确定”。在系统提示弹窗中点击“确认”。按以上步骤将“表输入 1”和“表输入 2”组件分别命名为“考勤类型”和“学生信息”分别获取考原始_考勤类型表raw_attendance_type和原始_学生信息表raw_student_info所有字段数据。2.3.2数据关联关联考勤记录考勤类型点击“组件库”搜索“排序记录”将其拖入右侧画布。创建“考勤记录”CSV文件输入组件到“排序记录”组件的连接线。双击“排序记录”组件在字段表格中空白处右键点击“获取字段”。选中多余字段删除多余字段。只保留“attendance_type_id”、“attendance_task_order_id”字段。最后设置步骤名称为“按照考勤类型和考勤任务类型排序”点击“确认”。点击“组件库”搜索“记录集连接”将其拖入右侧画布。创建排序记录组件到记录集连接组件的连接线。创建“考勤类型”表输入组件到记录集连接组件的连接线。双击记录集连接组件第一个Transform选择“按照考勤类型和考勤任务类型排序”第二个Transform选择“考勤类型”连接类型选择LEFT OUTER。点击“获得连接字段”选中多余字段删除多余字段。2个Transform字段中仅保留“attendance_type_id”、“attendance_task_order_id”字段。最后点击“确认”。2.3.3行为标签衍生统计学生异常考勤次数点击“组件库”搜索“Java Script代码”将其拖入右侧画布。创建记录集组件到“Java Script代码”组件的连接线。双击“JavaScript代码”组件命名为“提取异常考勤记录”在Script1中输入JavaScript脚本。点击“获取变量”。最后点击“确认”。2.3.4多维度分组聚合统计点击“组件库”搜索“分组”将其拖入右侧画布。创建“提取异常考勤记录”组件到分组组件的连线。连线选择“主输出步骤”。双击“分组”组件设置分组字段为“stu_id”、“stu_name”、“cla_id”、“cla_name”。设置聚合字段为“late_count”、“early_count”、“leave_count”、“no_uniform_count”。2.3.5关联学生信息点击“组件库”搜索“排序记录”将其拖入右侧画布。建立“学生信息”表输入组件到“排序记录”组件的连接线。双击“排序记录”组件通过“获取字段”功能获取字段列表然后删除多余字段只保留“stu_id”字段。最后设置步骤名称为“按照学生编号进行排序”点击“确认”。拖拽“记录集连接”组件至画布中创建“按照学生编号进行排序”排序记录组件到“记录集连接 1”组件的连接线。拖拽“排序记录”组件至画布中创建“分组”组件到“排序记录”组件的连接线。双击“排序记录”组件通过“获取字段”功能获取字段列表然后删除多余字段只保留“stu_id”字段。最后设置步骤名称为“按照学生编号进行排序”点击“确认”。创建“考勤记录按学号排序”组件到“记录集连接 1”组件的连接线。创建“按照学生编号进行排序”组件到“记录集连接 1”组件的连接线。双击记录集连接 1组件第一个Transform选择“考勤数据按学号排序”第二个Transform选择“按照学生编号进行排序”连接类型选择LEFT OUTER。点击“获得连接字段”删除多余字段只留下“stu_id”。点击“确认”。2.3.6字段选择移除冗余字段拖拽“字段选择”至画布中创建“记录集连接 1”组件到字段选择组件的连接线。双击“字段选择”组件点击“移除”点击“获取字段”。删除“stu_id”、“stu_name”、“cla_id”、“cla_name”、“late_count”、“early_count”、“leave_count”、“no_uniform_count”、“stu_sex”、“born_date”、“policy”、“live_on_campus”字段点击“确认”。2.3.7空值处理拖拽“替换NULL值”组件至画布创建“移除冗余字段”字段选择组件到“替换NULL值”组件的连线。连线类型选择“主输出步骤”。双击“替换NULL值”组件勾选“选择字段”插入“stu_sex”、“born_date”、“policy”、“live_on_campus”字段将其空值均替换为“未知”。点击“确认”。2.3.8住校状态映射拖拽“值映射”组件到画布中并创建替换NULL值组件到值映射组件的连线。连线选择“主输出步骤”。双击“值映射”组件步骤名称改为“住校状态映射”使用的字段名为“live_on_campus”不匹配时的默认值为“否”。插入两行一行在源值中输入“0”目标值输入“否”。一行在源值中输入“1”目标值输入“是”。点击“确认”。2.3.9从班级名提取年级拖拽“JavaScript代码”组件至画布中创建住校状态映射组件到JavaScript代码组件的连线。连线选择“主输出步骤”。双击“JavaScript代码”组件步骤名称改为“从班级提取年级”在Script1中输入JavaScript脚本。空白表格处右键点击“插入”字段名称输入“gra_name”类型为“String”替换“字段名”或“重命名”值选择“否”设置完成后点击“确认”。2.3.10校区类型判定拖拽“JavaScript代码”组件至画布中创建“从班级提取年级”组件到JavaScript代码组件的连线。连线选择“主输出步骤”。双击“JavaScript代码”组件步骤名称改为“校区类型判定”在Script1中输入JavaScript脚本。空白表格处右键点击“插入”字段名称输入“class_campus_type”类型为“String”替换“字段名”或“重命名”值选择“否”设置完成后点击“确认”。2.3.11结果入库拖拽表输出组件至画布并创建“校区类型判定”“JavaScript代码组件到表输出组件的连线。双击表输出组件选择“团队私有数据库”连接目标表选择“student_attendance_stats”勾选裁剪表和指定数据库字段。点击“数据库字段”右键选择“获取字段”双击表字段中的字段名称在下拉框中选择正确的对应字段。2.3.11执行工作流点击三角形图标执行转换工作流。点击“启动”。成功执行后可以查看日志界面。点击“元数据”在“团队私有数据库”连接上右键选择“加载元数据”。点击“数据探查”展开“团队私有数据库”双击目标表“student_attendance_stats”在右侧页面点击“查询”即可查看最终结果。实验结果3.1 输出数据展示3.2结果分析与验证本次实验成功生成学生考勤统计标签表核心字段包括 student_id学号、student_name姓名、class班级、grade年级、campus_type校区类型、is_boarder是否住校、late_count迟到次数、early_count早退次数、leave_count请假次数、uniform_violation未穿校服次数。学生基础属性和考勤行为标签都成功完成了相应的标准化处理。问题与解决问题一表输出的部分表字段和流字段不匹配解决方法在配置表输出组件时要建立工作流字段与数据库表字段的映射关系我在下拉框中选择了错误的对应字段。最后通过查看创建学生考勤主题表签表的SQL脚本找到了正确的对应字段。实验总结本次实验让我掌握了助睿平台的全流程数据处理能力从项目创建、多数据源接入到数据关联、清洗衍生、聚合统计与结果输出成功完成了将原始数据转换为标准化学生考勤标签。我理解并掌握了空值处理、字段映射、关键词匹配等数据清洗技巧同时建立了从校园考勤业务需求出发通过数据手段解决人工统计效率低、口径不统一问题的工程思维为后续数据科学项目奠定了基础。助睿平台凭借零代码可视化操作大幅降低了ETL学习门槛其全链路数据处理功能与教学友好的项目管理、日志查看机制完美支撑了本次实验的开展。平台在易用性与稳定性上表现突出能高效完成从数据到标签的转化