2023级大数据与学习分析课堂笔记
第一次课1.数据分析用适当的统计分析方法对收集来的大量数据进行分析提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。2.数据挖掘从大量的数据中通过算法搜索隐藏于其中信息的过程是数据库知识发现中的一个步骤。3.数据仓库为企业的决策制定提供所有类型数据支持的战略集合。它是单个数据储存出于数据分析和决策支持目的而创建。为需要业务智能的企业提供业务流程改进、成本质量控制等方面的指导。4.大数据特性理解规模大、多样化、高速性、价值化、准确性、动态性、可视化、合法化5.大数据的定义1大数据是指无法在一定时间内用来常规模软件工具对其内容进行抓取、管理和处理的数据集合2数量大、获取速度快、体量大、快速和多样化的信息资产需用高效率和创新型的信息技术加以处理以提高发展洞察、做出决策和优化流程能力。6.数据挖掘的任务描述性刻画目标数据中数据的一般性质预测性对当前数据分析进行归纳以便预测7.聚类K-Means1选择K个点作为初始质心2将每个点指派到最近的质心形成K个簇 重新计算每个簇的质心3直到质心不发生改变8.关联规则目的分析变量之间的依赖关系9.分类10.回归场景假设你们是一位老师教一门课《科学与技术》学期到一半的时候期中考试。根据你已经拿到的信息提前识别期末的时候那些同学会不及格。对于预测出来不会及格的同学谈话辅导叫家长.1.问题定义目标预测学生期末考试及格还是不及格特点这是不是一个典型一分美问题。Logistic回归正是解决这关问题的经典算法。2.收集数据上一届学生的期中成绩数据以及期末成绩3.LOgiStiC回归在做什么会尝试画一条直线直接预测及格1不及格0但是这会产生大于1和小 0的数。Logisic回巧妙之处在于他先计算一个数然后通过一个特妹的sigmoid函数将这个分数转换为一个0道1之间的数。公式逻辑1. 计算加权和2%oh*MidB *guegincshuZaD*期中考试成绩C”缺勤次数线性回归思想一样给每个待征值乘以一个系数权重2转换为概率这个公式将任何效值的z都压缩的道0.1区问内输出可以解读的考试通过的概率4.模型训练我们将数据输入SPSS或Python代码里面进行Logistic回归训练后模型会计算出最佳系数a,D.C假设结果如下截距项a-5.5期中成绩的系数b0.1缺勒次数的系数C-1.2模型解读期中成绩的系数是正数说明期中成绩越高通过考试的几率越大。缺勤次数的系数是负数说明缺勤次数越多通过考试的概率越小。而且这个系数的绝对值更大意味着在当前系数中缺勤对于不及格的影响比期中成绩的影响更大。5.进行预期现在对自已班级学生的数据进行预测学生a特征期中成绩50缺勤次致2带入2-5.50.1*期中考试成绩-1.2*缺勤次数2-29结果a同学通过考试的概率只有5.2%如果概率没有大于50那么模型预测a同学不会及格。学生D特征期中成绩80缺動次数1第三次课1.大数据多维度多维度多角度、多特征、多属性一起分析。3.初始数据存在杂乱性不完整本应记录的数据项为空值或缺失。含噪声数据中存在错误值、异常值或者干扰信息。杂乱性数据格式不统、命名不规范、存在重复记录或语义冲突。4.数据预处理数据预处理Date Preprocessing是指对数据进行挖掘之前要做的一些处理包括对原始数据进行抽取、清洗、集成、转换、加载、离散和归约等一系列处理以达到数据挖 算法对数据要求的最低标准。一般来说数据预处理的步骤包括数据清洗、数据集成、“数据奕换、数据规约每个步骤又有一些小的细分点但在做数据预 处理时这四个步骤未必都要执行。第四次课数据变换数据变换就是被数据转化成适当的形式满足软件或分析理论的需要。数据变换策略包括光滑、聚集、数据泛化、属性构造、简单函数变换、规范化和连续属性离散化等。• 光滑所谓光滑简单来说就是去掉数据中的噪声噪声是被测量的变量的随机误差或方差。数据光滑技术包括分箱、回归和聚类等。1. 光滑Smoothing例子某学生一学期的数学测验成绩分别为78、85、60、92、88.为了消除单次考试失常的噪声采用移动平均法计算连续三次成绩的均值第一次788560/3~74.3第二次856092/379第三次609288/380.光滑后的序列74.3,79,80更能反映学生的稳定水平。2.聚集Aggregation例子学校需要统计各年级的平均成绩。将全校所有学生的考试成绩按“年级“分组计算每个年级的平均分、最高分和最低分从而将数千条个体数据汇总为几个年级的统计指标。3. 数据泛化Generalization息例子在学生画像中原始数据记录了每个学生的具体年龄如7岁、8岁、9岁....。为了分析不同学段的学习特点将年龄泛化为概念层6-8岁归为”低年级“9-11岁归为“中年级”12-14岁归为“高年级”。4. 属性构造 Attribute Construction例子根据学生的“作业提交时间”和“作业截止时间”构适一个新属住“提交提前量”截止时间减去提交时间单位为小时。这个新属性可以帮助分析学生的拖延程度与成绩的关系。5. 简单函数变换 Simple Funcion Transformation例子菜次期末考试的成绩分布严重右偏冬数学生分数集中在低分段•为了满足后续统计分析如t检验对正态性的要求对成绩取自然对数变换后的数据更接近正态分布.6.规范化Normalization例子在综合评价学生时需要将“期末成绩”0-100分和“课堂互动次数”0-50次两个指标合并。为了消除量纲影响采用最小-最大规范化将两个指标都映射到0,1区间再技权重求和得到综合评分。7.连续属性离散化Discretization例子将学生的考试成绩0-100的连续值划分为离散等级优秀≥90、良好75-89、及格60-74、不及格60。这样便于进行等级评定和规则挖掘如关联规则“数学优秀一物理良好”分箱通过考察数据周围的值来光滑有序数据的值。回归通过用一个函数如回归函数拟合来光滑数据。聚类通过聚类检测离群点再将类似的值组织成群或“簇”通常将落在簇集合之外的值视为离群点。第五次课数据规约数据规约是指在尽可能保持数据原貌的前提下最大限度地精简数据量。数据规约能够降低无效错误的数据对建模的影响缩减处理时间缩小存储数据的空间。数据规约分为属性规约、数值规约。数据规约举例一、属性规约减少列/特征定义通过选择或组合原有属性减少数据表中的字段列数里同时保留原始数据的主要信息。例子1特征选择删除无关属性例子2特征提取主成分分析某在线学习严台记录了学牛100种学习行为观看视频时长、暂停次数、快进次数、发帖数、回帖数.…。二、数值规约减少行/数据量定义通过选择营代的、较小的数据表示形式减少数据记录的条数或数据的精度。例子1抽样减少行数某市教育局需要分析全市50万名中小学生的体质健康数据.数值规约操作采用分层抽样按年级、性别、城乡分层从50万名等生中抽取5000名代表1%进行分析。效果分析数据量从50万行减少到5000行处理时间从几天缩短到几小时分析结论与全量数据基本一致。例子3聚类块用中心点代替群体某在线教育平台有10万名活跃用户需要分析不同学习风格群体。数值规约操作先用K-Means算法将10万用户聚成5类然后只存储5个聚类中心点每个中心的特征向量和每个类包含的用户数量不再存储每个用户的原始数据。列名含义Gender性别。通常为分类变量如“男”“女”Nationality国籍学生所属的国籍类别PlaceofBirth出生地。学生的出生地点通常与国家地域相关StageID教育阶段标识。表示学生当前所处的学段例如小学、初中、高中等GradeID年级标识。具体年级如G1、G2 或对应某个年级的编码SectionID班级/组别标识。同一学年的不同班级或教学班。Topic课程主题学科。正在学习的课程名称如数学、语文、科学等。Semester学期。第一学期或第二学期。Relation学生与监护人的关系。例如父母、祖父母、其他亲属等。RaisedHands举手次数。学生在课堂上的举手互动次数数值型VisitedResources访问课程资源的次数。学生登录或浏览教学资源如在线材料的次数。AnnouncementsView查看公告的次数。学生查看学校或课程通知的次数。Discussion课堂讨论参与情况。可能是参与讨论的次数或是否参与的标识。ParentAnsweringSurvey家长是否回应调直问卷。通常为二元变量是/否表示家长是否完成了学校调查。ParentSchoolSatisfaction家长对学校的满意度。等级变量如好、一般、差或数值评分StudentAbsenceDays学生缺勤天数。统计该学生在统计周期内缺席的总天数通常按“少于7天“7天以上等分类Class最终分类标签/成绩等级。表示学生的学业表现或结果类别例如低、中、高或是否表现优异1.缺失值丢失处理一、实验背景与目的实验背景在教育大数据与学习分析课程中我们常需处理真实世界中的不完整数据集。本实验使用教师提供的“演示数据集 (1).xlsx”该数据集包含学生的学习行为、家庭背景、成绩表现等多维字段。实验目的识别并处理数据集中的缺失值保证数据质量为后续建模与分析提供干净、可靠的数据基础二、操作前的分析1.缺失值识别SectionID有效记录数为 483总记录数 484说明存在 1 条缺失。Topic有效记录数为 483说明也存在 1 条缺失。其他字段如Gender、Nationality、RaisedHands等有效记录数均为 484说明无缺失2.缺失值类型与分布缺失值数量极少仅 2 条记录存在缺失。缺失字段为SectionID和Topic属于分类变量不适合用均值/中位数填补。缺失记录占总记录比例极低0.5%删除后对整体数据影响极小。3.为什么选择“丢弃”而不是填补方法是否适用理由删除丢弃✅ 适用缺失比例极低删除不会影响样本代表性填补如众数、均值❌ 不适用分类变量填补可能引入偏差且缺失值少没必要模型预测填补❌ 不适用过于复杂收益低结论采用“丢弃”法是最合理、最简洁的缺失值处理策略。三、操作步骤1.导入数据2.数据审核3.缺失值处理丢弃法4.执行与输出四、丢弃后的效果图分析处理前原始数据审核字段有效记录数缺失数缺失率SectionID48310.21%Topic48310.21%其他字段48400%处理后丢弃后所有字段有效记录数均为480。若删除两条存在缺失的记录则总记录数变为482。数据完整性100%。分析结论丢弃缺失记录后数据集不再包含任何缺失值数据完整性显著提升。虽然样本量略微减少从 484 → 480但对整体分布、统计特征如均值、标准差影响极小模型训练的可信度得到保障。2.超出范围值处理没有做之前分析为什么要做这一步操作步骤丢弃完过后的效果图加上你的分析1.数据维度过高会加大模型复杂度样本不足时泛化性差模型复杂度指模型结构或参数数量的多少。维度越高模型需要学习的参数往往越多例如线性模型每个特征对应一个系数。泛化性指模型在未见过的数据上的表现能力。泛化性好的模型不仅能记住训练数据还能对新数据做出正确预测。当特征数量远多于样本数量时比如100个样本、1000个特征模型很容易“记住”训练数据中的噪声和偶然模式而不是学习到真正的规律—这叫过拟合。过拟合的模型在训练集上表现完美但在新数据上表现很差即泛化性差。游戏例子假设我们只有1000个玩家的数据但用了100个游戏指标。一个过于复杂的模型可能会学到某次击杀数恰好与某个英雄皮肤相关”这种虚假规律导致在匹配新玩家时完全失效。2. 数据降维可以去除数据属性之间的共线性共线性指两个或多个特征之间存在高度相关性。例如“击杀数“和”总伤害“往往强相关“补刀数和“经济”也基本同步。共线性会带来问题•模型无法稳定区分每个特征的独立贡献参数估计波动大。・増加計算冗余、浪費算力。降维如PCA通过将原始特征线性组合成少数几个不相关的新特征直接消除了共线性。这些新特征彼此正交独立不再互相干扰。游戏例子原始特征中“击杀“和”伤害“高度相关降维后它们被合并到“整体实力”这个新维度中不再存在共线性问题。3. 降低模型复杂度降低模型训练时间模型复杂度降维后特征数量从几百个减少到几十个甚至几个模型需要学习的参数数量大幅减少。例如逻辑回归模型的系数数量等于特征数降维后系数变少模型结构更简单。训练时间模型训练的计算量通常与特征数量成正比甚至更高。特征减少后每次迭代的计算量下降训练速度自然提升。游戏例子匹配系统原本需要在100维空间里计算玩家相似度降维到5维后距离计算速度提升20倍匹配时间从十几秒缩短到3秒内。4.提高模型的鲁棒性和泛化性鲁棒性指模型对噪声、异常值、数据微小变化的容忍能力。高维数据中常含有随机噪声降维时会含舍弃那些方差很小或主要代表噪声的成分使模型不再受这些干扰影响因此更稳健泛化性降维去除了冗余信息和噪声迫使模型关注数据中最重要的模式从而减少了过拟合的风险使模型在新数据上的表现更好。游戏例子玩家单局游戏可能有偶然的“超神”或”超鬼”这些异常值在高维原始数据中会造成剧烈波动。降维后这些偶然噪声被过滤因为它们不属于主要变化方向模型评估的是玩家长期稳定的实力风格匹配更公平对新对局的预测也更准。特征选择特征选择是从 n个特征中选择mm n个特征将剩下的n-m个特征舍弃选择最优特征子集以达到特征冗余最小化并实现模型与目标相关性的最大化。在特征选择中按照某个标准对原有特征进行简化并去掉一些冗余特征。被选择的 m 个特征没有发生任何变化只是原有特征的一个子集因此特征选择具有更好的可读性和可解释性。特征提取特征提取是通过函数映射从原始特征中提取新特征的过程通过特征提取可以得到另外一组新特征。特征提取后的新特征不再是原有特征的子集而是原有特征的线性或者非线性映射。特征提取的本质是从原始高维空间向低维空间投影减少特征数量从而达到数据降维的目的。特征•生成新特征新特征是原始特征的数学组合如加权和、非线性映射没有直观的业务含义•可能丢失可解释性例如PCA生成的主成分是 击杀x0.3伤害x0.5很难直接解释。•方法PCA主成分分析、LDA线性判別分析、自编码器、 -SNE等。游戏例子用PCA将100个指标压缩成5个主成分每个主成分都是所有原始指标的线性组合。虽然整体实力这个维度可以被近似解释但它并不等同于任何原始指标。特征选择数据降维方法选择策略—从特征属性本身出发考虑•采用这种选择策略时尽量找出携带信息量较大信息区分性较大的特征属性。测呈特征属性取值离散程度的一个重要指标是标准差或变异系数。标准差越大说明特征属性的取值越离散。而变异系数主要用于多个特征属性离散程度的比较。1.若某数值型特征属性的变异系数小于某个标准值则视该特征属性为不重要。2.若某数值型特征属性的标准差小于某个标准值则视该特征属性为不重要。3.对于分类型特征属性计算该特征属性在各类中的取值比例若比例低于某个标准值则视工该特征属性为不重要。4.若某个特征属性的缺失值大于某个标准值则视该特征属性为不重要。1. 标准差Standard Deviation定义标准差是各数据点与均值之差的平方和的平均值的平方根。它反映了数据相对于均值的平均波动大小。2. 变异系数 Coefficient of Variation, CV定义变异系数是标准差与均值的比值用于消除量纲和均值大小的影响从而比较不同特征之间的相对离散程度。通常以百分数或小数表示。理解变异系数是一个无量纲的纯数。它衡量的是相对于均值水平的波动大小。例如两组数据第一组均值为100、标准差为 10第二组均值为10、标准差为5。绝对标准差10vs 5不能直接比较但变异系数分别为0.1和0.5说明第二组数据的相对波动更大。游戏例子• 击杀CV2.1/5.2~0.40• 补刀CV45/1800.25在特征选择中的用法设定一个阈值例如“变异系数0.3的特征视为不重要”。补刀的CV为 0.250.3说明所有玩家的补刀数都比较集中在均值附近区分度低可以剔除击杀的CV为0.400.3保留。3. 为什么不能只依赖标准差因为标准差受量纲和均值大小影响。例如• 特征A人均收入单位元均值为5000标准差为1000- CV0.2• 特征B击杀数单位个均值为5标准差为2 CV0.4虽然特征 A 的绝对标准差1000远大于特征B2但相对离散程度却更小0.20.4说明人均收入这个特征在所有样本中变化不大区分度不不如击杀数。如果直接用标准差阈值可能会错误地保留收入而剔除击杀。选择策略一从输入特征属性与输出特征属性的相关性度考虑如果某输入特征属性和输出特征属性之间的相关性强则该输入特征属性需要被选入。可以比较计算输入特征属性与输出特征属性之间的相关系数若相关系数比例低于某个标准值则该输入特征属性应视为不重要的特征属性。特征属性间的相关性通常可以用皮尔逊相关系数计算。皮尔逊相关系数Pearson Correlation Coefficient 是一种被广泛使用的线性相关性度量方法它通常用来计算两个数值型特征属性的相关性。皮尔逊相关系数本质上是两个向量之间的协方差可以反映均值上下波动的一种趋势。2.步骤筛选删除不重要或者有问题的数据、记录或者个案。标准差变异系数设置筛选数据质量问题的筛选标准排序对剩下数据排序并根据重要程度给他们分级。相关性皮尔逊数据字段重要性程度计算方法的设置选择确定要在后续模型中使用的功能子集