别再死记硬背了！用Spark电影评分分析实战，手把手教你Join操作与数据清洗（附完整Scala代码）

张

张建站

2026/6/1 18:25:57

10分钟阅读

别再死记硬背了！用Spark电影评分分析实战，手把手教你Join操作与数据清洗（附完整Scala代码）

用Spark实战电影评分分析从数据清洗到Join操作的完整指南电影评分数据中隐藏着无数观众偏好的秘密。想象一下你手头有两份数据一份记录了数百万用户对电影的评分另一份包含了电影的基本信息。如何从中挖掘出平均分高于4.0的热门电影这正是Spark大显身手的舞台。本文将带你从零开始用Scala编写一个完整的Spark分析流程重点解析Join操作的核心技巧与性能优化。1. 环境准备与数据理解在开始编码前我们需要准备好Spark环境和理解数据集结构。假设你已安装Spark 3.x和Scala 2.12以下是项目依赖的sbt配置libraryDependencies Seq( org.apache.spark %% spark-core % 3.3.0, org.apache.spark %% spark-sql % 3.3.0 )1.1 数据集结构解析我们使用的两个核心数据集评分数据(ratings.dat)格式用户ID::电影ID::评分::时间戳示例1::122::5::838985046电影数据(movies.dat)格式电影ID::电影名称::类型示例122::The Dark Knight (2008)::Action|Crime|Drama提示实际项目中建议先用小样本数据测试代码逻辑再扩展到全量数据。2. 数据加载与初步清洗2.1 创建SparkSession任何Spark应用的起点都是创建SparkSessionimport org.apache.spark.sql.SparkSession val spark SparkSession.builder() .appName(MovieRatingAnalysis) .master(local[*]) // 生产环境替换为集群地址 .getOrCreate() import spark.implicits._2.2 加载原始数据使用Spark的DataFrame API加载数据比RDD更简洁val ratingsDF spark.read .option(sep, ::) .csv(data/ratings.dat) .toDF(userId, movieId, rating, timestamp) val moviesDF spark.read .option(sep, ::) .csv(data/movies.dat) .toDF(movieId, title, genres)2.3 数据类型转换原始数据都是字符串类型需要转换为适当类型val cleanRatings ratingsDF.select( $userId.cast(integer), $movieId.cast(integer), $rating.cast(double), $timestamp.cast(long) ) val cleanMovies moviesDF.select( $movieId.cast(integer), $title, $genres )3. 核心分析计算电影平均分3.1 分组聚合计算计算每部电影的平均评分是分析的关键步骤val avgRatings cleanRatings .groupBy(movieId) .agg(avg(rating).alias(avgRating)) .filter($avgRating 4.0) // 筛选高评分电影3.2 性能优化技巧当数据量很大时groupBy操作可能成为性能瓶颈。以下是两种优化方案预分区在groupBy前按movieId重新分区cleanRatings.repartition($movieId).groupBy(movieId)...使用reduceByKeyRDD APIval ratingsRDD cleanRatings.rdd.map(r (r.getInt(1), (r.getDouble(2), 1)) ) val avgRatingsRDD ratingsRDD.reduceByKey((a, b) (a._1 b._1, a._2 b._2) ).mapValues{ case (sum, count) sum / count }4. Join操作实战与优化4.1 基本Join实现将平均分与电影信息关联val popularMovies avgRatings.join( cleanMovies, avgRatings(movieId) cleanMovies(movieId), inner ).select(title, avgRating)4.2 Join性能陷阱与解决方案Spark Join操作常见性能问题及对策问题类型表现解决方案数据倾斜少数task执行时间极长使用salting技术或广播小表笛卡尔积数据量爆炸式增长严格检查join条件网络IO高shuffle数据量大合理设置分区数广播Join示例当电影表较小时import org.apache.spark.sql.functions.broadcast val popularMovies avgRatings.join( broadcast(cleanMovies), avgRatings(movieId) cleanMovies(movieId) )5. 结果展示与存储5.1 格式化输出对结果进行排序和格式化val finalResult popularMovies .orderBy($avgRating.desc) .select( $title, format_number($avgRating, 1).alias(rating) )5.2 多种存储方式根据需求选择存储格式CSV格式finalResult.write .option(header, true) .csv(output/popular_movies)Parquet格式列式存储适合后续分析finalResult.write.parquet(output/popular_movies_parquet)直接打印开发调试用finalResult.show(10, truncate false)6. 生产环境注意事项在实际项目中部署此类分析作业时有几个关键点需要特别注意资源分配根据数据量调整executor内存和核心数失败处理设置合理的重试机制和checkpoint监控通过Spark UI跟踪任务进度和资源使用一个典型的spark-submit命令示例spark-submit \ --class com.example.MovieAnalysis \ --master yarn \ --executor-memory 8G \ --num-executors 10 \ your-application.jar \ input/ratings.dat \ input/movies.dat \ output/results7. 扩展思路掌握了基础分析后可以尝试以下进阶分析时间维度分析按周/月分析评分趋势用户分群识别高价值用户的评分偏好类型关联分析不同类型电影的平均分差异推荐系统基于协同过滤的简单推荐实现以下是计算各类型电影平均分的示例val genresRatings cleanMovies .withColumn(genre, explode(split($genres, \\|))) .join(cleanRatings, movieId) .groupBy(genre) .agg(avg(rating).alias(avgRating)) .orderBy($avgRating.desc)

用ESP01S和心知天气API做个桌面天气时钟（附完整AT指令流程）

用ESP01S和心知天气API打造智能桌面天气时钟项目概述在智能家居和物联网设备日益普及的今天，DIY一个个性化的桌面天气时钟不仅能满足实用需求，更能体现创客精神。本文将详细介绍如何利用ESP01S模块和心知天气API，从零开始构建一个功能完善、外…...

2026/6/1 18:24:59 阅读更多 →

TC3xx项目踩坑记：LMU没配好，多核访问SRAM为何总出错？

TC3xx多核SRAM保护机制实战：从LMU配置错误到精准调试最近在TC3xx系列芯片上开发多核项目时，遇到了一个令人头疼的问题：CPU0写入SRAM的数据总会被CPU1意外修改。经过一番周折，最终发现是LMU（Local Memory Unit&#xf…...

2026/6/1 18:23:58 阅读更多 →

Vite 5时代的前端模块化：从CJS到ESM的平滑迁移指南与最佳实践

Vite 5时代的前端模块化：从CJS到ESM的平滑迁移指南与最佳实践当你在Vite 5项目中看到"The CJS build of Vites Node API is deprecated"的警告时，这不仅仅是一个简单的兼容性问题——它标志着前端开发范式正在发生根本性转变。作为现代前端工具…...

2026/6/1 18:23:35 阅读更多 →

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…...

2026/5/31 0:02:01 阅读更多 →

Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构

更多请点击： https://intelliparadigm.com 第一章：Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构信号一：核心基础设施层API调用量连续8周突破临界阈值 Lindy平台的 /v2/execute与 /v3/plan端…...

2026/6/1 0:20:41 阅读更多 →

【AI工具智能排行榜TOP10】：2024年实测数据驱动的生产力跃迁指南（仅限本周开放下载）

更多请点击： https://kaifayun.com 第一章：AI工具智能排行榜TOP10的底层逻辑与评估范式 AI工具排行榜并非主观评分的产物，而是由多维可量化指标驱动的系统性工程。其核心在于构建一个兼顾能力广度、推理深度、工程鲁棒性与生态协同性的评估范…...

2026/6/1 2:44:39 阅读更多 →

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. This is the only official source! 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager BG3ModManager是专为《博德之…...

2026/5/31 0:17:22 阅读更多 →