【PySpark】如何在 Windows 成功使用 `saveAsTextFile()` 全流程教程 ✅

张

张建站

2026/7/23 12:03:18

10分钟阅读

【PySpark】如何在 Windows 成功使用 `saveAsTextFile()` 全流程教程 ✅

PySpark 数据输出终极指南如何在 Windows 成功使用saveAsTextFile()全流程教程本文目标你是否遇到过如下报错java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z Caused by: java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 由于找不到 MSVCR120.dll无法继续执行代码。今天我们将彻底解决这个问题并让你成功运行rdd.saveAsTextFile(D:/output1)在 Windows 环境中使用 Spark 原生输出方式构建生产级 PySpark 流程数据输入 → 计算 → 输出一、为什么saveAsTextFile()会崩溃根本原因深度解析MSVCR120.dll是Microsoft Visual C 2013 Redistributable Runtime的一部分。当你执行rdd.saveAsTextFile(D:/output1)Spark 会尝试使用 Hadoop 的原生本地库native IO来写文件其依赖如下链Spark → Hadoop → nativeio.dll → NativeIO$Windows.access0() → MSVCR120.dll当系统找不到MSVCR120.dll就会抛出UnsatisfiedLinkError。即使你不用saveAsTextFile()只要在PATH中加入了E:\APP\hadoop-3.4.2\binSpark 仍会尝试加载 native IO二、解决方案三步闭环法配置权限修复最终目标让你的rdd.saveAsTextFile(D:/output1)成功运行第一步配置PATHPYSPARK_PYTHONimportos# 1. 指定 Python 解释器路径必须os.environ[PYSPARK_PYTHON]D:\\APP\\Anaconda\\envs\\spark_env\\python.exe# 2. 设置超时防止 task 中断os.environ[PYSPARK_TIMEOUT]600os.environ[PYSPARK_DRIVER_TIMEOUT]600# 3. 关键添加 Hadoop bin 到 PATHos.environ[PATH]os.pathsepE:\\APP\\hadoop-3.4.2\\bin# 4. 推荐设置 Driver Python 解释器os.environ[PYSPARK_DRIVER_PYTHON]D:\\APP\\Anaconda\\envs\\spark_env\\python.exe注意os.pathsep是路径分隔符Windows 下应为;不是/。第二步放置winutils.exe并修复权限前提你已经下载了winutils.exeHadoop 官方二进制支持 Windows下载地址请使用匹配版本https://github.com/cdarlint/winutils建议使用版本hadoop-3.4.2步骤 1将winutils.exe 、hadoop.dll放入 E:\APP\hadoop-3.4.2\bin 目录和 c盘 C:\Windows\System32 里面E:\APP\hadoop-3.4.2\bin\winutils.exe步骤 2以管理员身份打开 CMD右键 “命令提示符” → “以管理员身份运行”步骤 3执行权限修复命令winutils.exechmod777C:\tmp\Hive 说明C:\tmp\Hive是 Hadoop 临时目录用于存储临时文件chmod 777给所有用户读写执行权限此步骤会修复 Hadoop 文件系统权限问题成功提示无报错返回正常。可选你还可以用第三方工具如“联想电脑管家”修复系统 DLL 问题。第三步验证是否成功运行frompysparkimportSparkConf,SparkContext# 配置环境确保与上一致os.environ[PYSPARK_PYTHON]D:\\APP\\Anaconda\\envs\\spark_env\\python.exeos.environ[PYSPARK_TIMEOUT]600os.environ[PYSPARK_DRIVER_TIMEOUT]600os.environ[PATH]os.pathsepE:\\APP\\hadoop-3.4.2\\bin# 创建 SparkContextconfSparkConf().setMaster(local[*]).setAppName(test_saveAsTextFile)scSparkContext(confconf)# 创建 RDDrddsc.parallelize([1,2,3,4,5])# 成功输出rdd.saveAsTextFile(D:/output1)print( 数据已成功输出到 D:/output1)# 停止sc.stop()运行结果生成文件夹D:/output1包含_SUCCESS和part-00000文件没有MSVCR120.dll报错三、为什么推荐saveAsTextFile()方案优点缺点collect()open()避开 native IO稳定不能用于集群、本地写但不是标准输出saveAsTextFile()标准、兼容生产、支持分布式文件系统依赖 native IO但可修复推荐理由是 Spark 官方输出方式可用于 HDFS、S3、SFTP 等生产环境项目提交、团队协作、CI/CD 时更具规范性四、完整三步模型数据输入 → 计算 → 输出# 1. 【数据输入】frompysparkimportSparkConf,SparkContextimportos os.environ[PYSPARK_PYTHON]D:\\APP\\Anaconda\\envs\\spark_env\\python.exeos.environ[PYSPARK_TIMEOUT]600os.environ[PYSPARK_DRIVER_TIMEOUT]600os.environ[PATH]os.pathsepE:\\APP\\hadoop-3.4.2\\binconfSparkConf().setMaster(local[*]).setAppName(sales_analysis)scSparkContext(confconf)rddsc.parallelize([1,2,3,4,5])# 2. 【数据计算】rdd2rdd.map(lambdax:x*2)rdd3rdd2.filter(lambdax:x3)# 3. 【数据输出】原生输出方式rdd3.saveAsTextFile(D:/output_final)print( 三步流程完成输入 → 计算 → 输出)sc.stop()本代码可直接运行无需collect()无需open()是标准 PySpark 工作流。五、总结成功运行saveAsTextFile()的 5 个关键点步骤操作说明1️⃣winutils.exe放入hadoop/bin缺少则无法访问本地 FS2️⃣以管理员身份运行 CMD执行chmod才能生效3️⃣chmod 777 C:\tmp\Hive修复权限避免写入失败4️⃣PATH包含hadoop/bin启用 native IO5️⃣PYSPARK_TIMEOUT600防止任务因超时中断附录完整环境配置模板可复制importos# 1. 设置 Pythonos.environ[PYSPARK_PYTHON]D:\\APP\\Anaconda\\envs\\spark_env\\python.exeos.environ[PYSPARK_DRIVER_PYTHON]D:\\APP\\Anaconda\\envs\\spark_env\\python.exe# 2. 超时设置os.environ[PYSPARK_TIMEOUT]600os.environ[PYSPARK_DRIVER_TIMEOUT]600# 3. 加载 Hadoop native 库os.environ[PATH]os.pathsepE:\\APP\\hadoop-3.4.2\\bin# 4. 创建 SparkContextfrompysparkimportSparkConf,SparkContext confSparkConf().setMaster(local[*]).setAppName(my_app)scSparkContext(confconf)# 测试rddsc.parallelize([1,2,3])rdd.saveAsTextFile(D:/test_output)print( 成功写入)sc.stop()

intv_ai_mk11一文详解：7B参数轻量级开源对话模型在中小团队中的降本增效实践

intv_ai_mk11一文详解：7B参数轻量级开源对话模型在中小团队中的降本增效实践 1. 轻量级AI对话助手的价值定位在中小团队的实际运营中，专业AI助手的引入往往面临两大难题：高昂的部署成本和复杂的技术门槛。intv_ai_mk11作为7B参数的轻量级开…...

2026/5/29 0:37:38 阅读更多 →

Android关机时系统在忙什么？揭秘那些你看不见的关键操作

Android关机背后的精密交响：系统如何优雅谢幕？ 当指尖长按电源键、屏幕弹出"关机"选项时，大多数人看到的只是一个简单的进度条动画。但在这看似平静的表面之下，Android系统正上演着一场精密编排的"谢幕演出"—…...

2026/5/29 0:35:49 阅读更多 →

Qwen3.5-9B多模态效果展示：同一张建筑图纸识别楼层/材料/安全隐患

Qwen3.5-9B多模态效果展示：同一张建筑图纸识别楼层/材料/安全隐患 1. 模型核心能力概览 Qwen3.5-9B作为一款90亿参数的开源大语言模型，在多模态理解方面展现出令人印象深刻的能力。这个模型特别适合处理建筑图纸这类专业文档，能够同时识别图…...

2026/5/29 0:42:52 阅读更多 →

【AI问数】多智能体协同架构：行业首创的AI问数大脑

鲲溟智能 AI智能问数系列第15篇 | 2026-07-12 10 大智能体 Multi-Agent 协同架构端到端自动化 99.97% 可用性鲲溟智能首创10大智能体协同架构，是AI问数的大脑。每个Agent专精一个领域，通过Orchestrator智能编排，实现复杂任务的端到…...

2026/7/22 19:10:55 阅读更多 →

Kimi LeetCode 3621. 位计数深度为 K 的整数数目 I Python3实现

LeetCode 3621. 位计数深度为 K 的整数数目 I Python3 实现python from functools import lru_cacheclass Solution:def popcountDepth(self, n: int, k: int) -> int:# k0：只有 1 的深度为 0if k 0:return 1 if n > 1 else 0# 预处理 1~60 的 popcount-dept…...

2026/7/22 8:01:32 阅读更多 →

向量检索加速：ANN 索引选型和查询参数调优实战

向量检索加速：ANN 索引选型和查询参数调优实战基础设施不需要漂亮话。一个 100 万向量的知识库从"勉强能用"到"丝滑检索"，差距不在算法，在工程参数的调优。一、两个向量检索系统，性能差 20 倍团队内两套知…...

2026/7/22 8:01:25 阅读更多 →

鸿蒙 ArkTS 实战：Menu Nutrition Advice 从智能助手到保存闭环完整解析

鸿蒙 ArkTS 实战：Menu Nutrition Advice 从智能助手到保存闭环完整解析前言 Menu Nutrition Advice 是一个面向菜单营养建议的鸿蒙 ArkTS 单页工具。它把主题输入、数量统计、辅助开关、备注和保存状态组织到一个移动端工作台中。项目服务于根据餐单生成营养…...

2026/7/22 8:01:58 阅读更多 →