用Python+自然语言处理(NLP)拆解《二十年后》：手把手教你做文学文本的情绪分析与角色关系图谱

张

张建站

2026/6/3 10:07:20

10分钟阅读

用Python自然语言处理(NLP)拆解《二十年后》手把手教你做文学文本的情绪分析与角色关系图谱欧·亨利的短篇小说《二十年后》以其精妙的叙事结构和出人意料的结局闻名于世。作为技术爱好者我们能否用现代自然语言处理技术重新解构这篇经典文学作品本文将带你用Python和NLP工具包从情绪变化、人物关系和主题词三个维度对小说进行量化分析。1. 环境准备与文本预处理在开始分析前我们需要搭建Python环境并准备文本数据。推荐使用Anaconda创建虚拟环境确保依赖隔离conda create -n nlp_analysis python3.8 conda activate nlp_analysis pip install spacy textblob nltk pandas matplotlib seaborn下载spaCy的英文语言模型python -m spacy download en_core_web_sm文本预处理是NLP分析的关键第一步。我们需要将原始小说文本转换为适合分析的格式import re from nltk.tokenize import sent_tokenize # 加载小说文本 with open(twenty_years_later.txt, r) as f: text f.read() # 分句处理 sentences sent_tokenize(text) # 去除特殊字符 clean_sentences [re.sub(r[^\w\s], , s) for s in sentences]提示NLTK的sent_tokenize对文学文本效果较好能正确处理对话中的引号分割2. 情绪变化轨迹分析通过TextBlob的情绪分析功能我们可以量化角色对话中的情绪变化。特别关注鲍勃与吉米对话部分from textblob import TextBlob # 提取对话部分 dialogues [s for s in clean_sentences if in s] # 分析每句情绪 sentiment_results [] for idx, dialog in enumerate(dialogues): analysis TextBlob(dialog) sentiment_results.append({ sentence: idx1, text: dialog, polarity: analysis.sentiment.polarity, subjectivity: analysis.sentiment.subjectivity })将结果可视化后可以明显看到三个情绪转折点对话顺序关键语句情绪值阶段特征1-5Its all right, officer...0.12平静叙述6-12Twenty years ago tonight...0.45怀旧温情13-18Did pretty well out West...0.67自豪炫耀19-22Youre not Jimmy Wells...-0.85震惊愤怒3. 人物关系网络构建使用spaCy的命名实体识别功能我们可以提取小说中的人物和机构构建关系网络import spacy from collections import defaultdict nlp spacy.load(en_core_web_sm) doc nlp(text) # 提取人物和机构 entities defaultdict(list) for ent in doc.ents: if ent.label_ in [PERSON, ORG]: entities[ent.label_].append(ent.text) # 去重处理 characters list(set(entities[PERSON])) organizations list(set(entities[ORG]))主要人物关系矩阵角色鲍勃吉米·威尔斯芝加哥警方便衣警察鲍勃-童年好友通缉关系逮捕关系吉米·威尔斯童年好友-同事关系委托关系芝加哥警方通缉关系同事关系-上下级关系便衣警察逮捕关系委托关系上下级关系-4. 主题词与关键词分析通过TF-IDF算法和词频统计我们可以识别小说中的核心主题词from sklearn.feature_extraction.text import TfidfVectorizer # 计算TF-IDF值 tfidf TfidfVectorizer(stop_wordsenglish) tfidf_matrix tfidf.fit_transform(clean_sentences) feature_names tfidf.get_feature_names_out() # 获取每句最重要的词 for i, sentence in enumerate(clean_sentences[:5]): tfidf_scores zip(feature_names, tfidf_matrix[i].toarray()[0]) top_keywords sorted(tfidf_scores, keylambda x: x[1], reverseTrue)[:3] print(f句子{i1}关键词:, [kw[0] for kw in top_keywords])关键主题词在文本中的分布频率承诺主要出现在前1/3部分与约定相关变化中间部分高频出现反映人物对比命运结尾部分集中出现强化主题5. 完整分析流程整合将上述分析整合为可执行的Jupyter Notebook流程# 完整分析流程 def full_analysis(text_path): # 1. 文本预处理 preprocessed preprocess_text(text_path) # 2. 情绪分析 sentiment_df analyze_sentiment(preprocessed) # 3. 实体识别 entities extract_entities(preprocessed) # 4. 主题分析 topics identify_topics(preprocessed) # 生成报告 generate_report(sentiment_df, entities, topics)典型分析结果包括情绪变化折线图人物关系网络图主题词词云关键对话文本片段6. 实际应用与扩展思路这种分析方法可以扩展到其他文学作品分析中。在实际教学中我们可以比较阅读分析同一作者不同作品的情绪模式风格识别建立作家风格特征向量创作辅助基于经典作品的情绪曲线指导写作一个有趣的发现是欧·亨利的作品在结尾处通常会出现情绪值的剧烈波动这与他的意外结局写作风格高度吻合。通过量化分析我们能更直观地理解文学技巧的效果。

AI Agent 蓄势待发：五大趋势重塑未来，三大挑战待解！

本文深入探讨了 AI Agent 的五大发展趋势：从辅助工具到业务核心、多模态交互成为标配、Agent 间通信协议标准化、低代码 Agent 构建主流化以及安全与治理框架的加速建立。同时，文章也指出了三大挑战：可靠性、成本和评估，并提出了相…...

2026/6/3 10:07:09 阅读更多 →

如何快速使用Zotero插件市场：一站式插件管理终极指南

如何快速使用Zotero插件市场：一站式插件管理终极指南【免费下载链接】zotero-addons Zotero Add-on Market | Zotero插件市场 | Browsing and installing plugins within Zotero 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-addons 在学术研究的道…...

2026/6/3 10:06:57 阅读更多 →

UVa 379 Hi-Q

题目描述 Hi-Q\texttt{Hi-Q}Hi-Q 是一种流行的单人纸牌游戏。游戏板呈十字形，有 333333 个小孔，编号如下：1 2 34 5 6 7 89 10 11 12 13 14 1516 17 18 19 20 21 2223 24 25 26 27 28 2930 31 32 33 3435 36 37实际上，标准 H…...

2026/6/3 10:06:13 阅读更多 →

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…...

2026/6/2 16:05:16 阅读更多 →

Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构

更多请点击： https://intelliparadigm.com 第一章：Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构信号一：核心基础设施层API调用量连续8周突破临界阈值 Lindy平台的 /v2/execute与 /v3/plan端…...

2026/6/3 1:19:41 阅读更多 →

【AI工具智能排行榜TOP10】：2024年实测数据驱动的生产力跃迁指南（仅限本周开放下载）

更多请点击： https://kaifayun.com 第一章：AI工具智能排行榜TOP10的底层逻辑与评估范式 AI工具排行榜并非主观评分的产物，而是由多维可量化指标驱动的系统性工程。其核心在于构建一个兼顾能力广度、推理深度、工程鲁棒性与生态协同性的评估范…...

2026/6/3 7:00:40 阅读更多 →

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. This is the only official source! 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager BG3ModManager是专为《博德之…...

2026/6/3 10:51:42 阅读更多 →