别再手动找名字了！用Python的HanLP和SpaCy快速搞定命名实体识别（附中文/英文实战代码）

张

张建站

2026/4/17 20:37:56

10分钟阅读

别再手动找名字了用Python的HanLP和SpaCy快速搞定命名实体识别附中文/英文实战代码当你的老板突然扔过来10GB的客户反馈数据要求明天上班前统计出所有提到的品牌和城市时手忙脚乱写正则的日子该结束了。2012年我在电商平台第一次用正则表达式提取用户地址漏掉了70%的简称和别名被主管指着屏幕问这就是你说的智能处理。现在用下面这几行代码就能解决# 中文处理 from pyhanlp import * ner HanLP.newSegment().enableNameRecognize(True) print(ner.seg(马云在杭州阿里巴巴总部会见张勇)) # 英文处理 import spacy nlp spacy.load(en_core_web_sm) doc nlp(Tim Cook announced Apples new product in Cupertino) print([(ent.text, ent.label_) for ent in doc.ents])1. 为什么你的项目急需NER技术上周有个做舆情监控的朋友向我吐槽他们团队用关键词匹配统计明星热度结果把华为 nova手机型号全算成了明星nova的数据。这种低级错误在命名实体识别(NER)技术面前根本不会发生——它能准确区分文本中的人名、地名、组织名、时间、金额等实体类型。在金融领域NER可以自动提取财报中的公司合并信息腾讯音乐(TME.US)与环球音乐集团(UMG)达成战略合作 → [腾讯音乐/ORG, TME.US/STOCK, 环球音乐集团/ORG, UMG/STOCK]医疗病历分析中能识别药物和疾病实体患者服用阿司匹林后出现胃痛 → [阿司匹林/DRUG, 胃痛/DISEASE]1.1 传统方法的三大痛点方法问题NER解决方案正则匹配无法处理杭城、临安等杭州别称内置同义词和上下文分析字典查找新出现的品牌名如鸿蒙需要持续更新基于统计模型自动泛化规则引擎苹果公司和吃的苹果难以区分结合语义特征判断实测对比用正则表达式处理1万条新闻标题识别出的公司名召回率仅41%而HanLP达到89%2. 中文NER实战HanLP极简教程HanLP的创始人hankcs曾分享过一个案例某法院用他们的系统自动提取涉案金额和当事人信息工作效率提升6倍。下面我们拆解最新版HanLP的使用技巧。2.1 环境配置的避坑指南先解决90%新手会遇到的环境问题# 推荐使用conda创建环境避免与其他包冲突 conda create -n ner python3.8 conda activate ner # 安装带模型文件的完整版约600MB pip install pyhanlp -i https://pypi.tuna.tsinghua.edu.cn/simple首次运行时自动下载数据包如果遇到SSL错误可以import os os.environ[HANLP_ROOT] /your/local/path # 手动指定下载目录 from pyhanlp import *2.2 四行代码完成专业级识别这段代码演示了如何识别电商评论中的关键实体text 昨天在京东买的iPhone14 Pro发热严重联系深圳苹果售后说需要返厂检测 analyzer HanLP.newSegment().enableOrganizationRecognize(True).enablePlaceRecognize(True) result analyzer.seg(text) for term in result: if nr in term.nature or ns in term.nature or nt in term.nature: print(f{term.word} → {term.nature})输出结果京东 → nt iPhone14 Pro → nz 深圳 → ns 苹果 → nt进阶技巧添加自定义词典提升识别率CustomDictionary JClass(com.hankcs.hanlp.dictionary.CustomDictionary) CustomDictionary.add(遥遥领先) # 添加新品牌流行语 CustomDictionary.add(余大嘴, nr) # 添加人物昵称3. 英文处理专家SpaCy工业级方案SpaCy在处理英文文本时有个绝活——能识别产品型号和化学式这类特殊实体。去年有个制药公司的项目需要从论文中提取化合物名称SpaCy的识别准确率比竞品高23%。3.1 模型选型的艺术SpaCy提供三种预训练模型模型类型大小适用场景示例识别能力en_core_web_sm12MB快速原型开发基础人名、地名en_core_web_md43MB常规业务处理含词向量en_core_web_lg560MB高精度要求识别FDA、NASA等缩写安装命令python -m spacy download en_core_web_md3.2 金融新闻解析实战这段代码可以提取美股交易信息nlp spacy.load(en_core_web_md) text Tesla (TSLA) shares rose 5% after Musk announced a new factory in Austin. doc nlp(text) for ent in doc.ents: print(f{ent.text:{20}} {ent.label_:{10}} {ent.start_char}-{ent.end_char})输出结果Tesla ORG 0-5 TSLA ORG 7-11 5% PERCENT 22-24 Musk PERSON 30-34 Austin GPE 61-67专业技巧添加特殊规则识别股票代码from spacy.pipeline import EntityRuler ruler EntityRuler(nlp) patterns [{label: STOCK, pattern: [{TEXT: {REGEX: ^[A-Z]{2,4}$}}]}] nlp.add_pipe(ruler, beforener)4. 混合文本处理方案跨国企业的数据往往包含中英混杂的内容比如张勇(CEO)在Alibaba Group会议提到双11(GMV 540B)。处理这类文本需要组合拳4.1 语言检测分流先用langdetect判断语言from langdetect import detect texts [华为Mate60发布, Apple released iOS17] for text in texts: lang detect(text) if lang zh: result HanLP.segment(text) else: doc nlp(text)4.2 混合实体对齐对于北京(Peking)这类中英对照实体可以用字符串相似度匹配from rapidfuzz import fuzz ch_ent 北京 en_ent Peking if fuzz.ratio(ch_ent.lower(), en_ent.lower()) 70: print(f匹配成功: {ch_ent} ↔ {en_ent})5. 性能优化与生产部署当处理千万级数据时这几个技巧能让你节省80%时间5.1 并行处理加速HanLP的多线程用法from pyhanlp import SafeJClass PerceptronLexicalAnalyzer SafeJClass(com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer) analyzer PerceptronLexicalAnalyzer() analyzer.enableCustomDictionary(False) # 关闭词典提升速度 # 批量处理 texts [文本1, 文本2...] results analyzer.analyze(texts)SpaCy的管道优化nlp spacy.load(en_core_web_sm, exclude[parser, lemmatizer]) texts [doc1, doc2...] for doc in nlp.pipe(texts, batch_size50, n_process4): process(doc.ents)5.2 内存管理技巧HanLP默认会加载所有模型通过以下方式按需加载HanLP.Config.ShowTermNature False # 关闭词性显示 segment HanLP.newSegment().enableNameRecognize(True) # 只开启人名识别对于SpaCy可以卸载不用的模型import spacy spacy.util.unload_model(en_core_web_md) # 释放内存6. 效果评估与调优上线前务必做这两个测试6.1 混淆矩阵分析用sklearn生成评估报告from sklearn.metrics import classification_report y_true [(北京, LOC), (腾讯, ORG)...] y_pred [(北京, LOC), (腾讯, COMPANY)...] print(classification_report( [label for _, label in y_true], [label for _, label in y_pred], zero_division0))6.2 领域自适应医疗领域微调示例# 准备医疗实体标注数据 train_data [ (服用阿司匹林后头痛缓解, {entities: [(2,5,DRUG), (6,8,SYMPTOM)]}), ... ] # 继续训练现有模型 optimizer nlp.resume_training() for epoch in range(10): random.shuffle(train_data) for text, annotations in train_data: nlp.update([text], [annotations], sgdoptimizer)最后分享一个真实案例某物流公司用这套方案处理运单中的地址和联系人信息错误率从12%降到1.7%每年节省人工校验成本超200万。关键是要记得定期更新自定义词典——去年新冠刚出现时我们的模型一度把它识别成了化妆品品牌。

新能源场站无人值守革命：构建高效、安全、智能的下一代运维体系（PPT）

引言：新能源时代的运维新范式在全球能源结构深刻变革的浪潮中，以光伏和风电为代表的新能源产业正以前所未有的速度扩张。然而，规模的急剧增长也带来了运维管理的巨大挑战。传统依赖大量人力进行现场巡检和值守的模式，在广袤的戈壁…...

2026/4/17 20:37:47 阅读更多 →

Navicat无限试用期重置：Mac用户免费使用完整功能的终极指南

Navicat无限试用期重置：Mac用户免费使用完整功能的终极指南【免费下载链接】navicat_reset_mac navicat mac版无限重置试用期脚本 Navicat Mac Version Unlimited Trial Reset Script 项目地址: https://gitcode.com/gh_mirrors/na/navicat_reset_mac 作为数…...

2026/4/17 20:31:46 阅读更多 →

KataGo不同神经网络模型怎么选？g170-b10c128还是b20c256x2？性能与资源占用实测对比

KataGo神经网络模型选型指南：从参数解析到实战性能对比第一次打开KataGo的神经网络下载页面时，面对g170-b10c128、b20c256x2这些看似密码的模型命名，多数用户都会陷入选择困难。这些字母数字组合背后隐藏着怎样的性能密码？去年在…...

2026/4/17 20:25:24 阅读更多 →

Snyk 依赖性安全漏洞扫描工具实战指南：从安装到多语言项目扫描

1. Snyk工具与依赖安全漏洞扫描基础第一次听说Snyk是在去年参与一个金融项目时，我们的技术负责人突然要求所有依赖包必须通过安全扫描才能上线。当时团队里没人知道该怎么操作，直到发现了这个神器。Snyk本质上是个"依赖包安检仪"，…...

2026/4/17 10:30:59 阅读更多 →

mbed OS 6+ 嵌入式TFTP服务器设计与实现

1. TFTPServer项目概述TFTPServer 是一个面向 ARM mbed OS 平台的轻量级 TFTP（Trivial File Transfer Protocol）服务器实现，专为嵌入式以太网设备设计。其核心目标是在资源受限的 MCU（如 STM32F4/F7/H7、NXP LPC1768/LPC54608、Re…...

2026/4/17 10:31:01 阅读更多 →

Windows效率神器PowerToys：30+免费工具让你的电脑生产力翻倍

Windows效率神器PowerToys：30免费工具让你的电脑生产力翻倍【免费下载链接】PowerToys Microsoft PowerToys is a collection of utilities that supercharge productivity and customization on Windows 项目地址: https://gitcode.com/GitHub_Trending/po/Powe…...

2026/4/17 10:31:03 阅读更多 →

RX63N驱动SSD1963显示控制器的HAL级配置指南

1. 项目概述Display_shield_config是为 Renesas GR-PEACH 开发板配套的显示扩展板（Display Shield）所设计的一套底层配置资源集合。GR-PEACH 是基于 Renesas RX63N 微控制器的高性能嵌入式开发平台，主频高达 100 MHz，内置 1 MB Fl…...

2026/4/17 10:31:04 阅读更多 →