别再死记硬背公式了！用Python和sklearn手撕TF-IDF，5分钟搞懂核心原理

张

张建站

2026/6/3 19:09:23

10分钟阅读

别再死记硬背公式了用Python和sklearn手撕TF-IDF5分钟搞懂核心原理每次看到TF-IDF的公式就头疼面试被问到为什么要取对数时哑口无言别担心今天我们就用几行Python代码和几个新闻标题带你从厨房小白秒变算法大厨——不背公式只讲为什么。1. 为什么我们需要TF-IDF想象你在整理一周的新闻标题股市今日大幅上涨今日气温创历史新高新能源汽车今日发布如果让你找出每篇的核心词股市、气温、新能源这些词显然比今日更重要。这就是TF-IDF要解决的问题——量化词语的重要性。传统词频统计的致命缺陷在于今日出现3次但它毫无信息量新能源只出现1次却是关键信息好的特征提取应该像优秀编辑既能发现高频词又能过滤水词2. 拆解TF-IDF的物理意义2.1 TF词频的陷阱与出路计算股市在第一句的TF值def compute_tf(word, document): words document.split() return words.count(word) / len(words) title1 股市今日大幅上涨 print(compute_tf(股市, title1)) # 输出0.25但单纯TF会导致长文档中正常词频被稀释的、是等停用词干扰判断2.2 IDF给词语发稀有度勋章关键理解log背后的设计哲学import math def compute_idf(word, documents): doc_count sum(1 for doc in documents if word in doc) return math.log(len(documents) / (doc_count 1)) titles [股市今日大幅上涨, 今日气温创历史新高, 新能源汽车今日发布] print(compute_idf(今日, titles)) # 0.0太常见 print(compute_idf(新能源, titles)) # 1.098稀有词为什么是log因为防止IDF值爆炸增长文档数可能百万级更符合人类对稀有度的感知对数尺度3. 手把手实现TF-IDF3.1 从零开始造轮子class SimpleTFIDF: def __init__(self, docs): self.docs docs self.N len(docs) self.doc_freq {} # 统计每个词出现在多少文档中 for doc in docs: words set(doc.split()) for word in words: self.doc_freq[word] self.doc_freq.get(word, 0) 1 def score(self, word, doc): tf doc.split().count(word) / len(doc.split()) idf math.log(self.N / (self.doc_freq.get(word, 0) 1)) return tf * idf # 测试我们的实现 processor SimpleTFIDF(titles) print(股市的TF-IDF:, processor.score(股市, titles[0])) # 0.366 print(今日的TF-IDF:, processor.score(今日, titles[0])) # 0.03.2 用sklearn验证结果from sklearn.feature_extraction.text import TfidfVectorizer vec TfidfVectorizer(token_patternr(?u)\b\w\b) tfidf vec.fit_transform(titles) print(vec.vocabulary_) # 查看词表索引 print(tfidf[0].toarray()) # 第一句的TF-IDF向量对比发现股市在手工计算和sklearn中都是最高值今日得分均为0细微差异来自sklearn的归一化处理4. 实战中的常见误区4.1 TF-IDF高就一定是关键词看这个反例special_case [比特币暴涨, 比特币暴跌] processor SimpleTFIDF(special_case) print(processor.score(比特币, special_case[0])) # 0.0比特币TF-IDF为0但它显然是关键词这说明TF-IDF只适合区分文档集内的特征词当某个词在所有文档都出现时需要其他方法辅助4.2 中文处理的特殊技巧import jieba text 自然语言处理很有趣 words .join(jieba.cut(text)) # 输出自然语言处理很有趣 # 需要自定义tokenizer def chinese_tokenizer(text): return jieba.cut(text) vec TfidfVectorizer(tokenizerchinese_tokenizer)5. 进阶TF-IDF的现代变种5.1 平滑技巧对比方法公式适用场景原始IDFlog(N/df)小型语料库平滑IDFlog(N/(df1))1避免除零错误概率IDFlog((N-df)/df)长尾分布数据5.2 与深度学习的结合from gensim.models import TfidfModel from gensim.corpora import Dictionary # 构建词袋模型 docs [[股市, 今日, 上涨], [气温, 今日, 新高]] dct Dictionary(docs) corpus [dct.doc2bow(doc) for doc in docs] # 训练TF-IDF模型 model TfidfModel(corpus) print(model[corpus[0]]) # 输出各词的(TermID, TF-IDF)对这种实现方式更适合大规模语料方便与Word2Vec等嵌入模型结合

如何快速掌握AI图像控制：ComfyUI IPAdapter Plus终极指南

如何快速掌握AI图像控制：ComfyUI IPAdapter Plus终极指南【免费下载链接】ComfyUI_IPAdapter_plus 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI_IPAdapter_plus 想要通过AI生成图像却总是得不到理想的结果？你是否希望像专业设计师一样…...

2026/6/3 19:07:06 阅读更多 →

ESP32-CAM本地人脸识别与MQTT智能家居集成实战

1. 项目概述与核心价值最近在折腾一个智能门禁的原型，核心需求很简单：用一块便宜的ESP32 CAM开发板，实现本地人脸识别，并且把识别结果（比如是谁、什么时候出现的）实时推送到我的智能家居中枢。这听起来像是…...

2026/6/3 19:07:02 阅读更多 →

m4s-converter完整教程：三步解锁B站缓存视频，让珍贵内容永不丢失

m4s-converter完整教程：三步解锁B站缓存视频，让珍贵内容永不丢失【免费下载链接】m4s-converter 一个跨平台小工具，将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾…...

2026/6/3 19:06:51 阅读更多 →

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…...

2026/6/3 16:54:28 阅读更多 →

Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构

更多请点击： https://intelliparadigm.com 第一章：Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构信号一：核心基础设施层API调用量连续8周突破临界阈值 Lindy平台的 /v2/execute与 /v3/plan端…...

2026/6/3 1:19:41 阅读更多 →

【AI工具智能排行榜TOP10】：2024年实测数据驱动的生产力跃迁指南（仅限本周开放下载）

更多请点击： https://kaifayun.com 第一章：AI工具智能排行榜TOP10的底层逻辑与评估范式 AI工具排行榜并非主观评分的产物，而是由多维可量化指标驱动的系统性工程。其核心在于构建一个兼顾能力广度、推理深度、工程鲁棒性与生态协同性的评估范…...

2026/6/3 7:00:40 阅读更多 →

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. This is the only official source! 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager BG3ModManager是专为《博德之…...

2026/6/3 10:51:42 阅读更多 →