目录一、前言:为什么 2026 年我还要写一篇关于re.findall()的爬虫文章?二、re.findall()到底是什么?2.1 一句话解释2.2re.findall()三大返回值陷阱(90% 的新手都踩过)陷阱一:有分组时,返回元组列表陷阱二:嵌套分组,只捕获最内层陷阱三:(?...)非捕获分组不影响,但?:很多人写错三、实战项目:2026 年豆瓣电影 Top250 数据抓取(纯re.findall()版)3.1 为什么选豆瓣?3.2 第一步:分析真实页面结构(用手,不用 AI)3.3 编写纯正则提取器四、性能优化:re.compile()让你快 3-5 倍五、对抗反爬:re.findall()与动态 token 提取六、编码陷阱:为什么你的re.findall()匹配不到中文?6.1 症状6.2 原因七、高级技巧:re.findall()结合re.finditer()做流式处理八、2026 最新实践:用 LLM 辅助生成复杂正则示例提示词:九、完整项目:异步爬取 +re.findall()+ 数据清洗一、前言:为什么 2026 年我还要写一篇关于re.findall()的爬虫文章?现在的爬虫圈张口就是Scrapy、Playwright、DrissionPage,闭口就是异步、分布式、浏览器指纹。技术越来越花哨,但很多人连最基本的结构化文本提取都没吃透。你有没有遇到过这种情况:BeautifulSoup解析一个 300MB 的 HTML 直接内存爆炸?lxml因为标签少了一个闭合括号而彻底罢工?pyquery在动态类名面前毫无还手之力?这个时候,正则表达式 +re.find