MinerU 系列教程 第十九篇本篇教程作为模块五:核心流程篇的第四课,将深入解析 MinerU 如何将结构化的 Middle JSON 转换为人类可读的 Markdown 文本和结构化的 content_list.json。上一课我们分析了 Magic Model 如何将原始模型输出"翻译"成统一的 Middle JSON,本课接续这条数据流水线,探索最后一公里——内容渲染与输出生成。学习目标完成本课学习后,你将能够:理解*_middle_json_mkcontent.py系列文件的定位和职责分工掌握union_make()统一入口函数的四种输出模式(MM_MD / NLP_MD / CONTENT_LIST / CONTENT_LIST_V2)了解 Markdown 生成的完整规则体系:标题级别映射、公式分隔符、表格 HTML 保留、图片引用、代码块语言标注、列表嵌套理解 content_list.json 和 content_list_v2.json 的结构差异与用途掌握 Pipeline 后端特有的段落分割算法(para_split.py)的启发式规则了解可视化输出(layout.pdf / span.pdf)的生成机制对比三个后端的 mkcontent 实现差异