6.1RAG--文档加载器

张

张建站

2026/6/4 1:40:33

10分钟阅读

想实现 RAG⾸先就需要从源中获取数据即加载数据或⽂档。这是通过 LangChain 的⽂档加载器完成的1.Document类LangChain ⽂档加载器可以将各种数据源加载成⼀系列的⽂档对象Document定义了⼀个documents⽂档列表其内包含了两个Document⽂档对象。通常单个Document对象表⽰较⼤⽂档的⼀个块/⻚。每个Document对象包含了以下参数•id可选的⽂档标识符。理想情况下这应该在整个⽂档集合中是唯⼀的并格式化为UUID但不会强制执⾏。•page_content字符串⽂本•metadata与内容关联的任意元数据。类型为dict [Optional]from langchain_core.documents import Document documents [ # 单个Document对象通常表⽰较⼤⽂档的⼀个块 Document( # 内容字符串 page_content狗是很好的伴侣以忠诚和友好⽽闻名。, # 元数据字典 # 元数据属性可以捕获有关⽂档源、与其他⽂档的关系以及其他信息的信息。 metadata{source: mammal-pets-doc}, ), Document( page_content猫是独⽴的宠物经常享受⾃⼰的空间。, metadata{source: mammal-pets-doc}, ), ]2.PDF文档将本地的 PDF ⽂档加载到 LangChain 中其实就是将 PDF ⽂档转换为⼀个个Document对象。这时就需要我们使⽤ PyPDFLoader⽂档加载器完成这⼀功能class langchain_community.document_loaders.pdf.PyPDFLoader类有以下关键函数•init()初始化函数⼊参file_path表⽰要加载的 PDF ⽂件的路径。•load()→list[Document]将数据加载到⽂档对象中。返回⽂档对象列表。from langchain_community.document_loaders import PyPDFLoader file_path ../Docs/PDF/脚⼿架级微服务租房平台QA.pdf loader PyPDFLoader(file_path) # 将 PDF ⽂件的每⼀⻚转换为⼀个独⽴的 Document 对象并存储在列表 docs 中。 docs loader.load() print(f问PDF ⽂件的总⻚数为\n{len(docs)}\n) print(f问第⼀⻚⽂本内容的前200个字符是\n{docs[0].page_content[:200]}\n) print(f问第⼀⻚元数据\n{docs[0].metadata})现在许多 LLM ⽀持对多模态输⼊例如图像进⾏推理。在某些应⽤程序中例如对具有复杂布局、图表或扫描的 PDF 进⾏问答可以跳过 PDF 解析直接将 PDF ⻚⾯转换为图像并将其直接传递给模型可能是更准确的3.MarkDown将本地的Markdown⽂档加载到 LangChain 中需要我们使⽤UnstructuredMarkdownLoader⽂档加载器完成这⼀功能classlangchain_community.document_loaders.markdown.UnstructuredMarkdownLoader类有以下关键函数•init()初始化函数所需参数◦file_path表⽰要加载的Markdown⽂件的路径。◦mode加载⽂件时要使⽤的模式。可以是 single 或 elements。默认为 single。▪single⽂档将作为单个 Document 对象返回▪elements会将⽂档拆分为 Title 和 NarrativeText 等不同类型的元素。•load()→list[Document]将数据加载到⽂档对象中。返回⽂档对象列表。LangChain 实现的UnstructuredMarkdownLoader需要依赖 Unstructured 包。因此在使⽤前我们需要先安装它pip installunstructured[md]nltk我们使⽤single模式加载⼀个本地Markdownfrom langchain_community.document_loaders import UnstructuredMarkdownLoader from langchain_core.documents import Document markdown_path ../Docs/Markdown/脚⼿架级微服务租房平台QA.md # single 模式加载后默认只有⼀个 Document 对象 loader UnstructuredMarkdownLoader(markdown_path) data loader.load() assert len(data) 1 assert isinstance(data[0], Document) print(data[0].page_content[:200]) print(data[0].metadata)elements模式下加载本地Markdown⽂档的效果from langchain_community.document_loaders import UnstructuredMarkdownLoader from langchain_core.documents import Document markdown_path ../Docs/Markdown/脚⼿架级微服务租房平台QA.md # single 模式加载后默认只有⼀个 Document 对象 loader UnstructuredMarkdownLoader(markdown_path, modeelements) data loader.load() print(f问⽂档个数为\n{len(data)}\n) print(问前三个⽂档数据) for document in data[:3]: print(f{document}\n)Markdown文档类型print(set(document.metadata[category] for document in data))

释放边缘生成式 AI 潜力展示 Yocto 优化的Pandora 平台

全球知名电脑展COMPUTEX如期启幕，专注边缘智能技术创新的视程空间（VISION SPACE）重磅展出旗下Pandora开发者中心（Pandora Developer Hub）。该平台搭载高度定制、深度优化的Yocto Linux专属环境，针对性适配N…...

2026/6/4 1:37:27 阅读更多 →

2026 年深圳小程序开发资质新规详解！新手避坑必备合规指南

导语2026 年微信小程序审核规则全面收紧，资质不合规、类目选错是深圳小程序开发项目审核驳回、下架限流的核心原因。多数企业只关注开发效果，忽略合规细节。本文结合最新审核标准，详解全品类资质要求，帮新手一次性规避合规风险。正…...

2026/6/4 1:37:26 阅读更多 →

新媒体运营在2026年提升职场能力的路径

新媒体运营领域发展迅速，2026年职场竞争将更加激烈。提升职场能力需要结合数据分析、内容创作、用户运营等多维度技能。CDA数据分析师证书作为专业认证，能够帮助运营人员掌握数据驱动决策的能力，增强职场竞争力。以下是具体提升方法&#xff…...

2026/6/4 1:35:07 阅读更多 →

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…...

2026/6/3 16:54:28 阅读更多 →

Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构

更多请点击： https://intelliparadigm.com 第一章：Lindy路线图前瞻：3个已被验证的信号，预示Q3将启动下一代AI原生平台重构信号一：核心基础设施层API调用量连续8周突破临界阈值 Lindy平台的 /v2/execute与 /v3/plan端…...

2026/6/3 1:19:41 阅读更多 →

【AI工具智能排行榜TOP10】：2024年实测数据驱动的生产力跃迁指南（仅限本周开放下载）

更多请点击： https://kaifayun.com 第一章：AI工具智能排行榜TOP10的底层逻辑与评估范式 AI工具排行榜并非主观评分的产物，而是由多维可量化指标驱动的系统性工程。其核心在于构建一个兼顾能力广度、推理深度、工程鲁棒性与生态协同性的评估范…...

2026/6/3 7:00:40 阅读更多 →

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南

3步解决博德之门3模组管理难题：BG3ModManager完整使用指南【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. This is the only official source! 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager BG3ModManager是专为《博德之…...

2026/6/3 10:51:42 阅读更多 →