Py之pymupdf:基于langchain框架结合pymupdf库实现输出每个PDF页面的文本内容、元数据等
目录
PyMuPDFLoader类
初始化
属性
方法
__init__(file_path, *, headers=None, extract_images=False, **kwargs)
lazy_load()
aload()
alazy_load()
load(**kwargs)
load_and_split(text_splitter=None)
基于langchain框架结合pymupdf库的应用案例
1、输出每个PDF页面的文本内容、元数据等
2、延迟加载
PyMuPDFLoader类
PyMuPDFLoader
提供了多种加载和分割 PDF 文档的方法,支持同步和异步加载,还可以选择是否提取图片。这使得处理 PDF 文件更加灵活。
类名: langchain_community.document_loaders.pdf.PyMuPDFLoader
使用 PyMuPDF 加载 PDF 文件。
初始化
通过文件路径初始化。
属性
source
: 数据来源。