langchain 加载 csv，json

csv

from langchain_community.document_loaders.csv_loader import CSVLoaderloader = CSVLoader(file_path='data/专业描述.csv', csv_args={'delimiter': ',','quotechar': '"','fieldnames': ['专业', '描述']
}, encoding='utf8', source_column='专业')data = loader.load()
print(data)

'quotechar': '"': 设置了引用字符为双引号（"）。在CSV文件中，如果某个字段值本身包含逗号或其他特殊字符，或者整个字段需要被视为一个不可分割的整体，通常会使用双引号将其包围起来。这里的设定告诉解析器如何正确识别和处理被引号包裹的字段值。
'fieldnames': ['专业', '描述']: 提供了列名列表。如果CSV文件的第一行没有列名（或者不希望使用第一行作为列名），可以在这里显式指定列名。在这个例子中，列名分别为“专业”和“描述”，对应到CSV文件中两列数据的实际含义。
source_column: '专业' 指定了一个特定的列名。这个参数的意义可能依赖于CSVLoader的具体实现细节。在某些上下文中，它可能用于指定作为后续处理主键或关键属性的列，在回溯某一行的时候可能有用

json

from langchain_community.document_loaders import JSONLoader
import json
from pathlib import Path
from pprint import pprintfile_path = 'data/json_str.json'
data = json.loads(Path(file_path).read_text(encoding='utf8'))
pprint(data)

json分割

import json
import requestsjson_data = requests.get("https://api.smith.langchain.com/openapi.json").json()from langchain_text_splitters import RecursiveJsonSplitter
splitter = RecursiveJsonSplitter(max_chunk_size=300)# 最好的选择
json_chunks = splitter.split_json(json_data=json_data)  # json_data 为字典# 把 json 当字符串了，不是最优方法
docs = splitter.create_documents(texts=[json_data])# 也把 json 当字符串了，但结果跟 split_json 一样
texts = splitter.split_text(json_data=json_data)
print(texts[0])
print(texts[1])

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/814157.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！