截止2023/12/6 笔者个人的调研,有三家有大模型知识库的web api服务:
平台 | 类型 | 文档数量 | 文档上传并解析的结构 | api情况 | 返回页码 |
---|---|---|---|---|---|
文心一言 | 插件版 | 多文档 | 有问答api,文档上传是通过网页进行上传 | 有,而且是具体的chunk id,需要设置verbose参数 | |
通义千问 | 插件版 | 单文档 | 【pdf解析】插件单文档问答api,文档只能用url模式,问答的方式可以总结、可以随意问答 | 无 | |
星火大模型 | 知识库 | 多文档 | 有,在高级功能中 | 有上传接口,有文档问答,有文档总结 | 有,但不是逐句返回 |
1 文心一言
1.1 知识库上传
地址:
https://console.bce.baidu.com/qianfan/knowledge
先创建知识库,然后上传文档,还可以二次修改
可以自定义PDF分段方式:
对于不合理的片段可以进行删除:
1.2 插件-pdf解析
api文档地址:
https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Clo5k1uox
调用示例:
import os
import qianfan# 替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk,应用APPID替换your_AppIDos.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
os.environ["QIANFAN_APPID"]="your_AppID"# Plugin 知识库展示
plugin = qianfan.Plugin(endpoint="your_endpoint")
resp = plugin.do(plugins=["uuid-zhishiku"], prompt="深度合成服务提供者应当设置哪些入口")
print(resp)
#深度合成服务提供者应当设置便捷的用户申诉和公众投诉、举报入口,公布处理流程和反馈时限,及时受理、处理和反馈处理结果。
请求参数:
在文心一言的问答界面可以看到:
2 通义千问
跟文心一言类似,是以插件形式出现,而且是单篇文档问答;
文档地址
而且文档比较简单,基本你提工单才能问到一些信息
python code:
from http import HTTPStatus
import dashscopedef call_with_messages():plugins = {'ocr': {}} # choose the desired plugin(s).messages = [{'role': 'system', 'content': 'You are a helpful assistant.'},{'role': 'user','content': '识别一下这个图片上的文字:https://dashscope.oss-cn-beijing.aliyuncs.com/samples/plugin/20231124161643.jpg'}]response = dashscope.Generation.call(model='qwen-plus',messages=messages,result_format='message', # set the result to be 'message' format.plugins=plugins,)if response.status_code == HTTPStatus.OK:print(response)else:print('Request id: %s, Status code: %s, error code: %s, error message: %s' % (response.request_id, response.status_code,response.code, response.message))if __name__ == '__main__':call_with_messages()
在通义千问中,有按钮专门选择【文档解析】插件:
3 星火大模型
文档地址
涵盖了三个web api:
- 文档上传
- 文档总结
- 文档问答
具体可参考博客:讯飞星火知识库文档问答Web API的使用(二)
在星火大模型的sparkdesk版面:
4 智谱
地址:
https://chatglm.cn/
看上去是单文档问答;对于上传文档好像没看到地方进行二次修改。
4.1 上传模块
4.2 文档问答
5 FastChat
地址:
https://ai.fastgpt.in/
文件导入:
每篇导入是收费的
问答配置: