RAG是目前比较火热的一个概念。对应的应用如雨后春笋般涌出。我们在实际的探索中,可能会有各种各样的优化方案。但是优化是否有用呢?模型影响会有多大呢? 我们需要一把尺子,来做全链路的衡量。才能够得出,到底应该朝哪个方向走。
自动化评估大模型增强检索RAG方案的好坏,实现基于场景数据选择大模型增强检索框架、embedding算法、大模型底座等,从而更好服务业务。
如何构建测试数据集呢?如何选择模型能?在构建数据集上,是一个头疼的问题。
这里提供一个全链路评测工具ragas。这里提供了所有的链接。因为官方提供的文档已经飞非常全了。我会提供对应的gitbub地址,讲解视频,文档等。ragas让评测变得简单。
ragas 讲解视频地址
国内
Ragas:自动化评估大模型增强检索RAG方案的好坏,实现基于场景数据选择大模型增强检索框架、embedding算法、大模型底座等,从而更好服务业务_哔哩哔哩_bilibili
国外
https://www.youtube.com/watch?v=euUXqSPq5D4
ragas 官方地址
GitHub - explodinggradients/ragas: Evaluation framework for your Retrieval Augmented Generation (RAG) pipelines
ragas 官方文档地址
Introduction | Ragas