LLM自动金融量化-CFGPT
简介
CFGPT是一个开源的语言模型,首先通过在收集和清理的中国金融文本数据(CFData-pt)上进行继续预训练,包括金融领域特定数据(公告、金融文章、金融考试、金融新闻、金融研究论文)和通用数据(维基百科),然后使用知识密集的指导调整数据(CFData-sft)进行微调。
我们使用CFBenchmark-Basic进行初步评估。与几个具有相似参数的基线模型相比,CFGPT在识别,分类和生成任务上表现具有优势。
-
我们基于书生·浦语2开发了CFGPT2 (7B&20B),同时还融合了检索增强模块,事实检测模块,合规检查模块和风险监测模块,在提升金融大模型服务的实时性与准确性的同时,有效监测与管控金融风险。
- 书生·浦语2-7B: 基于InternLM2-7B进行继续与训练和有监督微调,在多个金融任务上取得领先。
-
我们将CFGPT1 (7B) 分成三个部分发