社区供稿 | EcomGPT:基于任务链数据的电商大模型(附魔搭推理实践) - 知乎
https://arxiv.org/pdf/2312.15696.pdf
EcomInstruct指令数据集构建
数据集组成
COT方式构造垂域训练数据:把原本的垂域任务分解成了原子任务,构造了基于解决原子任务的数据。这样能用类似COT的方式引导模型在中间过程也去逼近正确答案。
为了解决上述的泛化性问题,我们提出了第一个电子商务指令数据集EcomInstruct,包含250万个指令数据和134个任务。EcomInstruct的构建来源于两个主要渠道。
一方面,我们手动收集了各种电子商务自然语言处理(NLP)数据集,这些数据集来自开放数据源ÿ