- AIlen AI 发布【开源】三万亿 Token 文本数据集 Dolma
- Dolma 背景
- 开源地址
- Dolma 的愿景
- Dolma 数据集的设计原则
- Dolma 与其他数据集的比较
AIlen AI 发布【开源】三万亿 Token 文本数据集 Dolma
2023年8月22日 AI研究机构Allen Institute for AI发布了一个名为Dolma的开源语料库,这个语料库包含了3万亿的token,成为了迄今为止最大的开源数据集
Dolma 背景
2023 年 3 月,Allen Institute for AI开始创建一个名为OLMo的开源语言模型,旨在推动大规模NLP系统的研究,
Dolma 是 Al