【论文笔记】| 微调LLM晶体生成
Fine-Tuned Language Models Generate Stable Inorganic Materials as Text
NYU, ICLR 2024
Theme:Material Generation
Main work:
微调大型语言模型以生成稳定的材料
- 可靠性:在样本结构中,90% 遵循原子位置和电荷的物理约束条件。
- 亚稳性:可以以大约两倍的速率(49% 对 28%)生成预测为亚稳态的材料,优于 CDVAE。
- 灵活性:可以同时用于无条件生成稳定材料、填充部分结构以及条件生成文本。
- 适用性:捕捉晶体结构的关键对称性,在模型规模扩大时性能提升。
Method:
将晶体结构【crystal lattice,原子类型及坐标(Fractional coordinates / 3D coordinates)】编码为换行字符串并与文本指令相结合,然后在基础LLM (LLaMA-2)上执行参数高效微调(PEFT)
Dataset and Training details:
- 将原始的 CDVAE 训练数据集与截至 2023 年 4 月的 Materials Project 中的材料进行扩展,过滤掉晶格中原子数超过 30 个的晶体
- 4-bit quantization and Low-Rank Adapters (LoRA)
Experiment:
评估指标:
- 有效性与多样性:结构有效性由非重叠原子半径计算;成分有效性由计算电荷为中性计算;多样性使用Matminer对结构和组成进行特征化后的样本间距离来计算;
- 预测稳定性:利用来自 Materials Project 的已知材料和能量计算,根据元素组成配比构建了真实能量凸包。使用M3GNET和DFT方法VASP计算生成材料相对凸包的近似能量,即 E ^ h u l l \hat{E}_{hull} E^hull,预测其稳定性
实验结果:
- 无条件生成:我们从每个微调 LLAMA 模型中抽取 10,000 个结构,从生成的字符串解析 CIF。随机抽样、拒绝提取不出来的样本并重新抽取另一个样本
- 条件生成:加入条件【空间群编号、成分和 E h u l l {E}_{hull} Ehull】进行生成
- 对称性学习:通过变换下的困惑度的增加(IPT)作为评估语言模型
IPT ( s ) = E g ∈ G [ PPL ( t g ( s ) ) − PPL ( t g ∗ ( s ) ) ] , g ∗ = arg min P P L ( t g ∗ ( s ) ) \text{IPT}(s)=\mathbb{E}_{g\in G}[\text{PPL}(t_g(s))-\text{PPL}(t_{g^*}(s))],g^*=\arg\min\mathrm{PPL}(t_{g^*}(s)) IPT(s)=Eg∈G[PPL(tg(s))−PPL(tg∗(s))],g∗=argminPPL(tg∗(s)) - 填充部分结构:mutation-relaxation step
- mutation:构建一个查找表,将每个元素映射到在相同氧化态时具有相似原子半径的元素。
- 均匀选择: 从元素的查找表中均匀地选择一个元素进行替换。
- 语言模型引导的选择: 使用Fine-tuned LLM(温度参数 t 调节)生成的元素分布中进行抽样。
- relaxation:生成的新结构需要通过 M3GNET 评估结构的能量是否稳定。
- mutation:构建一个查找表,将每个元素映射到在相同氧化态时具有相似原子半径的元素。
参考文献
Gruver N, Sriram A, Madotto A, et al. Fine-Tuned Language Models Generate Stable Inorganic Materials as Text[J]. arXiv preprint arXiv:2402.04379, 2024.