Anthropic团队:什么是大模型的可解释性! |
文章目录
- 一. Anthropic团队:什么是大模型的可解释性!
- 二. 参考文献
- 我的小红书中英文双语视频:Anthropic团队:什么是大模型的可解释性!
一. Anthropic团队:什么是大模型的可解释性!
- 我在Anthropic的可解释性团队工作。可解释性是一门从内部全面理解AI模型的科学。我们这些研究人员正努力弄清楚这些网络学到了什么以及它们是如何工作的。这有点像在研究一种新型的生物学。我们专注于一种叫做机械可解释性的方法,尝试从理解非常小的单元开始,逐步扩展到更大的机制。许多人会惊讶于我们需要进行可解释性研究,认为我们不理解自己创造的这些系统。在某种重要意义上,我们不是在“构建”神经网络,而是在“培养”它们。我们学习它们的过程就像进化一样。就像从相互碰撞的小分子开始,逐步有了基本的蛋白质,再到细胞,最终演化成我们现在的样子