每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
当前,人类尚未完全理解如何解读语言模型中的神经活动。今天,研究人员分享了一些改进的方法,旨在发现大量“特征”——希望这些活动模式能被人类解释。新方法比现有的更具扩展性,研究人员利用它们在生成预训练变换模型4中找到了1600万个特征。他们正在与研究界分享一篇论文、代码和特征可视化工具,以促进进一步探索。
解读神经网络的挑战
与大多数人类创造物不同,我们尚不完全理解神经网络的内部运作。例如,工程师可以直接设计、评估和修理汽车,确保其安全性和性能。然而,神经网络并非直接设计的,而是通过设计训练它们的算法生成的。因此,生成的网络难以理解,也不能轻易分解为可识别的部分。这意味着我们无法像理解汽车安全那样来理解人工智能的安全性。
为了理解和解读神经网络,首先需要找到神经计算的有用构建块。然而,语言模型内的神经激活模式是不确定的,似乎同时代表许多概念,并且总是密集地激活。在现实世界中,概念是稀疏的——在任何特定情境中,只有少部分概念是相关的。这推动了稀疏自编码器的使用,这种方法可以识别神经网络中少量对生成特定输出重要的“特征”,类似于人在思考时所具备的一小部分概念。这些特征展示了稀疏的激活模式,自然与人类易于理解的概念对齐,即使没有直接的可解释性激励。
我们的研究进展:大规模自编码器训练
研究团队开发了新的最先进的方法,使其能够将稀疏自编码器扩展到前沿人工智能模型上的数千万个特征。他们的方法显示出平滑和可预测的扩展性,比之前的技术有更好的规模回报。团队还引入了几种新的指标来评估特征质量。
研究人员使用这些方法训练了多种自编码器,包括对生成预训练变换模型2小型和生成预训练变换模型4激活的自编码器,其中包括一个在生成预训练变换模型4上有1600万个特征的自编码器。为了检查特征的可解释性,他们通过展示激活该特征的文档来进行可视化展示。以下是一些可解释的特征:
- 人类不完美
- 价格上涨
- X和Y
- 训练日志
- 反问句
- 代数环
- 谁/什么
展望未来与开放研究
虽然稀疏自编码器的研究令人兴奋,但前路漫漫,仍有许多未解决的挑战。短期内,研究人员希望这些发现的特征能在监控和引导语言模型行为方面实际有用,并计划在前沿模型中进行测试。最终,他们希望有一天可解释性能够提供新的方法来推理模型安全性和稳健性,并通过对其行为的强有力保证大大增加我们对强大人工智能模型的信任。
今天,研究团队分享了一篇详细介绍实验和方法的论文,希望这能使研究人员更容易地在大规模上训练自编码器。他们还发布了完整的生成预训练变换模型2小型自编码器套件,以及使用这些自编码器的代码和特征可视化工具,帮助研究人员了解生成预训练变换模型2和生成预训练变换模型4特征可能对应的内容。
https://cdn.openai.com/papers/sparse-autoencoders.pdf