想象一下,在未来,人工智能不会被锁在公司的金库里,而是由全球创新者社区一砖一瓦地在开放中构建的。协作,而不是竞争,推动进步,道德考虑与原始绩效同等重要。这不是科幻小说,而是人工智能发展核心正在酝酿的开源革命。但大型科技公司有自己的议程,将受限制的模型掩盖为开源,同时试图从真正开放的社区中获益。让我们剥开代码层,揭开这些努力背后的真相。这场对开源人工智能未来的探索将剖析人工智能开发中的“伪装者”,并捍卫“真正的伪装者”,以揭示开源软件在这一切之下嗡嗡作响的创新引擎。最重要的是,开源人工智能将产生一个开源数据堆栈。
需求
Matteo Wong最近在《大西洋月刊》(The Atlantic)上发表的一篇文章《从来没有’开放’人工智能》(There There was so a Thing as ‘Open’ AI“)描述了学术界和软件界对真正开源人工智能的日益增长的趋势。“我们的想法是创建相对透明的模型,让公众可以更轻松、更便宜地使用、研究和复制,试图使高度集中的技术民主化,这种技术可能有可能改变工作、警察、休闲甚至宗教。《大西洋月刊》表明,像 Meta 这样的大型科技公司正试图通过“公开清洗”他们的产品来满足市场的这一需求。他们承担了开源社区的品质和良好的声誉,而没有真正开源他们的产品。但是,真实的东西是无可替代的。这是因为真正的开源软件推动了创新和协作:这是负责任地推进人工智能所迫切需要的两种品质。
伪装者
LLaMA 2 是由 Meta 创建的大型语言模型,可免费用于研究和商业用途。导致一些人认为 LLaMA 2 是开源的。但是,Meta 对其模型的使用实施了一些严格的限制。例如,LLaMA 2 不能用于改进任何其他大型语言模型。这一立场与开放软件的传统私人集体创新模式背道而驰,这种模式促进了自由和开放的创新揭示,以造福软件社区中的每个人。
Meta 不允许将 LLaMA 2 与每月拥有 7 亿用户的产品集成,并且不允许透露他们的模型是根据哪些数据进行训练的,或者他们用来构建模型的代码,从而进一步削弱了其模型的使用。通过不披露,Meta 正在向固有偏见和意外歧视的问题敞开大门。根据歧视性数据训练的模型将提供歧视性反应。如果整个软件社区无法查看用于构建模型的代码,以查看是否内置了任何保护措施,或者用于训练模型的数据,那么我们在这些道德问题上就一无所知。在已发表的人工智能研究更关注性能而不是正义和尊重的时代,这种混淆尤其令人不安。
真正的开源AI
Mistral AI 因其开源大型语言模型而获得认可,尤其是 Mistral 7B 和 Mixtral 8x7B。该公司努力确保其 AI 模型的广泛可访问性,鼓励开放软件社区进行审查、修改和重用。
vLLM 代表“矢量化低延迟模型服务”,是一个专门用于加速和优化大型语言模型的开源库 (LLMs)。它是一个强大的工具,可以显着提高 LLMs的性能和可用性。这使得它成为从事各种人工智能应用程序的开发人员的宝贵资产,从聊天机器人和虚拟助手到内容创建和代码生成。因此,Mistral 建议使用 vLLM 作为 7B 和 8x7B 模型的推理服务器。
EleutherAI 是一个非营利性 AI 研究实验室,已从用于讨论 GPT-3 的 Discord 服务器发展成为领先的非营利性研究组织。该小组以其在自然语言处理领域培训和推广开放科学规范的工作而闻名。他们发布了各种开源大型语言模型,并参与了与人工智能对齐和可解释性相关的研究项目。他们的 LM-Harness 项目可能是领先的语言模型开源评估工具。
Phi-2是Microsoft的,它的重量超过了LLM它的重量。这个小而强大的模型在合成文本和过滤网站的混合体上进行了训练,在问答、总结和翻译等任务方面表现出色。真正让 Phi-2 与众不同的是它专注于推理和语言理解,即使没有先进的对齐技术,也能带来令人印象深刻的性能。它在偏见和毒性领域大放异彩,显示出危害较小的人工智能交互的潜力。️
许多称职的开源嵌入模型正在加强整个开源生成式 AI 空间。这些是当前最先进的开源技术,包括 UAE-Large-V1 和多语言-e5-largel。
在这个不断发展的领域中,还有更多。这个有限的列表只是一个开始。
开源推动创新
真正参与开源软件开发的公司秉承极端开放创新的理念,通过承认并非所有好的代码或伟大的想法都存在于他们的组织中,来挑战传统的竞争优势概念。这种转变支持了这样一种观点,即开源生态系统中的共享创新会导致更快的市场增长,甚至为研发资金有限的小型软件公司提供从开源软件中存在的研发溢出效应中受益的机会。这是因为,与传统的外包相比,开放式创新通过利用社区的集体智慧来增强内部资源,而不会减少内部研发工作。这意味着,开源软件公司不必牺牲他们的预算来追求组织之外的思想领导力和代码。此外,开源软件公司通过尽早和经常发布代码来战略性地推动创新,认识到软件社区中创新过程的累积性。总而言之,许多人已经认识到:开源软件推动创新。
开放式促进协作
通过在开源软件社区中建立联系,企业家能够实现短期和长期目标。短期利润目标建立公司,长期利润目标维持公司。同时,这种网络努力使网络本身永久化 - 为下一个企业家发展它。众所周知,开源平台提供对源代码的访问,使开发人员能够创建升级、插件和其他软件,并根据他们的要求使用它们。随着更广泛的软件社区广泛采用 Kubernetes,这种特殊的协作经历了繁荣。现在,现代技术比以往任何时候都更能协同工作,摩擦非常小,几乎可以在几分钟内完成。
大型科技公司在自由发布他们创建的框架、库和语言来维护和开发内部工具时,承认了开源社区固有的这种深度合作。这样做可以加深能够开发其产品的开发人员库,并开始为类似技术的运行方式设定标准。《大西洋月刊》的同一篇文章援引Meta创始人马克·扎克伯格(Mark Zuckerberg)的话说,“对我们来说,提供这种服务非常有价值,因为现在整个行业所有最好的开发人员都在使用我们在内部使用的工具”。
开源产生开源
这些都是为什么我们经常看到开源公司之间的协同效应的因素。开源 AI 和 ML 公司自然会使用其他开源产品开发解决方案,从对象存储等基础产品到堆栈再到可视化工具。当一家开源公司向前迈进时,我们都会这样做。这种有凝聚力的混合方法可能是我们开发采用以人为本方法的人工智能的最佳选择。这些市场固有的自然力量,对开源人工智能的需求,加上开源软件的创新和协作品质,将推动人工智能数据堆栈开源。