离职谷歌的Transformer作者创业,连发3个模型(附技术报告)

  ChatGPT狂飙160天,世界已经不是之前的样子。

新建了人工智能中文站https://ai.weoknow.com
每天给大家更新可用的国内可用chatGPT资源

发布在https://it.weoknow.com

更多资源欢迎关注


 


去年 8 月,两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布创立一家人工智能公司 Sakana AI,总部位于日本东京。其中,Llion Jones 是谷歌 2017 年经典研究论文《Attention is all you need》的第五作者,该论文提出了深度学习架构 transformer。transformer 对整个机器学习领域产生了重要影响,并且是 ChatGPT 等生成式 AI 模型的基础。

图片

论文于 2017 年 6 月首次发表后,随着全球对生成人工智能人才竞争不断升温,论文作者陆续离开谷歌,自立门户创业。Llion Jones 是八位作者中最后一个退出谷歌的人。

David Ha、Llion Jones 成立的初创公司 Sakana AI 致力于构建生成式 AI 模型。最近,Sakana AI 宣布推出一种通用方法 ——Evolutionary Model Merge。该方法使用进化算法来有效地发现组合不同开源模型的最佳方法,这些开源模型具有不同功能。Evolutionary Model Merge 方法能够自动创建具有用户指定功能的新基础模型。

为了测试其方法的有效性,研究团队用 Evolutionary Model Merge 方法演化出能够进行数学推理的日语大语言模型(LLM)和日语视觉语言模型(VLM)。实验结果表明这两个模型在没有经过明确优化的情况下,在多个 LLM 和视觉基准上都取得了 SOTA 结果。

特别是,其中进行数学推理的日语 LLM 是一个 7B 参数模型,它在大量日语 LLM 基准上取得了顶级性能,甚至超过了一些 SOTA 70B 参数 LLM。

最终,研究团队应用 Evolutionary Model Merge 方法演化出 3 个强大的基础模型:

1. 大语言模型(EvoLLM-JP)

2. 视觉语言模型(EvoVLM-JP)

3. 图像生成模型(EvoSDXL-JP)

值得注意的是,Evolutionary Model Merge 方法能够自动生成新的基础模型,而不需要任何基于梯度的训练,因此需要相对较少的计算资源。

Sakana AI 团队认为:受自然选择启发的进化算法可以解锁有效的开源方法合并解决方案,以探索广阔的可能性空间,发现传统方法和人类直觉可能错过的新颖且不直观的组合。

技术详解

技术报告介绍了 Evolutionary Model Merge 这种通用进化方法。

图片

报告地址:https://arxiv.org/pdf/2403.13187.pdf

本文的目标是创建一个统一的框架,能够从选定的基础模型中自动生成合并模型,以确保该合并模型的性能超过集合中任何个体的性能,方法的核心是进化算法。研究者首先将合并过程剖析成两个不同的、正交的配置空间,并分析它们各自的影响。基于此分析,他们随后引入了一个无缝集成这些空间的内聚框架。图 1 为示意图。

图片

Evolutionary Model Merge 结合了:(1)合并数据流空间(Data Flow Space)中的模型,以及(2)合并参数空间(权重)中的模型。

数据流空间:是通过进化来发现不同模型各层的最佳组合以形成新模型。下面是这种方法的一个示例:

参数空间:第二种方法是开发混合多个模型权重的新方法,混合不同模型的权重以形成新的模型。下面视频为两种不同模型混合权重的过程说明:

数据流空间和参数空间这两种方法也可以结合在一起来开发新的基础模型:

该研究希望通过进化的方法来帮助找到更好的模型合并方法,通过实验,研究者证明了该方法能够创建具有以前不存在的、新的、具有新兴组合功能的新模型。实验中,研究者使用这种自动化方法生成了两个新模型:一个日语数学 LLM 和一个支持日语的 VLM,它们都是使用这种方法演化而来的。

具有 SOTA 性能的基础模型

该研究提出了三种模型:大型语言模型(EvoLLM-JP)、视觉语言模型(EvoVLM-JP)以及图像生成模型(EvoSDXL-JP)。

EvoLLM-JP

EvoLLM-JP 是一个可以用日语解决数学问题的 LLM。为了构建这样的模型,该研究使用进化算法来合并日语 LLM(Shisa-Gamma)和特定于数学的 LLM(WizardMath 和 Abel)。

实验过程中,研究者允许模型不断的进化迭代,最终模型采用的是在 100-150 次的进化中表现最好的模型。研究者在 MGSM 数据集上进行了评估,以下是评估结果:该表格比较了不同 LLM 用日语解决数学问题的表现,MGSM-JA 列显示正确答案的百分比。模型 1-3 为原始模型,模型 4-6 为优化后的合并模型。模型 7-10 是用于比较的 LLM 得分。

图片

上表为进化后的 LLM 结果。其中模型 4 在参数空间中进行了优化,模型 6 使用模型 4 在数据流空间中进行了进一步优化。这些模型的正确响应率明显高于三个源模型的正确响应率。

不过研究者表示根据以往的经验,手动将日语 LLM 与数学 LLM 结合起来非常困难。但经过迭代努力,进化算法能够有效地找到一种将日语 LLM 与数学 LLM 结合起来的方法,成功地构建了一个兼具日语和数学能力的模型。

除了数学能力外,研究者还评估了模型的日语能力。令人惊讶的是,该研究发现这些模型在一些与数学无关的任务上也取得了高分。值得注意的是,模型并没有经过特定优化,但实际效果还不错。

图片

LLM 日语整体能力比较,其中 Avg 栏是 9 个任务得分的平均值,数值越高,代表 LLM 日语整体能力越高。

EvoVLM-JP

该研究发现,进化算法还可以进化成不同架构的模型。他们通过应用进化模型合并生成了一个日语视觉语言模型 (VLM)。

在构建日语 VLM 时,该研究使用了流行的开源 VLM (LLaVa-1.6-Mistral-7B) 和功能强大的日语 LLM (Shisa Gamma 7B v1)。研究者表示,这是合并 VLM 和 LLM 的第一次努力,其证明了进化算法可以在合并模型中发挥重要作用。以下是评估结果。

图片

VLM 性能比较。

上表中,JA-VG-VQA-500 和 JA-VLM-Bench-In-the-Wild 都是关于图像问答的基准。分数越高,表示用日语回答的答案越准确。

以下为模型在回答有关图像问题的示例展示。两种基线模型经常给出错误的答案,而 EvoVLM-JP 给出正确的答案。

例如用户询问交通信号灯现在是什么颜色时,通常来讲,正确答案是绿色,但是在日语习惯中,都会说成蓝色。可以看出 EvoVLM-JP 比较贴合日语习惯。

图片

图片

图片

EvoSDXL-JP

该研究发现,进化也可以自动发现合并不同扩散模型的方法。

图片

EvoSDXL-JP 根据提示生成图片。

  ChatGPT狂飙160天,世界已经不是之前的样子。

新建了人工智能中文站https://ai.weoknow.com
每天给大家更新可用的国内可用chatGPT资源

发布在https://it.weoknow.com

更多资源欢迎关注


 


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/769564.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【协议-HTTPS】

https https是在http协议的基础上,添加了SSL/TLS握手以及数据加密传输,也属于应用层协议。 httpshttp加密认证完整性保护 https交互图: HTTPS的整体过程分为证书验证和数据传输阶段: ① 证书验证阶段 浏览器发起 HTTPS 请求 服务…

近线数仓优化改造

近线数仓优化改造 1. 背景2. 优化3. 改造3.1. 重构3.2. 优化 1. 背景 大概就是有那么一个数仓,然后简略结构如下: #mermaid-svg-PVoUzuQhj2BK7Qge {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid…

【javascript】原型继承

在编程中,我们经常会想获取并扩展一些东西。 例如,我们有一个 user 对象及其属性和方法,并希望将 admin 和 guest 作为基于 user 稍加修改的变体。我们想重用 user 中的内容,而不是复制/重新实现它的方法,而只是在其之…

Cisco firepower 2140 run ASA and config failover

1 背景 here we got 2 cisco firepower 2140 hardware appliance we’re planning to run ASA on it. and config failover for Primary Unit and Secondary Unit 现场2台Cisco firepower 2140防火墙, 运行ASA模式, 双机组HA,心跳线使用E1/1…

【包远程安装运行】SpringBoot+Mysql实现的图书商城平台+演示视频+开发文档(论文模板)

今天发布的是一款由SpringBootMySQL实现的在线图书商城系统源码,系统主要实现的功能分前台用户和后台管理。 前台功能主要有: 图书物展示、图书分类展示、图书搜索、用户登录注册、图书收藏、图书添加购物车、用户个人信息修改、用户充值提交、购物车图…

期货开户无情地执行交易策略

不是我们偶尔做的事情塑造了我们的生活,而是我们一贯地做的事情塑造我们的生活。这句话告诉我们,不是偶尔做的事情决定我们的人生轨迹,而是我们持之以恒的行为。我认为这个金句最鼓舞人心的地方在于,我们应该容许自己偶尔出错或失…

http和socks5代理哪个隐蔽性更强?

HTTP代理和SOCKS5代理各有其优缺点,但就隐蔽性而言,SOCKS5代理通常比HTTP代理更隐蔽。以下是它们的比较: HTTP代理: 透明性较高:HTTP代理在HTTP头中会透露原始客户端的IP地址,这使得它相对不太隐蔽。…

使用IDA查看二进制

文章目录 1 IDA是什么?2 IDA界面3 汇编基础4 IDA查看hello world二进制5 查看带有条件语句和函数调用的二进制6 总结 1 IDA是什么? IDA是一款反编译软件,可以查看二进制的汇编代码,常用于逆向和问题定位。与其他商业软件类似&…

C++11特性--统一的列表初始化

个人主页:Lei宝啊 愿所有美好如期而遇 {} 初始化及std:initializer_list 一 这种初始化方式我们建议用第一种,但是以后看见下面两种也不要感到疑惑,是可以这样初始化的。 int main() {int a 1;int b { 1 };int c{ 1 };return 0; } 二…

数据链路层(三):流量控制和链路管理

目录 1 流量控制和链路管理1.1 流量控制介绍1、什么是流量控制2、流量控制的功能和方法 1.2 停止等待1.3 滑动窗口1、滑动窗口2、发送方滑动窗口3、接收方滑动窗口4、滑动窗口的流量控制使用滑动窗口如何实现流量控制的为什么滑动窗口的大小比模数小1滑动窗口控制流量采取的措施…

【SpringBoot3+Mybatis】框架快速搭建

文章目录 GitHub 项目一、依赖二、 配置文件三、启动类四、SpringBoot3兼容Druid报错五、工具类5.1 结果封装类5.2 解决枚举类5.3 MD5加密工具类 GitHub 项目 springboot-part——springboot-integrate-07 Mybatis-plus版完整CRUD项目文档记录: 【SpringBoot3Myba…

“神器”巩膜镜,为屈光不正及难治角膜病患者带来希望!

“我不想再戴回框架眼镜了,但是由于角膜疾病问题,我曾戴普通隐形眼镜和RGP都会出现极强的异物感,非常不舒服!现在我该怎么办呢?”四川眼科医院门诊,张女士疑惑地问到。 28岁的张女士是一名圆锥角膜患者&am…

Pixelmator Pro:专业级图像编辑,触手可及mac版

Pixelmator Pro是一款功能强大的图像编辑软件,专为Mac操作系统设计。它拥有直观的界面和丰富的工具,能够满足用户各种图像处理需求。 Pixelmator Pro软件获取 首先,Pixelmator Pro支持多种文件格式,包括JPEG、PNG、GIF、BMP、TIF…

【包远程安装运行】SpringBoot+Mysql实现的美食分享菜谱制作平台+演示视频+开发文档(论文模板)

今天发布的是由【猿来入此】的优秀学员独立做的一个基于springboot脚手架的美食分享菜谱制作平台系统,该系统分为前台和后台,多用户分享平台。主要实现了 除脚手架功能以外下面是系统的功能: 前台普通用户:注册、登录、首页、美食…

政安晨:【深度学习实践】【使用 TensorFlow 和 Keras 为结构化数据构建和训练神经网络】(三)—— 随机梯度下降

政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收录专栏: TensorFlow与Keras实战演绎 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正! 这篇文章中,咱们将使用Keras和TensorFlow…

GPT神器级插件Code Interpreter

自去年 3 月份以来,人们对 GPT-4 API 的兴趣激增,“有数百万开发人员请求访问”。OpenAI 在一篇博客文章中,分享了使用 GPT-4 正在进行的一系列令人兴奋的创新,并阐明了未来的愿景:未来基于聊天的大模型可以用在任意的…

每秒批量插入10000条数据到MySQL中,资源消耗(带宽、IOPS)有多少?

文章目录 🔊博主介绍🥤本文内容起因代码资源情况改造 📢文章总结📥博主目标 🔊博主介绍 🌟我是廖志伟,一名Java开发工程师、Java领域优质创作者、CSDN博客专家、51CTO专家博主、阿里云专家博主、…

LeetCode每日一题[c++]-322.零钱兑换

题目描述 给你一个整数数组 coins ,表示不同面额的硬币;以及一个整数 amount ,表示总金额。 计算并返回可以凑成总金额所需的 最少的硬币个数 。如果没有任何一种硬币组合能组成总金额,返回 -1 。 你可以认为每种硬币的数量是无…

照片变动图怎么操作?一招在线转换

GIF动画是一种特殊的图像文件格式,它可以在一张图像中显示多个图像帧,并以循环播放的方式展示,从而实现动态效果。由于GIF格式的广泛支持和较小的文件大小,它成为了互联网上常见的动画格式之一。想要制作gif动画图片可以使用Gif制…

链动2+1模式 完全合法合规 不存在传销问题!!

在商业经营中,营销策略的巧妙运用对于提升产品销量和扩大品牌影响力至关重要。然而,企业在制定和执行营销策略时,必须严格遵循法律法规,以免陷入法律风险。本文将着重探讨链动21模式的法律要素,以论证其合规性。 一、链…