11月30日,开源生成式AI平台Together AI在官网宣布,获得1.025亿美元(约7.3亿元)A轮融资。本次由凯鹏华盈 (Kleiner Perkins) 领投,英伟达、Emergence Capital、 NEA、Prosperity 7、Greycroft等跟投。
公开资料显示,Together AI创立于2022年6月,总部位于美国旧金山硅谷。曾在今年5月15日获得2000万美元种子轮融资,是大模型开源领域发展非常快的一家企业。
产品方面,Together AI坚信开源才是大模型的未来,自成立以来便发布了多个受到企业、开发者好评的开源产品。
分别是类ChatGPT开源模型RedPajama-INCITE,开源30万亿训练数据集RedPajama-Data-v2,开源大语言模型训练、推理加速器FlashAttention v2。
下面,「AIGC开放社区」将介绍这些主打开源产品并附带地址。
RedPajama-INCITE:是Together AI在今年5月初发布的一款类ChatGPT开源模型,主要包括30亿、70亿两种参数,特点是功能强大算力消耗低,可在笔记本、普通显卡运行,适用于中小企业和个人开发者。
30亿参数开源地址:https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-3B-v1
70亿参数开源地址:https://huggingface.co/togethercomputer/RedPajama-INCITE-Chat-7B-v0.1
RedPajama-Data-v2:今年3月Together AI首次开源了1万亿训练数据集,受到开发者的极大好评下载量近20万次。
最近,又开源了专门用于训练大语言模型的30万亿训练数据集RedPajama-Data-v2,这也是目前最大的开源数据集。
该数据集包含1000 亿个文本文档,其中300亿文档已进行了标记,支持英语、法语、西班牙语、德语和意大利语5种语言。
30万亿开源训练数据集
github地址:https://github.com/togethercomputer/RedPajama-Data
Huggingface地址:https://huggingface.co/datasets/togethercomputer/RedPajama-Data-V2
FlashAttention v2:这是Together AI首席科学家Tri Dao博士,在今年7月17日发布的一款大语言模型训练、推理加速器,已经被 OpenAI、Anthropic、Meta等知名科技巨头使用,其性能可见一斑。
FlashAttention-2将大语言模型的训练和微调效率提高了4倍,并在 NVIDIA A100上的训练中实现了72%的模型 FLOP 利用率。
几乎成为Transformer 架构模型使用最多的训练、推理加速器,支持100多种主流大语言模型。
FlashAttention v2开源地址:https://github.com/Dao-AILab/flash-attention
此外,随着ChatGPT的影响不断扩大受众用户、初创企业呈指数级增长,Together AI还新增了全新的生成式AI云平台服务。
Together AI与英伟达、 Crusoe Cloud、Vultr等伙伴进行合作,在欧美地区运营了一个云计算中心,为生成式AI初创企业提供推理、训练等服务。例如,刚获得5500万美元融资的文生视频平台Pika Labs,便是他们的忠实用户。
本文素材来源Together AI官网,如有侵权请联系删除