盘古NLP大模型典型场景
千亿大模型训练难点和解决方案
训练状态不稳定(经常训练中断等)
解决1:对loss和梯度等多维状态实时监测。对数据、学习率、参数精度、模型梯度进行针对性调整和断点恢复。
调整学习率的代码如下。调整参数、梯度类似。
self.train_learning_rate = 2e-4 #initial learning rate
self.lr_plan = {41:1e-4, 81:5e-5, 121:1e-5} #change learning rate in these epochs
for epoch in range(start_epoch, start_epoch+cfg.max_epoch):if epoch in cfg.lr_plan:adjust_lr(optimizer, cfg.lr_plan[epoch])#根据轮次调整学习率# One epoch of forward and backwardtrain_info=train(training_loader, model, device, optimizer, epoch, cfg)
断点恢复
# 模型保存
state = {'epoch': epoch,'state_dict': model.state_dict(),'optimizer': optimizer.state_dict(),... # 有其他希望保存的内容,也可自定义}torch.save(state, filepath)
# 加载模型,恢复训练model.load_state_dict(state['state_dict'])optimizer.load_state_dict(state['optimizer'])start_epoch = checkpoint['epoch'] + 1
大集群加载大数据耗时长
解决2:使用ModelArts提供的MemArts存储缓存特性
盘古气象大模型
三维高分辨率神经网络
AIGC
AIGC就是由AI自动创作生成的内容(AI Generated Content),比如图片、视频、音乐、文字等。AIGC就像一支神奇的画笔,拥有无限的创造力。这支画笔的特别之处在于,它是由AI打造的。AI利用它的理解力、想象力和创作力,根据指定的需求和风格,创作出各种内容:文章、短篇小说、报告、音乐、图像,甚至是视频。AIGC的出现,打开了一个全新的创作世界,为人们提供了无数的可能性。
从用户生成内容(UGC),到专业生成内容(PGC),再到现在的人工智能生成内容(AIGC),我们看到了内容创作方式的巨大变革和进步。
AIGC是AI大模型,特别是自然语言处理模型的一种重要应用;ChatGPT则是AIGC在聊天对话场景的一个具体应用。可以把AIGC看作是一个大的范畴,而ChatGPT是其中一个类别的小应用。
ChatGPT是由OpenAI开发的一款大型预训练语言模型,就像一个会聊天的机器人。
它可以理解你说的话,并给出回答。这个机器人在互联网上读了很多书、文章,学到了很多知识,所以可以回答各种问题,甚至进行深入的讨论。不过,ChatGPT的理解与人类不同,人类理解事物时,有意识、经验和情感等多个层次的参与,而ChatGPT只是通过分析和模拟大量的文本数据来"学习"如何合理地回应。
2、Midjourney
Midjourney是由美国旧金山的一家独立研究实验室创立的图片类AIGC应用程序,我们可以通过语言描述来生成图片。比如,输入一个苹果,它就会为你生成出一张苹果的图片。
3、Stable Diffusion
图片生成类AI大模型,可以在给定的任何提示词下生成图像,并支持根据关键词和图片检索。与Midjourney相比,生成图像的结果更可控
4、Bing
Bing AI就是搭载了GPT-4的Bing浏览器,它能够更好地理解用户意图,提供更加智能化、个性化的搜索和服务体验。
5、文心一言
文心一言是百度全新一代知识增强大语言模型,能够与人对话互动、回答问题、协助创作,具备更强的中文理解能力。
6、文心一格
文心一格是百度基于文心大模型的文生图系统,搭建的图片生成类AI大模型,可以根据用户输入的指令提示,生成相应的图片。