Llama中文大模型-模型预训练

Atom系列模型包含Atom-7B和Atom-13B,基于Llama2做了中文能力的持续优化。Atom-7B和Atom-7B-Chat目前已完全开源,支持商用,可在Hugging Face仓库获取模型:https://huggingface.co/FlagAlpha

大规模的中文数据预训练

原子大模型Atom在Llama2的基础上,采用大规模的中文数据进行持续预训练,包含百科、书籍、博客、新闻、公告、小说、金融数据、法律数据、医疗数据、代码数据、专业论文数据、中文自然语言处理竞赛数据集等,详见📝 数据来源。

同时对庞大的数据进行了过滤、打分、去重,筛选出超过1T token的高质量中文数据,持续不断加入训练迭代中。

更高效的中文词表

为了提高中文文本处理的效率,我们针对Llama2模型的词表进行了深度优化。首先,我们基于数百G的中文文本,在该模型词表的基础上扩展词库至65,000个单词。经过测试,我们的改进使得中文编码/解码速度提高了约350%。此外,我们还扩大了中文字符集的覆盖范围,包括所有emoji符号😊。这使得生成带有表情符号的文章更加高效。

自适应上下文扩展

Atom大模型默认支持4K上下文,利用位置插值PI和Neural Tangent Kernel (NTK)方法,经过微调可以将上下文长度扩增到32K。

📝 中文数据

通过以下数据来优化Llama2的中文能力:

类型

描述

网络数据

互联网上公开的网络数据,挑选出去重后的高质量中文数据,涉及到百科、书籍、博客、新闻、公告、小说等高质量长文本数据。

Wikipedia

中文Wikipedia的数据

悟道

中文悟道开源的200G数据

Clue

Clue开放的中文预训练数据,进行清洗后的高质量中文长文本数据

竞赛数据集

近年来中文自然语言处理多任务竞赛数据集,约150个

MNBVC

MNBVC 中清洗出来的部分数据集

社区提供预训练版本Atom-7B和基于Atom-7B进行对话微调的模型参数供开放下载,关于模型的进展详见社区官网https://llama.family

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/700302.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【第七天】C++模板探秘:函数模板、类模板以及类型转换的深入解析

一、模板的概述 c面向对象编程思想:封装、继承、多态 c泛型编程思想:模板 模板的分类:函数模板、类模板 函数模板(类模板):将功能相同,类型不同的函数(类)的类型抽象成虚…

MMDetection3调试技巧查看Backbone Neck Head 输出---MMDetectionv2迁移

参考:MMDetection issue #9479 查看 Backbone : # 骨架网络构建 # from mmengine.registry import Registry import torch import numpy as np from mmdet.registry import MODELSif __name__ __main__:backbonedict(typeResNet,depth50,num_stages4,…

BeautifulSoup中的find_all()及select()查找方法

#Beautiful Soup库中的find_all()方法是用于查找HTML文档中符合指定条件的所有元素。它返回一个列表,其中包含了找到的所有元素。 # 对于Beautiful Soup库中的find_all()方法,其参数类型可以分为以下几种: # 标签名:字符串类型&a…

聊聊Sora这个AI大神和中美技术赛跑那些事儿

最近有个叫Sora的AI模型火得一塌糊涂。它就像个魔法师,你给它一段话描述,它就能变出一段60秒的高清视频来,这可比之前咱们看过的那些文字转图片的AI厉害多了。想象一下,以后拍电影预告片、做广告宣传啥的,可能直接让So…

Java命令模式:让请求成为对象

Java命令模式:让请求成为对象 在软件设计中,我们经常遇到需要将操作或请求封装成对象的情况。这样,我们可以将它们作为参数传递、排队、记录或撤销。命令模式正是为了满足这种需求而诞生的。在命令模式中,一个请求或操作被封装成…

Ansible 更换aliyun 镜像 并下载tree

目录 查看系统版本找到对应 的版本对当前镜像进行备份下载aliyuan更换成功安装扩展源更换源之后 的三个命令 这里安装一个aliyun 的镜像 本案例 仅供实验参考 生产环境中请谨慎使用 查看系统版本 先查看linux 的系统 版本 ansible slave -m shell -a uname -a找到对应 的版本…

【Spring面试题】

目录 前言 1.Spring框架中的单例bean是线程安全的吗? 2.什么是AOP? 3.你们项目中有没有使用到AOP? 4.Spring中的事务是如何实现的? 5.Spring中事务失效的场景有哪些? 6.Spring的bean的生命周期。 7.Spring中的循环引用 8.构造方法…

FFmpeg解析之avformat_find_stream_info函数

avformat_find_stream_info 的主要作用就是:解析媒体文件并获取相关的流信息 整体的逻辑如下图所示: /*** Read packets of a media file to get stream information. This* is useful for file formats with no headers such as MPEG. This* function…

聊聊JVM运行时数据区的堆内存

聊聊JVM运行时数据区的堆内存 内存模型变迁: Java堆在JVM启动时创建内存区域去实现对象、数组与运行时常量的内存分配,它是虚拟机管理最大的,也是垃圾回收的主要内存区域 。 内存模型变迁: 为什么要有年轻区和老年区?…

【算法与数据结构】链表、哈希表、栈和队列、二叉树(笔记二)

文章目录 四、链表理论五、哈希表理论五、栈和队列理论5.1 单调栈 六、二叉树理论6.1 树的定义6.2 二叉树的存储方式6.3 二叉树的遍历方式6.4 高度和深度 最近博主学习了算法与数据结构的一些视频,在这个文章做一些笔记和心得,本篇文章就写了一些基础算法…

C#面:as 和 is 的区别

as 关键字: as 关键字用于将一个对象转换为指定类型,如果转换成功,则返回该类型的实例;如果转换失败,则返回 null 。as 关键字只能用于引用类型之间的转换,不能用于值类型之间的转换。如果被转换的对象为 …

基于AI将普通RGB图像转换为苹果Vision Pro支持的空间照片

将 RGB 图像转换为空间图片 一、引言 随着AR和VR技术的普及,空间照片格式(.HEIC)逐渐受到关注。这种格式允许用户在AR/VR设备上体验到更为真实的立体空间效果。为了让更多的普通图片也能享受这种技术,我们开发了这款可以将普通RGB图像转换为苹果Vision Pro支持的.HEIC格式的…

NLP主要研究哪些方向?

当前AI炽手可热,NLP是AI的一个重要方向。NLP(Natural Language Processing,自然语言处理),致力于让计算机能够理解、解释和处理人类语言。NLP 的目标是使计算机能够像人类一样处理和理解自然语言的文本和语音数据。NLP…

STM32F103学习笔记(七) PWR电源管理(原理篇)

目录 1. PWR电源管理简介 2. STM32F103的PWR模块概述 2.1 PWR模块的基本工作原理 2.2 电源管理的功能和特点 3. PWR模块的常见应用场景 4. 常见问题与解决方案 1. PWR电源管理简介 PWR(Power)模块是STM32F103系列微控制器中的一个重要组成部分&…

实习日志18

1.刚弄好数据库就破大防了 1.1.图片显示,PDF不显示 我的图片是base64编码显示,pdf是用url显示 首先想到url出问题了 感觉可能是之前的那个问题,到服务器上url变回去了 活字格V9获取图片失败bug,报错404,了解存储路…

使用Streamlit构建纯LLM Chatbot WebUI傻瓜教程

文章目录 使用Streamlit构建纯LLM Chatbot WebUI傻瓜教程开发环境hello Streatelit显示DataFrame数据显示地图WebUI左右布局设置st.sidebar左侧布局st.columns右侧布局 大语言模型LLM Chatbot WebUI设置Chatbot页面布局showdataframe()显示dataframeshowLineChart()显示折线图s…

每天一个数据分析题(一百六十八)

在使用Python做用户画像时有如下代码: sns.boxplot(x ‘type’,y ‘trans count’,data Creditcard) sns表示seaborn,下面关于代码的描述错误的是()。 A. data参数传入的可能是一个pandas 的dataframe对象。 B. 该…

进程间的通信-- 管道

一 进程通信原理 我们知道进程间相互独立,具有独立性。那么我们要实现两个进程之间的通信就需要,让这两个进程看到同一个文件。然后一个进程对文件写入,一个进程对文件内容进行读取,这就是现实了进程间的通信。 二 进程通信的几种…

Ansible+Shell+Containerd部署k8s

目录 一.可联网正常使用的虚拟机四台 二.main主机部署ansible实现统一管理 1.下载ansible 2.主机清单和配置文件 3.下发密钥进行管理 三.node部署k8s基础准备 1.完善hosts文件,关闭firewalld,disabled掉selinux 2.时间同步、禁用交换分区、配置内…

【C++私房菜】面向对象中的多态

文章目录 一、多态二、对象的静态类型和动态类型三、虚函数和纯虚函数1、虚函数2、虚析构函数3、抽象基类和纯虚函数4、多态的原理 四、重载、覆盖(重写)、隐藏(重定义)的对比 一、多态 OOP的核心思想是多态性(polymorphism)。多态性这个词源自希腊语,其含义是“多…