从外行人的角度解释1Bit的模型,是怎样改变世界的

一个框架,和一篇论文,改变了模型训练的规则

框架是BitNET
论文https://arxiv.org/abs/2410.16144
在这里插入图片描述
有人问我什么是1.58Bit
在这里插入图片描述
是这样的。

fp16是一般情况下模型训练后产物的精度。

比如qwen2 8B fp16,文件大小15GB

如果量化成Q_4O,也就4GB

量化相当于模型压缩,会损失精度,常见的精度是INT4 INT8

量化后,模型小了,小机器也能跑了。

但是比全精度fp16更容易产生幻觉,胡说八道。

也就是说,精度高=硬件要求高=更智能,精度低=硬件要求低=更愚蠢

—好戏来了—

那篇论文,提出了一种新的精度,叫1.58bit,约等于1bit

这种精度的模型,如果按常理,几乎无法使用,因为精度太低。

但它提出了一种新的训练方法,将模型中神经元的状态定义为三种,-1 0 1

这种定义,和SNN脉冲神经网络的神经元类似,和人类大脑的神经元运作方式也类似。

-1低电压
0 正常
1 高于阀值

这种训练方式,降低了精度为1.58bit,但是训练后的模型和fp16精度的模型,推理效果相差不大。

这意味着,找到了一种低耗电,低资源占用,高产出的模型训练方法。

意味着,在一台普通计算机上,可以轻松运行8B,甚至70B的模型。而且是全精度。

在更强性能的计算机上,可以轻松运行406B的模型。并且和fp16精度性能相当。

我们使用的云的chat,例如通义千问官网的chat,不知道是全精度的,还是量化后的。

如果拿全精度的跑分,拿量化后的给用户用,那纯粹是骗人。

但是1bit的诞生,意味着厂商可以轻易的允许406B的模型,并且性能等同于全精度fp16,而耗能低的离谱。

但是也有缺陷,将先有模型转换成1bit,会导致模型幻觉增加,想要实现最好的效果,需要从头开始训练。

论文是中国人写的,还封装了一个框架 BitNET,这个框架隶属于微软。

总之,这是深度学习领域比较疯狂的改变,短短几天时间,那个仓库就有了很多issue。

降低算力需求,才能让模型走进千家万户。

这样也有助于提高模型的大小,说不定,未来我们使用的chat,都是1000B的。

到那个时候,AGI或许不再是问题,人们也不需要工作了。都要饭去了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/882776.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

24下河南秋季教资认定保姆级教程

教师资格认定前需要做的准备材料 准备身份证户口本 居住证 学生证 教师考试合格证明 普通话证书 学历证书 体检合格证书 近期一寸白底证件照 网上报名 河南24下教资认定 网上报名时间:10月21日-11月1日 现场确认 网上审核未通过的宝子,需要…

html+css+js实现Notification 通知

实现效果&#xff1a; 代码实现&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Notif…

k8s use-context是什么

kubectl 的 use-context 命令用于在 Kubernetes 集群中切换上下文&#xff08;context&#xff09;&#xff0c;从而方便地在多个集群或命名空间之间进行操作。一个上下文定义了 kubectl 使用的 集群、用户 和 命名空间 的组合。 use-context 的作用&#xff1a; 每个上下文&…

AOP学习

corol调用serverce不在是直接调用的是调用底层代理对象&#xff0c;由代理对象统一帮我们处理 AOP常见概念 通知类型 切面顺序

【C++】— 一篇文章让你认识STL

文章目录 &#x1f335;1.什么是STL&#xff1f;&#x1f335;2.STL的版本&#x1f335;3.STL的六大组件&#x1f335;4.STL的重要性&#x1f335;5. 如何学习STL&#x1f335;6. 学习STL的三种境界 &#x1f335;1.什么是STL&#xff1f; STL是Standard Template Library的简称…

算法Day-7

454. 四数相加 II 给你四个整数数组 nums1、nums2、nums3 和 nums4 &#xff0c;数组长度都是 n &#xff0c;请你计算有多少个元组 (i, j, k, l) 能满足&#xff1a; 0 < i, j, k, l < nnums1[i] nums2[j] nums3[k] nums4[l] 0 示例 1&#xff1a; 输入&#xf…

关于游戏行业工作的迷茫

大家好&#xff0c;我是阿赵。   这两年&#xff0c;身边有不少同事在转行。稍微转得近一点的&#xff0c;从游戏技术转成直播的&#xff0c;或者各种后台系统的。转得远的&#xff0c;甚至和技术毫无关系&#xff0c;比如转成销售的&#xff0c;转成炒期货的&#xff0c;开网…

Matlab软件进行金融时间序列数据的描述性统计代码

1、数据S&P500的收盘价格&#xff0c;return100*log(pt/pt-1) 方法1&#xff1a;用python代码 import numpy as np import pandas as pddef calculate_log_returns(prices):"""计算价格序列的对数收益率。参数:prices (numpy.array): 价格序列。返回:log_…

【实战指南】Vue.js 介绍组件数据绑定路由构建高效前端应用

学习总结 1、掌握 JAVA入门到进阶知识(持续写作中……&#xff09; 2、学会Oracle数据库入门到入土用法(创作中……&#xff09; 3、手把手教你开发炫酷的vbs脚本制作(完善中……&#xff09; 4、牛逼哄哄的 IDEA编程利器技巧(编写中……&#xff09; 5、面经吐血整理的 面试技…

_ZN4os3log9LogStream12WithLocationERKNSt3__112basic_stringIcNS2的函数签名是什么

objdump -tT libTest.so | grep getTime _ZN4os3log9LogStream12WithLocationERKNSt3__112basic_stringIcNS2_11char_traitsIcEENS2_9allocatorIcEEEEi的函数签名是什么 是一个典型的 C 函数签名&#xff0c;其中包含了命名空间、类名、模板参数等信息。这种形式的签名通常出现…

Go 语言初探

Google 公司有一个传统,允许员工利用 20% 的工作时间开发自己的实验项目。2007 年 9月,UTF-8 的设计者之一 Rob Pike(罗布.皮克)在 Google 的分布式编译平台上进行 C++ 编译时,与同事 Robert Griesemer (罗布.格里泽默)在漫长的等待中讨论了编程语言面临的主要问题。他们一…

ChatGPT 现已登陆 Windows 平台

今天&#xff0c;OpenAI 宣布其人工智能聊天机器人平台 ChatGPT 已开始预览专用 Windows 应用程序。OpenAI 表示&#xff0c;该应用目前仅适用于 ChatGPT Plus、Team、Enterprise 和 Edu 用户&#xff0c;是一个早期版本&#xff0c;将在今年晚些时候推出"完整体验"。…

LeetCode 热题100之哈希

1.两数之和 思路分析1&#xff08;暴力法&#xff09; 双重循环枚举满足num[i] nums[j] target的索引&#xff0c;刚开始不知道如何返回一对索引。后来知道可以直接通过return {i,j}返回索引&#xff1b;注意&#xff1a;j应该从i1处开始&#xff0c;避免使用两次相同的元素…

liunx线程

线程的概念 程序中的一个执行路线就是线程&#xff0c;线程就是一个进程内部的控制序列一个进程至少都有一个执行线程线程在进程内部运行&#xff0c;本质是在进程地址空间内运行liunx系统下&#xff0c;cpu眼里的PCB比传统进程更加轻量化透过虚拟地址空间&#xff0c;把进程的…

展会亮点回顾|HMS汽车工业通信解决方案

2024 汽车测试及质量监控博览会&#xff08;中国&#xff09;&#xff08;Testing Expo China – Automotive&#xff09;于 8 月 28 日至 30 日在上海世博展览馆顺利举行。作为汽车测试技术领域的顶级盛会&#xff0c;来自全球的行业领袖和技术专家齐聚一堂&#xff0c;共同探…

即时通讯 离线消息处理初版

离线消息处理 NotOnlineExecute package com.example.im.infra.executor.send;import com.example.im.endpoint.WebSocketEndpoint; import org.apache.commons.collections4.CollectionUtils; import org.slf4j.Logger; import org.slf4j.LoggerFactory; import org.springf…

Oracle里面,with ... as 用法介绍

在Oracle数据库中&#xff0c;WITH AS 子句&#xff08;也称为公用表表达式&#xff0c;CTE, Common Table Expression&#xff09;是一种在查询中定义临时结果集的方法。这个临时结果集可以在后续的查询中被引用&#xff0c;就像是一个临时的表或视图一样。使用 WITH AS 子句可…

Django学习(三)

Django的设计模式及模板层 传统的MVC&#xff08;例如java&#xff09; Django的MTV 模板层&#xff1a; 模板加载&#xff1a; 代码&#xff1a; views.py def test_html(request):#方案一# from django.template import loader# 1. 使用loader加载模板# t loader.get_…

JAVA使用easyExcel导出数据到EXCEl,导出数据不全问题解决

JAVA使用easyExcel导出数据到EXCEl,导出数据不全问题解决 问题描述解决思路一解决思路二温馨提示 问题描述 JAVA使用easyExcel导出数据到EXCEl,导出数据不全问题。 导出的excel部分列有数据&#xff0c;好几列没有数据 解决思路一 从网上百度查询&#xff0c;大多数的解决思路…

ICP算法理解入门之RT求解

本文仅仅分析了一下两组点云做好匹配好了之后&#xff0c; 如何解算RT&#xff0c; 并不涉及匹配过程&#xff0c;详细的匹配&#xff0c;下次再出一篇博客 ICP 求解旋转矩阵 ( R ) 的步骤 给定两个点云集合 ( P {p_1, p_2, …, p_n} )&#xff08;源点云&#xff09;和 ( Q…