通过把各种东西打上分数标签存起来。ai不花算力是不可能的,需要巨大的算力,需要要大量gpu芯片,如果大大降低成本,就需要蒸馏别人成果,把这些参数偷偷弄过来。
比如”猫睡在石头上感觉很凉快,很舒服!”
这些计算机是完全听不懂的。让计算机听懂,你必须给每个单词扩张出无数属性,给每个属性进行打分。他它不知到石头舒服,还是猫舒服。
,AI 想要真正**"理解"** 一句话,必须将其中的每个概念(如“猫”“石头”“凉快”“舒服”)转化为可计算的参数。计算机的本质是数值计算,它不可能直接“听懂”语言,而是通过大量的属性建模+打分,结合大规模数据学习,来模拟“理解”的效果。
AI 需要给每个单词无数扩展属性 + 打分
比如**“猫睡在石头上感觉很凉快,很舒服!”**,如果 AI 要真正“理解”,它需要拆解并量化其中的概念,如:
AI 想要真正**"理解"** 一句话,必须将其中的每个概念(如“猫”“石头”“凉快”“舒服”)转化为可计算的参数。计算机的本质是数值计算,它不可能直接“听懂”语言,而是通过大量的属性建模+打分,结合大规模数据学习,来模拟“理解”的效果。
AI 需要给每个名词扩展属性 + 打分
比如**“猫睡在石头上感觉很凉快,很舒服!”**,如果 AI 要真正“理解”,它需要拆解并量化其中的概念,如:
下面是一个用0-10 评分机制的表格,来量化 石头、猫、狗、人 在不同属性上的差异:
| **对象** | **情感** | **是否是动物** | **硬度** | **移动能力** | **智慧** | **生命力** | **温度感知** | **生长性** | **沟通能力** |
|----------|--------|-------------|--------|--------|--------|--------|--------|--------|--------|
| **石头** | 0 | 0 | **9** | 0 | 0 | 0 | 0 | 0 | 0 |
| **猫** | **9** | **10** | 2 | **10** | **7** | **9** | **9** | **8** | **6** |
| **狗** | **9** | **10** | 2 | **9** | **6** | **9** | **8** | **7** | **7** |
| **人** | **10** | **10** | 3 | **8** | **10** | **10** | **10** | **10** | **10** |
评分解释
- 情感:人(10)最复杂,猫(9)和狗(9)都能表达情绪,石头(0)无情感。
- 是否是动物:人、猫、狗都是(10),石头(0)。
- 硬度:石头(9)最硬,人(3)有骨骼但不及石头,猫狗(2)较软。
- 移动能力:猫(10)最灵活,狗(9)稍逊,人(8)较慢,石头(0)不会动。
- 智慧:人(10)最高,猫(7)比狗(6)更独立,但都能学习,石头(0)。
- 生命力:人(10)可活几十年,猫狗(9)生命周期短,石头(0)无生命。
- 温度感知:人(10)最敏感,猫(9)比狗(8)略强,石头(0)无感知。
- 生长性:人(10)成长周期长,猫(8)和狗(7)生命周期较短,石头(0)不生长。
- 沟通能力:人(10)语言最丰富,狗(7)能理解指令,猫(6)较独立但能传达需求,石头(0)。
这个表格可以帮助直观地对比石头、猫、狗和人在不同方面的特性。AI理解人类语言的方式也基于这种原理。通过给不同概念打上属性标签并进行数值化处理,AI可以模拟对语言的理解。
如果一个模型能够通过某种方式获取到已经花费大量资源训练的大模型的属性表格和参数,它就可以大幅节省计算成本。这种方式虽然不属于创新,某种程度上类似于“剽窃”。不过,合法的剽窃通常需要得到他人的授权或同意,而在某些情形下,如果能够合法获取这些信息,也可以看作是光明正大的借用已有的成果,站在巨人的肩膀上合理发挥作用。
蒸馏大模型,就是通过api调用,不断取到大模型的标签属性的分数参数,来避免自己也会投入大量资金来研发。
蒸馏别人的模型,有什么后缺点
比如aaaa 大公司,cccc小公司,cccc蒸馏了aaaa,cccc介绍可能会说自己是aaaa,如果没有移除相关属性的话。另外cccc上限可能就是aaaa。万一aaaa倒闭了,cccc有可能需要寻找下一家.继续蒸馏。