读天才与算法:人脑与AI的数学思维笔记22_中文房间

1. 华生的工作模式

1.1. 请你想象一个巨大的场景,其中有单词、名字和其他可能的答案,它们散布在各处

1.1.1. IBM所做的第一步是以某种连贯的方式排列单词

1.1.2. 第二步是理解每个问题,并为该问题生成候选位置标记

1.1.2.1. 爱因斯坦会演奏小提琴,那么他就会被定位于“科学家”和“音乐家”这两个方向
1.1.2.2. 但你不会从音乐家的角度继续推演,而是会从科学家的角度继续推演

1.2. 识别和选择这些特性和品质是一门艺术

1.3. 四个阶段

1.3.1. 分析问题,以确定可能的答案范围

1.3.2. 在候选范围里根据问题选择大约200个可能的答案

1.3.3. 评价这些可能的答案

1.3.3.1. 评价过程是将这200个多维点压缩在一个数值维度上,然后对这些答案进行评分并依次排列,最后对答案的信任值进行评价
1.3.3.2. 能与维基百科中的内容进行准确的语义匹配的数据,在其他限制因素也匹配的情况下,很可能会得到非常高的分数

1.3.4. 给出答案

1.3.4.1. 当评分以及信任值评价高于一个设定的阈值时,算法就会给出建议的答案

1.4. “华生”研究团队提出了50种不同的评分模型

1.4.1. 在未知评分情况的状态下,“华生”会广泛地选择候选答案

1.4.1.1. 采用广泛撒网、重点培养的模式运作,即先倾向于选择包含多种可能的答案,然后利用评分机制选取得分靠前的几个选项
1.4.1.2. 像选择旅店入住
1.4.1.2.1. 首先你需要选择想入住的区域
1.4.1.2.2. 搜集该区域所有旅店的信息
1.4.1.2.3. 会根据网上的价格和评价信息进行选择
1.4.1.2.4. 这样的选择方式就很有可能有利于一家值得入住但位置偏远的旅店
1.4.1.3. 算法进行评分的方式允许它以自下而上的方式从错误中学习并细化参数,有点像转动刻度盘来重新定义函数
1.4.1.4. 其中的艺术在于算法试图为你拨动的刻度盘找到最佳的设置,在尽可能多的不同的背景下得到正确的答案

1.5. “华生”可以访问一个容量为15TB的人类知识数据库

1.5.1. “华生”在参加《危险边缘》之前,就已经将整个维基百科进行了离线存储,以供其随时调用

1.5.2. 他根据自己收集到的所有信息将它们进行关联性的考量,仔细地考虑最可能的选项

1.5.2.1. 对于人类选手来说,这是一个即时的、直观的过程,但我确信在这背后,我的大脑或多或少在做着同样的事情。
1.5.2.1.1. 詹宁斯

1.5.3. 关联性的线索

1.5.3.1. 线索中暗示的时间、地点、性别,抑或是体育、文学、政治等范畴

1.6. 对于IBM和DeepMind这样的公司来说,赢得比赛为其提供了一个相当明确的成功指标

1.6.1. 比赛要么赢要么输,没有模棱两可的暧昧

1.6.2. 赢得比赛这件事给需要销售产品的公司提供了极好的宣传噱头,因为人人都喜欢“人机大战”的戏码

1.6.3. 不仅击败了所有选手问鼎《危险边缘》的冠军,还被应用于医学诊断领域

1.6.4. 一场算法的“时装秀”,让计算机公司展示自己傲人的编码能力

1.7. IBM的“华生”已经改变了我们对计算机的认知

1.7.1. "华生”对非结构化数据进行处理的能力是它最大的优势所在

1.7.2. 人类可以告知“华生”哪一个信息源更为可靠

1.7.2.1. IBM将这种成果称为“认知计算处理”,这是因为人类在此过程中的角色从调度安排转变成了训练

1.8. 在未来,我们将减少死记硬背的计算,更多地依靠互动和学习

1.8.1. 算法非常聪明,只要有更多的信息,它就能够做到排除某些答案,或者提高对某些已经提供的待选答案的信心值

1.8.2. 当“华生”在当前的应用程序中处理一个困难的问题时,它可以生成一组可能的答案集,也可以使提出的问题趋于简单明了

1.8.2.1. 大多数这种问答系统都是为处理一类特定的、边界明确的问题而设计的,这就意味着它只能回答某些类型的问题,而且在输入问题时必须要以特定的方式进行措辞,方能获得算法的响应

1.8.3. “华生”可以处理“开放域”的问答,这意味着面对“华生”,你想问什么就可以问什么

1.8.3.1. 它使用“自然语言”处理技术来分解你抛给它的词句,这样可以使算法真正理解问题,即便你在问它时使用了不寻常的方式,它也能有所回应

1.9. DeepQA是“华生”在生成假设时使用的一项基础技术

1.9.1. 《星际迷航》中的电脑就是一个合适的范例

1.9.2. 这个虚拟的计算机系统可以被看作一个交互式的系统,它可以回答任何问题,还可以提供关于任何主题的精确信息

2. 巴别鱼

2.1. 在《银河系漫游指南》(The Hitchhiker’s Guide to the Galaxy)里看到过的“巴别鱼”(babel fish)的故事

2.1.1. 道格拉斯·亚当斯(Douglas Adams)1952—2001,英国著名的科幻小说作家,幽默讽刺文学的代表人物,第一个成功结合喜剧和科幻的作家

2.1.2. “巴别鱼”是一种黄色的、类似水蛭的小动物,当它掉到你的耳朵里时,会以脑电波为食,即时翻译出你听到的任何语种的语言

2.1.3. 谷歌最近宣布其发明了一款名为“Pixel Buds”的耳机,这发明正是道格拉斯·亚当斯(Douglas Adams)梦寐以求的

2.2. 鉴于输入了符合语法的句子,你可能会认为已经完成了驾驭语言的工作,逐字逐词对应地翻译就可以了

2.2.1. 简单的单词替换常常会把原意搅成一锅粥

2.3. 一个可以有效工作的翻译算法需要很好地理解词语之间的关联性和词语组合的模式

2.4. 现代翻译算法正在深入研究语言的基本数学形态

2.4.1. 通过试验,我们可以把语言中的单词绘制成高维几何空间中的点,然后在彼此具有结构性关系的单词之间绘制连线

2.4.2. 最终将得到一个高维的晶体结构,有趣的是,英语和法语的晶体结构在外观上非常近似

2.4.2.1. 我们必须弄清楚是什么使它们保持这样相当高的近似性

2.4.3. 有人提议以动物交流的声音为对象,绘制高维晶体图,看看它们的图像是否与人类交流具有相同或相似的形状,以便让我们能够理解我们的宠物到底在说些什么

2.5. 翻译不仅要选择正确的单词,重要的是要能捕捉到字里行间的情感

2.5.1. 大多数情况下,机器翻译只要能传达句子的意思,大体翻译一下就可以了

2.5.2. 作为算法翻译成功的代表,谷歌翻译目前支持103种语言,每天翻译超过1400亿个单词

2.5.3. 实际上,在人工智能解决意识的问题之前,这些算法永远不可能达到人工翻译的水平

2.5.3.1. 为了获得更准确的翻译,谷歌聘请了人工翻译人员来改进它的算法,但这并不总能带来更加令人满意的结果
2.5.3.2. 谷歌翻译还是越来越擅长人类语言翻译

2.5.4. 翻译不仅仅是语言之间的迁移,而是思想在语种之间流动

2.5.4.1. 除非机器有了灵魂、生出了灵智,否则它将永远无法深刻理解并充分利用人类交流的精妙

2.5.5. 诗歌除了包含意思表达,还包含语音、音韵等内容,不是简单的内容翻译就可以

3. 斯蒂尔斯的实验室

3.1. 每一台机器人都为自己独特的动作创造了一套属于自己的独特语言

3.2. 通过不断的更新和学习,机器人发展出了自己的语言

3.2.1. 这种语言足够复杂,甚至包含了像代表“左”和“右”等更为抽象的单词

3.2.2. 这些词,是在词和动作与位置的直接对应关系的基础上发展而来的

3.2.3. 在这个试验中,任何趋同的进展都是令人兴奋的

3.2.4. 这些机器人有一种它们可以互相理解的新语言,但研究人员在试验进行的一周内一直无法理解这种语言,直到他们与机器人进行了极大量的交互,才能解译这些新词的含义

3.2.5. 一种共同的语言出现了

3.3. 斯蒂尔斯的试验为洛夫莱斯的预言提供了一个很好的反证

3.3.1. 斯蒂尔斯编写的代码允许机器生成自己的语言,代码中出现了一些新的东西,演示证明除了机器以外,没有任何人类能够理解它们的共同语言

3.3.2. 学习这门语言的唯一方法就是让机器人演示每个单词所对应的动作或位置

3.4. 谷歌的Google Brain提出了一种新的加密算法,即创建独有的语言算法,这样就可以在不被第三方窃密的情况下进行交互通信

3.4.1. Alice和Bob的任务是使用这个数字创建一种秘密语言,这种秘密语言只有在知道密钥的情况下才能被解密

3.4.2. 一开始Alice试图掩盖信息的企图很容易被黑掉,但经过15 000次交互以后,Bob就能解读Alice所发送的信息了,而Eve解读的概率还是跟瞎猜没任何区别

3.4.3. Alice和Bob使用的神经网络意味着,它们的交互很快就会被不断重新定义的语言所掩盖,所以不止Eve被挡在门外,就算是人类,即使通过查看结果代码,也不可能解读出它们正在做的交互

3.5. 这些机器人可以安全地交谈,而我们人类却无法窃听它们的私语

4. 中文房间

4.1. 在怎样的情况下,我们应该认定算法理解它实际在做什么

4.1.1. 从约翰·希尔勒设计的“中文房间”试验中得到结论

4.1.2. 华语房间(Chinese room)试验,是由约翰·希尔勒提出的一个思想试验,借以反驳强人工智能的观点

4.1.3. 试验过程

4.1.3.1. 想象一下,你被关在一个房间里,房间里有一本用英文写成的从形式上说明中文文字句法和文法组合规则的手册,以及一大堆中文符号
4.1.3.2. 依靠这本手册的说明,将中文符号组合起来,你就可以和一个讲中文普通话的人进行非常有说服力的沟通,而你不需要理解任何一个中文字或词

4.1.4. 一台被编程以文本形式进行回应的计算机,虽然我们很难将其与真正的人类区分开来,但它仍不能被认为是具有智力或理解力的

4.2. “嵌入式”这一思路是对图灵测试的巨大挑战

4.2.1. 当我在说话的时候,我的大脑到底在做什么呢?

4.2.2. 这个过程中我的大脑是不是在某种程度上也在遵循一套指令?

4.2.3. 是否存在一个阈值,超过这个阈值,我们就可以认定计算机是理解中文普通话的?

4.3. 当一台计算机谈论一把“椅子”时,它不需要知道“椅子”这个东西是供人们坐在上面的一个物理物体

4.3.1. 它只需要遵循规则,但遵循规则并不等同于理解

4.3.2. 如果算法没有亲身体验过“椅子”,就不可能完美地使用“椅子”这个词

4.3.2.1. 这就是为什么体现智能的问题与人工智能当前的发展趋势高度相关

4.3.3. 所有物理意义上的椅子都是不相同的,但它们在语言上被压缩成了一个数据点:“椅子”

4.3.3.1. 这个数据点可以被另一个人打开,再将“椅子”这个数据点放到他所经历过的所有“椅子”上
4.3.3.2. 有各式各样的“椅子”,它可以是扶手椅、长凳、木椅或办公椅,这些会让人产生不同的联想
4.3.3.3. 维特根斯坦著名的“语言游戏”

4.4. 在某种程度上讲,语言就是我们周围环境的低维度投影

4.4.1. 所有的语言都只是拙劣的翻译

4.4.1.1. 弗兰兹·卡夫卡(Franz Kafka)

4.4.2. 一台对具象世界没有实践经验的计算机肯定会在“中文房间”的低维空间里受阻

4.5. 归根结底,意识的奇特本质允许我们将所有信息整合到一个统一的体验中

4.5.1. 如果我们研究一个单独的神经元,它肯定不懂英语,但当我们用一个个神经元构建出大脑中枢神经时,我们知道它确实懂得语言

4.5.2. 当我坐在房间里用手册处理递进来的中文普通话时,我就像是大脑的一部分,是负责处理中文普通话的神经元的一个子集

4.5.3. 换句话说,整个系统是由我、房间和手册组成的

4.5.3.1. 这是整个大脑的组成,而不仅仅是我坐在那里。
4.5.3.2. 在“中文房间”里,我就相当于计算机的CPU(中央处理器),通过进行基本的计算来执行计算机程序的指令

4.6. 也许机器不需要理解它在说什么,就能写出令人信服的文学作品

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/8911.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IT项目管理-大题【太原理工大学】

一、根据进度网络写出时间参数表、关键路径、总工期 此类题一般是给一个表,问三问。 第一问会问某个活动的时间参数,但我们需要把整个表都求出来,否则单求一个很困难(如果你就是不想求整张表也行,不是硬性要求&#xf…

vue3 - 150

目录 vue优势使用方式编写vue代码指令响应式数据其他 vue优势 功能全面生态好,语法简洁效率高,免去 DOM 操作苦,开发重任一肩挑! 使用方式 1.通过cdn引入来将 Vue 应用到整个页面 2.或通过官方脚手架 create-vue来创建完整的v…

直播报名 | 珈和科技携手潍柴雷沃共探“现代农场”未来式

数据赋农季系列直播第四期,我们将以“未来农业发展趋势之农场智慧化、管理数据化”为主题展开,此次系列直播由珈和科技及湖北珞珈实验室共同主办,第四期直播很荣幸邀请到潍柴雷沃参与其中,双方将就智慧农服平台和数据交易SaaS平台…

基于PHP高考志愿填报系统搭建私有化部署源码

金秋志愿高考志愿填报系统是一款为高中毕业生提供志愿填报服务的在线平台。该系统旨在帮助学生更加科学、合理地选择自己的大学专业和学校,从而为未来的职业发展打下坚实的基础。 该系统的主要功能包括:报考信息查询、志愿填报数据指导、专业信息查询、院校信息查询…

Python-VBA函数之旅-round函数

目录 一、round函数的常见应用场景 二、round函数使用注意事项 三、如何用好round函数? 1、round函数: 1-1、Python: 1-2、VBA: 2、推荐阅读: 个人主页: https://blog.csdn.net/ygb_1024?spm1010.2…

04、Kafka集群安装

1、准备工作 首先准备一台虚拟机,centos7系统,先在一台上配置安装后,最后克隆成多台机器。 1.1 安装JDK (1)下载JDK,上传到 /root/software 路径 下载地址:https://www.oracle.com/cn/java/…

【PyTorch实战演练】使用CelebA数据集训练DCGAN(深度卷积生成对抗网络)并生成人脸(附完整代码)

文章目录 0. 前言1. CelebA数据集1.1 核心特性与规模1.2 应用与用途1.3 获取方式1.4 数据预处理 2. DCGAN的模型构建2.1 生成器模型2.2 判别器模型 3. DCGAN的模型训练(重点)3.1 训练参数3.2 模型参数初始化3.3 训练过程 4. 结果展示4.1 loss值变化过程4…

Linux —— 进程间通信

目录 一、进程间通信的介绍二、管道三、匿名管道四、命名管道五、system V进程间通信 一、进程间通信的介绍 1.进程间通信的概念 进程通信(Interprocess communication),简称:IPC; 本来进程之间是相互独立的。但是…

Elasticsearch的基本使用

Elasticsearch的基本使用 1.基本概念1.1 文档和字段1.2 索引和映射1.3 mysql与elasticsearch对比 2.索引库2.1 es中mapping映射属性2.2.es中索引库的增删改查 3.文档3.1 新增文档3.2 查询文档3.3 删除文档3.4 修改文档3.4.1 全量修改3.4.2 增量修改3.5 总结 4.DSL查询语法4.1 D…

【LLM第三篇】名词解释:RLHF——chatgpt的功臣

RLHF (Reinforcement Learning from Human Feedback) ,直译为:“来自人类反馈的强化学习”。RLHF是一种结合了强化学习和人类反馈的机器学习方法,主要用于训练大模型以执行复杂的任务,尤其是当这些任务难以通过传统的奖励函数来精…

CCF-Csp算法能力认证, 202303-1重复局面(C++)含解析

前言 推荐书目,在这里推荐那一本《算法笔记》(胡明),需要PDF的话,链接如下 「链接:https://pan.xunlei.com/s/VNvz4BUFYqnx8kJ4BI4v1ywPA1?pwd6vdq# 提取码:6vdq”复制这段内容后打开手机迅雷…

大语言模型LLM入门篇

大模型席卷全球,彷佛得模型者得天下。对于IT行业来说,以后可能没有各种软件了,只有各种各样的智体(Agent)调用各种各样的API。在这种大势下,笔者也阅读了很多大模型相关的资料,和很多新手一样&a…

深圳CPDA|如何利用数据分析改进业务流程,提高效率?

在当今数字化时代,数据已经成为企业决策和优化的关键资源。通过有效地收集、分析和应用数据,企业可以深入了解其业务流程中的瓶颈和问题,从而改进流程,提高效率。本文将探讨如何利用数据分析改进业务流程,并提高效率。…

Vue3+vite优化基础架构(3)--- 优化vue-i18n国际化配置

Vue3vite优化基础架构(3)--- 优化vue-i18n国际化配置 说明全部页面进行中英文使用测试中英文切换对ElementPlus里面的所有组件进行中英文切换 说明 这里记录下自己在Vue3vite的项目增加全局中英文切换按钮对页面进行中英文切换及同时对ElementPlus里面的…

练习题(2024/5/9)

1删除二叉搜索树中的节点 给定一个二叉搜索树的根节点 root 和一个值 key,删除二叉搜索树中的 key 对应的节点,并保证二叉搜索树的性质不变。返回二叉搜索树(有可能被更新)的根节点的引用。 一般来说,删除节点可分为…

融知财经:期货在哪里可以交易?期货交易有哪些交易规则?

作为当前金融市场的一种投资方式,期货只适合一些投资者,比如想获得高收益的投资者,因为期货的风险系数很高。但是很多投资者还不知道期货的意思,在一个固定的交易场所,期货是买卖标准化商品或金融资产的远期合约的交易…

RK3568 学习笔记 : u-boot 下通过设置 env ethact 设置当前工作的以太网设备

前言 正点原子 :RK3568 开发板 atompi-ca1 默认有两个网口,通过 u-boot mii 命令,可以查看 网口信息 > mii device MII devices: ethernetfe010000 ethernetfe2a0000 Current device: ethernetfe010000u-boot 下的以太网,不同…

HA-MAc,透明质酸-甲基丙烯酸酯可用于制备具有交联能力的透明质酸基材料

【基本信息】 Hyaluronate Methacrylate(甲基丙烯酸酯化透明质酸,简称HA-MAc)是一种重要的生物材料 中文名称:甲基丙烯酸酯化透明质酸、透明质酸-甲基丙烯酸酯 英文名称:Hyaluronate Methacrylate、HA-MAc 分子量&…

python代码自动生成器原理 python 生成器原理

python生成器原理剖析 函数的调用满足“后进先出”的原则,也就是说,最后被调用的函数应该第一个返回,函数的递归调用就是一个经典的例子。显然,内存中以“后进先出”"方式处理数据的栈段是最适合用于实现函数调用的载体&…