读AI3.0笔记04_视觉识别

1. 两次飞跃

1.1. ConvNets是当今计算机视觉领域深度学习革命的驱动力

1.1.1. 20世纪80年代便由法国计算机科学家杨立昆提出,而他则是受到了福岛·邦彦提出的神经认知机(Neocognitron)的启发

1.2. ImageNet竞赛被看作计算机视觉和人工智能进步的关键标志

1.2.1. 普林斯顿大学年轻的计算机视觉教授李飞飞尤其关注这一目标。李飞飞有一个新的想法——根据词网(WordNet)中的名词构建一个图像数据库,使其中每个名词都与大量包含该名词所表示事物的图像相关联,因此ImageNet的构想诞生了

1.2.1.1. 目标识别任务本身

2. 看与做

2.1. 人类几乎可以在瞬间完成大量信息的处理

2.1.1. 我们很少会意识到我们正在做这些信息处理以及我们是如何做到的

2.1.2. 除非一个人先天失明,否则视觉处理会在各种抽象层面上支配大脑

2.1.3. 以这种方式来描述照片、视频或照相机中的实时视频流中内容的能力,也是我们要求通用的、人类水平的人工智能所首先要具备的素质之一

2.2. 兼具观看和观察的视觉,原来是所有“容易”的事情里最难的

2.2.1. 始终是“看”起来容易“做”起来难

2.3. 自20世纪50年代以来,人工智能领域的研究者一直致力于使计算机能够理解视觉数据

2.4. 1966年,极力推广符号人工智能的麻省理工学院教授明斯基和佩珀特提出了“夏季视觉项目”

2.4.1. “构建视觉系统的重要组成部分”的课题研究

2.5. 目标识别(object recognition)

2.5.1. 目标识别对我们人类来说是可以非常迅速和轻而易举就能完成的事情

2.5.2. 它看起来对计算机来说也不应该会是一个特别困难的问题,直到人工智能研究者真正试图让计算机去完成它,才发现事实恰恰相反

2.5.3. 如果输入的只是图像的像素,程序首先要弄清楚哪些是“狗”的像素,哪些是“非狗”的像素(如背景、阴影、其他物体等

2.5.3.1. 狗的像素组可能看起来会很像猫或其他动物的像素组
2.5.3.2. 在某些光照条件下,天空中的一朵云甚至都可能看起来非常像一条狗

2.5.4. 识别目标对象之“不变特征”的专用图像处理算法,仍然是计算机视觉研究人员的一项主要的研究工作

2.5.4.1. 即便是有了复杂的图像处理算法,目标识别程序的相关能力仍然远不及人类

3. 深度学习

3.1. 由于深度学习领域的进展,机器对图像和视频中物体的识别能力在21世纪第一个10年经历了一次质的飞跃

3.2. 深度学习简单来说是指用于训练DNN的算法,这里的DNN就是深度神经网络,指的是具有不止一个隐藏层的神经网络

3.3. 一个“深度”网络则有不止一个隐藏层

3.3.1. 深度学习中的“深度”并不是指神经网络所学习内容的复杂性,而仅仅是指网络本身的层数

3.3.2. 不是复杂性,而是层深

3.4. 最成功的DNN是那些模仿了大脑的视觉系统结构的网络

3.4.1. 主导深度学习的DNN则是直接根据神经科学中关于大脑的相关研究发现进行建模的

3.5. 深度学习在近年来的成功与其说是人工智能的新突破,不如说要归功于互联网时代极易获得的海量数据和并行计算机硬件的快速处理能力

4. 卷积神经网络

4.1. ConvNets是当今计算机视觉领域正在进行的深度学习革命的驱动力,当然在其他领域也是如此

4.2. ConvNets的设计基于胡贝尔和威塞尔在20世纪五六十年代发现的与大脑视觉系统相关的几个关键信息

4.2.1. 层次结构中不同层的神经元是响应视觉场景中出现的渐增复杂特征的“检测器”

4.2.2. 视皮层中也会有自顶向下或反向的信息流,也就是信息从较高层向较低层传递

4.2.3. 让网络学会对输入图像所属的正确类别输出高置信度,对其他类别输出低置信度

4.2.4. 激活特征图(activation maps),它受到了大脑视觉系统中类似的“映射”的启发

4.2.5. 在大量真实的图像数据集上进行训练时,ConvNets似乎确实演化出了一种类似于胡贝尔和威塞尔在大脑视觉系统中所发现的检测器的分层结构

4.3. 在20世纪80年代由法国计算机科学家杨立昆提出,而他则是受到了福岛提出的神经认知机的启发

4.3.1. 杨立昆是ConvNets之父,纽约大学终身教授,深度学习三巨头之一,杨立昆是他给自己起的中文名字

4.4. 20世纪八九十年代在贝尔实验室工作期间,杨立昆转向对自动识别手写数字和字母的研究

4.4.1. 创建了“LeNet”,即最早的ConvNets之一

4.4.2. LeNet凭借手写数字识别功能在商业上获得了成功,从20世纪90年代到21世纪初,LeNet被美国邮政局用于自动识别邮政编码,并被银行业用于自动读取支票上的手写数字

4.5. ConvNets中的单元是重要视觉特征的探测器,每个单元会在视野的特定部分寻找其指定特征

4.5.1. “边缘”指的是两个对比明显的图像区域之间的边界

4.5.2. 这个区域被称为该神经元的感受野receptive field

4.6. 要使ConvNets工作得更好,仍需结合人类的聪明才智

4.6.1. 不断从训练样本中学习,而非预先内置正确答案

4.6.2. 网络会在某个点上“收敛”,即权重从一个周期迭代到下一个周期时不再变化了

4.6.2.1. 此时网络已经非常擅长识别训练集图像中的狗和猫了
4.6.2.2. 我们并不能确定该网络是否真正擅长完成这项任务,除非它能将识别图像过程中学到的知识应用到训练集之外的图像上

4.7. 最高卷积层的激活特征图被输入到一个传统的神经网络(分类模块),该网络输出其对已知的对象类别的置信度

4.7.1. 具有最高置信度的对象类别被输出为网络对于该图像的分类

4.8. ConvNets可通过使用ImageNet中的图像进行预训练来学习通用的视觉特征

4.9. 以一套技术解决一个又一个问题

4.9.1. 在大量标记数据上训练过的DNN,其在语音识别领域的表现比该领域正在使用的其他技术更优

4.9.2. ConvNets甚至能够根据医学图像诊断乳腺癌和皮肤癌,确定糖尿病性视网膜病变的阶段,并协助医生制定前列腺癌的治疗方案

4.9.3. Twitter开发了一个过滤器,可以筛除推文中的不合规图片

4.9.4. 谷歌、微软等公司所提供的图片搜索引擎均能极大地改进其“查找相似图片”的技术

5. ImageNet

5.1. 普林斯顿大学年轻的计算机视觉教授李飞飞

5.1.1. 创建一个英语单词数据库(WordNet),将单词按同义词分组,并从最具体到最一般化的等级进行层次结构排序

5.1.2. 根据WordNet中的名词构建一个图像数据库,使其中每个名词都与大量包含该名词示例的图像相关联

5.1.2.1. ImageNet的构想诞生了

5.1.3. 李飞飞和她的合作者很快就开始使用WordNet中的名词作为图片搜索引擎(如Flickr和谷歌图片搜索)的查询词以收集海量的图片

5.1.3.1. 判定一张照片是否与某个特定名词相关,其本质就是目标识别任务本身

5.2. “亚马逊土耳其机器人”(Amazon Mechanical Turk)

5.2.1. 一个需要人类智慧的工作市场

5.2.1.1. 人类被雇用来执行目前对计算机来说仍然很难的“简单”任务
5.2.1.2. 这项服务被人工智能研究者广泛地用于创建数据集,人工智能领域的学术资助提案也往往会包括一个土耳其机器人的专属条目

5.2.2. 请求者是指那些需要完成某项难以由计算机完成的任务的人

5.2.3. 工人是指那些仅收取少量费用(例如,标注图像中的物体,每张照片的报酬是10美分)就愿意将其智慧用于完成请求者所要求的任务的人

5.3. 2005—2010年,这类年度比赛中最令人瞩目的是PASCAL视觉目标类别竞赛

5.3.1. 计算机视觉程序能够将图像作为输入(在看不到人工创建的标签的情况下),然后用20种类别作为输出,来判定某一种类别的对象是否出现在图像中

5.4. ImageNet竞赛涉及1 000种可能的类别,远远多于PASCAL的20个输出类别

5.4.1. 参赛程序的任务是对每张图像输出正确的类别

5.5. “top-5”准确率衡量标准

5.5.1. 对每个图像至多猜测5个类别,如果正确类别在输出之列,我们就说该程序对这张图像的识别是正确的

5.6. 2010年得分最高的程序使用了所谓的“支持向量机”算法

5.6.1. 在15万张测试图像上的正确率为72%

5.7. 直到2012年,ConvNets在一个名为ImageNet的图像识别数据库上赢得了计算机视觉竞赛,由ConvNets研究人员传递的这只火炬突然照亮了计算机视觉研究的世界

5.7.1. 获奖程序top-5准确率达到了惊人的85%,这种准确率的飞跃实在是令人震惊的进步

5.7.2. 这个独特的ConvNets名为AlexNet,以其主要开发者亚历克斯·克里泽夫斯基(Alex Krizhevsky)的名字命名

5.7.3. AlexNet包含8层,约有6 000万个权重,这些权重通过在上百万张训练图像上进行反向传播来学习

5.8. 在2017年举办的竞赛中,获胜程序的top-5准确率为98%

5.9. 定位挑战赛

5.9.1. 可以要求机器不仅输出图像中的对象类别,同时还要学会在目标对象周围画一个方框,这样我们就知道机器确实“看到”了目标

5.9.1.1. 如果我们真的希望机器描述它所“看到”的内容,它们将需要使用语言
5.9.1.2. 视觉智能与其他的智能并不是那么容易分得开,尤其是通用知识、抽象概念和语言等与大脑的视皮层有许多反馈联系的相关智能

5.9.2. 虽然ConvNets在定位方面表现得很好,但与其在分类任务上的表现相比,就差得多了

6. 超越人类?

6.1. 这一论断是基于人类的错误率约为5%,而机器的错误率接近2%的一个声明

6.1.1. 人类指被试名叫安德烈·卡帕西(Andrej Karpathy),他当时是一名在斯坦福大学研究深度学习的研究生

6.2. 当你读到“一台机器正确地识别了目标”时,你会认为,给定一张篮球的图像,机器会输出“篮球”这一结果

6.3. 在ImageNet竞赛中,正确地识别仅意味着正确类别出现在机器给出的前5个输出类别当中

6.3.1. 如果给机器输入一张篮球的图像,机器按顺序输出的是门球、比基尼、疣猪、篮球和搬家货车,即可被判定是正确识别

6.4. 相比于2017年ImageNet竞赛中98%的top-5准确率,最高的top-1准确率只有82%

6.4.1. top-1准确率指的是测试图像中所含内容的正确类别位于输出结果列表顶端的概率

6.5. 对于计算机已在ImageNet竞赛中击败人类这一说法,需要在很大程度上持保留意见

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/640929.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker 配置 Gitea + Drone 搭建 CI/CD 平台

Docker 配置 Gitea Drone 搭建 CI/CD 平台 配置 Gitea 服务器来管理项目版本 本文的IP地址是为了方便理解随便打的,不要乱点 首先使用 docker 搭建 Gitea 服务器,用于管理代码版本,数据库选择mysql Gitea 服务器的 docker-compose.yml 配…

Kubernetes(K8S)拉取本地镜像部署Pod 实现类似函数/微服务功能(可设置参数并实时调用)

以两数相加求和为例,在kubernetes集群拉取本地的镜像,实现如下效果: 1.实现两数相加求和 2.可以通过curl实时调用,参数以GET方式提供,并得到结果。(类似调用函数) 一、实现思路 需要准备如下的…

分布式websocket IM聊天系统相关问题问答【第九期】

前言 上期视频讲解了自己关于聊天系统的设计的时候出现了一些不一样的声音。不了解情况的可以看上上期视频。这期主要是讨论。IM聊天系统设计方案多。我的先说明一下自己的技术背景互相之间才能更好的理解。 本期对应视频 目前已经写的文章有。并且有对应视频版本。 git项目地…

FPGA中跨时钟域传数据——(1)单bit脉冲

FPGA中跨时钟域传数据——(1)单bit脉冲 亚稳态模型由快时钟传到慢时钟由慢时钟传到快时钟 亚稳态模型 必须在建立时间和保持时间内,数据不变化,否则会产生亚稳态。 由快时钟传到慢时钟 在快时钟里面进行数据展宽(…

牛客周赛 Round 20 解题报告 | 珂学家 | 状压DP/矩阵幂优化 + 前缀和的前缀和

前言 整体评价 这场比赛很特别,是牛客周赛的第20场,后两题难度直线飙升了。 前四题相对简单,E题是道状压题,历来状压题都难,F题压轴难题了,感觉学到了不少。 A. 赝品 先求的最大值 然后统计非最大值的个…

位置无关码PIC详解:原理、动态链接库、代码重定位

静态链接库将代码和数据在编译时整合到可执行文件,使程序独立运行。动态链接库允许在程序运行时加载,而不是在编译时将库的代码和数据静态地合并到可执行文件中。这允许多个程序共享同一份库,减小程序体积。由于动态链接库在编译时并未确定其…

【Electron】Electron是什么

1. Electron是什么 Electron是使用JavaScript、HTML和CSS构建跨平台(Windows、MacOs、Linux)的桌面应用。Electron其实就是一个可以展示网页内容的壳子,相当于一个独立的浏览器,可以提供给你一些接口,去调用系统的资源…

微软 Power Apps model drven app 模型驱动应用使用Plugin插件实现业务流程跳转阶段功能

微软 Power Apps model drven app 模型驱动应用使用Plugin插件实现业务流程跳转阶段功能 模型驱动应用使用插件实现跳转业务流程阶段跳转功能 在实际操作中总会遇到使用业务流程的需求,那么如何使用plugin实现跳转阶段的功能呢 需求背景是主表上有业务流程&#x…

在Python环境中运行R语言的配环境实用教程

前情提要 在做一些生物信息与医学统计的工作,本来偷懒希望只靠python完成的,结果还是需要用R语言,倒腾了一会儿,调成功了,就记录一下这个过程。 我的环境: win10, pycharm, R-4.3.2 首先,我们…

Redis 面试题 | 05.精选Redis高频面试题

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

muduo网络库剖析——线程Thread类

muduo网络库剖析——线程Thread类 前情从muduo到my_muduo 概要框架与细节成员函数使用方法 源码结尾 前情 从muduo到my_muduo 作为一个宏大的、功能健全的muduo库,考虑的肯定是众多情况是否可以高效满足;而作为学习者,我们需要抽取其中的精…

OpenCV书签 #差值哈希算法的原理与相似图片搜索实验

1. 介绍 差值哈希算法(Difference Hash Algorithm,简称dHash) 是哈希算法的一种,主要可以用来做以图搜索/相似图片的搜索工作。 2. 原理 差值哈希算法通过计算相邻像素的差异来生成哈希,即通过缩小图像的每个像素与平…

高效构建Java应用:Maven的使用总结

一、Maven简介和快速入门 1.1 Maven介绍 Maven-Introduction Maven 是一款为 Java 项目构建管理、依赖管理的工具(软件),使用 Maven 可以自动化构建、测试、打包和发布项目,大大提高了开发效率和质量。 总结:Maven…

excel(wps)之vlookup函数合并sheet数据

VLOOKUP函数是Excel中的一个纵向查找函数,它与LOOKUP函数和HLOOKUP函数属于一类函数,在工作中都有广泛应用,例如可以用来核对数据,多个表格之间快速导入数据等函数功能。功能是按列查找,最终返回该列所需查询列序所对应…

DEB方式安装elastic search7以及使用

参考:https://www.cnblogs.com/anech/p/15957607.html 1、安装elastic search7 #手动下载安装 wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.17.1-amd64.deb wget https://artifacts.elastic.co/downloads/elasticsearch/elastics…

深度学习(4)--Keras安装

目录 Keras安装: 1.1.安装CUDA/cuDDN工具包 1.1.1.安装前准备 1.1.2.安装CUDA 1.1.3.安装cuDDN 1.2.安装Anaconda 1.3.安装tensorflow框架 1.3.1.使用cmd安装 1.3.2.使用Anaconda Prompt安装 1.4.安装Keras框架 1.5.打开jupyter notebook,执行import调用 Keras…

18.鸿蒙HarmonyOS App(JAVA)日期选择器-时间选择器

18.鸿蒙HarmonyOS App(JAVA)日期选择器-时间选择器 点击button按钮触发事件显示月份与获取的时间 Button button3 (Button) findComponentById(ResourceTable.Id_button3);button3.setClickedListener(new Component.ClickedListener() {Overridepublic void onClick(Compon…

基于springboot酒店预订系统

开发工具:IDEA 服务器:Tomcat9.0, jdk1.8 项目构建:maven 数据库:mysql5.7 前端技术:AdminLTEjQueryvue.jselementuijsp 服务端技术:springbootmybatis 本系统功能包括: 一、…

实验:MySQL 客户端SocketTimeout 抓包分析

实验准备 服务端环境准备 服务器信息 阿里云 99 大洋白嫖机 $ cat /proc/version Linux version 5.15.0-83-generic (builddlcy02-amd64-027) (gcc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0, GNU ld (GNU Binutils for Ubuntu) 2.38) #92-Ubuntu SMP Mon Aug 14 09:30:42 UT…

特斯拉FSD的神经网络(Tesla 2022 AI Day)

这是特斯拉的全自动驾驶(Full Self Driver)技术结构图,图中把自动驾驶模型拆分出分成了几个依赖的模块: 技术底座:自动标注技术处理大量数据,仿真技术创造图片数据,大数据引擎进不断地更新&…