什么是计算机视觉？

计算机视觉 (CV) 是人工智能 (AI) 的一个分支领域，是指让计算机和系统能够从图像、视频和其他视觉输入中获取有意义的信息，并根据该信息采取行动或提供建议。如果说人工智能赋予计算机思考的能力，那么计算机视觉就是赋予发现、观察和理解的能力。

计算机视觉的工作原理与人类视觉类似，只不过人类起步更早。人类视觉系统的优势是终身可以在适当的环境下训练分辨物体、物体距离、物体动静与否以及图像是否存在问题等能力。

计算机视觉训练机器来执行这些功能，但它们依靠摄像头、数据和算法在更短的时间内完成工作，而不像人类是依靠视网膜、视神经和视皮质。经过训练用于检验产品或监控生产资产的系统每分钟能够分析数千个产品或流程，并且会发现极其细微的缺陷或问题，因此计算机视觉的能力迅速超越人类。

计算机视觉广泛用于许多行业，例如能源、公用事业、制造和汽车行业等等，并且市场仍在不断拓展。

计算机视觉的工作原理

计算机视觉需要大量数据。它一遍又一遍地运行数据分析，直到能够辨别差异并最终识别图像为止。例如，要训练一台计算机识别汽车轮胎，需要为其输入大量的轮胎图像和轮胎相关数据，供其学习轮胎差异和识别轮胎，尤其是没有缺陷的轮胎。

这个过程会用到两种关键技术：一种是机器学习，叫做深度学习，另一种是卷积神经网络 (CNN)。

机器学习使用算法模型，让计算机能够自行学习视觉数据的上下文。如果通过模型馈入足够多的数据，计算机就能"查看"数据并通过自学掌握分辨图像的能力。算法赋予机器自学的能力，而无需人类编程来使计算机能够识别图像。

CNN 将图像分解为像素，并为像素指定标记或标签，从而使机器学习或深度学习模型能够"看"到物体。它使用标签来执行卷积运算（用两个函数产生第三个函数的数学运算）并预测它"看到"的东西。该神经网络运行卷积运算，并通过一系列迭代检验预测准确度，直到预测开始接近事实。然后它以类似于人类的方式识别或查看图像。

就像人类辨别远距离的图像一样，CNN 首先辨别硬边缘和简单的形状，然后一边运行预测迭代，一边填充信息。 CNN 用于理解单个图像。循环神经网络 (RNN) 以类似的方式在视频应用程序中帮助计算机理解一连串帧中的图片关系。

计算机视觉的历史

60 多年来，科学家和工程师一直在尝试开发各种方法，让机器能够看到和理解视觉数据。在 1959 年的第一次实验中，神经生理学家向一只猫展示一组图像，试图唤起猫大脑的反应。他们发现猫会先对硬边缘或线条做出反应，从科学角度来说，这意味着图像处理从简单的形状开始，例如直边。

大约在同一时期，第一个计算机图像扫描技术成功地开发出来，使计算机能够将图像数字化并获取图像。 1963 年，计算机能够将二维图像转换为三维形式，标志着第二个里程碑的实现。在 20 世纪 60 年代，人工智能作为一个学术域研究诞生了，同时也标志着人们开始探求依靠人工智能解决人类视觉问题的方法。

1974 年，光学字符识别 (OCR) 技术走向市场，它能够识别以任何字体或字型打印的文字。同样，智能字符识别 (ICR) 能够使用神经网络辨认手写文字。此后，OCR 和 ICR 广泛地运用到文件和发票处理、车牌识别、移动支付、机器翻译和其他常见领域。

1982 年，神经系统科学家 David Marr 证实了视觉分层工作原理，并推出了使机器能够检测边缘、角落、曲线和类似的基本形状的算法。与此同时，计算机科学家 Kunihiko Fukushima 开发了一个能够识别模式的细胞网络。这个网络称为 Neocognitron，它在一个神经网络中包含了多个卷积层。

到 2000 年，物体识别成为研究重点，2001 年，第一个实时人脸识别应用诞生。在 21 世纪初，逐渐形成了视觉数据集标记和注释的标准化实践。