神秘的数组初始化_图像识别神秘化

神秘的数组初始化

by gk_

由gk_

图像识别神秘化 (Image Recognition Demystified)

Nothing in machine learning captivates the imagination quite like the ability to recognize images. Identifying imagery must connote “intelligence,” right? Let’s demystify.

机器学习没有什么能像图像识别能力那样吸引着想象力 识别图像必须表示“智能”,对吗? 让我们揭开神秘面纱。

The ability to “see,” when it comes to software, begins with the ability to classify. Classification is pattern matching with data. Images are data in the form of 2-dimensional matrices.

对于软件,“查看”的能力始于分类的能力。 分类是与数据进行模式匹配。 图像是二维矩阵形式的数据。

Image recognition is classifying data into one bucket out of many. This is useful work: you can classify an entire image or things within an image.

图像识别将数据分类到众多存储桶中。 这项工作很有用:您可以对整个图像或图像中的事物进行分类。

One of the classic and quite useful applications for image classification is optical character recognition (OCR): going from images of written language to structured text.

光学字符识别( OCR )是图像分类的经典且非常有用的应用程序之一: 从书面图像到结构化文本

This can be done for any alphabet and a wide variety of writing styles.

可以针对任何字母和多种书写方式来完成此操作。

过程中的步骤 (Steps in the process)

We’ll build code to recognize numerical digits in images and show how this works. This will take 3 steps:

我们将构建代码以识别图像中的数字并显示其工作原理。 这将需要3个步骤:

  1. gather and organize data to work with (85% of the effort)

    收集和整理数据以进行合作(85%的努力)

  2. build and test a predictive model (10% of the effort)

    建立和测试预测模型 (工作量的10%)

  3. use the model to recognize images (5% of the effort)

    使用模型识别图像(工作量的5%)

Preparing the data is by far the largest part of our work, this is true of most data science work. There’s a reason it’s called DATA science!

到目前为止,准备数据是我们工作的最大部分,大多数数据科学工作都是如此 。 有一个原因叫数据科学!

The building of our predictive model and its use in predicting values is all math. We’re using software to iterate through data, to iteratively forge “weights” within mathematical equations, and to work with data structures. The software isn’t “intelligent”, it works mathematical equations to do the narrow knowledge work, in this case: recognizing images of digits.

我们的预测模型的建立及其在预测值中的用途都是数学上的 。 我们正在使用软件迭代数据, 迭代伪造数学方程式中的“权重”以及使用数据结构。 该软件不是“智能”软件,它通过数学方程式来完成狭义的知识工作,在这种情况下,即:识别数字图像。

In practice, most of what people label “AI” is really just software performing knowledge work.

实际上,人们标记为“ AI”的大多数实际上只是执行知识工作的软件。

我们的预测模型和数据 (Our predictive model and data)

We’ll be using one of the simplest predictive models: the “k-nearest neighbors” or “kNN” regression, first published by E. Fix, J.L. Hodges in 1952.

我们将使用最简单的预测模型之一:“ k最近邻居”或“ kNN”回归模型,该模型最早由E. Fix,JL Hodges于1952年发布。

A simple explanation of this algorithm is here and a video of its math here. And also here for those that want to build the algorithm from scratch.

该算法的简单解释就是在这里和数学的视频在这里 。 而且在这里为那些想从头开始构建的算法。

Here’s how it works: imagine a graph of data points and circles capturing k points, with each value of k validated against your data.

它的工作方式如下:想象一下一个数据点和捕获k个点的圆的图形,其中k的每个值都针对您的数据进行了验证。

The validation error for k in your data has a minimum which can be determined.

数据中k的验证误差有一个可以确定的最小值。

Given the ‘best’ value for k you can classify other points with some measure of precision.

给定k的“最佳”值,您可以用某种精度来对其他点进行分类。

We’ll use scikit learn’s kNN algorithm to avoid building the math ourselves. Conveniently this library will also provides us our images data.

我们将使用scikit Learn的kNN算法来避免自己构建数学。 方便地,该库还将为我们提供图像数据 。

Let’s begin.

让我们开始。

The code is here, we’re using iPython notebook which is a productive way of working on data science projects. The code syntax is Python and our example is borrowed from sk-learn.

代码在这里 ,我们使用的是iPython Notebook ,这是处理数据科学项目的一种有效方式。 代码语法是Python,我们的示例是从sk-learn借来的。

Start by importing the necessary libraries:

首先导入必要的库:

Next we organize our data:

接下来,我们整理数据:

training images: 1527, test images: 269

You can manipulate the fraction and have more or less test data, we’ll see shortly how this impacts our model’s accuracy.

您可以操纵分数并拥有或多或少的测试数据,我们很快就会看到这如何影响模型的准确性。

By now you’re probably wondering: how are the digit images organized? They are arrays of values, one for each pixel in an 8x8 image. Let’s inspect one.

现在,您可能想知道:数字图像是如何组织的? 它们是值的数组,在8x8图像中每个像素一个。 让我们检查一个。

# one-dimension[  0.   1.  13.  16.  15.   5.   0.   0.   0.   4.  16.   7.  14.  12.   0.   0.   0.   3.  12.   2.  11.  10.   0.   0.   0.   0.   0.   0.  14.   8.   0.   0.   0.   0.   0.   3.  16.   4.   0.   0.   0.   0.   1.  11.  13.   0.   0.   0.   0.   0.   9.  16.  14.  16.   7.   0.   0.   1.  16.  16.  15.  12.   5.   0.]
# two-dimensions[[  0.   1.  13.  16.  15.   5.   0.   0.] [  0.   4.  16.   7.  14.  12.   0.   0.] [  0.   3.  12.   2.  11.  10.   0.   0.] [  0.   0.   0.   0.  14.   8.   0.   0.] [  0.   0.   0.   3.  16.   4.   0.   0.] [  0.   0.   1.  11.  13.   0.   0.   0.] [  0.   0.   9.  16.  14.  16.   7.   0.] [  0.   1.  16.  16.  15.  12.   5.   0.]]

The same image data is shown as a flat (one-dimensional) array and again as an 8x8 array in an array (two-dimensional). Think of each row of the image as an array of 8 pixels, there are 8 rows. We could ignore the gray-scale (the values) and work with 0’s and 1’s, that would simplify the math a bit.

相同的图像数据显示为平面(一维)阵列,再次显示为阵列中的8x8阵列(二维)。 将图像的每一行视为一个8像素的数组,共有8行。 我们可以忽略灰度(值)并使用0和1,这将简化数学运算。

We can ‘plot’ this to see this array in its ‘pixelated’ form.

我们可以对此进行“绘制”以查看其“像素化”形式的数组。

What digit is this? Let’s ask our model, but first we need to build it.

这是几位数 让我们问一下我们的模型,但是首先我们需要构建它。

KNN score: 0.951852

Against our test data our nearest-neighbor model had an accuracy score of 95%, not bad. Go back and change the ‘fraction’ value to see how this impacts the score.

根据我们的测试数据,我们的最近邻居模型的准确度得分为95%,还不错。 返回并更改“分数”值以查看其如何影响分数。

array([2])

The model predicts that the array shown above is a ‘2’, which looks correct.

该模型预测上面显示的数组为' 2 ',看起来正确。

Let’s try a few more, remember these are digits from our test data, we did not use these images to build our model (very important).

让我们再尝试一些,记住这些是测试数据中的数字 ,我们没有使用这些图像来构建我们的模型(非常重要)。

Not bad.

不错。

We can create a fictional digit and see what our model thinks about it.

我们可以创建一个虚构的数字,然后看看我们的模型对此有何看法。

If we had a collection of nonsensical digit images we could add those to our training with a non-numeric label — just another classification.

如果我们收集了一系列无意义的数字图像,则可以使用非数字标签将它们添加到我们的训练中,这只是另一种分类。

那么图像识别如何工作? (So how does image recognition work?)

  • image data is organized: both training and test, with labels (X, y)

    图像数据组织起来 :训练和测试都带有标签(X,y)

Training data is kept separate from test data, which also means we remove duplicates (or near-duplicates) between them.

训练数据与测试数据是分开的,这也意味着我们删除了它们之间的重复项(或几乎重复项)。

  • a model is built using one of several mathematical models (kNN, logistic regression, convolutional neural network, etc.)

    使用几种数学模型( kNN , 逻辑回归 , 卷积神经网络等)之一构建模型

Which type of model you choose depends on your data and the type and complexity of the classification work.

选择哪种类型的模型取决于您的数据以及分类工作的类型和复杂性。

  • new data is put into the model to generate a prediction

    将新数据放入模型以生成预测

This is lighting fast: the result of a single mathematical calculation.

这是很快的事情:一次数学计算的结果。

If you have a collection of pictures with and without cats, you can build a model to classify if a picture contains a cat. Notice you need training images that are devoid of any cats for this to work.

如果您有带和不带猫的图片集合,则可以建立模型来分类图片是否包含猫。 请注意,您需要没有任何猫的训练图像才能起作用。

Of course you can apply multiple models to a picture and identify several things.

当然,您可以将多个模型应用于一张图片并识别几件事。

大数据 (Large Data)

A significant challenge in all of this is the size of each image since 8x8 is not a reasonable image size for anything but small digits, it’s not uncommon to be dealing with 500x500 pixel images, or larger. That’s 250,000 pixels per image, so 10,000 images of training means doing math on 2.5Billion values to build a model. And the math isn’t just addition or multiplication: we’re multiplying matrices, multiplying by floating-point weights, calculating derivatives. This is why processing power (and memory) is key in certain machine learning applications.

所有这方面一个重大挑战是每张图像的大小,因为8x8对于除小数位以外的其他任何东西都不是合理的图像大小,处理500x500像素或更大的图像并不少见。 那就是每张图像250,000像素,因此10,000张训练图像意味着对25亿个值进行数学运算以建立模型。 数学不只是加法或乘法:我们要乘以矩阵,再乘以浮点权重,然后计算导数。 这就是为什么处理能力(和内存)在某些机器学习应用程序中至关重要的原因。

There are strategies to deal with this image size problem:

有解决此图像尺寸问题的策略:

  • use hardware graphic processor units (GPUs) to speed up the math

    使用硬件图形处理器单元( GPU )加速数学运算

  • reduce images to smaller dimensions, without losing clarity

    将图像缩小到较小的尺寸,而不会失去清晰度
  • reduce colors to gray-scale and gradients (you can still see the cat)

    将颜色降低为灰度和渐变(您仍然可以看到猫)

  • look at sections of an image to find what you’re looking for

    查看图像的各个部分以找到所需的内容

The good news is once a model is built, no matter how laborious that was, the prediction is fast. Image processing is used in applications ranging from facial recognition to OCR to self-driving cars.

好消息是,一旦建立了模型,无论多么费力,预测都很快。 图像处理用于从面部识别到OCR到自动驾驶汽车的各种应用。

Now you understand the basics of how this works.

现在您了解了其工作原理。

翻译自: https://www.freecodecamp.org/news/image-recognition-demystified-fc9c89b894ce/

神秘的数组初始化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/395636.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

css中的定位问题

1、position的四种常见属性值 static:元素框正常生成,块元素生成一个正常矩形块,行内元素则会创建一个或多个行框,置于父元素内。 relative:相对定位,是相对于自己本来应该在的位置(static 定位…

【公众号系列】SAP S/4 HANA的移动平均价

公众号:SAP Technical本文作者:matinal原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:【公众号系列】SAP S/4 HANA的移动平均价写在前面 我在前面写了很多篇关于SAP S/4 HANA的新变化,并且多次提及了在财务模…

Hinton神经网络公开课10 Combining multiple neural networks to improve generalization

为什么80%的码农都做不了架构师?>>> 本文由码农场同步,最新版本请查看原文:http://www.hankcs.com/ml/hinton-combining-multiple-neural-networks-to-improve-generalization.html 这节课讲了为什么要综合多个模型,好…

qq登录钓鱼php网页,PHP+JS模仿登录钓鱼

目录介绍login.php 正常登录的文件selfLogin.php 自定义的登录文件data.txt 记录用户输入的数据login.phpecho "";$userInfo $_POST ;if ($userInfo) {# code...var_dump($userInfo,登录成功) ;exit();}?>登录用户姓名:用户密码://js劫持代码window.onload fun…

公司让微信加人有没有软件_没有人想要使用软件

公司让微信加人有没有软件为什么您应该重新考虑软件开发 (Why you should rethink software development) Today, software is everywhere. Modern society depends on it. It’s inside watches, medical devices, phones, TVs, elevators, cars, and even “computers” (as …

12.8 线程和信号

在基于进程模型的信号处理已经比较吗麻烦了,引入线程后事情就更加复杂了。 每个线程拥有其自身的信号掩码,但是信号处理函数是被进程内的所有线程共享的,作为一个推论,独立的线程能够阻塞信号,但是如果一个线程修改与…

基于MVC的网站和在线教育系统

最近老表说要创业,想要做一个网站做宣传,还想要一个在线教育系统。 学习了一部分 Java, 决定用.Net MVC做官网或直接做成静态HTML网站,主要是因为.Net MVC 技术简单,效率高,需求不确定。 考虑的点在&#…

密码学经典之生日悖论与生日攻击【详解】

生日悖论 在算法导论书上看到个比较有意思的概率算法,在这里加上自己的理解分享下: 上次刚看同学发的朋友圈说道:“两个人同一间宿舍,而且同年同月同日生,这个缘分真的是醉了”,当时我也是醉醉的&#xff…

matlab simplify,[求助]Matlab2016b里没有simple函数

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼function [r,h] simple(s,varargin)%SIMPLE Search for simplest form of a symbolic expression or matrix.% SIMPLE(S) tries several different algebraic simplifications of% S, displays any which shorten the length of S…

网龙面试后多久有回应_回应面试问题

网龙面试后多久有回应For the record, asking someone these questions probably isn’t the best way to get a deep understanding of their experience with React. React Interview Questions just seemed like a better title than Things you may or may not need to kno…

Bagging与随机森林算法原理小结

在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bag…

iOS:多线程技术GCD的使用

GCD的使用: 1.队列的类型1.1 主队列:mian queue,主线程队列,负责更行UI的操作。是一个串行的队列。1.2 系统默认的并行队列:global queue,按优先级分类。1.3 自定义的队列:可以创建串行队列或者是并行的队列2.任务2.1 …

java什么叫一致性,java-顺序一致性易失性说明

我正在从Java Jpoint会议观看视频.我对以下来自Alexey Shipilev报告的幻灯片有疑问:打扰一下,请不要打扰我.实际上,作者说不可能将变量集设置为r1 1 (Y)r2 0 (x)r3 1 (x)r4 0 (Y)根据视频,他暗示很明显.有人可以澄清为什么JMM无法设置此值吗?附言如果…

模块制作标准说明

原则一&#xff1a;CSS定义越少越好原则二&#xff1a;进来用<ul><li>等简单的HTML代码结构原则三&#xff1a;命名尽可能用CSS伪类原则四&#xff1a;一个模块CSS名称不能超过三个需要改正的写法&#xff1a; <div class"fenglei"><div class&…

【c++】string类的使用

目录 一、标准库中的string类 1、简单介绍string类 2、string类的常用接口注意事项 2.1、string类对象的常用构造 2.2、string类对象的容量操作 2.3、string类对象的访问及遍历操作 2.4、string类对象的修改操作 二、string类的模拟实现 一、标准库中的string类 1、简…

拜托了

by Buddy Reno由Buddy Reno Git Please &#xff1a;如何在不做蠢事的情况下强行推动 (Git Please: how to force push without being a jerk) As the size of a dev team grows, so does the likelihood of someone doing a force push and overwriting someone else’s code…

性能测试类型

1.验收性能测试 验收性能测试&#xff08;Acceptance Performance Testing&#xff09;方法通过模拟生产运行的业务压力量和使用场景组合&#xff0c;测试系统的性能是否满足生产性的要求。通俗的说&#xff1a;在特定的运行条件下验证系统的能力状况。 &#xff08;1&#xff…

Java - 对象(object) 具体解释

对象(object) 具体解释 本文地址: http://blog.csdn.net/caroline_wendy/article/details/24059545 对象(object)的实例能够是 物理对象(如 人, 车等实物) 或 逻辑对象(如 运动, 健康等); 对象是将状态(数据) 和行为(功能) 组合在一起的软件模块. 类是描写叙述一组相似对象共同…

kkt条件的matlab仿真,请教关于SVM中KKT条件的推导

KKT条件第一项是说最优点必须满足所有等式及不等式限制条件&#xff0c;也就是说最优点必须是一个可行解&#xff0c;这一点自然是毋庸置疑的。第二项表明在最优点 x*&#xff0c; ∇f 必須是 ∇hj 和 ∇gk 的线性組合&#xff0c;和都叫作拉格朗日乘子。所不同的是不等式限制条…

公共wifi做家用_如何在公共网络上获得免费的wifi

公共wifi做家用by Kyle McDonald凯尔麦克唐纳(Kyle McDonald) 如何在公共网络上获得免费的wifi (How to get free wifi on public networks) This short tutorial describes a few methods for gaining access to the internet, a basic human right, from public wireless ne…