你的食物变质没?用AI算法来检测一下吧

最近一条幼儿园采用过期食物的新闻引起了社会的强烈关注,对于食品安全而言,国家一直是严格要求的,尤其是对于婴幼儿食品安全的标准,部分已经超越了国际上的标准。但可能是由于无法严格地执行到每一个地方且检测周期较长,造成这一现象的出现,着实有些令人愤怒。程序员,用代码改变世界的一群人,今天向大家介绍用AI算法来检测食物是否过期,希望能够在以后普及应用到食物安全的初步检测之中,下面以披萨为例。

0


在俄罗斯最大的披萨连锁店“Dodo Pizza”的最新Dbrain用例中,首席数据科学家Arthur Kuzin解释了开发的AI算法如何通过短信控制披萨质量,将披萨面团打分1到10分。下面详细解释如何教AI算法来评估披萨质量!

本文重点关注以下内容:i)仅从少数标记样本中获取完整数据集的标记; ii)将方框拉伸到对象的分割掩模(将方框的方形掩模应用于任何形状)。

想法

Dodo pizza有许多活跃的客户,在完成订单后,他们同意分享他们对披萨质量的看法。为了简化反馈环节及其处理过程,Dbrain开发了一个AI算法驱动的应用程序来检查披萨质量。此应用程序类似于聊天机器人,客户上传照片后可以获得得分为1到10的等级评分。

1

问题陈述

当程序员收到开发请求时,就着手开发一种可以客观地确定面团质量的算法。问题在于确定披萨烘焙过程是何时停止的,披萨外皮上的白色气泡与产品的变质相关。

数据挖掘

该数据集收集了披萨烘焙的照片,还包括了一些不相关的图像。如果配方不正确,披萨外皮上就会出现白色气泡。此外,专家还对面团质量进行了二元标记。因此,得到数据集之后,算法的开发就只是时间问题了。

这些数据集的照片是在不同的手机上、在不同的光线条件下以及从不同的角度拍摄得到的。整个数据集有17k张的披萨标本图像,而整个数据集的图片总数为60k张。

由于该任务需求非常简单明了,因此用不同的方法来处理数据是一个很好的操练场。那么,以下就是我们解决任务所需要的:

  • 1.选择能够看到披萨外壳的照片;
  • 2.区分所选照片中的披萨外皮与背景区域;
  • 3.在选定区域训练神经网络。

数据过滤

此外,我自己标记了一小部分照片,而不是向其他人解释我真正需要的东西,因为,如果你想要做得好,自己就需要对数据进行处理,以下就是我所做的:

  • 1.标记了50张有披萨外皮图像,标记了50张没有披萨外皮图像:

2_jpeg

  • 2.使用resnet-152网络在imagenet11k上预训练权重等参数,在全连接层后提取特征;

4

  • 3.将两个类别的特征的平均值作为基准点;
  • 4.计算从该基准点与剩余的60k图片的所有特征之间的距离;
  • 5.确定前300个与正类别相关的样本,后500个与负类别相关的样本;

5

  • 6.基于这些样本的特征训练LightGBM;
  • 7.使用此模型在整个数据集上预测出标签;

6

 

这与我在kaggle比赛中用作基线的方法大致相同。

前传

大约一年前,我和Evgeny Nizhibitsky一起参加了“海狮” kaggle比赛。任务是从无人机拍摄的图像上统计海豹的个数。标记只是给出了尸体的坐标,但在某些时候, Vladimir Iglovikov用方框标记了它们,并在社区慷慨地进行了分享。

我决定通过分割来解决这个任务,在第一阶段只将海豹方框作为目标。经过几次训练迭代后,很容易找到一些硬样品,但是效果不好。

7

对于此示例,可以选择没有海豹的大区域,手动将蒙版设置为零,还可以添加到训练集。因此,Evgeny和我训练了一个模型,该模型已经学会了分割大型海豹鳍。

8

披萨外皮检测和提取

再次回到主题披萨,为了识别所选和过滤后的图像上的外壳,最佳选在标签上做文章。通常,一些贴标机工作对同一样本的工作方式是不同的,但当时我们已经对这种情况应用了一致性算法并将其用于方框中。这就是为什么我只是做了几个例子就把它交给了贴标机。最后,获得了500个样本,这些样本特别突出了披萨外皮区域。

为了识别所选过滤照片上的外壳,我为贴标机做了几个例子。

第一次迭代模型训练的结果仍然是错误的,预测的可信度定义如下:
1 ——(灰色区域的面积)/(掩膜的面积)

9

接下来,为了完成获得接近掩模方框的下一次迭代,在小的样本集上用TTA预测掩模。这在某种程度上可以被认为是WAAAAGH式的知识蒸馏,但更为正确地将其称之为伪标签。

10

然后,我人为地确定某个阈值,用于形成新训练集的置信度,还可以选择出标记出集成失败的最复杂样本。我认为这将是有用的,并在自己休息时标记了20张图片。

11

最终模型训练

最后——模型的训练。为了准备样品,我用掩膜提取了披萨外皮区域。此外,我通过扩大掩膜并将其应用于图片以去除背景来略微充气掩膜,因为它不包含有关面团质量的任何信息。然后我从Imagenet中调整了几个模型。我总共收集了大约14k张合适的样本,此外,没有训练整个神经网络,而只训练最后一组全连接层层以防止过拟合。

 

12


最终发现模型为Inception-Resnet-v2时效果最好,其ROC-AUC达到0.700。如果没有进行处理并在没有掩膜的原始图像上训练模型的话,那么得到的ROC-AUC将为0.58左右。

验证

在开发解决方案时,DODO披萨回传了下一批数据,并且使用这些数据测试了整个模型,结果ROC-AUC达到了0.83。

上述结果表明,我们仍然无法完全保证在没有错误的情况下管理披萨的质量。考虑到错误出现的原因,我再一次训练了模型并取得了积极的成果。我们现在看一下错误:

13

从上图可以看出,它们与披萨外皮标签的错误有关,因为有些标记为正常的披萨有明显的变质迹象。

14


这里的误差是由于第一个模型未能选择正确的样本,这导致难以确定正常披萨的关键特征。解决这个问题后,模型的性能会有所提升。

结论

我的同事有时会取笑我几乎所有的分割任务都是通过使用Unet完成,但我仍然希望他们会喜欢它,因为Unet网络是一种相当强大和方便的方法,它可以使得模型误差可视化,且表现优异,可以节省处理数据集的时间。此外,整个模型看起来非常简单,应用十分方便。

 以上是整个算法流程及实验记录,现在是时候吃一块比萨饼放松一下了,干杯!


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521008.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CAS项目部署和基础操作

文章目录一、部署cas1. 复制cas.war到webapps2. 登录页面二、CAS服务端配置2.1. 添加用户2.2. 端口修改2.3. 去除https认证一、部署cas 1. 复制cas.war到webapps 把cas.war放到tomcat的webapps下面启动Tomcat即可 2. 登录页面 二、CAS服务端配置 2.1. 添加用户 找到指定文…

基于POLARDB数据库的压测实践

POLARDB架构简介 PolarDB是阿里云ApsaraDB数据库团队研发的基于云计算架构的下一代关系型数据库(暂时仅支持MySQL,PostgreSQL正在紧锣密鼓的开发中),其最大的特色是计算节点(主要做SQL解析以及存储引擎计算的服务器)与存储节点(主要做数据块存储&#x…

戴尔科技:以技术突破创新边界!

2019戴尔科技峰会今天在北京隆重举行,戴尔科技集团与数千位全国企业级精英、合作伙伴、业内专家、媒体及分析师代表等齐聚一堂,分享了在5G、云计算、存储、数据保护、服务器等领域的最新技术产品、最佳实践经验及最新发展趋势。此次峰会还完整地展示了戴…

让你久等了!《码出高效:Java 开发手册》正式发布

可爱的Java开发者们,让你们久等了! 9月22日杭州云栖大会,众所期待的新书《码出高效:Java 开发手册》正式发布,并宣布将所有图书收益捐赠于公益项目。 此书从立意到付梓,历时超过两年,期间推翻数…

python中is和 的区别_Python中is和==的区别

"""is和 的区别"""a abcb abcprint("都是字符串-a is b--", a is b)print("都是字符串-a b--", a b)c 11d 11print("都是数字-c is d--", c is d)print("都是数字-c d--", c d)e [0, 1, 2]f …

(Docker实战) 第1篇:Centos7 环境准备和安装Docker-ce

文章目录一 、安装docker1. 卸载以前安装的docker2. 安装必要的系统工具4. 更新yum缓存5. 安装docker6. 更改docker仓库为国内仓库7. 重启docker8. 安装docker-compose一 、安装docker docker优点 快速上手新技术,把精力放在业务上而非安装和配置服务器快速搭建开发…

初入数据科学领域,你需要有七个这样的思维

假设你刚刚被一家小型软件公司聘为数据科学家。你感到欣喜若狂!你的辛勤工作和坚持不懈终于得到了回报。是时候将你的统计数据和机器学习知识付诸实践了。那么恭喜你终于加入了数据革命。 第1天到来,每个人都很高兴见到这位“数据科学家”。该公司以前从…

输入文字自动生成图片_原来Word还可以自动生成图片和图表目录!

小李接到了一个任务,将技术文档中的示意图目录做出来,让客户能根据需求快速找到操作示意图,可是这份文档有三百多张图片,不过,这可难不倒小李。说到Word目录,大多数人都知道,可以为文档的标题设…

反转!物联网火爆,开发者却很难入门?

在 2019 北京网络安全大会上,工信部负责人表示,我国面向 5G 和车联网将建设网安防护体系,提升监测预警和应急响应能力。其中物联网设备已成为网安防护新重点。为什么工信部会这么重视物联网?物联网开发者的现状又是如何呢&#xf…

如何深度理解RNN?——看图就好!

欢迎来到循环神经网络的插图指南。我是迈克尔,也被称为LearnedVector,我是AI语音领域的机器学习工程师。如果你刚刚开始使用ML并希望在Recurrent神经网络背后获得一些直觉,那么这篇文章就适合你。 循环神经网络是一种强大的技术,…

java有string这个类型吗_关于java的String类型

String类型的不可变众所周知,String类型是不可变的,一旦String对象被创建好了则这个字符串中的序列就不可改变。为什么String类型是不可变?根据阅读源码可知,String类是一个final类,但是String不可变并不是因为它是一个…

理论与实践:如何从Hadoop迁移到MaxCompute

直播视频回看,传送门!分享资料下载,传送门!更多精彩内容传送门:大数据计算技术共享计划 — MaxCompute技术公开课第二季 以下内容根据演讲视频以及PPT整理而成。 通常而言,将Hadoop迁移到MaxCompute会分为…

rocketmq原理_彻底看懂RocketMQ事务实现原理

面试中经常会问到比如RocketMQ的事务是如何实现的呢?学习框架,我们不仅要熟练使用,更要掌握设计及原理,才算熟悉一个框架。1 RocketMQ 事务使用案例public class CreateOrderService { Autowired private OrderDao orderDao; A…

要活 102 年,阿里凭借的是什么?

戳蓝字“CSDN云计算”关注我们哦!作者 | 屠敏责编 | 阿秃由浅到深、由轻到重、由拥抱到创新,看似“风平浪静”的历史背后,中国互联网江湖的发展实则“波涛汹涌”。对于身处核心位置的科技巨头阿里巴巴而言,将如何更好地去实现“希…

阿里云 x 蒙牛 | 打通数据孤岛,基于MaxCompute实现产销协同的智慧运营

每一个公司转型的背后 都有着不为人知的秘密 今天,让我们一起探秘 内蒙古蒙牛乳业(集团)股份有限公司是中国发展速度最快的乳品企业之一,2017年实现收入601.56亿元,位列全球乳业第10位,与2016年同比收入增…

(Docker实战) 第3篇:Centos7 拉取和部署Mysql

文章目录搭建mysql1. 创建mysql的配置文件2. 创建mysql配置/srv/mysql/conf/custom.cnf3. 下载并安装mysql 5.7(注意修改密码)搭建mysql 1. 创建mysql的配置文件 mkdir -p /srv/mysql/conf /srv/mysql/logs /srv/mysql/data2. 创建mysql配置/srv/mysql…

Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南

DataX-On-Hadoop即使用hadoop的任务调度器,将DataX task(Reader->Channel->Writer)调度到hadoop执行集群上执行。这样用户的hadoop数据可以通过MR任务批量上传到MaxCompute、RDS等,不需要用户提前安装和部署DataX软件包,也不需要另外为…

(Docker实战) 第三篇:配置_开发环境

文章目录一、开发环境-建立开发环境1.1. 常用环境下载地址1.2. IDEA的maven配置1.3. 导入项目示例1.4. IDEA教程,如何从eclipse过渡1.5. gblfy的快捷键风格一、开发环境-建立开发环境 1.1. 常用环境下载地址 jdk8下载地址: https://www.oracle.com/te…

阿里云史上最大技术升级:面向万物智能的飞天2.0

1991年,《科学美国人》杂志描绘了一种“无处不在的计算设备,没人会感觉到它的存在”,拉开了万物智能的序幕。 27年后的2018杭州•云栖大会上,阿里云公布了面向万物智能的新一代云计算操作系统——飞天2.0,可满足百亿级…

杭州·云栖大会宣布多款核心云产品降价,最高降幅达90%

2018杭州云栖大会,阿里云宣布开启新一轮核心产品降价,再次用科技普惠广大开发者和用户,加速产业升级。本次降价涉及近20款产品,产品包括智能语音交互、图像识别、性能测试PTS、云数据库RDS等,其中事务消息降价90%&…