【智能AI】准确率97%的开源肺炎检测模型

云栖号资讯:【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

最近,一位澳大利亚的人工智能博士候选人在 LinkedIn 上发布了一篇关于 SARS-CoV-2 病毒的研究文章。由于极具话题性且号称准确率可以达到 97.5%,这篇文章很快得到上万条评论、点赞与转发。然而,这样一个模型却被扒出背后只用了 50 张图片训练。

CE033D64_AF68_46a7_92ED_422531F237EB

一周搭起准确率达 97% 的模型,事实是?

此前,一位澳大利亚的人工智能博士候选人宣布构建了一套深度学习模型,能够从肺部 X 光片中以 97.5% 的准确率 检测出患者是否感染了 COVID-19 病毒。因为国外疫情蔓延且医疗设施不足,因此人们对这个成果非常关注,短短时间就收获到了上万条评论、点赞和转发,其还创建了 Slack 工作组,得到了大量赞美。

从目前公布的消息来看,整个项目具有以下特点:

  • 一套经过训练的 PyTorch 模型
  • 容器化应用代码
  • 一套 GitHub 库,并被翻译为多种语言
  • 正在开发中的 Web 应用程序
  • 正在开发中的移动应用程序
  • 规划蓝图,有意在 AWS 中利用无服务器架构托管这套模型
  • 在营销与赞助方面还有大量后续计划

而以上的一切,都在一周之内快速完成。随后,Reddit 网友扒出这套解决方案存在几个严重问题,并对此进行了整理与反驳。

21F6AC4F_29F1_4719_A39C_D58FA7938105

只用了 50 张图像训练?

首先,这些网络的潜在神经表示非常复杂,因此必然需要使用大量训练样本才能完成模型训练。但截至提交时,这款 COVID-19 检测工具只见过 50 张肺部影像。

对于这样一套包含 150 多层、超过 2000 万个参数的网络来说,如此有限的训练样本集显然极为荒谬。

63AE4A63_A0E5_435d_9ECA_021295BABEB6

数据样本有问题

此外,样本中可能存在巨大的数据偏差,这 50 张图片并不包含相关人员是否感染病毒,而仅根据 COVID-19 急性病例造成的肺部操作做出标记。除非肺部已经被病毒破坏,否则该模型根本无法检测到感染迹象。此外,即使已经出现肺炎症状,如果尚不属于急性症状,仍然无法证明这套模型的准确度。

图像重复、代码混乱、模型有问题

最后,这套 COVID 模型基于高人气基准网络 ResNet-50。虽然后者确实属于图像识别与分类领域的常用方案,但 ResNet 的预训练一般只涵盖日常环境下的物体。换言之,ResNet 网络中的隐藏层更擅长识别几何形状与彩色图像,在 X 射线影像中,我们明显找不到这样的模式。也正因为如此,大多数医学神经网络才只能选择从零开始构建的开发方式。

进一步观察这套代码库,我们还发现了不少其他问题。训练、验证与测试数据集中包含重复的图像,大部分训练过程直接照搬 PyTorch 教程,混有大量不必要的代码;Github issues 也令人完全无法理解……
GitHub 地址: https://github.com/elcronos/COVID-19

项目负责人回应:我说了项目不可用

最初,个别开发者与项目负责人沟通并提出质疑时,对方回应称:

xxx,你好,我们的成果已经得到加拿大 xxx 研究机构放射科医生的支持与认可

然而,随着质疑声越来越多,项目负责人更新了 GitHub 中的介绍,并表示:

尽管该项目的结果“看起来很有希望”,但我明确指出该模型远没有可用,因此不应将其用于诊断或任何医疗决定。这是在进行中的工作,我们需要具有相关技能的人员的帮助。我还在 GitHub 存储库中指出,我正在寻找能够改善和收集更好数据集的开发者的帮助。

不幸的是,这个项目引起了相关专家的注意,他们没有注意模型尚未准备就绪,且需要更好的数据集并帮助创建更好的模型,也没有阅读我们的所有免责声明。就指责该项目具有误导性,甚至有人暗示我对此有商业意图。这对我的个人生活造成了一些负面影响,因此,我决定暂时退一步,暂时退出社交媒体。至少在接下来的几天,我将不活跃于此组中。

完整版声明参照: https://github.com/elcronos/COVID-19
然而,这位负责人此前还在大肆宣扬此项目,并发起筹款。该项目负责人创建了一个包含多个子频道的 Slack 讨论组,其中有 一个 #marketing 频道,专门用于沟通以及筹措资金。另外,#sponsors 频道则负责与潜在投资者交流,向其报告未来的投资回报前景。

Slack 讨论组: https://app.slack.com/client/T010AJ5H31N/learning-slack
此外,名为 #datascientists 的频道中没多少有用的内容,里面充斥着热情满满但没什么经验的新手。同样的,#doctors 频道情况也差不多,唯一有价值的内容就是来自专业医疗人员的反对意见,例如并不推荐利用肺部 X 射线诊断 COVID-19 感染。最后一个子频道 #researchers 则几乎没人。

另一方面,UI/UX 频道产出的内容倒是颇为丰富。此项计划目前已经拥有 5 款不同的徽标,外加一套专门用于移动与 Web 应用程序的界面。
因此,对于这份声明,大部分开发者并不买账,不少人认为 在当前的特殊情况下,这类存在严重问题的项目不应发布并大肆宣传(甚至有开发者调侃道宣传的工作量大概是开发工作的 20 倍)。

医学诊断中的深度学习

深度卷积网络在疾病的诊断与治疗方面确实具有一系列潜在优势。近年来发表的众多科学出版物中都在高度关注这一全新发展方向:
2016 年,来自伦敦的一组研究人员发表一种新方法,以包含 8 万张眼底照片的数据集为基础,能够以 86% 的准确率诊断出患者因糖尿病引发的视网膜病变。

同一年,来自乌干达的研究人员利用包含 10000 个对象的数据集,评估了卷积神经网络(CNN)对微观血液涂片的分析能力。
两位日本研究人员通过包含 55 万例 CT 扫描影像的数据集,对肺结节进行一轮规模浩大的分类操作。

但前文提到的新冠病毒检测完全不同,稍微浏览其公布的代码库,就能看出该作者对深度学习及 AI 技术的认知严重不足。更糟糕的是,众多开发者都在质疑其明显是想利用此次疫情爆发对自己进行推广。

说好的代码改变世界呢?

深度学习绝不是百试百灵的解决方案。近年来,无数没有做好准备的企业匆匆在内部建立起数据团队,最终却发现成本迅速提升的同时得不到任何有意义的产出。

此前,李飞飞在接受访谈时曾提到:
泡沫确实存在,过度夸张、炒作可以说铺天盖地。作为科学家,我希望这些泡沫都尽快消散。只有关注坚实内核的人们才能推动 AI 进步并带来真正的收益,这一点在医疗保健与医药等领域尤其重要。

另外,我们绝不应该利用技术制造不公、偏见或者扩大原已存在的不平等现象。对于 AI 技术,我希望尽可能降低它的接触门槛、增加公平性并缓解种种相关矛盾。只要处理得当,我们完全有机会利用 AI 技术创造出更美好的未来。当然,前提是我们得认真梳理现有 AI 成果,弄清哪些是捏造的、哪些是真实的。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/516476.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

豪气!华为放话:3年培养100万AI人才!网友神回应了

大家经常把BAT挂在嘴边,但是可能有些人还不知道,华为的体量早已超越了这三巨头,只是迟迟不肯上市。华为的创始人任正非曾说表:上不上市不重要,最重要的是要让中国华为的技术能够称霸全球!华为对技术的重视&…

elasticsearch-7.15.2 配置IK中文分词器+拼音分词

文章目录1. 下载分词器2. es集成pinyin3. 启动es4. 自定义分词5. 映射模型6. 初始化数据7. 查询索引8. 效果图9. 开源项目1. 下载分词器 ik中文分词器 中文分词器:https://github.com/medcl/elasticsearch-analysis-ik 拼音分词器 链接:https://github.…

Gartner 容器报告:阿里云与 AWS 并列第一,领先微软、谷歌

近日,国际知名调研机构 Gartner 发布 2020 年容器公有云竞争格局报告,阿里云再度成为国内唯一入选厂商。Gartner 报告显示,阿里云容器服务在中国市场表现强劲,产品形态丰富,在如 Serverless 容器、服务网格、安全沙箱容…

每个程序员都必须知道的8种通用数据结构

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 数据结构是一种特殊的组织和存储数据的方式,可以使我们可以更高效地对存储的数据执行操作。数据结构在计算机科学…

ElasticSearch 从安装开始_01

文章目录1. windows 环境2. linux3. HEAD 插件安装4. 分布式安装5. Kibana 安装1. windows 环境 首先打开 Es 官网,找到 Elasticsearch: https://www.elastic.co/cn/downloads/elasticsearch 然后点击下载按钮,选择合适的版本直接下载即可。…

硅谷2020最新大数据学习路线:科学使用这一招,12周助你成为数据分析师

来源 | 智领云科技责编 | Carol数据科学到底是什么?数据科学是一门将数据变得有用的学科,它包含三个重要概念:统计、机器学习、数据挖掘/分析。《数据科学杂志》曾提出:“所谓的‘数据科学’,指的是那些任何与数据相关…

新基建带来新机遇!大数据产业发展需“四驱”推动

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 近段时间以来,“新基建”一次热度不断攀升,受到了科技、产业界的高度关注。实际上,新基建…

Spring Boot简单多线程定时任务实现 | @Async | @Scheduled

Spring Boot简单多线程定时任务实现 实现步骤 1 创建一个Spring Boot项目 2 定义定时任务: package com.jmd.timertasktest.task;import org.springframework.context.annotation.Configuration; import org.springframework.scheduling.annotation.Async; impor…

【机器学习】AI系统实时监测独居老人症状

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 老年人是疫情中的高危人群。美国疾病控制与预防中心3月18日发布的报告显示,在美国,约80%新冠肺炎死者…

老码农90%的程序员都是瞎努力!这份路线教你成为高手

在大数据浪潮当中,数据分析是这个时代的不二“掘金技能”。我们每一个人,每天无时无刻都在生产数据,一分钟内,微博上新发的数据量超过10万,b站的视频播放量超过600万......这些庞大的数字,意味着什么&#…

构建实时数据仓库首选,云原生数据仓库AnalyticDB for MySQL技术解密

阿里云分析型数据库重磅推出基础版,极大降低了用户构建数据仓库门槛。高度兼容MySQL,极低的使用成本和极高的性能,使中小企业也可以轻松的搭建一套实时数据仓库,实现企业数据价值在线化。 AnalyticDB for MySQL的产品系列包括基础…

ElasticSearch 中的中文分词器该怎么玩?_03

内置分词器 ElasticSearch 核心功能就是数据检索,首先通过索引将文档写入 es。查询分析则主要分为两个步骤: 词条化:分词器将输入的文本转为一个一个的词条流。 过滤:比如停用词过滤器会从词条中去除不相干的词条(的&a…

阿里云安全运营中心:DDoS攻击趁虚而入,通过代理攻击已成常态

应用层DDoS攻击与传统的DDoS攻击有着很大不同。传统的DDoS攻击通过向攻击目标发起大流量并发式访问造成服务不可用,系统瘫痪,这种方式比较容易被识破,且市场上已经有成熟的应对方案。而近年来兴起的应用层DDoS攻击流量则会伪装成正常的流量&a…

中国移动云智融合峰会 | 1+1>2, 引领创新发展

云智融合,揽胜九天乘着“新基建”的东风,云计算、人工智能等新技术已成为新一轮科技革命的重要推动力。9月22日,由中国移动政企事业部、技术部主办,中国移动云能力中心、研究院承办,中国移动科协协办的中国移动云智融合…

云原生安全助力在线教育三分钟搞定安全防护

导语 这个假期,一场不期而遇的疫情让远程教学成为新常态。在线学习成为全国各地老师和学生们的统一方式。据交银国际研究部数据显示,疫情期间,在线教育企业加速获客,春节后日活跃用户数较春节期间增长5000万,用户活跃…

ElasticSearch 索引基本操作_04

文章目录1. 新建索引2. 索引注意事项3. 更新索引4. 索引权限5. 索引查看6. 删除索引7. 索引关闭和打开8. 索引复制9. 索引别名1. 新建索引 插件新建索引 通过 head 插件新建索引 在 head 插件中,选择 索引选项卡,然后点击新建索引。新建索引时&#xf…

从零开始入门 K8s | 理解 RuntimeClass 与使用多容器运行时

作者 | 贾之光 阿里巴巴高级开发工程师 本文整理自《CNCF x Alibaba 云原生技术公开课》第 30 讲,点击直达课程页面。 关注“阿里巴巴云原生”公众号,回复关键词“入门”,即可下载从零入门 K8s 系列文章 PPT。 一、RuntimeClass 需求来源 …

从程序媛到微软全球 AKS 女掌门人,技术女神驾到!

来源 | CSDN据 Stack Overflow 发布的《2020年开发者年度调查报告》显示,在参与统计的 65,000 名程序员中,92%是男性程序员,男女比例悬殊。可回首 IT 历史长河,热爱技术、富有创新思维、编程能力超群的“代码女神”们始…

ElasticSearch 文档的添加、获取、更新、删除_05

文章目录新建文档获取文档批量获取文档更新查询更新删除文档批量操作新建文档 首先新建一个索引。 然后向索引中添加一个文档: PUT blog/_doc/1 {"title":"6. ElasticSearch 文档基本操作","date":"2021-12-07","c…

构建实时数据仓库首选,云原生数据仓库技术解密

阿里云分析型数据库重磅推出基础版,极大降低了用户构建数据仓库门槛。高度兼容MySQL,极低的使用成本和极高的性能,使中小企业也可以轻松的搭建一套实时数据仓库,实现企业数据价值在线化。 AnalyticDB for MySQL的产品系列包括基础…