人工智能在很多年前就医疗行业广泛使用
2000年,俺刚参加工作时,公司就在做这方面的应用。是一个医疗“转录”系统。先介绍一下具体背景:医生有着录不完那些电子病历(在美国一个外科医生,上完高中之后,最快要还要再读11年书才能拿下执照。学费接近80万美元。然后每天花费大量时间录入电子病历,就是坐在键盘前敲啊敲,医生会觉得是一种浪费)。这时候就形成了一个新的行业,就是“转录”行业。医生把要录入的内容录音到磁带中,交给“转录”公司,后来医生开始使用座机电话进行录音(拨打公司的服务电话即可)。公司安排人听录音进行录入。然后以每录入一行文字8美分到1毛的价格进行收费。
到了2003年左右,Nuance公司的Dragon语音识别引擎已经开始实用了。虽然这个时期的语音识别引擎还是基于隐含马尔可夫链的。但是对于特定人群和特定行业,要比后来的非待定人群的深度神经网络的识别引擎的识别质量要好很多很多。实际上特定人群就是为每个医生创建特征库,那怕这个医生是墨西哥或者印度那种口音特别严重(叽里咕噜)的,因为针对每个医生都创建了特征库(Nuance的一个医生的特征库大约是 50-200M),所以识别质量还是不错的。这个时候我们公司就用了Nuance的引擎(离线版),然后用了大量服务器搭建了自己的平台。这样我们公司的工作模式就改成了 对于医生的录音先识别语音,再人工检查修改(医疗报告要求内容准确,我们有多级质检)。这样大幅度提高了工作效率,降低了价格,然后更多的医生开始接受这种服务(主要是便宜了)。公司的也壮大了。就这段时间来看,是人工智能增加了工作机会。
2010年之后,又有很多语音识别引擎出现,例如Google 、微软、 Siri等等。但是这些大部分都是非待定人群的服务。俺一直在关注这方面的技术。过段时间就用真实的语音进行 质量比对。例如使用200份3-5分钟的录音,使用各种识别引擎进行识别。在对识别的结果进行比较。这些识别引擎的识别结果非常差。经常大段的缺失(一般是医生的声音忽大忽小,或者医生开始叽里咕噜,语速贼快),识别出的内容大部分不到Nuance特定人群识别的三分之一,对于一些医疗专业术语更是无法识别。不过这个时候出现了一个新人M*Modal,这小伙也是特定人群识别的识别。但是有两个的优点:
1、通过在不断的再训练提高识别质量
在完成了医生的报告之后,把完成好的报告和语音回传给M*Modal,M*Modal就会为这个医生再次训练模型。这样经过一段时间后,这个医生的语言识别的质量就非常好了。哪怕这个医生有很多单词的发音有问题,识别的结果也是正确的。另外M*Modal 也通过语义分析语法规则等等,对识别的结果再处理,特别是数字 日期 等的处理有很好的结果。
2、生成结构化的电子病历
M*Modal 基于语义分析,对识别的内容进行整理,对不同的段落进行归类标注 形成结构化的文档
通过这些优点,M*Modal 快速发展,成为医疗语音识别的第2大公司。第1还是Nuance。
这样“转录”服务的价格进一步下降,有些合同 每一行的价格只有5美分。更多的医院和医生开始使用这种服务。当时在印度有超过10万人从事这种工作(就是对识别后的内容进行检查和纠正)。
接下来这个行业基本就是 Nuance 和 M*Modal 两家公司的舞台。俺们公司使用了这2家公司的识别服务,但是太贵了。所以我们自己开发了一套自己的流水线,把一些没啥口音的医生放在我们自己的识别引擎上。这样一个月能够节省很多美元。为啥不用便宜的或者免费的。Google 、微软的是便宜,几乎没有成本,但是识别质量实在是不行,非待定人群的没法和特定人群识别的比质量。
后来 M*Modal 被3M收购了。Nuance被微软收购了。
在十几年中,语音识别在医疗中的使用确实是很多,也带来了几十万个新的工岗位。
百家争鸣
2018年之后,随着人工智能的发展,很多视觉领域的应用也在医疗行业上出现。例如医疗影像的辅助阅片。还有一些疾病的辅助诊断。之前遇接触一个从事皮肤疾病的人工智能公司。他们通过对皮肤拍照进行分析,从而得出可能的皮肤病,这对于一些基层医疗机构(乡镇医院)的医生有很多帮助。还有就是OCR,其实医疗行业上也有很多纸张资料需要处理。我写过的一个项目就是对病人的各种资料进行归类,经常有些扫描件需要处理。前一段时间,俺看到的统计数字是这个项目最近12个月处理了2.07亿页的资料。在语音识别方面, 2020年出现了一家新的公司Soniox,这家公司的医疗语音识别的质量很不错。当然还出现了很多很多其他的公司。但是质量比不过Soniox。原来的老大Nuance 被微软收购后,还是第一。
GPT的横空出世
GPT 来了 ,GPT真不错,GPT是个好同志。俺们也开始在一个项目上开始使用GPT了。还在对接中。这个项目其实是个Teams机器人,我们公司有个业务叫做医疗助手服务,其实就是给医生打下手。医生和我们公司的人在Microsoft Teams里进行网络会议,同时把我们的机器人也加入会议。会议结束后,俺们的Teams机器人就把会议的录音识别成文档,同时使用GPT做出会议摘要。这里插一句,现在的复杂场景的语音识别很不错了,能够识别出 每句话是哪个人说的。需要上传每个人的特征语音,就是随便说几句话,然后识别引擎就记住这个人的声音。俺们另外的一个法庭录音处理的项目也是用了新的语音识别(就是上面说的Soniox)。
人工智能改变了或正在改变着很多行业的工作模式。分工也更加精细化,也带来了海量的工作岗位。在没有人工智能的时候,很多事情没法做或者太耗费人工。有了人工智能后,这些事情就变成了可行的方案,然后落地 、发展。