人工转录已经以某种形式存在了数百年,甚至数千年。近年来,在人工智能(AI)技术推动下,转录取得长足发展。转录文稿本身是音频内容的文本形式;借此,读者无需再听一遍录音便可了解一段时间内所讲述的内容或所发生的情况。转录对于记录保存、知识共享和改善可访问性至关重要。 过去几年,随着AI的发展,人们越来越依赖于一种称为自动语音识别(ASR)的技术来帮助转录。ASR技术可以方便地将语音转换为文本,其市场已经在快速增长。
什么是音频转录?
手工转录与AI赋能的转录
我们都熟悉手工音频转录的方法:在面对面的情况下,一个人尽可能快地记录特定会议或活动中的言辞或事件。人们还可以远程收听活动的音频文件,并在收听时进行转录。随后,再查看他们的初始笔记,并根据需要进行整理。这种方法的准确性会很高,尤其是第二种情况,但对于记录者而言,往往费时费力。 AI赋能的转录旨在通过实时处理初始转录,缩短转录工作所投入的时间。最有效的做法是,事后人工验证AI转录文档,修复AI的错误或误解。理想情况下,验证者应具备相关主题(法律、医学等)的专业知识,以便理解要使用的适当术语。转录需要人类专家予以验证的原因是,虽然AI赋能的音频转录近年来取得了巨大进步,但在准确性方面仍然面临诸多挑战。
音频转录在现实生活中的应用
准确的转录对许多行业至关重要,还有一些行业刚刚开始采用转录实践。许多初创公司最近加入这一领域,提供AI支持的转录技术,这也加快了转录的采用进程。无论哪种情况,以下是转录的一些具体应用:
- 医疗:医护人员必须保存大量详细记录,内容包括与患者的互动、治疗计划、处方等等。通过转录服务,他们能够口头详述这些信息,并通过自动转录提高工作效率。医学领域依靠精确的转录确保患者得到正确的治疗。例如,如果转录错误地记录了患者所需服用处方药物的次数,则可能对患者的身体健康造成灾难性的影响。
- 社交媒体:如果您最近查看过Instagram或YouTube,您可能已经注意到某些视频有字幕服务。这是一项新功能,可以在人们说话时使用AI自动添加字幕。虽然它可能无法保证完全准确,但却有助于为用户提供更好的可访问性和可用性。
- 科技:智能手机具备语音转文本功能已经有一段时间了。顾名思义,利用这项功能,您可以通过语音口述输入信息,而不是手动输入信息。
- 法律:在法律工作中,准确的法庭诉讼文件对案件审理至关重要,因为准确性会影响案件的结果。历史文献的准确性对于未来案例的学习或参考也很重要。
- 警务工作:音频转录在警务工作中有许多应用,未来可能还会有更多。它可用于转录调查访谈、证据记录、紧急电话、随身摄像机记录的互动等。和法律工作一样,转录的准确性会对庭审案件和人们的生活产生重大影响。
转录是许多行业的基础;AI支持的转录服务在这些领域得到迅速采用,值得关注。在不熟悉转录的行业,人们可能希望获益于AI转录对于客户体验和可用性所做出的贡献。
应对各种转录挑战,提高包容性
在实现转录准确性方面,AI仍然面临诸多挑战。这在很大程度上是因为人类的语言交流因人而异,相差悬殊。AI要正确捕捉说话人的对话,就需要熟悉说话人的语言、方言、口音、语音、语调和音量。这其中涉及的因素很多,可以想象,教会这些模型所需的训练数据量该有多大。 对于提供音频转录服务的公司,在建立训练数据集时采取包容性的方法非常重要。这意味着他们要考虑到产品的所有潜在终端用户,并确保训练数据要反映不同用户的不同语言。如果代表性不够全面,转录技术就将难以识别某些说话者的言语。与此同时,对于企业而言,理想的选择仍然是在转录流程中加入人工审阅者。
语言项目经理Stacey Hawke的专家见解
想想转录的目的——它的用途是什么?谁将使用它?转录具有不同的形式,用以适应不同的目的。例如:
- 逐字逐句——这种形式的转录要记录每个对话参与者所说的每个完整单词,包括嗯、呃等语气词,迟疑不决的言语、重复的单词和口误。这种转录风格在转录用于证据目的时很有用,例如在法庭诉讼或纪律处分程序中。
- 智能逐字——这种样式的转录将除去对话中的嗯、呃等语气词,多余的填充语,重复字词(除非用于强调),口吃和不连贯的表达。它将所有非标准语言都转录为标准语言,例如,将“cause”转录为“because”,将“ain’t to”转录为“not”等。这种样式的转录对出于研究目的而进行的访谈很有帮助。这种情况下,无需转录说话者的每个单词,但需要记录其所说的内容。
- 摘要——这种类型的转录不同于上述两种。在这种转录中,转录员将收听音频/视频文件,并总结出所听到语音的摘要。摘要应该是对音频文件的准确和平衡的说明,并包含所有要点。摘要仅包括正式英语,例如,要用“do not”,而不是“don’t”;要用“was not”而不是“wasn’t”。在需要简短、更易于管理的文档时,这种转录形式非常有用。
如果您记录访谈/会议的目的是制作转录文稿,考虑以下事项对提高转录质量大有裨益:
- 确保关闭空调等任何可能干扰录音的设备。
- 确保门窗关闭,以便录音中不会夹杂任何外部噪音。
- 请所有发言者在录音开始时进行自我介绍,以帮助我们的转录员识别声音。
- 鼓励一次由一个人发言,避免多人声音叠加。
- 强调发言日期和发言人姓名等重要信息,以便转录员准确捕捉。