汕头市网站建设公司/优化流程

汕头市网站建设公司,优化流程,高端网站设计公司,帮做网站的文 | 小轶(y)背景今天上午十点刚刚颁布的EMNLP 2020最佳论文,获奖者是来自UCBerkeley团队的这篇Digital Voicing of Silent Speech。刷了那么多NLP论文,各种pretraining、BERT、XXX-former...是不是都快刷出审美疲劳了?今年的EMNLP best pape…

文 | 小轶(yì)


背景

今天上午十点刚刚颁布的EMNLP 2020最佳论文,获奖者是来自UCBerkeley团队的这篇Digital Voicing of Silent Speech。

刷了那么多NLP论文,各种pretraining、BERT、XXX-former...是不是都快刷出审美疲劳了?今年的EMNLP best paper绝对耳目一新!!工作研究了一个极具潜在社会影响力的新任务:Silent Speech Voicing——通过肌电传感器,把无声的说话动作转化为电子语音。如果该技术得以实现,即使不发生声带振动,只要做出相应的发声动作,即迅速转换为语音。想象一下,或许未来有一天,只要动动嘴,都不用发出声音,就能和人打电话了!

该技术可能的应用场景非常广泛,包括:

  • 过分嘈杂的环境(普通的有声电话难以识别清楚)

  • 必须要保持安静的严肃场合 (开会摸鱼新思路)

  • 最最重要的是,那些不幸丧失发声能力的人们也将能够与身边人流畅地交流啦!

这个任务显然具有非常大的前景和潜在社会影响。其实近十年也有一些少量工作尝试做类似的事情,但效果都非常不好,让人觉得这事儿可能目前的技术一时半会还实现不了。但emnlp这篇大大提升了实验效果——在一组主要实验中,和之前最强的baseline相比,误差率直降94%。总之,很大程度上证明这个方向还是achievable,大家努努力说不定能成的那种!并且,他们也同时发布了一个针对该任务的大规模数据集。鉴于其深远的应用前景,可以想见之后应该会有大量工作继续follow。而这篇best paper也将成为该任务的开山之作。

论文题目
Digital Voicing of Silent Speech

论文链接:
https://arxiv.org/pdf/2010.02960.pdf

开源代码:
https://github.com/dgaddy/silent_speech

Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【1119】 下载论文PDF~

方法

接下来,我们简单看一下实现过程~首先第一步是传感器信号采集,需要在嘴和颈脖周围贴上八个传感器,像这样:

然后就会得到八串肌电图信号,像这样:

接下来的任务,就是如何基于肌电图信号,识别出具体的语言信息了。信号转文字的相关研究其实已经有很多了,emnlp这篇的主要贡献其实并不在这一部分,而在于他们发现、并解决了之前研究中的一个问题:前人采用的训练数据都是人在“出声”说话时的肌电信号。但这篇工作则证明,要实现silent speech voicing,必须要用人在“不发声”说话时的肌电信号,因为这两种场景下人的肌肉运作方式是不一样的。motivation很显然,但事实上实现起来是有困难的。因为对于无声的信号来说,是没有对应的语音信号的,很难直接标记出某一段信号对应了哪个单词。他们的解决方法是:对同一段文字,先采集一遍人们说这段话时的有声信号,再采集一遍无声信号。然后让模型在两种信号上都进行训练。两种数据在时间上并不是完全对齐的,所以该模型最核心的一个模块,就是实现两种信号的对齐。

实验

实验中,评测的方式就是请志愿者(或者用语音识别模型)听写转换出来的电子语音。评测指标是word error rate (WER),直观来说就是和原文的最短编辑距离除以文本长度:

(向右滑动查看完整公式)

主要测试了两种设定下的性能表现(两者主要区别其实就是前者包含的词汇量少很多):

  • Closed Vocabulary Condition

  • Open Vocabulary Condition

测试结果如下表。可以看到,在Closed Vocabulary场景下,WER仅有3.6%,比baseline的误差率减少了94%。在Open Vocabulary场景下,也比baseline降低了20%左右的WER。

小结

今年emnlp的best paper颁给了一个非典型的NLP任务。但确实是很酷的工作!是那种会真正产生社会影响的一类研究~所以说,NLP不止是“万物皆可BERT”,NLP的未来也不只有疯狂pretraining。还有很多有意义的方向值得我们去探索呢!

P.S 从今天起,小轶我笔名改做“小轶(yì)”啦。不是小秩(zhì)。也不是小铁(tiě)哦!

萌屋作者:小轶(yì)

刚刚本科毕业于北大计算机系的美少女学霸!目前在腾讯天衍实验室做NLP研究实习生。原计划是要赴美国就读CMU的王牌硕士项目MCDS,不过因为疫情正处于gap year,于是就来和小夕愉快地玩耍啦~文风温柔优雅,偶尔暴露呆萌属性,文如其人哦!知乎ID:小轶。

作品推荐:

1.谷歌重磅:可以优化自己的优化器!手动调参或将成为历史!?

2.有钱可以多任性?OpenAI提出人肉模型训练,文本摘要全面超越人类表现!

3.ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

4.Attention模型:我的注意力跟你们人类不一样

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

有顶会审稿人、大厂研究员、知乎大V和妹纸

等你来撩哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479705.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

空洞卷积相关理解

多标签文本分类:基于语义单元的空洞卷积:https://zhuanlan.zhihu.com/p/50231229?utm_sourceweibo 原文链接:https://www.jianshu.com/p/f743bd9041b3 扩展阅读:https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/7982559…

2019 最全阿里天猫Java 3面真题,含面试题答案!

1 阿里天猫Java一面 自我介绍 jvm GC原理,JVM怎么回收内存 ConcurrentHashMap是怎么解决并发问题的? HashMap怎么从链表转换为红黑树?如果存入的是null键,放在桶的哪个位置? 谈谈Synchronized与ReentrantLock的区别…

NumPy快速入门--形状操作

文章目录1. 更改数组的形状2. 将不同数组堆叠在一起3. 将一个数组分成几个较小的数组1. 更改数组的形状 >>> import numpy as np >>> a np.floor(10*np.random.random((3,4))) >>> a array([[2., 2., 5., 6.],[2., 7., 4., 2.],[9., 3., 5., 8.]]…

深度学习语义分割理论与实战指南.pdf

深度学习语义分割理论与实战指南 V1.0 版本已经完成,主要包括语义分割概述、关键技术组件、数据模块、经典分割网络与架构、PyTorch基本实战方法等五个部分。获取方式:扫描关注下方公众号回复 语义分割 即可。图像分类、目标检测和图像分割是基于深度学习…

Jedis工具类

目录 一、基本使用 1、xml 引入依赖 2、简单测试 二、工具类 1、编写redis属性文件 2、编写工具类 3、使用测试 Jedis是Redis官方推荐的Java连接开发工具。 一、基本使用 1、xml 引入依赖 <dependencies><dependency><groupId>redis.clients</gr…

最新鲜的美团Java面试41题(三面技术+HR面):Redis+Kafka+分布式

Java一面 hashmap与concurrenthashmap的区别 垃圾回收算法以及垃圾回收器 CMS的回收步骤 G1和CMS的区别 CMS哪个阶段是并发的哪个阶段是串行的&#xff1f; G1内部是如何分区的&#xff08;region&#xff09; HashMap如何解决Hash冲突 my sql 索引类别 什么是覆盖索引…

今年阿里双十一提升广告点击率居然用的是这种算法?!

文 | 阿里巴巴定向广告团队源 | 知乎写在前面的碎碎念这篇文章主要是介绍我们在CTR建模领域最新的工作CAN&#xff0c;CAN已经在双十一前全面在阿里定向广告落地&#xff0c;在线效果提升非常显著。一般文章会以事后的视角来写&#xff0c;这样思考会更完整&#xff0c;会屏蔽掉…

Spring之AOP实现

文章目录前言环境搭建前置业务类编写一、注解实现AOP1.编写注解实现的增强类2.在Spring配置文件中&#xff0c;注册bean&#xff0c;并增加支持注解的配置3.测试二、配置文件实现AOP1.编写自定义增强类2.Spring配置文件中&#xff0c;注册bean&#xff0c;配置增强2.测试总结前…

LeetCode 90. 子集 II(回溯+剪枝)

文章目录1. 题目信息2. 解题2.1 循环2.2 回溯1. 题目信息 给定一个可能包含重复元素的整数数组 nums&#xff0c;返回该数组所有可能的子集&#xff08;幂集&#xff09;。 说明&#xff1a;解集不能包含重复的子集。 示例:输入: [1,2,2] 输出: [[2],[1],[1,2,2],[2,2],[1,2…

BAT研发Java面试36题总结:Spring+Redis+Docker+Dubbo

一面&#xff1a; ArrayList和linkedlist区别。ArrayList是否会越界。 ArrayList和hashset有何区别。hashset存的数是有序的么。 volatile和synchronized区别 多态的原理 数据库引擎Innodb和myisam区别 Redis的数据结构 Redis是基于内存的么 Redis的list zset的底层实现…

中文版GPT-2,可用于写小说、诗歌、新闻等

原文链接&#xff1a;https://www.sohu.com/a/336251713_610300 有人做出了中文版GPT-2&#xff0c;可用于写小说、诗歌、新闻等&#xff1b;15亿参数版GPT-2被两名研究生复现 2019-08-25 12:01 来源:量子位 </div>原标题&#xff1a;有人做出了中文版GPT-2&#xff0…

一份来自清华的数据分析笔记,请查收!

之前发过很多数据分析的文章&#xff0c;收到不少好评&#xff0c;但也有一些困惑&#xff1a;入门数据分析该学哪些知识点&#xff1f;该看哪些书&#xff1f;是从 Python入手还是 R 语言&#xff1f;常用的算法有哪些&#xff1f;练手做项目的数据库去哪里找&#xff1f;好用…

LeetCode 9. 回文数

文章目录1. 题目信息2. 解题1. 题目信息 判断一个整数是否是回文数。回文数是指正序&#xff08;从左向右&#xff09;和倒序&#xff08;从右向左&#xff09;读都是一样的整数。 示例 1:输入: 121 输出: true 示例 2:输入: -121 输出: false 解释: 从左向右读, 为 -121 。 …

Redis系列教程(四):Redis为什么是单线程、及高并发快的3大原因详解

Redis的高并发和快速原因 1.redis是基于内存的&#xff0c;内存的读写速度非常快&#xff1b; 2.redis是单线程的&#xff0c;省去了很多上下文切换线程的时间&#xff1b; 3.redis使用多路复用技术&#xff0c;可以处理并发的连接。非阻塞IO 内部实现采用epoll&#xff0c;采…

Bing与DuckDuckGo搜索结果惊人一致?Google展现强势差异

文 | 乐乐QvQ搜索引擎之间有何不同&#xff1f;随着世界上最大的两家公司Google和Microsoft争夺Web Search空间的愈发激烈&#xff0c;一超多强的搜索格局已经形成。在目前眼花缭乱的搜索市场中&#xff0c;是搜索结果的千篇一律&#xff0c;九九归一&#xff1b;还是搜索结果的…

图解gpt-2

原文链接&#xff1a;https://www.sohu.com/a/336262203_129720 完全图解GPT-2&#xff1a;看完这篇就够了&#xff08;一&#xff09; 2019-08-25 12:47 来源:机器之心Pro </div>原标题&#xff1a;完全图解GPT-2&#xff1a;看完这篇就够了&#xff08;一&#xff0…

java程序员学习路线以及我的学习经验

本文作者为优知学院创始人陈睿&#xff08;mike&#xff09;,作者有10年以上技术&产品经验&#xff0c;曾任百度研发经理、携程定制旅游CTO。 “ 这是一篇完整的java程序员学习线路图&#xff0c;一共分为六个阶段。 我以java为例&#xff0c;展示完整的学习步骤。 最后…