NLP太卷,我去研究蛋白质了~

为什么“单词”被省略了:单词的本质是含义简单且可以高频重复的信息,句子的本质是经过多个单词不断消歧最终包含指向性含义的信息。从基因角度来看,大的片段相当于句子,对这些片段再分段起单词作用,密码子(每三个核苷酸)对应一个氨基酸,本质上还是字母。从蛋白质角度来看,二级结构中由氢键造成的较为规律的折叠、螺旋可以视作单词,能实现特定功能的蛋白质才称得上句子。

参考文献

  1. 理论基础,思想很重要,但论证得并不好:

    Cadeddu, A., Wylie, E. K., Jurczak, J., Wampler‐Doty, M., & Grzybowski, B. A. (2014). Organic chemistry as a language and the implications of chemical linguistics for structural and retrosynthetic analyses. Angewandte Chemie International Edition, 53(31), 8108-8112.

  2. 综述类,关联NLP方法和应用领域的表格挺有价值的:

    Öztürk, H., Özgür, A., Schwaller, P., Laino, T., & Ozkirimli, E. (2020). Exploring chemical space using natural language processing methodologies for drug discovery. Drug Discovery Today, 25(4), 689-705.

  3. 首度提出Protein Vector(Protvec)和Gene Vector(Genevec)的概念:

    Asgari, E., & Mofrad, M. R. K. (2015). Continuous distributed representation of biological sequences for deep proteomics and genomics. PLoS ONE, 10(11), 1–15.

  4. Protein与word embedding的结合:
    Bepler, T., & Berger, B. (2019). Learning protein sequence embeddings using information from structure. 7th International Conference on Learning Representations, ICLR 2019, 1–17.

  5. 虽然漫画中将2018年Schwaller发表的Seq2Seq(被期刊接收且效果好,见6)视作这个方法在生物分子领域的第一次成功应用,但做这方面的论文一般都会引用这篇作为一切故事的开端。两个韩国高中生的作业,能做到这样真的很厉害了:

    Nam, J., & Kim, J. (2016). Linking the neural machine translation and the prediction of organic chemistry reactions. arXiv preprint arXiv:1612.09529.

  6. Seq2Seq最佳:
    Schwaller, P., Gaudin, T., Lanyi, D., Bekas, C., & Laino, T. (2018). “Found in Translation”: predicting outcomes of complex organic chemistry reactions using neural sequence-to-sequence models. Chemical science, 9(28), 6091-6098.

  7. 另一篇比较有价值的Seq2Seq:
    Karimi, M., Wu, D., Wang, Z., & Shen, Y. (2019). DeepAffinity: Interpretable deep learning of compound-protein affinity through unified recurrent and convolutional neural networks. Bioinformatics, 35(18), 3329–3338.

  8. 漂亮的标题漂亮的intro,但内容不是很惊艳的BERT应用:

    Vig, J., Madani, A., Varshney, L. R., Xiong, C., Socher, R., & Rajani, N. F. (2020). Bertology meets biology: Interpreting attention in protein language models. arXiv preprint arXiv:2006.15222.

萌屋作者:白鹡鸰

白鹡鸰(jí líng)是一种候鸟,天性决定了会横跨很多领域。已在上海交大栖息四年,目前以图像语义为食,但私下也对自然语言很感兴趣,喜欢在卖萌屋轻松不失严谨的氛围里浪~~形~~飞~~翔~~

因为刚开始Ph.D.,文章还统统是放在天上的卫星,接下来会尽早与大家正式见面的!知乎ID也是白鹡鸰,欢迎造访。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

有顶会审稿人、大厂研究员、知乎大V和妹纸

等你来撩哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479724.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | 利用关系标签的主题语义知识为关系抽取提供监督 (IJCAI 2019)

本文转载自公众号:知识工场。作者:蒋海云,复旦大学2016级计算机博士生,研究方向为知识图谱与自然语言处理。目前已在 IJCAI,AAAI,ACL,DASFAA等会议上发表文章。IJCAI 2019(The 28th …

LeetCode 268. 缺失数字

文章目录1. 题目信息2. 解题1. 题目信息 给定一个包含 0, 1, 2, …, n 中 n 个数的序列,找出 0 … n 中没有出现在序列中的那个数。 示例 1:输入: [3,0,1] 输出: 2 示例 2:输入: [9,6,4,2,3,5,7,0,1] 输出: 8 说明: 你的算法应具有线性时间复杂度。你能否仅使用额…

一位前BAT面试官详谈进入BAT面试经验

“ 之前有一篇文章“最强攻略:java程序员如何通过阿里、百度社招面试”谈到了进入BAT需要掌握的技术知识点,关注优知学院可以获得。很多同学看完后,一直在说能否与面试一起结合谈谈这方面的经验。所以,补充了本篇文章。 希望能使大家在未来少…

使用numpy实现神经网络模块

class Network(object):def __init__(self, num_of_weights):# 随机产生w的初始值# 为了保持程序每次运行结果的一致性,此处设置固定的随机数种子np.random.seed(0)self.w np.random.randn(num_of_weights, 1)self.b 0.def forward(self, x):z np.dot(x, self.w)…

一句话超短摘要,速览752篇EMNLP论文

文 | Posy阿花今年的EMNLP今天开始召开啦,不知道大家的论文列表都刷完没有呀~ 什么?论文太多,看不过来,怎么办?看了论文题目还是不知道讲的是什么,怎么办?别担心,今天阿花给大家带来…

LeetCode 136. 只出现一次的数字(异或^)

文章目录1. 题目信息2. 解题1. 题目信息 给定一个非空整数数组,除了某个元素只出现一次以外,其余每个元素均出现两次。找出那个只出现了一次的元素。 说明:你的算法应该具有线性时间复杂度。 你可以不使用额外空间来实现吗?示例…

阿里蚂蚁金服中间件(Java 4轮面试题含答案):Redis缓存+线程锁+微服务等

第一轮 说说HaspMap底层原理?再说说它跟HaspTable和ConcurrentHashMap他们之间的相同点和不同点? 讲讲jdk1.7和1.8的区别? 几种内置的线程池 MySQL事务隔离级别以及MVCC机制 Redis缓存雪崩、缓存穿透以及如何解决? 分布式架构…

简述python setup.py install的过程

原文连接:https://www.jianshu.com/p/f8ffbf18c312 简述python setup.py install的过程0.4872018.06.27 18:24:01字数 372阅读 31,948python setup.py install 是我们用来安装下载的python包或者自己按照python官方规范开发的扩展包的常用指令。通过这个命令&#x…

IDEA:将web工程部署到tomcat

在项目结构中进行部署即可:

NeurIPS 2020 所有RL papers全扫荡

文 | 微尘-黄含驰源 | 知乎论文列表1.《Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model》关键词:model-based reinforcement learning, minimaxity, planning, policy evaluation, instance-dependent guarantee…

java架构师进阶独孤九剑系列(一):数据结构与算法

“ 架构师进阶系列之独孤九剑,这套秘籍如果你能完整学会,年薪至少60万起,今天是架构师进阶连载开启篇。 Java程序员成长为架构师进阶步骤 未来我会用1-2个月在实战为大家讲解架构师的九大必备技能。 架构师进阶系列之独孤九剑九大步骤&…

【社招/实习】百度大搜索招聘NLP、搜索方向算法工程师!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术工作职责负责百度搜索中的语义理解及相关性计算、LTR排序逻辑、query分析理解、召回匹配等相关算法创新及优化工作;关注传统机器学习与数据挖掘、深度学习、强化学习等方向的前沿技术,…

最全Java面试180题:阿里11面试+网易+百度+美团!含答案大赠送!

网络编程 ISO模型与协议 http1.0:需要使用keep-alive参数来告知服务器端要建立一个长连接 http1.1:默认长连接。支持只发送header信息,可以用作权限请求。支持Host域。 http2.0:多路复用的技术,做到同一个连接并发处…

Redis持久化(RDB 和 AOF)

一、RDB持久化 RDB(Redis DataBase): 配置文件中对其的相关配置: 触发机制: 恢复rdb文件: 优点: 缺点: 二、AOF持久化 AOF(Append Only File)&#x…

LeetCode 78. 子集(回溯)

文章目录1. 题目信息2. 解题2.1 暴力回溯2.2 循环2.3 位运算1. 题目信息 给定一组不含重复元素的整数数组 nums,返回该数组所有可能的子集(幂集)。 说明:解集不能包含重复的子集。 示例:输入: nums [1,2,3] 输出: [[3],[1],[2…

EMNLP'20最佳论文揭晓!八块肌肉=能打电话?!

文 | 小轶(y)背景今天上午十点刚刚颁布的EMNLP 2020最佳论文,获奖者是来自UCBerkeley团队的这篇Digital Voicing of Silent Speech。刷了那么多NLP论文,各种pretraining、BERT、XXX-former...是不是都快刷出审美疲劳了?今年的EMNLP best pape…

空洞卷积相关理解

多标签文本分类:基于语义单元的空洞卷积:https://zhuanlan.zhihu.com/p/50231229?utm_sourceweibo 原文链接:https://www.jianshu.com/p/f743bd9041b3 扩展阅读:https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/7982559…

2019 最全阿里天猫Java 3面真题,含面试题答案!

1 阿里天猫Java一面 自我介绍 jvm GC原理,JVM怎么回收内存 ConcurrentHashMap是怎么解决并发问题的? HashMap怎么从链表转换为红黑树?如果存入的是null键,放在桶的哪个位置? 谈谈Synchronized与ReentrantLock的区别…

NumPy快速入门--形状操作

文章目录1. 更改数组的形状2. 将不同数组堆叠在一起3. 将一个数组分成几个较小的数组1. 更改数组的形状 >>> import numpy as np >>> a np.floor(10*np.random.random((3,4))) >>> a array([[2., 2., 5., 6.],[2., 7., 4., 2.],[9., 3., 5., 8.]]…