NLP最佳入门与提升路线


一只小狐狸带你解锁NLP/ML/DL秘籍

作者:夕小瑶,小鹿鹿鹿,QvQ

前言

对突如其来的长假感到惶恐和不安?紧盯2019-nCoV的最新消息却依然感觉很空虚?腰酸萎靡脖子僵甚至怀疑自己有点发烧?这是长时间没学习的症状。 


很久以前小夕推送的深度学习入门资料推荐和机器学习与数学基础入门系列收到到了很多小伙伴的好评和感谢,也因此一直有呼声希望小夕写一篇NLP方向的入门指导。于是,趁着这个长假,终于将这一篇拖了两年的稿子结了,希望能帮助到大家哦。

入门圣经

一如既往的还是那句话,不要养成囤书却不看书的习惯!!!入门阶段,精读一到两本经典书籍足矣。这里贴出来的书籍小夕在求学阶段都刷过,精读了这里的第1、2和4这三本(第二本由于太厚,到今天还没刷完),粗读了第3本,另外也粗刷了其他一些奇奇怪怪的书籍。

 

小夕这里吐血推荐前两本,第一本书适合快速入门,第二本书则是修炼内核的圣经书。两本书非常互补,入门阶段足够了。另外也给出了其他两本参考书,有兴趣的小伙伴根据自身精力阅读。

 

1. neural network methods for natural language processing

豆瓣书评传送门:https://book.douban.com/subject/27032271/

注:订阅后台回复关键字【NLP入门书】可获取PDF下载链接

 

2. speech and language processing

豆瓣书评传送门:https://book.douban.com/subject/5373023/

注:订阅后台回复关键字【NLP入门书】可获取PDF下载链接

 

3. Foundations of Statistical Natural Language Processing

豆瓣书评传送门:https://book.douban.com/subject/1224802/

注:订阅后台回复关键字【NLP入门书】可获取PDF下载链接

 

4. 统计自然语言处理

豆瓣书评传送门:https://book.douban.com/subject/25746399/

进阶打卡

对于已经入门NLP的小伙伴,自然要paper刷起啦!还在自己苦苦搜集最新paper?想知道某个NLP方向的最新进展?贴心的小夕已经为大家准备好啦( ̄∇ ̄)

 

注:由于每个方向的list都比较长,因此本文只列出每个方向的前五篇文章,每个方向的完整list请通过对应的关键词在订阅号后台领取哦。

pretrain models【预训练模型】

1. HUBERT Untangles BERT to Improve Transfer across NLP Tasks. Anonymous authors. ICLR 2020 under review.

2. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators. Anonymous authors. ICLR 2020 under review.

3. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu. Preprint.

4. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke Zettlemoyer. Preprint.

5. MultiFiT: Efficient Multi-lingual Language Model Fine-tuning. Julian Eisenschlos, Sebastian Ruder, Piotr Czapla, Marcin Kardas, Sylvain Gugger, Jeremy Howard. EMNLP 2019. 

注:完整版最新paper list在后台回复【预训练】领取(持续更新完善ing)

Machine Translation (MT)【机器翻译】

1. Effective adversarial regularization for neural machine translation. Sano, Motoki, Jun Suzuki, and Shun Kiyono. ACL 2019. 

2. Robust neural machine translation with doubly adversarial inputs. Cheng, Yong, Lu Jiang, and Wolfgang Macherey. ACL 2019. 

3. Learning deep transformer models for machine translation. Wang, Qiang, et al. ACL 2019.

4. Self-Supervised Neural Machine Translation. Ruiter, Dana, Cristina Espana-Bonet, and Josef van Genabith. ACL 2019. 

5. Bridging the gap between training and inference for neural machine translation. Zhang, Wen, et al. ACL 2019. 

注:完整版最新paper list在后台回复【机器翻译】领取(持续更新完善ing)

Question Answer Systems【问答系统】

1. NumNet: Machine Reading Comprehension with Numerical Reasoning. EMNLP 2019.

2. What's Missing: A Knowledge Gap Guided Approach for Multi-hop Question Answering. EMNLP 2019. 

3. BiPaR: A Bilingual Parallel Dataset for Multilingual and Cross-lingual Reading Comprehension Novels. EMNLP 2019

4. Read + Verify: Machine Reading Comprehension with Unanswerable Questions. Minghao Hu, Furu Wei, Yuxing Peng, Zhen Huang, Nan Yang, and Ming Zhou. AAAI 2019.

5. Language Models as Knowledge Bases? EMNLP 2019

注:完整版最新paper list在后台回复【问答系统】领取(持续更新完善ing)

Dialogue Systems 【对话系统】

1. Sarik Ghazarian, Weischedel Ralph, Aram Galstyan, Nanyun Peng. Predictive Engagement: An Efficient Metric for Automatic Evaluation of Open-Domain Dialogue Systems  AAAI 2020.

2. Exploiting Persona Information for Diverse Generation of Conversational Responses. IJCAI, 2019.

3. Global-to-local Memory Pointer Networks for Task-Oriented Dialogue. ICLR, 2019.

4. Towards Scalable Multi-domain Conversational Agents: The Schema-Guided Dialogue Dataset. 2019

5. Fan Wang Jinhua Peng Hua Wu Rongzhong Lian, Min Xie. Learning to select knowledge for response generation in dialog systems. arXiv preprint arXiv:1902.04911, 2019.

注:完整版最新paper list在后台回复【对话系统】领取(持续更新完善ing)

Data augmentation【数据增强】

1.  Xie Q , Dai Z , Hovy E , et al. Unsupervised Data Augmentation for Consistency Training[J]. 2019. 
2. Ho D , Liang E , Stoica I , et al. Population Based Augmentation: Efficient Learning of Augmentation Policy Schedules[J]. 2019.

3. Cubuk, Ekin D, Zoph, Barret, Mane, Dandelion,等. AutoAugment: Learning Augmentation Policies from Data[J]. 

4. Kobayashi S . Contextual Augmentation: Data Augmentation by Words with Paradigmatic Relations[J]. 2018.
5. Wang X, Pham H, Dai Z, et al. Switchout: an efficient data augmentation algorithm for neural machine translation[J]. arXiv preprint arXiv:1808.07512, 2018.

注:完整版最新paper list在后台回复【数据增强】领取(持续更新完善ing)

Textual Adversarial Attack and Defense【文本对抗样本与防御】

1. Analysis Methods in Neural Language Processing: A Survey. Yonatan Belinkov, James Glass. TACL 2019. 

2. Towards a Robust Deep Neural Network in Text Domain A Survey. Wenqi Wang, Lina Wang, Benxiao Tang, Run Wang, Aoshuang Ye. 2019. 

3. Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency. ACL 2019. 

4. Universal Adversarial Triggers for Attacking and Analyzing NLP. EMNLP-IJCNLP 2019. 

5. LexicalAT: Lexical-Based Adversarial Reinforcement Training for Robust Sentiment 6. Classification. EMNLP-IJCNLP 2019. 

注:完整版最新paper list在后台回复【对抗样本】领取(持续更新完善ing)

Graph Neural Networks【图神经网络】

1. A Comprehensive Survey on Graph Neural Networks. arxiv 2019. 

2. DyRep: Learning Representations over Dynamic Graphs. ICLR 2019. 

3. Hypergraph Neural Networks. AAAI 2019.

4. Graph Neural Networks: A Review of Methods and Applications. arxiv 2018. 

5. Self-Attention Graph Pooling. ICML 2019. 

注:完整版最新paper list在后台回复【图神经网络】领取(持续更新完善ing)

Style Transfer【文本风格迁移】

1. A Dual Reinforcement Learning Framework for Unsupervised Text Style Transfer. Fuli Luo. IJCAI-2019. 

2. Style Transfer in Text: Exploration and Evaluation, Zhenxin Fu from PKU, AAAI-2018.

3. Fighting Offensive Language on Social Media with Unsupervised Text Style Transfer. Cicero Nogueira dos Santos, ACL-2018.

4. Style Transfer from Non-Parallel Text by Cross-Alignment, NIPS-2017, Tianxiao Shen.

5. Unsupervised Text Style Transfer using Language Models as Discriminators, Zichao Yang, Arxiv.

注:完整版最新paper list在后台回复【风格迁移】领取(持续更新完善ing)

Knowledge Graph & Knowledge Representation【知识图谱与知识表示】

1. RSN: Learning to Exploit Long-term Relational Dependencies in Knowledge Graphs. Lingbing Guo, Zequn Sun, Wei Hu. ICML 2019. 

2. DihEdral: Relation Embedding with Dihedral Group in Knowledge Graph. Canran Xu, Ruijiang Li. ACL 2019. 

3. CapsE:A Capsule Network-based Embedding Model for Knowledge Graph Completion and Search Personalization. Dai Quoc Nguyen, Thanh Vu, Tu Dinh Nguyen, Dat Quoc Nguyen, Dinh Q. Phung. NAACL-HIT 2019. 

4. CaRe: Open Knowledge Graph Embeddings Swapnil Gupta, Sreyash Kenkre, Partha Talukdar. EMNLP-IJCNLP 2019.

5. Representation Learning: A Review and New Perspectives. Yoshua Bengio, Aaron Courville, and Pascal Vincent. TPAMI 2013. 

注:完整版最新paper list在后台回复【知识图谱】领取(持续更新完善ing)

Information Extraction【信息抽取】

3. FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation. EMNLP 2018. 

4. Hierarchical Relation Extraction with Coarse-to-Fine Grained Attention Xu Han, Pengfei Yu, Zhiyuan Liu, Maosong Sun, Peng Li. EMNLP 2018. 

5. RESIDE: Improving Distantly-Supervised Neural Relation Extractionusing Side Information Shikhar Vashishth, Rishabh Joshi, Sai Suman Prayaga, Chiranjib Bhattacharyya, Partha Talukdar. EMNLP 2018. 

1. A Survey of Deep Learning Methods for Relation Extraction. Shantanu Kumar. 2017. 

2. Relation Extraction : A Survey. Sachin Pawara,b, Girish K. Palshikara, Pushpak Bhattacharyyab. 2017. 

注:完整版最新paper list在后台回复【信息抽取】领取(持续更新完善ing)

当然啦,NLP的研究方向远不止这些,像词法分析句法分析语义分析等NLP基础问题,以及信息检索文本摘要篇章理解等重要应用方向暂时没有在这里贴出。后续本文会在订阅号主页下方「知识网络」标签页内持续更新,不断完善和跟进已有方向的paper list,增加新的大方向和小方向,敬请期待哦~

欢迎大家分享学习,让更多有需要的小伙伴看到~你的【在看】也是对小夕的鼓励❤️

  • 深度学习资料挑的眼花啦?小夕帮你做选择!

  • 论文写作葵花宝典

  • 机器学习与数学基础入门手册(一)

  • 机器学习与数学基础入门手册(二)

  • 机器学习与数学基础入门手册(三)

  • 计算机基础算法入门手册

  • 万万没想到,我的炼丹炉坏了

夕小瑶的卖萌屋

关注&星标小夕,带你解锁AI秘籍

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480873.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

揭秘任务型对话机器人(下篇)

本文来自专栏语言、知识与人工智能,作者腾讯知文实验室 近年来比较热门的任务型对话的研究主要集中在端到端的框架的研究,基本跟传统任务型算法框架——语言理解模块(Spoken Language Understanding,对话管理模块(Dialogue Manage…

斯坦福大学NLP公开课CS224n上映啦!华人助教陪你追剧

一只小狐狸带你解锁NLP/DL/ML秘籍作者:小鹿鹿鹿,QvQ,夕小瑶CS224n: Natural Language Processing with Deep LearningStanford / Winter 2020开课啦!!在大量开源工具的席卷下,NLP领域也不可避免的受到了“调…

论文浅尝 | Improved Neural Relation Detection for KBQA

Yu M, Yin W, Hasan K S, etal. Improved Neural Relation Detection for Knowledge Base QuestionAnswering[J]. 2017.论文链接:https://arxiv.org/pdf/1704.06194.pdf概要本文提出了一种基于不同粒度对关系和问题进行文本匹配的关系检测的模型(HR-BiLS…

多轮对话之对话管理(Dialog Management)

多轮对话之对话管理(Dialog Management)徐阿衡人工智能与机器学习工程师​关注她115 人赞同了该文章开始涉猎多轮对话,这一篇想写一写对话管理(Dialog Management),感觉是个很庞大的工程,涉及的知识又多又杂&#xff0…

互联网公司常用架构模式梳理

一、管理和监控 1.1、大使模式:创建代表消费者服务或应用程序发送网络请求的帮助服务 进程外的代理服务(很多框架层面的事情可以以软件框架的形式寄宿在进程内,也可以以独立的代理形式做一个网络中间件)。这里的大使模式意思就是…

知识工场 | CN-DBpedia 漫游指南

本文转载自公众号:知识工场。CN-DBpedia于2015年12月上线以来,已经有两年多的时间了,在数据层面做了大大小小百余项完善,在CN-DBpedia 3.0 即将上线之际,尽管我们觉得离完美还有距离,但也是时候拿出来让大家…

【杂谈】那些酷炫的深度学习网络图怎么画出来的?

一只小狐狸带你解锁NLP/ML/DL秘籍正文来源:有三AI还在用PPT画图?醒醒亲爱的,0202年了!!1 NN-SVG这个工具可以非常方便的画出各种类型的图,是下面这位小哥哥开发的,来自于麻省理工学院弗兰克尔生…

最新任务型对话数据集大全

合适的数据集或者语料是优秀的自然语言研究工作的基础,然而找寻合适的数据集通常是一件耗时耗力的工作。这时候一份优质的数据集汇总就能帮助科研人员,在研究开始的时候事半功倍。这篇文章就向你介绍一份优质的数据集汇总,帮助你的研究工作轻…

互联网架构:常用基础中间件介绍

一般而言中间件和框架的区别是,中间件是独立运行的用于处理某项专门业务的CS程序,会有配套的客户端和服务端,框架虽然也是处理某个专门业务的但是它不是独立程序,是寄宿在宿主程序进程内的一套类库。 图上绿色部分代表了框架&…

论文浅尝 | How to Keep a Knowledge Base Synchronized

Citation: Liang, J.,Zhang, S. & Xiao, Y. (2017). How to Keep a Knowledge Base Synchronized withIts Encyclopedia Source. Proceedings of the Twenty-Sixth International JointConference on Artificial Intelligence, 3749–3755. 论文链接:https://ww…

揭秘任务型对话机器人(上篇)

https://juejin.im/post/5b21d548e51d4506d93701e7 欢迎大家前往腾讯云社区,获取更多腾讯海量技术实践干货哦~本文来自专栏语言、知识与人工智能,作者腾讯知文实验室1. 什么是任务型机器人任务型机器人指特定条件下提供信息或服务的机器人。通常情况下是…

如何判断样本标注的靠谱程度?置信度学习(CL)简述

一只小狐狸带你解锁NLP/DL/ML秘籍来源:AI科技评论前言使用ImageNet、CIFAR、MNIST 或 IMDB 这些数据集时,你是不是会潜意识中假设,这些数据集中的类标签都是正确的?然而,你可能不知道:ImageNet数据集中至少…

论文浅尝 | Open world Knowledge Graph Completion

来源:AAAI2018论文链接:https://arxiv.org/pdf/1711.03438.pdf代码链接:https://github.com/bxshi/ConMask本文解决知识库补全的问题,但和传统的 KGC 任务的场景有所不同。以往知识库补全的前提是实体和关系都已经在 KG 中存在&am…

NLP十大研究方向Highlights!

前言 DeepMind 科学家 Sebastian Ruder总结整理了机器学习和自然语言处理领域 10 个影响巨大的有趣研究方向,本文将介绍该10个方向所取得的主要进展,简要说明我认为这个方向重要的原因,最后对未来的工作进行简短的展望。 这 10 个方向分别是…

图解Transformer

原文标题:The Illustrated Transformer 原文链接:https://jalammar.github.io/illustrated-transformer/ 论文地址:https://arxiv.org/abs/1706.03762 前言 Transformer在Goole的一篇论文Attention is All You Need被提出,为了方…

知识工场 | 让机器认知中文实体 —复旦大学知识工场发布中文实体识别与链接服务

本文转载自公众号:知识工场。一、什么是实体识别与链接近年来,如何通过知识图谱让机器实现自然语言理解受到越来越多的关注。其中,识别文本中的实体,并将它们链接到知识库中,是让机器理解自然语言的第一步,…

mikechen谈技术人成长的三大原则

“ 我自己是工程师出身,一路就像游戏打怪一样,不断去突破自己的职能舒适区,技术这条路我用了整整10年去把它全部打通,这些经验看似平淡,作为一个过来人,在你每一次新的选择的时候,你就会发现它…

最新进展 | 深度学习在天气预测中的应用

谷歌研究员提出使用机器学习方法预测未来短时间内的天气。此方法虽然处于早期发展阶段,但效果已经优于传统模型。 前言 天气总是会或轻或重地影响人们的日常生活,而天气预报的准确性会极大影响人们应对天气的方式。天气预报可以告知人们是否应当选取一条…

快速上手笔记,PyTorch模型训练实用教程(附代码)

前言自 2017 年 1 月 PyTorch 推出以来,其热度持续上升,一度有赶超 TensorFlow 的趋势。PyTorch 能在短时间内被众多研究人员和工程师接受并推崇是因为其有着诸多优点,如采用 Python 语言、动态图机制、网络构建灵活以及拥有强大的社群等。因…

领域应用 | 中医临床术语系统V2.0在线发布啦!

本文转载自公众号:中医药知识组织与标准。中医临床术语系统V2.0在线发布中医临床术语系统(Traditional Chinese Medicine Clinical Terminological Systems, TCMCTS)是由中国中医科学院中医药信息研究所研制的,用来描述健康状况和…