自然语言处理的未来之路(周明老师,CCF-GRIR,笔记)

文章目录

  • 1.什么叫自然语言处理
    • 1.1 困难
    • 1.2历史
    • 1.3 智能
    • 1.4 经典nlp任务的进展
  • 02.技术体系
    • 2.1 词
    • 2.2 句子
  • 03 未来发展
    • 3.1 资源丰富的任务---中英翻译
    • 3.2 资源少的任务
    • 3.3 多轮问题--多轮对话
  • 4 未来之路

  • 自然语言:规则—>统计—>神经网络
  • 现在:黄金时代
  • 缺陷:
    • 过度依赖数据和计算资源
    • 建模、可解释性、推理不足

1.什么叫自然语言处理

  • 自然语言处理

自然语言处理就是用计算机对人类语言进行处理,使得计算机具备人类的听、说、读、写能力,它是未来人工智能技术最为关键的核心之一。比尔·盖茨说过,“自然语言处理是人工智能皇冠上的明珠,如果我们能够推进自然语言处理,就可以再造一个微软。”

1.1 困难

  • 困难可想而知
    • 词同意义不同
    • 人:有背景知识,可以理解
    • 机器:缺失背景知识

在这里插入图片描述

1.2历史

在这里插入图片描述

1.3 智能

在这里插入图片描述

1.4 经典nlp任务的进展

在这里插入图片描述

  • 聊天机器人:小冰
    • 对话23轮以上
  • SQuAD:阅读理解
  • WMT-2017机器翻译
  • CoNLL(语法检查)会议名
    • 有很多评测任务
    • 命名实体识别之类的

02.技术体系

2.1 词

  • 词的编码
    • 方法:
      • CBOW
        • 周围的词预测当前的词
      • skip-gram
        • 当前的词预测周围的词
    • 结果:获得每一个词稳定的向量表示–语义表示

2.2 句子

  • 句子的编码
    • 方法

      • RNN
        • 从左到右对句子建模,每个词对应一个隐藏状态,
          • 该状态:代表了从句首到当前词的语义信息,
          • 句尾:全句子语义
        • 补充:双向RNN中
          • 前向RNN的状态:句首到当前词
          • 后向:句末到当前词
          • 拼接:双向信息
      • CNN
        • 词嵌入
        • 位置嵌入
        • 卷积
        • —>向量表示:对应句子的语义
      • ATTENTION:注意力机制
        • 综合考虑:当前状态下对饮给的编码的每一个隐藏状态,加权平均–>体现当前的动态输入
      • transformer
        • 引入自编码:一个词与周围词建立相似
        • 引入多头注意力机制:可以引入多种特征表达,所以编码效果或者编码的信息更加丰富
      • 预训练模型
        • 最早:静态词:不论上下文,只看词本身的表征(多义词也只有一个
        • 下面的都是根据上下文的唯一表征
        • ELMo:
          • 双向:可左到右,也可右到左
          • 每一层对应的节点并起来:双向信息–当前词在上下文的语义表示
          • 这个语义+词本身的嵌入–进行后续任务,性能提升
        • Bert
          • 它用左边、右边的信息来预测最外部的词的信息
          • 它也可以判断下一句是真的下一句还是伪造的下一句
          • 用两种方式对句子每一个词进行编码
          • 得到的训练结果:表征了这个词在上下文中的语义表示。
          • 基于这样的语义表示,
            • 就可以判断两个句子的关系,
              • 比如说是不是附属关系,
            • 判断一个句子的分类
              • (例如Q&A中,判断回答对应的边界是不是对应提问)
            • 对输入的每一个词做一个标注(序列标注
              • 结果就得到一个词性标注(实体标注。
        • 其他
          • GPT-2,以及最近的XLNET,以及UNILM、MASS、MT-DNN、XLM
          • 也都是依据上下文获得唯一表征
          • UNILM(微软研究院)
            • 同时训练得到类似Bert和GPT
          • MASS(微软)
            • 以encoder-decoder训练
            • 在机器翻译上表现良好
          • MT-DNN
            • 强调多任务学习
          • XLM
            • 学习多语言Bert
            • 适用于跨语言
    • 基于这样的表征,编码、解码机制

      • 序列–编码–>向量(表征)–解码–>序列
      • 翻译、序列标注等
  • 预训练模型的启发
    • 过去:期望用基于知识的方法来充实当前的输入,但做的不好
    • 现在:
      • 预训练模型:学习语言结构、学习领域知识、常识
      • fine-tune微调:适应下游任务
        • 微调仅需要少量数据

03 未来发展

  • 性能超越人类
    • 一堆模型、一堆数据、一堆机器–刷榜
  • 问题
    • 计算资源有限

      • 同样的算法,越大越快越好,但消耗巨大
      • 过多的计算导致环境污染(服务器消耗巨大资源)
      • 下面例子里用了10倍蛮力,得到0.2%的提升(不划算)
        在这里插入图片描述
    • 过于依赖数据

      • 标注代价巨大
      • 标注质量堪忧(人总有误差、偷懒等
      • 标注数据隐含歧视(受到人主观映像
      • 数据分布不同(训练的模型只在你标注数据相同的数据上有效,换一个数据压根不行)

      比如说我们做Q&A问答系统,我们在所有的问答里面都假设是第一名,但到了搜索引擎上有很多简单的问题都解决不好。此外,还有数据隐私保护等等问题。

    • 去除上文以外的问题(三个主要的问题)

      • Rich Resource Tasks(资源丰富的任务)
        • 如中英机器翻译
      • Low Resources Tasks(资源很少的任务
        • 如中文到希伯来语的翻译
      • Multi-turn Tasks(多轮任务)
        • 客服(对话机器人)

3.1 资源丰富的任务—中英翻译

  • 语料虽多,效果却还是有问题
    • 翻译错词
    • 丢词
    • 不合语法
  • 疑问
    • 如何把词典集成进来
    • 如何上下文判断问题
    • 领域自适应
    • 主体自适应
  • 就算有大量数据,也并不一定能够解决所有的问题
    在这里插入图片描述

    在这里插入图片描述

3.2 资源少的任务

  • 困难:
    • 语料少,需要借力
  • 借力
    • 迁移模型:最常见的:预训练模型
    • 跨语言学习:从其他的语言学习过来
      • 英语的模型,用在德语、法语上
    • 利用种子迭代学习
      • 比如有一个小辞典,有几条规则,有几条双语,以此为引子,冷启动,启动之后迭代
  • 尝试很多,但没有很好的方法
    • 如何建模
    • 如何从数据分析中做无监督、少监督的学习
    • 如何迁移:也是问题
    • 如何无监督也是问题
    • 先验的规则词典,如何冷启动
    • 人能不能参与其中,帮助一个开始弱小的额系统逐渐强大(主动学习?

3.3 多轮问题–多轮对话

在这里插入图片描述
在这里插入图片描述

  • 困难
    • 小孩子都知道,电脑却难以回答
      • 问题:没有常识,推理不行
    • 前后不一致
      • 时间、空间、逻辑
      • 需要记忆力
  • 如何推理
    • 了解上下文
    • 利用知识
    • 推理
    • 可解释性问题(推理需要可解释
  • 推理所用技术:
    • 语义分析
    • 上下文的指代消解
    • 省略消解
  • 推理模型是什么样的?
    • 有记忆、知识
    • 有读写:
      • 可读取记忆,改变对话状态(知识和状态)
      • 写记忆(更新
    • 得到答案后,也要更新记忆、存储
      在这里插入图片描述

4 未来之路

  • 目标遥远:可解释、有知识、有道德、可自我学习的NLP
  • 问题很多:
    • 我们怎么样来实现这样的目标呢?
    • 我们要从具体的任务出发,找出存在的问题。
      • Rich-Resource存在什么问题呢?
        • 上下文建模、数据纠偏、多任务学习、人类知识的理解。
      • Low-Resource又有什么问题要解决呢?
      • 多轮要解决什么问题呢?
        • 就是要解决知识常识、上下文建模、推理机制、可解释等等。
  • 如何推进发展
    • 算力
    • 数据
    • 模型
    • 人才培养
    • 合作
    • 强调应用
      在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481480.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从英国首位印裔首相,看印度IC产业

来源:芯师爷当地时间10月24日,英国前财政大臣苏纳克在保守党党首竞选中胜出,将成为英国新一任首相。这也意味着他将成为英国历史上第一位印度裔首相。图源:环球网一时间,关于“首位印度裔首相,苏纳克成功逆…

CASREL:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction(关系抽取,ACL2020,重叠关系)

文章目录1.介绍2.相关工作3.The CASREL Framework3.1 Bert3.2 cascade decoder4.实验5.结果参考1.介绍 做重叠关系的少 重叠关系: Zeng et al. (2018) :seq2seq强化学习改善提取顺序Fu et al. (2019):(GraphRel)GCNs将文本建模为关系图 以前…

机器学习数学本质的理解

来源:计算机视觉与机器学习近日,国际数学家大会丨鄂维南院士作一小时大会报告:从数学角度,理解机器学习的“黑魔法”,并应用于更广泛的科学问题。鄂维南院士在2022年的国际数学家大会上作一小时大会报告(plenary talk)…

Exploiting the Syntax-Model Consistency for Neural Relation Extraction(关系抽取,语法模型,跨领域关系抽取

文章目录1.Introductiony1.1 神经网络的关系抽取1.2使用依赖树的关系抽取1.2.2 依赖树的一般树1.3 本文做法2. 相关工作2.1核方法2.2 深度学习方法2.2.1 CNN2.2.2 RNN2.2.3 transformer2.2.4 依赖树3.模型3.1CEON-LSTM3.1.1 LSTM3.1.2ON-LSTM3.1.2.1 公式3.1.2.2the master gat…

从500亿缩水到167亿!自动驾驶芯片第一股“流血上市”

来源:数据观综合编辑:蒲蒲美股年内最后一次大规模IPO,MobilEye首日大涨近40%。美国时间10月26日,英特尔旗下自动驾驶子公司 Mobileye 正式登陆纳斯达克,股票代码为“MBLY”,首日上涨37.95%,报收…

[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations

文章目录1 介绍2 span-relation representations2.1未涉及句子级任务3.span-relation model3.1 span representation3.2 span and relation label prediction3.3 应用到不同任务3.5 多任务学习MTL4 GLAD Benchmark基准 and Results4.1 实验4.2 证明通用模型有效4.3 MTL4.3.2 任…

为什么生成式AI这么火?OpenAI刚刚被曝估值已接近200亿美金

“生成式 AI 提醒我们,很难做出有关于人工智能的预测。十年前,传统观点认为:人工智能首先会影响体力劳动;然后,是认知劳动;然后,也许有一天它可以做创造性工作。现在看起来,它会以相…

报告预告:北斗网格码国家标准与城市大脑网格底座探讨

来源:中国指挥与控制学会中国指挥与控制学会“百名专家、百场讲座”第十七讲——城市大脑系列学术报告(第八期)主办单位:中国指挥与控制学会承办单位:中国指挥与控制学会城市大脑专业委员会远望智库报告人:…

{ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取)

半开放关系抽取 用FOBIE训练一个narrow IE训练一个OpenIE用narrowIE矫正OpenIE 1.Introduction 标注困难、 跨领域标注更难 TRADE-OFF relations 随着干燥度的增加,木质部的安全性增加和效率降低的广泛模式是明显的,有一些证据表明在针叶树种或个体之…

【ACL2020】Relabel the Noise: Joint Extraction of Entities and Relations via Cooperative Multiagents

文章目录1.本文问题2.方法3.用于4. 结论1.本文问题 解决问题: 去噪 shifted label distribution 普遍存在此问题,但大家都不解决,只着重于抛弃噪声实例远程监督标记的噪声数据(KB)和人类标注的测试集分布不同 pipeline pipelin…

马斯克成功收购推特,开除CEO等多名高管,还派特斯拉工程师进驻总部审查代码...

来源:AI前线作者:刘燕这场连环反转“大戏”,终于落幕。靴子终于落地10 月 28 日,据 《纽约时报》、CNBC 、《 华尔街日报》、《华盛顿邮报》 等多家外媒报道,马斯克收购推特的交易已经完成。这笔 440 亿美元的收购案终…

【ACL2020】Reasoning with Latent Structure Refinement for Document-Level Relation Extraction

1. 问题 句间关系 很多约等于文档级关系抽取 文档级关系抽取 句子间关系多 生物医药领域尤其多 需求/困难 整合同一文档不同句子间的信息处理句间实体复杂的交互 2.相关工作 文档级别关系抽取 结论: 实体mention之间的交互促进推理过程(文档级关系抽…

孤独的宇宙中,人类是个例外吗?

© Movie Content Plus来源:人工智能学家利维坦按:爱因斯坦曾说,“宇宙的永恒之谜在于其可理解性,宇宙能被理解是个奇迹。”不过,就可理解性(comprehensibility)来说,该如何定义…

cosine_similarity和torch.cosine_similarity速度差异(人间奇事)

最近聚簇计算相似度,使用了下面两种方法。 一开始用的sklearn,因为没有gpu后来有了gpu就换上了pytorch gpu是V100 batch500(说是batch,只是为了预防超出内存,做的限制。跑的是个循环速度大概是这样子的: torch的cosine…

红杉资本谈生成式AI:预计AI的杀手级应用将出现,比赛正在进行

来源:硅发布13年前,我采访Wolfram|Alpha的创始人、美国计算机科学家史蒂芬.沃尔弗拉姆时,大吃一惊。当时Wolfram|Alpha刚推出,使命是:让每一个人都可以在搜索引擎里搜出计算机计算的结果。比如说,输入"…

Transformer and set Trasformer

1.Transformer multihead attention block:MAB(X,Y)LayerNorm(HrFF(H))HLayerNorm(Xmultihead(X,Y,Y;ω)MAB(X,Y)LayerNorm(HrFF(H))\\ HLayerNorm(Xmultihead(X,Y,Y;\omega)MAB(X,Y)LayerNorm(HrFF(H))HLayerNorm(Xmultihead(X,Y,Y;ω) * Attention:Att(Q,K,Vl;ω)ω(QKT)VAtt…

「图神经网络复杂图挖掘」 的研究进展

来源:专知图神经网络对非欧式空间数据建立了深度学习框架,相比传统网络表示学习模型,它对图结构能够实施更加深层的信息聚合操作.近年来,图神经网络完成了向复杂图结构的迁移,诞生了一系列基于复杂图的图神经网络模型. 然而,现有综述文章缺乏对复杂图神经网络全面、…

知识复习:nlp算法面试汇总

文章目录2.相似度3.正则化3.1 L13.2 过拟合和欠拟合3.2.1 dropout3.3 欠拟合4. 激活函数4.1 sigmoid5.Bert5.1 Bert原版5.1.2 bert的训练5.2改进5.2.1缺点改进5.2.2任务改进5.3 参数量5.3 transformer5.3.1 多头注意力机制6.搜索6.1pagerank6.2 文本匹配7.神经网络基础7.1Norm7…

光子深度学习:编码到光波上的机器学习模型的组件

编辑 | 萝卜皮由于功率、处理和内存的限制,高级机器学习模型目前无法在智能传感器和无人机等边缘设备上运行。麻省理工学院的研究人员介绍了一种基于跨网络的离域模拟处理的机器学习推理方法。在这种被称为 Netcast 的方法中,基于云的「智能收发器」将重…

【实体对齐·综述】A Benchmarking Study of Embedding-based Entity Alignment for Knowledge Graphs

文章目录模板的简述简述1.Introduction2. preliminatries2.1 literature review2.1.1 knowledge graph embedding2.1.2 Conventional Entity Alignment2.1.3 embedding-based entity alignment2.2 Categorization of Techniques2.2.1 Embedding Module2.2.1.1 关系嵌入2.2.1.2 …