nlp中的经典模型(三)

文章目录

  • 5 NLP中的卷积神经网络
    • 5.1 卷积
    • 5.2 多通道
    • 5.2 max pooling

5 NLP中的卷积神经网络

RNN的问题:
1 时间复杂度高
2 最后一个向量包含所有信息。有点不可靠

CNN可以通过卷积核捕捉局部特征,那是不是可以用于句子,表示特定长度的词序列呢?
例如句子:他 毕业 于 上海 交通 大学。
如果长度设定为3,那么CNN应该可以捕获
他 毕业 于
毕业 于 上海
于 上海 交通
上海 交通 大学

这样一些词序列的特征

5.1 卷积

卷积操作:窗口内的每个元素与卷积核做元素乘,然后加起来的值作为卷积之后的特征值。
在这里插入图片描述

import numpy as np
m1 = np.matrix('0.2,0.1,-0.3,0.4;0.5,0.2,-0.3,-0.1;-0.1,-0.3,-0.2,0.4')
m2 = np.matrix('3,1,2,-3;-1,2,1,-3;1,1,-1,1')
m3 = np.multiply(m1,m2)
print(m3)
value = np.sum(m3)
print(value)

value就是-1.0

这个卷积操作是一个一维的,也就是说卷积核的大小为nxk(k是词向量的维度)。这个卷积之后相当于一个ngram的词模型。

5.2 多通道

卷积核大小变的是n的大小。
输入经过一个3xk的卷积核得到一个3gram的词序向量。
输入经过一个4xk的卷积核得到一个4gram的词序向量。
输入可以经过多个卷积核,得到多个特征。
在这里插入图片描述

图中是经过了3个,n=3的卷积核,得到的特征向量。
每个卷积核的大小可以不同。

5.2 max pooling

随着卷积核n的不一样,计算出来的结果不一样。
随着n越大,计算出来的结果也越大。
这不是我们想要的。使用max pooling解决。
max pooling:在每一个卷积结果中取最大值。如果经过了x个卷积层,最终得到一个x维的向量。
在这里插入图片描述

最后得到3维向量(0.3,1.6,1.4)

以上过程可以看论文:Yoon Kim “Convolutional Neural Networks for Sentence Classification”。

输入:一句话,长度为n,每个词查一下词表,得到一个nx100维度的矩阵
做一个1维的卷积,维护300个卷积核。最后得到一个300维的句子表示向量。
作为输入到MLP,实现分类。

开源工具fasttext就是这样的原理。

代码案例:https://github.com/silverriver/NLP_Course/blob/main/TextCNN/main.ipynb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/424020.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android笔记-Activity相关+内存泄漏

看了下,上次学习android还是17年的事情,,,,两年过去了我现在终于来搞android了。。。 以下内容参考自:《Android从学习到产品》,《深入理解java虚拟机》,《操作系统之哲学原理》 先甩…

第一百二十九期:阿里内部员工,排查Java问题常用的工具单

平时的工作中经常碰到很多疑难问题的处理,在解决问题的同时,有一些工具起到了相当大的作用,在此书写下来,一是作为笔记,可以让自己后续忘记了可快速翻阅,二是分享,希望看到此文的同学们可以拿出…

再看机器翻译

前面有文章具体介绍了机器翻译用到的模型:seq2seq和加入attention机制。这里再说点别的。 1 机器翻译评价标准BLUE 参考文章介绍的很详细。论文地址:url 2 模型背后的理论:密码学 例如从中文翻译成英文,可以将中文看做是加密了…

为有朝一日自己弄个玩具玩而准备

减号,星号,问号和感叹号尽量可以用来做变量名或函数名 namespace : ns0/ns1/... : 使用 / 作分割符 module : module-name : 和文件名相同,包含函数和变量之类的 类型 int int : fn(param0type, param1type) funcName fn(arg0Name, arg1Name…

VML编程之------VML语言入门《VML极道教程》原著:沐缘华

《VML极道教程》原著:沐缘华1章4节:VML语言入门 1:VML语言入门 - 极道学法 在我正式开始讲解、你正式开始学习VML语言以前,请务必遵循以下规则,可以达到最佳效果、极道学习方法。 1:如果你学过HTML、CSS或精通HTML、CSS,那么建议你把学VML的…

第一百三十期:14种常见编程语言的优缺点及应用范围

C语言是一门通用计算机编程语言,应用广泛。面向过程的,数据与算法分开。它的重点在于算法和数据结构。1972年由美国贝尔实验室在B语言的基础上设计出。 作者:编程小新 C 概述:C语言是一门通用计算机编程语言,应用广泛。面向过程…

文本生成模型

文本生成目前(2019年)还没有确定的可工程化的用途。 主要模型有:Variational Auto Encoder (VAE)和Generative Adversarial Networks (GAN) 这个对我来说是新的内容,需要再次消化。

设计模式学习笔记一——开篇

毕业的前段时间从定王台买了两本书《设计模式:可复用面向对象软件的基础》和《.NET框架程序设计》,两本很经典的书。工作后两本书都曾看过一部分,第一本不愧堪称设计模式经典之作,书写得很好,但是对于没有面向对象设计…

第一百三十一期:2019年容器使用报告:Docker 和 Kubernetes 王者地位不倒!

近日,容器创业公司 Sysdig 发布了 2019 年容器使用报告。这是 Sysdig 第三年发布容器年度使用报告,与之前不同的是,今年的调查结合了更多的数据源,并深入挖掘了 Kubernetes 的使用模式。 作者:高效开发运维 近日&…

Flask 路由映射对于双斜线的处理 //a//b

例子 from flask import Flask import time from tornado.wsgi import WSGIContainer from tornado.httpserver import HTTPServer from tornado.ioloop import IOLoopapp Flask(__name__)app.route(//abc//a) def index():# time.sleep(5)return OKapp.route(/abc//a) def in…

⼤规模⽆监督预训练语⾔模型与应⽤(上)

文章目录1 单词作为语言模型的基本单位的缺点2 character level modeling3预训练句子向量3.1 skip-thought3.2 InferSent3.3 句子向量评价数据集4 预训练文档向量5 ELMO1 单词作为语言模型的基本单位的缺点 单词量有限,遇到没有见过的单词只能以UNK表示。 模型参数…

第一百三十二期:MySQL系列:一句SQL,MySQL是怎么工作的?

当我们在mysql窗口或者数据库连接工具中输入一句sql后,我们就可以获取到想要的数据,这中间MySQL到底是怎么工作的呢? 作者:Java架构学习交流 对于MySQL而言,其实分为客户端与服务端。 服务端,就是MySQL应…

转一个无聊的爱情故事:如果有个女生为你哭

这是很早以前看到的一篇文章,偶尔看到,突然很多往事一下子全涌了出来,原来我曾以为忘却了的,却深藏在心中,永远无法抹去。假如你的生命里有这样一个女孩,她既不漂亮,也不温柔,但她很…

Visual Studio 2005 Tip:编辑项目文件

原文参考自:http://blogs.msdn.com/shawnfa/archive/2006/04/26/582326.aspx很多时候我们需要手动修改VS的项目文件(.csproj/.vbproj),这时大多数人会简单的使用记事本(notepad)打开并编辑。虽然这没什么不…

transformer bert GPT(未完)

原文标题:⼤规模⽆监督预训练语⾔模型与应⽤(中) 文章目录1 transformer1.1 encoder部分1.1.1 Attention定义1.1.2 Multi-head Attention1.1.3 position-wise feed-forward networks1.1.4 positional encoding1.1.5 残差链接1.1.6 layer norm…

spring mvc学习(42):restful的编辑功能实现

上图是目录结构&#xff0c;本节是有问同学的&#xff0c;当好好总结 pom.xml <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation"http://maven.apache.org/POM/4.0.…

韩国首尔公交车站将被指定为禁烟场所

中新网东京7月3日电 韩国首尔市所有公交车站将从今年9月份起被指定为禁烟场所。 据韩联社报道&#xff0c;首尔市方面2日表示&#xff0c;9月份起将把禁烟车站从5月30日开始运营的钟路2街中央车路车站等市内6处公交车站扩大到市内全部公交车站。 首尔市负责人对扩大禁烟车站的…

那些年用过的Redis集群架构(含面试解析)

引言 今天&#xff0c;我接到了高中同学刘有码面试失利的消息。 他面试的时候&#xff0c;身份是某知名公司的小码农一枚&#xff0c;却因为不懂自己生产上Redis是如何部署的&#xff0c;导致面试失败&#xff01; 人间惨剧&#xff0c;莫过于此。 接到他面试失利的消息&#x…

再谈BERT

三次讲到了BERT。第一次是nlp中的经典深度学习模型(二)&#xff0c;第二次是transformer & bert &GPT&#xff0c;这是第三次。 文章目录1 关于预训练模型1.1预训练概念1.2 再谈语言模型1.3 ELMo1.4 GPT2 BERT2.1 BERT特点2.2架构2.3 预训练任务2.3.1 masked language …

第一百三十三期:MySQL锁会不会,你就差看一看咯

本文章向大家介绍MySQL锁详细讲解&#xff0c;包括数据库锁基本知识、表锁、表读锁、表写锁、行锁、MVCC、事务的隔离级别、悲观锁、乐观锁、间隙锁GAP、死锁等等&#xff0c;需要的朋友可以参考一下。 作者&#xff1a;php自学中心 本文章向大家介绍MySQL锁详细讲解&#xff…