FastText原理总结

  • 目录:
    • 1、应用场景
    • 2、优缺点
    • 3、FastText的原理
    • 4、FastText词向量与word2vec对比

目录:

1、应用场景

fastText是一种Facebook AI Research在16年开源的一个文本分类器。 其特点就是fast。相对于其它文本分类模型,如SVM,Logistic Regression和neural network等模型,fastText在保持分类效果的同时,大大缩短了训练时间。

2、优缺点

  1. 适合大型数据+高效的训练速度:能够训练模型“在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇”
  2. 支持多语言表达:利用其语言形态结构,fastText能够被设计用来支持包括英语、德语、西班牙语、法语以及捷克语等多种语言。FastText的性能要比时下流行的word2vec工具明显好上不少,也比其他目前最先进的词态词汇表征要好。
  3. fastText专注于文本分类,在许多标准问题上实现当下最好的表现(例如文本倾向性分析或标签预测)。

3、FastText的原理

fastText 方法包含三部分:模型架构、层次 Softmax 和 N-gram 特征。

fastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。
序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签。
fastText 在预测标签时使用了非线性激活函数,但在中间层不使用非线性激活函数。
fastText 模型架构和 Word2Vec 中的 CBOW 模型很类似。不同之处在于,fastText 预测标签,而 CBOW 模型预测中间词。
第一部分:fastText的模型架构类似于CBOW,两种模型都是基于Hierarchical Softmax,都是三层架构:输入层、 隐藏层、输出层。
这里写图片描述
CBOW模型又基于N-gram模型和BOW模型,此模型将W(t−N+1)……W(t−1)W(t−N+1)……W(t−1)作为输入,去预测W(t)
fastText的模型则是将整个文本作为特征去预测文本的类别。

第二部分:层次之间的映射
将输入层中的词和词组构成特征向量,再将特征向量通过线性变换映射到隐藏层,隐藏层通过求解最大似然函数,然后根据每个类别的权重和模型参数构建Huffman树,将Huffman树作为输出。
这里写图片描述
具体的数学求解过程可参考博客:
https://blog.csdn.net/yick_liao/article/details/62222153

第三部分:fastText的N-gram特征
常用的特征是词袋模型(将输入数据转化为对应的Bow形式)。但词袋模型不能考虑词之间的顺序,因此 fastText 还加入了 N-gram 特征。
“我 爱 她” 这句话中的词袋模型特征是 “我”,“爱”, “她”。这些特征和句子 “她 爱 我” 的特征是一样的。
如果加入 2-Ngram,第一句话的特征还有 “我-爱” 和 “爱-她”,这两句话 “我 爱 她” 和 “她 爱 我” 就能区别开来了。当然,为了提高效率,我们需要过滤掉低频的 N-gram。
在fastText 中一个低维度向量与每个单词都相关。隐藏表征在不同类别所有分类器中进行共享,使得文本信息在不同类别中能够共同使用。这类表征被称为词袋(bag of words)(此处忽视词序)。在 fastText中也使用向量表征单词 n-gram来将局部词序考虑在内,这对很多文本分类问题来说十分重要。
举例来说:fastText能够学会“男孩”、“女孩”、“男人”、“女人”指代的是特定的性别,并且能够将这些数值存在相关文档中。然后,当某个程序在提出一个用户请求(假设是“我女友现在在儿?”),它能够马上在fastText生成的文档中进行查找并且理解用户想要问的是有关女性的问题。

4、FastText词向量与word2vec对比

FastText= word2vec中 cbow + h-softmax的灵活使用
灵活体现在两个方面:

  1. 模型的输出层:word2vec的输出层,对应的是每一个term,计算某term的概率最大;而fasttext的输出层对应的是
    分类的label。不过不管输出层对应的是什么内容,起对应的vector都不会被保留和使用;
  2. 模型的输入层:word2vec的输入层,是 context window 内的term;而fasttext 对应的整个sentence的内容,包括term,也包括 n-gram的内容;
    两者本质的不同,体现在 h-softmax的使用。

Word2vec的目的是得到词向量,该词向量 最终是在输入层得到,输出层对应的 h-softmax 也会生成一系列的向量,但最终都被抛弃,不会使用。
fasttext则充分利用了h-softmax的分类功能,遍历分类树的所有叶节点,找到概率最大的label(一个或者N个)。

参考:
https://blog.csdn.net/sinat_26917383/article/details/54850933
https://blog.csdn.net/yick_liao/article/details/62222153

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456541.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决 :sudo:/etc/sudoers 可被任何人写

问题: sudo:sudo /etc/sudoers is world writable sudo:no valid sudoers sources found ,quitting sudo:unable to initialize policy plugin 解决方案: 方法一: 1.开机按shift或esc进入ubantu高级模式 再进行recovery模式 2.选择root命令行模式 3.…

Doc2Bow简介与实践Demo

Doc2Bow是Gensim中封装的一个方法,主要用于实现Bow模型,下面主要介绍下Bow模型。 1、BoW模型原理 Bag-of-words model (BoW model) 最早出现在自然语言处理(Natural Language Processing)和信息检索(Information Ret…

SPOJ 694/705 后缀数组

思路&#xff1a; 论文题*n Σn-i-ht[i]1 就是结果 O(n)搞定~ //By SiriusRen #include <cstdio> #include <cstring> #include <algorithm> using namespace std; #define N 55555 int cases,n,cntA[N],cntB[N],A[N],B[N],rk[N],sa[N],tsa[N],ht[N]; char…

如何用余弦定理来进行文本相似度的度量

在做文本分析的时候&#xff0c;经常会到说将文本转化为对应的向量&#xff0c;之后利用余弦定理来计算文本之间的相似度。但是最近在面试时&#xff0c;重复上面这句话&#xff0c;却被面试官问到&#xff1a;“什么是余弦定理&#xff1f;”当时就比较懵逼&#xff0c;于是把…

Mongodb 备份和恢复

为什么80%的码农都做不了架构师&#xff1f;>>> Mongodb 备份和恢复 mongodump -h host -u "username" -p "userpass" -d dbname -o backfilename tar -cvzf backfilename.tar backfilename tar -xvzf backfilename.tar mongorestore -h…

【linux】Ubuntu 18.04 设置桌面快捷启动方式

使用Ubuntu终端进行打开&#xff1a; 方法一&#xff08;使用vim&#xff09;&#xff1a; sudo vi /usr/share/applications/pycharm.desktop 方法二&#xff08;使用gedit&#xff09;&#xff1a; sudo gedit /usr/share/applications/pycharm.desktop 然后就会弹出一个…

在 Pycharm下使Python2和Python3共用Anaconda中的各种库/包的解决方法

参考&#xff1a;https://www.cnblogs.com/MoonST/p/7610460.html 目录&#xff1a;前言&#xff1a;1、同时下载两个版本的anaconda2、主版本conda的安装3、辅助版本Anaconda的安装 目录&#xff1a; 前言&#xff1a; 最近在看一些机器学习方面的教程&#xff0c;里面的一…

MySQL安装和完全卸载-Linux ubantu18.04

MySQL数据库 千万不要安装5.7版本全是坑~&#xff01;&#xff01; 千万不要安装5.7版本全是坑~&#xff01;&#xff01; 千万不要安装5.7版本全是坑~&#xff01;&#xff01; ubantu18.04版本 正确道路应该是走安装MySQL 8.0&#xff1a; 第一步&#xff1a;更新文件…

机器学习中的数学基础相关知识总结

文章目录目录&#xff1a;前言&#xff1a;1、导数(曲线变化的快慢)、二阶导数&#xff08;曲线斜率变化的快慢特别是反映曲线的凸凹性&#xff09;的概念。2、常用的导数公式&#xff1a;3、微分和积分的数学含义&#xff1a;4、泰勒公式及含义5、梯度的概念及数学含义&#x…

特征工程

上周参加了学校的数据挖掘竞赛&#xff0c;总的来说&#xff0c;在还需要人工干预的机器学习相关的任务中&#xff0c;主要解决两个问题&#xff1a;&#xff08;1&#xff09;如何将原始的数据处理成合格的数据输入&#xff08;2&#xff09;如何获得输入数据中的规律。第一个…

Linux下快速安装MySQL教程

转自&#xff1a;https://blog.csdn.net/sl1992/article/details/53634674 目录&#xff1a;前言&#xff1a;1.执行yum install mysql-server进行安装2.输入y进行确认3.安装成功4.查看MySQL是否启动5.启动MySQL6.查看是否运行7.设置开机启动MySQL8.创建MySQL管理员root9.登录M…

UIView类绘图出现错误提示

一:问题: Jan 16 15:49:53 CUBOT Band Ⅲ[2082] <Error>: CGContextSetLineWidth: invalid context 0x0. If you want to see the backtrace, please set CG_CONTEXT_SHOW_BACKTRACE environmental variable. Jan 16 15:49:53 CUBOT Band Ⅲ[2082] <Error>: CGCo…

MySQL8.0版本和5.7通过Navicat远程连接

首先在数据库创建好连接的用户 进入mysql服务器终端&#xff1a; 命令窗口终端&#xff1a; mysql -u用户名 -p密码 sudo mysql -uroot -p 创建用户部分-- 使用mysql 数据库 USE mysql&#xff1b; -- 为mysql创建用户&#xff1a;root1 密码为&#xff1a;root1 …

HUE配置文件hue.ini 的zookeeper模块详解(图文详解)(分HA集群)

不多说&#xff0c;直接上干货&#xff01; 我的集群机器情况是 bigdatamaster&#xff08;192.168.80.10&#xff09;、bigdataslave1&#xff08;192.168.80.11&#xff09;和bigdataslave2&#xff08;192.168.80.12&#xff09; 然后&#xff0c;安装目录是在/home/hadoop/…

CF #366(div.2) C 模拟,思维

CF #366(div.2) C. Thor 题意&#xff1a;一个手机n个联系人&#xff0c;有q个操作。每次给出ty和ai&#xff0c;如ty1&#xff0c;表示收到ai的一条信息&#xff1b;如ty2&#xff0c;表示将ai发的信息都看掉&#xff1b;如ty3&#xff0c;表示将第1条到第ai条信息都看掉…

MySQL基本指令汇总

创建数据库&#xff1a; create database 数据库名字; 删除数据库: drop database 数据库名字; 查看数据库: show databases; 切换数据库: use databasename; select database(); Create table 表名&#xff08;列名 数据类型 [约束]&#xff0c;列名 数据类型 [约束]&a…

linux命令行在任意目录下启动任意的脚本的方法

目录&#xff1a;前言&#xff1a;1、直接在命令行中设置PATH2、在profile中设置PATH3、在当前用户的profile中设置PATH 目录&#xff1a; 前言&#xff1a; 这应该算是一个常识吧&#xff0c;但是对于许多像我们这样的新手来说&#xff0c;一旦你出点小差错&#xff0c;整个…

阿里云centos 安装和配置 DokuWiki

DokuWiki 是一个开源的 wiki 项目&#xff0c; 可方便进行知识和内容的管理和分享&#xff0c;不用安装数据库&#xff0c;内置权限管理&#xff0c;书写直观方便&#xff0c;有大量的插件支持。特别适用于企业内部的内容和知识管理&#xff0c;只允许内部员工编辑和查阅的场景…

python-爬虫

网络爬虫&#xff08;又被称为网页蜘蛛&#xff0c;网络机器人&#xff0c;在FOAF社区中间&#xff0c;更经常的称为网页追逐者&#xff09;&#xff0c;是一种按照一定的规则&#xff0c;自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟…

MySQL5.7升级到8.0 之后,配合ubantu18.04遇到的常规问题以及非常规问题的解决方案

从MySQL5.7升级到8.0后首先会发现在创建用户和授权大大不同&#xff1b;其次还有更多常规问题以及非常规问题的解决方案 写本篇博客记录踩过的坑 MySQL8.0配合ubantu18.04 一、创建用户和授权 在mysql8.0创建用户和授权和之前不太一样了&#xff0c;其实严格上来讲&#xf…