词袋、独热与词向量

亲爱的读者喵喵,由于一些事情,小夕最近情绪欠佳,导致昨天又失约没有更新文章...而且文章中萌气散失...小夕会尽快调整好哦,小夕依然萌萌嗒

我们知道,传统的数据挖掘任务面向的是结构化数据。结构化数据很好理解,就是很有结构的数据嘛。

比如下面这张银行客户数据库中的表格:

 

编号

姓名

年龄

年收入

职业

有无欠贷

01

夕小瑶

16(就好了)

100

学生

02

王大锤

40

1,000,000

副总裁

03

吴名

30

200,000

程序员

 

而基于上述历史信息来完成某项数据挖掘任务的话,每一维度的特征很明确,表格的每一列,或者说每个属性(attribute)就是一个特征。因此每一个样本,即每一行就可以轻松的表示为一个特征向量。

 

但是我们知道,自然语言文本是非结构化的。因此基于自然语言文本的数据挖掘任务,也就是文本挖掘任务,该如何下手呢?或者说,如何从文本中抽象出机器学习算法认识的特征向量呢?

 

词袋模型

一个很容易想到的是,将自然语言文本的每个词作为一个特征。因此对应的特征向量即这些特征的组合。这种思路虽然naïve,但是很有效哦。基于这种思想的模型就是词袋模型(Bag of Words),也叫向量空间模型(Vector Space Model)。

有了词袋模型后,每个特征(即每个词)的值该如何定义呢?或者说每个词该如何编码呢?如何进一步生成我们需要的特征向量呢?

one-hot

同样一个很naive的想法就是:设词典的大小为n(词典中有n个词),假如某个词在词典中的位置为k,则设立一个n维向量,第k维置1,其余维全都置0。这个思想就是one-hot编码,中文叫独热编码(茫茫0海中有一个1,不就是孤独的热点吗)。

 

比如这里有三句话,即三个样本:

“我喜欢你”;

“你喜欢你的狗狗”;

“你是狗狗”。

 

假设已经分词完成,那么如果我们要从这三个样本中挖掘信息的话,根据词袋模型的思想:

 

首先就要将这些句子中出现过的词构建一个词典。这个词典依次包含[我,喜欢,你,的,是,狗狗]这六个词。根据one-hot编码,“我”就会被编码为[1,0,0,0,0,0],而“喜欢”就被编码为[0,1,0,0,0,0],以此类推。

那么如何继续推进,利用one-hot编码来生成特征向量呢?

一个样本的特征向量即该样本中的每个单词的one-hot向量直接相加。这三个样本的特征向量便会表示为:

 

我喜欢你:[1,1,1,0,0,0]

你喜欢你的狗狗:[0,1,2,1,0,1]

你是狗狗:[0,0,1,0,1,1]

 

其中,第二个句子中“你”出现了两次,因此第三维的值为2。但是注意一下,在有的机器学习模型,比如贝努利分布的朴素贝叶斯模型中,仅考虑每个词出现与否,此时第二个句子的词袋模型就变成了[0,1,1,1,0,1]。

 

看,特征向量构建完成啦,剩下的就交给机器学习吧~

 

但是这样的话,仔细一想,好像麻烦挺大的。比如涉及到的单词很多时,词典会变得超大,动辄几千上万维。因此每个样本的特征向量也会变得极其稀疏(大部分维度的值为0),这么高的维数对于很多机器学习模型比如神经网络,那简直是训练的灾难呐。

 

再一想,好像更不合理。因为这样编码的话,还忽略了单词的语义!比如明明“喵星人”和“猫”是同一个意思,却被编码成了两个不同的词。

 

有没有办法同时解决上述这两个问题呢?

 

word-embedding

 

解决方案就是word-embedding,中文叫词向量,也叫词嵌入。实质就是将单词编码成低维实数向量。(专业的说法是将单词映射到一个低维空间,就像一个嵌入的过程,因此叫word-embedding)

 

比如“狗”或许会被编码成[0.192, 0.221, -0.442, ...],一般来说维度会控制在500维以下,几十维也是常有的。但是一般不会上升到千维。

 

那么怎么表示单词之间的语义关系呢?其实将每个词映射到低维向量空间后就很明朗啦。比如我们的词向量限制为2维。那么词“猫”、“狗”、“开心”、“惊讶”、“手机”映射成词向量后在向量空间中可能是这样子的:

 

可以看到,“狗”和“猫”都是动物,语义相近,因此具有很小的夹角,同理还有“开心”和“惊讶”。而“狗”和“手机”这两个关系不大的词语便会有很大的夹角。这种度量夹角来计算向量之间距离的专业说法叫计算余弦相似度

 

合格的词向量除了在语义上相近会被编码到邻近的区域,还应该支持简单的语义运算,将语义运算映射为向量运算。比如:

“中国”+“首都”=“北京”;

“王子”-“公主”=“男”-“女“;

 

在向量空间看起来是类似这个样子的~

 

 

看,有了词向量这么智能的编码方法,是不是感觉用它来做文本挖掘的信心强了很多呢?

 

虽然词向量很智能,然而词向量的生成并不是一件容易的事情。至今如何训练高精度的词向量依然是NLP、IR领域的热门topic,也是深度学习在NLP领域的一个应用重点(小夕悄悄告诉你,其实目前来看,关于词向量的生成,浅层神经网络跟深度神经网络的效果差不多)。如果有喵喵对词向量的生成产生了极大的兴趣,又具备足够的机器学习,尤其是神经网络的基础的话,可以Google一下下面小夕推荐的论文:

1、Yoshua Bengio, Rejean Ducharme, Pascal Vincent, and Christian Jauvin. A neural probabilistic language model. Journal of Machine Learning Research (JMLR),3:1137–1155, 2003

2、Turian Joseph, Lev Ratinov, and Yoshua Bengio. Word representations: a simple and general method for semi-supervised learning. Proceedings of the 48thAnnual Meeting of the Association for Computational Linguistics (ACL). 2010

3、MikolovT, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Advancesin neural information processing systems. 2013: 3111-3119.

4、Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprintarXiv:1301.3781, 2013.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481291.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能会“偷走”潜艇的隐身能力吗?

更好的探测技术 不仅能使海洋变得透明,也许还会削弱核威慑力。潜艇的价值主要在于其隐蔽性。有一种名为“相互确保摧毁”的威慑战略,其关键在于尽量确保潜艇在核战争的第一次导弹打击中幸存下来,从而在第二次打击时发射导弹回击。因此&#x…

人工智能大地图之分布式人工智能篇

前言人工智能大地图系列文章更新啦!大地图系列的文章是为了帮助即将入门和初步入门人工智能相关领域的喵喵从上帝视角看清整个人工智能学科的全貌(好长的句子),小夕可不希望小夕的粉丝在研究了一年的人工智能某方向后,…

符合人类创作过程的AIGC:自动生成长故事的模型出现了

来源:机器之心报道编辑:小舟、蛋酱AI写文章还是得模仿人类的创作方法。在今天的人工智能领域,AI 写作神器层出不穷,技术和产品可谓日新月异。如果说 OpenAI 两年前发布的 GPT-3 在文笔上还稍欠火候,那么前段时间的 Cha…

Science:挑战传统理论,重塑联想学习概念

来源:brainnews编译作者:Young(brainnews创作团队)校审:Simon(brainnews编辑部)学会根据环境线索预测奖赏对生存至关重要。人们认为,动物通过在结果偏离预期时更新预测来学习预测奖赏…

【完结】史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(四)

小夕再次感谢大家的关心,你们的小夕已经满血复活啦!小夕会坚持为大家带来独一无二的干货和故事哦。前言有读者反映,ta若能完成这个系列的阶段三,就在他们实验室被奉为神了。因为他们实验室每个人人手一本《模式分类》,…

文本相似度

《统计学习方法》-李航 损失函数总结 概要 <div id"post_detail">NLP点滴——文本相似度 目录 前言字面距离common lang库相同字符数莱文斯坦距离(编辑距离)定义实现方式Jaro距离定义实现方式应用SimHash定义基本流程相似性度量存储索引实现应用语义相似性背…

「可解释知识图谱推理」最新方法综述

来源&#xff1a;图灵人工智能近年来&#xff0c;以深度学习模型为基础的人工智能研究不断取得突破性进展&#xff0c;但其大多具有黑盒性&#xff0c;不 利于人类认知推理过程&#xff0c;导致高性能的复杂算法、模型及系统普遍缺乏决策的透明度和可解释性。在国 防、医疗、网…

小夕的算法入门之路

小夕都快要成XX入门指导专业户了QAQ&#xff0c;小夕是要写人工智能和计算机干货的啊喂~好吧&#xff0c;问小夕如何入门算法的小伙伴太多了&#xff0c;还是写一篇文章吧。小夕还收到了“如何准备托福”和“如何准备考研英语”的求助&#xff0c;然而小夕没有考过&#xff0c;…

AIGC发展路径思考:大模型工具化普及迎来新机遇

来源&#xff1a;腾讯科技摘要&#xff1a;当前&#xff0c;AIGC引发社会关注&#xff0c;尤其是大模型和开源模式的推动&#xff0c;让AIGC有望成为AI应用落地的新领域。一方面大模型和开源加速降低AIGC应用门槛并拓展应用范围&#xff1b;另一方面AI与创新的界限进一步模糊&a…

0基础讲解机器学习算法-朴素贝叶斯分类器

朴素贝叶斯分类器可以说是最经典的基于统计的机器学习模型了。首先&#xff0c;暂且不管贝叶斯是什么意思&#xff0c;朴素这个名字放在分类器中好像有所深意。 一查&#xff0c;发现这个分类器的英文是“Nave Bayes”。Nave&#xff08;读作“哪义务”&#xff09;即幼稚的、…

你可以在虚拟世界里过上美好生活吗?

来源&#xff1a;混沌巡洋舰时间来到 2095 年。地球表面满目疮痍&#xff0c;核战争和气候变化引发一场灾难。你只能过着困苦的生活&#xff0c;躲避匪帮&#xff0c;避开地雷。你的主要愿望就是活下去。或者&#xff0c;你也可以将自己的肉体锁存在安保严密的仓库里&#xff0…

web of science,SSCI索引,带你入门!

第一步;选择数据库&#xff0c;一般选择web of science 核心文集 第二步&#xff1a;在更多设置中选择web of science 第三步&#xff1a;点击被引频次后面的数字 第四部&#xff1a;点击查看其他的被引频次计数 根据自己引用的选择次数 注意事项&#xff1a;web of sci…

陶哲轩破解数十年前几何猜想,用反例证明它在高维空间不成立,同行:推翻的方式极尽羞辱...

Pine 萧箫 发自 凹非寺量子位 | 公众号 QbitAI又一个重要数学猜想&#xff0c;被陶哲轩和他的博士后破解了&#xff01;此前陶哲轩在博客上发了个小预告&#xff0c;就已经有不少人赶来围观&#xff1a;看起来是个大新闻。现在&#xff0c;不少人期待的正式版论文&#xff0c;终…

手把手教你-如何查询中文期刊是否属于核心期刊!

1.进入图书馆、点击数据库检索、在输入cscd中国科学引文数据库&#xff08;Chinese Science Citation Database&#xff0c;简称CSCD&#xff09; 2 3 4 5 6点击详细信息进入下面的页面&#xff0c;可判断文档是否属于核心期刊&#xff01;

《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》

小夕曾经问一位做机器学习理论的学姐&#xff1a;“学姐学姐&#xff0c;EM算法是什么呢&#xff1f;”学姐回答&#xff1a;“EM算法啊&#xff0c;就是解决包含隐变量的参数估计问题。”小夕&#xff1a;然后小夕去问一位做工程的学长&#xff1a;“学长学长&#xff0c;EM算…

2022年诺贝尔物理学奖的科学内涵辨识

|作者&#xff1a;葛惟昆(清华大学物理系)本文选自《物理》2022年第12期摘要 2022年的诺贝尔物理学奖&#xff0c;被一些人误解为证明了量子纠缠现象。实际上&#xff0c;包括爱因斯坦本人都承认量子纠缠&#xff0c;关键在于如何诠释。今年诺贝尔物理学奖的价值在于这几位物…

机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)

前言在上一篇文章《机器学习系列-强填EM算法在理论与工程之间的鸿沟&#xff08;上&#xff09;》中&#xff0c;小夕用优&#xff08;恐&#xff09;雅&#xff08;怖&#xff09;的数学理论来向读者解释了EM算法的工作原理。那么从工程角度出发的EM算法又是怎样的呢&#xff…

暑期实习NLP算法岗面经总结

写文章暑期实习NLP算法岗面经总结呜呜哈做一个有思想的码农​关注他488 人赞同了该文章写在前面&#xff0c;从三月份开始找实习到现在正好两个月&#xff0c;这期间大大小小投了竹简智能、阿里、滴滴、美团、腾讯、京东、搜狗、百度、微软亚研几个公司&#xff0c;本着从小公司…

机器学习助力更好理解水的行为

来源&#xff1a;科技日报作者&#xff1a;刘霞为从理论上理解各种物质开辟更多途径科技日报北京12月19日电 &#xff08;记者刘霞&#xff09;美国一个研究团队在最新一期《物理评论快报》上刊发论文称&#xff0c;他们借助机器学习技术来理解水在零下100℃的行为。最新研究不…

期望最大化(EM)算法真如用起来那么简单?

声明&#xff1a;本文改编自订阅号“夕小瑶的卖萌屋”中的 《机器学习系列-强填EM算法在理论与工程之间的鸿沟&#xff08;上&#xff09;》、《机器学习系列-强填EM算法在理论与工程之间的鸿沟&#xff08;下&#xff09;》。前言小夕曾经问一位做机器学习理论的学姐&#xff…