深入浅出不可思议的中文分词技术

亲爱的喵喵们,明天小夕就正式开学啦。开学后每周有几天的课比较多,小夕为了保证每篇文章的质量,可能做不到每天一更啦。但是小夕也会尽量挤出时间来写文章,尽量保证两三天更一篇。希望不要责怪小夕哦...

分词,也叫切词,即通过某种方式将句子中的每个词语识别并切分开来。分词技术不仅仅适用于中文哦,对于日文、韩文等语言也同样适用。在某些特殊场景如手写识别,自带分词属性的英语会因连字而变得分词界限模糊,此时也是需要靠分词技术解决的。

 

其实呢,分词技术,想一下的话会觉得很难,再想一下又会觉得简单,再思考细节又觉得很难。真正研究起来又会发现很简单QAQ。

一开始觉得难是因为没有想到“词典”这个好东西。没有词典的话,好像从那么多计算机看起来长得一样的文字中切成一个个的词是不可思议的(在计算机看来,每个字都是一串01)。

 

简单

 

然而想到了词典,就觉得容易啦。直接从一个句子的开头第一个开始,然后查词典不就好啦~比如“我是机智的小夕”,查词典时发现没有“我是”这个词,于是在“我”和“是”之间画一道线。

 

然后再查“是机”,发现也没有。于是在“是”和“机”之间也划一道。

 

再查“机智”,诶?有了!于是再查“机智的”,发现没有这个词。那就在“机智”和“的”之间划一道!

 

假如词典很智能,也能收录人名。于是“我|是|机智|的|小夕”就完成啦~

 

 

然而问题来了。如果采用查字典的办法,“发展中国家”会怎样分呢?显然从左到右查字典后会变成这样“发展|中国|家”。这显然是不对的呀。(敢说不知道“发展|中|国家”,小夕打你哦)

 

再仔细一想,好像这种情况非常多。

 

怎么解决呢?有人说那就从右往左,有人说那就从中间往两头,也有语言学家开始试图编写文法规则。

 

但是问题难度爆炸了,各种天马行空的改良效果都很一般。

 

简单

直到某个大师将统计语言模型用在了分词技术上!

 

那么什么是统计语言模型呢?

 

统计语言模型其实就是通过计算一个条件概率链来计算出一个句子出现的概率,并将概率的大小抽象为这个句子的得分。出现概率越大的句子,得分越高,句子越正常。反之得分低的句子越不正常,或者说人类一般不会表达这样的句子。

 

比如“的那问树你发可非受的”这个乱打的句子,利用统计语言模型,可以计算出这个句子的得分非常低,说明这是个不正常的句子。而“今天天气怎么样”这个句子的得分就会非常高。

高能部分

怎么做到计算句子得分/概率的呢?

 

假设一个句子有n个基元(基元即句子的组成单位,有时可以认为是字,有时认为是词,有时是短语等),该句子就可以表示为w1w2w3…w,则该句子的概率就等于

 

P=p(w1)p(w2|w1)p(w3|w1w2)…p(wn|w1w2…wn-1)

 

这个公式的意思就是:(第一个词w1出现的概率)*(当第一个词w1出现时,出现第二个词w2的概率)*(前两个出现的词分别是w1,w2时,出现w3的概率)*…

 

然而这个概率的计算代价实在太大了,计算最后一个词的出现概率时要考虑之前所有的词已经出现的历史。除了计算代价外,还会带来一些其他问题,因此我们可以限定参考的历史词的数量,来近似句子的概率。比如我们限定为1,此时句子的概率等于

 

P=p(w1)p(w2|w1)p(w3|w2)…p(wn|wn-1)

 

这条概率链就是随机过程中讲的一阶马尔可夫链。看,这样是不是计算量少多啦?此时的语言模型被称为2-gram模型。

 

同理,若将历史词的数量限定为2,则句子的概率就是二阶马尔可夫链,此时的语言模型被称为3-gram模型。

 

若完全不考虑历史词,则此时句子概率计算的考虑就成了基元相互独立的情况了,此时称为1-gram模型。此时的概率

 

P=p(w1)p(w2)p(w3)…p(wn)

 

经过小夕的精彩讲解依然没有理解统计语言模型的喵喵可以求助wiki或者查询“自然语言处理”或“信息检索”领域的相关书籍哦。

 

基于统计语言模型的分词方法有很多种,小夕在这里只讲一种最容易理解的思路。

 

首先,每个词(基元)出现的概率不是凭空就知道的,往往是通过大量样本从统计方法(别看成统计学习!这里跟机器学习没有半毛钱关系!)近似得到的。

 

比如,我们手头有人民日报的最近十年的报纸,然后我们把其中所有的句子存在电脑里作为我们的语料库。

 

然后我们通过某种比较low的不需要语言模型的方法,比如前面提到的查字典的方法,来对人民日报大语料库进行分词(一种效果比较好的方法是后向匹配,即从每个句子的末尾开始往前查字典。且更长的词能匹配到,就放弃已查到的短词)。

 

可想而知,很多句子都分词分得不对,但是这不影响我们统计每个词出现的概率。当语料库足够大时,那些被分错的词的影响就近乎忽略了。(不理解的喵喵请补概率论的大数定理)

 

于是我们从语料库中得到了每个词的出现次数,然后除以语料库中所有的词,即得到每个词的出现概率。因此很容易理解,对于“女生”这个词的出现概率会非常大,而对于“嘎玛”这个奇怪的词的出现概率会非常小。单独出现一个“猫”的概率非常大,而单独出现一个“生”的概率会非常小。

 

基于上面得到的每个词的出现概率,我们计算“北京大学生”的正确分词结果。

 

我们首先列举出其所有的分词可能性,比如

“北|京大|学|生”;

“北|京|大|学|生”;

“北京|大|学生”;

“北京|大学|生”;

“北京大学|生”等~

小夕不一一列举啦。

 

然后利用统计语言模型计算每个分词结果的得分。此时小夕为了讲解方便,设语言模型为前面高能部分中的1-gram模型,此时每个句子的得分即每个词出现的概率的乘积(无需考虑条件概率)。而刚才讲了,我们已经从语料库中得到了每个词出现的概率。

 

于是一经计算,妖怪就原形毕露啦~比如“北|京大|学|生”的概率会非常低,因为单独出现“北“,单独出现“京大”、“学”、“生”这些词的概率都非常小,所以乘起来的结果自然就很小啦~所以这个句子的得分很低。

 

同样的道理,对于“北京|大学生”这个句子,得分就会很高。因为“北京”的出现概率很大,“大学生”的概率也很大。而“北京大学|生”这种分法的话,虽然“北京大学”的概率比较大,但单独一个“生”的概率很小,乘起来之后会比“北京|大学生”的值小很多!所以“北京大学|生”被干掉咯。

 

所以,最终得分最高的句子,也就是出现概率最大的句子,自然是“北京|大学生”啦~

 

完!美!收!工!

最后感谢一位喵喵提醒小夕的转账二维码太小导致有的手机扫不出QAQ,小夕将二维码放大啦。你们的支持是小夕写出精彩文章的动力哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481300.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(三)

能够坚持走到阶段三的喵一定是很有毅力的喵!也是很合格的机器学习/人工智能研究者啦~但是走到这里,也意味着您不满足于使用看似孤立的机器学习模型来生硬的完成一些任务,那么,大一统的理论体系就在这一阶段建立吧~前言完成这一阶段…

专访中国工程院院士杜祥琬,可控核聚变美国成了吗?

凤凰网科技 出品作者|蒋浇微信编辑|李金洋12月13日,美国能源部宣布,在加利福尼亚州的劳伦斯利弗莫尔国家实验室(LLNL),研究人员首次在核聚变反应中产生“净能量增益”,即聚变反应产生…

一个问题就可以辨别真假NLP(自然语言处理)研究者

╮(╯▽╰)╭哎,自从人工智能火了以后,最近自称NLP研究者的人越来越多了,然而这其中的大忽悠有多少小夕就不想多说了。如果连自己在哪个领域、哪个学科搞研究都不懂的话,你相信他真的是这个领域的研究者喵?反正小夕不信…

2023年十大数字科技前沿应用趋势

来源:腾讯研究院编辑:蒲蒲继21年的“变量”、22年的“融合”,2023年数字科技的发展呈现出明显的“升维”特征。近日,腾讯研究院联合百位内部科学家、技术专家和外部院士专家,发布《升维 - 2023年十大数字科技前沿应用趋…

绕开数学,讲讲信息论

看到文章的标题,肯定有人想说“诶?小夕你不是做人工智能吗?怎么又捣鼓起通信里面的信息论了?”小夕肯定会很开心的揪住你,然后说“哈哈哈~发现一只外行!”学过机器学习的喵喵肯定知道很多决策树的核心就是计…

大数据时代的机器学习有什么不同?

小夕昨晚没有发文章&#xff0c;却收到了一个大红包和好多晚安&#xff0c;好受之有愧..>_<...谢谢你们喵。路人戊&#xff1a;小夕&#xff0c;我们身处大数据时代了&#xff0c;好厉害呢。小夕&#xff1a;嗯嗯&#xff0c;哪里厉害了呢&#xff1f;路人戊&#xff1a;…

Science Bulletin | 阿尔茨海默病的现状与未来

目前全球人口老龄化进展严重&#xff0c;中国已成为世界上老龄化最快的国家之一。随着人口老龄化&#xff0c;痴呆患者的数目急剧增加&#xff0c;阿尔茨海默病&#xff08;Alzheimers disease, AD&#xff09;作为痴呆的主要原因&#xff0c;已成为当今社会最为热点的话题之一…

Science年度十大科学突破出炉:韦伯望远镜高居榜首,AIGC、NASA主动撞击小行星紧随其后...

来源&#xff1a;FUTURE远见选编&#xff1a;FUTURE | 远见 闵青云 文&#xff1a;量子位 前脚韦伯望远镜运维科学家刚获得Nature年度十大人物&#xff1b;紧接着&#xff0c;Science也将韦伯望远镜评为年度最大科学突破&#xff01;今天&#xff0c;Science重磅发布2022年度科…

词袋、独热与词向量

亲爱的读者喵喵&#xff0c;由于一些事情&#xff0c;小夕最近情绪欠佳&#xff0c;导致昨天又失约没有更新文章...而且文章中萌气散失...小夕会尽快调整好哦&#xff0c;小夕依然萌萌嗒我们知道&#xff0c;传统的数据挖掘任务面向的是结构化数据。结构化数据很好理解&#xf…

人工智能会“偷走”潜艇的隐身能力吗?

更好的探测技术 不仅能使海洋变得透明&#xff0c;也许还会削弱核威慑力。潜艇的价值主要在于其隐蔽性。有一种名为“相互确保摧毁”的威慑战略&#xff0c;其关键在于尽量确保潜艇在核战争的第一次导弹打击中幸存下来&#xff0c;从而在第二次打击时发射导弹回击。因此&#x…

人工智能大地图之分布式人工智能篇

前言人工智能大地图系列文章更新啦&#xff01;大地图系列的文章是为了帮助即将入门和初步入门人工智能相关领域的喵喵从上帝视角看清整个人工智能学科的全貌&#xff08;好长的句子&#xff09;&#xff0c;小夕可不希望小夕的粉丝在研究了一年的人工智能某方向后&#xff0c;…

符合人类创作过程的AIGC:自动生成长故事的模型出现了

来源&#xff1a;机器之心报道编辑&#xff1a;小舟、蛋酱AI写文章还是得模仿人类的创作方法。在今天的人工智能领域&#xff0c;AI 写作神器层出不穷&#xff0c;技术和产品可谓日新月异。如果说 OpenAI 两年前发布的 GPT-3 在文笔上还稍欠火候&#xff0c;那么前段时间的 Cha…

Science:挑战传统理论,重塑联想学习概念

来源&#xff1a;brainnews编译作者&#xff1a;Young&#xff08;brainnews创作团队&#xff09;校审&#xff1a;Simon&#xff08;brainnews编辑部&#xff09;学会根据环境线索预测奖赏对生存至关重要。人们认为&#xff0c;动物通过在结果偏离预期时更新预测来学习预测奖赏…

【完结】史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(四)

小夕再次感谢大家的关心&#xff0c;你们的小夕已经满血复活啦&#xff01;小夕会坚持为大家带来独一无二的干货和故事哦。前言有读者反映&#xff0c;ta若能完成这个系列的阶段三&#xff0c;就在他们实验室被奉为神了。因为他们实验室每个人人手一本《模式分类》&#xff0c;…

文本相似度

《统计学习方法》-李航 损失函数总结 概要 <div id"post_detail">NLP点滴——文本相似度 目录 前言字面距离common lang库相同字符数莱文斯坦距离(编辑距离)定义实现方式Jaro距离定义实现方式应用SimHash定义基本流程相似性度量存储索引实现应用语义相似性背…

「可解释知识图谱推理」最新方法综述

来源&#xff1a;图灵人工智能近年来&#xff0c;以深度学习模型为基础的人工智能研究不断取得突破性进展&#xff0c;但其大多具有黑盒性&#xff0c;不 利于人类认知推理过程&#xff0c;导致高性能的复杂算法、模型及系统普遍缺乏决策的透明度和可解释性。在国 防、医疗、网…

小夕的算法入门之路

小夕都快要成XX入门指导专业户了QAQ&#xff0c;小夕是要写人工智能和计算机干货的啊喂~好吧&#xff0c;问小夕如何入门算法的小伙伴太多了&#xff0c;还是写一篇文章吧。小夕还收到了“如何准备托福”和“如何准备考研英语”的求助&#xff0c;然而小夕没有考过&#xff0c;…

AIGC发展路径思考:大模型工具化普及迎来新机遇

来源&#xff1a;腾讯科技摘要&#xff1a;当前&#xff0c;AIGC引发社会关注&#xff0c;尤其是大模型和开源模式的推动&#xff0c;让AIGC有望成为AI应用落地的新领域。一方面大模型和开源加速降低AIGC应用门槛并拓展应用范围&#xff1b;另一方面AI与创新的界限进一步模糊&a…

0基础讲解机器学习算法-朴素贝叶斯分类器

朴素贝叶斯分类器可以说是最经典的基于统计的机器学习模型了。首先&#xff0c;暂且不管贝叶斯是什么意思&#xff0c;朴素这个名字放在分类器中好像有所深意。 一查&#xff0c;发现这个分类器的英文是“Nave Bayes”。Nave&#xff08;读作“哪义务”&#xff09;即幼稚的、…

你可以在虚拟世界里过上美好生活吗?

来源&#xff1a;混沌巡洋舰时间来到 2095 年。地球表面满目疮痍&#xff0c;核战争和气候变化引发一场灾难。你只能过着困苦的生活&#xff0c;躲避匪帮&#xff0c;避开地雷。你的主要愿望就是活下去。或者&#xff0c;你也可以将自己的肉体锁存在安保严密的仓库里&#xff0…