自然语言处理与文本检索

今天开始把翟成祥教授的文本检索课程做一下笔记。
说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。


nlp的主要内容

 1 词语处理(lexical analysis = part-of-speech tagging):分词与词性标注
 2 句法分析(syntactic analysis):句法树、依存关系分析
 3 语义分析(semantic analysis):
  Dog(d1).
  Boy(b1).
  Playground(p1).
  Chasing(d1,b1,p1).
  应用:实体识别、关系识别、情感分析。

 4 推论(Inference)
  Scared(b1)
 
 5 语用分析(pragmatic analysis = speech act)
  语言分析的最高级形式
  

nlp的难度

 原因1:nlp是用于人类交流的,不是用于机器交流。
 原因2:人类交流是会产生歧义的(ambiguity),人类交流是有一个常识库(common sense)的。
 词级别的歧义。“设计”这个词可以是一个动词,也可以是一个名词。这在词性标注的时候就会产生歧义。例句:这座大楼的设计(名词)很先进。这座大楼是他设计(动词)的。“意思”这个词在汉语中会有多层含义。例句1:这篇文章的中心意思是我们过马路要遵守交通规则。例句2:这不过是我的一点小意思,您收下吧。这两个句子中“意思”就有不同的含义。
 句法级别的歧义。例如“natural language processing”可以理解为“自然语言的处理”,也可以理解为“自然的语言处理”。再举例:“A man saw a boy with a telescope”是一个男人拿着望远镜看到了一个男孩,还是一个男人看到了一个拿着望远镜的男孩。举个中文例子“关心学校的老师”是说 一个老师关心学校呢 还是说 有别人关心某个学校的老师。(中文例子来源于中国华文教育网)
 指代歧义(anaphora resolution):指代不明。“John persuaded Bill to buy a TV for himself”.himself 是指Johb还是Bill。
 假想问题(Presupposition):例如“He has quit smoking”。说明他曾经抽过烟。
 以上问题,都说明要想正确理解自然语言,需要维护一个庞大的常识库,以及分辨出上下文关系。

nlp目前能做到的

 这些资料是几年前的。这些数字是基于某一数据集得来的,不用太在意这些数值。词性标注:97%;句法分析:90%;语义分析:某些领域;推理:能做的事情不多;语用分析:特定的例子。

nlp用于文本搜索

 文本搜索引擎需要健壮、高效。

信息获取的两种方式

 push:推荐系统
 pull:搜索系统
 这两种系统都会介绍,首先会介绍搜索系统(在下一篇)。
 
 
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/424909.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第五十期:工作强度超996,失业半年即出局,硅谷为何如此“嗜血”?

在硅谷,靠创业发财的人被称为中了“硅谷六合彩”,大多数个体的艰难挣扎,最终换来了硅谷长久的繁荣昌盛。 划重点 1、在硅谷,靠创业发财的人被称为中了“硅谷六合彩”。 2、谷歌的合同工必须比正式工早两小时到公司打卡&#xff…

分块入门笔记

祝劳动快乐 数列分块 数列分块入门5 蒲公英 莫队 小Z的袜子 数颜色/维护队列 乱搞 块速递推 块状链表 文本编辑器 树上分块 王室联邦 树的统计 转载于:https://www.cnblogs.com/HenryHuang-Never-Settle/p/10804588.html

【数据结构与算法】二叉树

树 1.树、二叉树 2.二叉查找树 3.平衡二叉树、红黑树 4.递归树 一、树 1.树的常用概念 根节点、叶子节点、父节点、子节点、兄弟节点,还有节点的高度、深度以及层数,树的高度。 2.概念解释 节点:树中的每个元素称为节点 父子关系&#xff…

第二十四期:面试问:Kafka为什么速度那么快?该怎么回答

针对Kafka的基准测试可以参考,Apache Kafka基准测试:每秒写入2百万(在三台廉价机器上)下面从数据写入和读取两方面分析,为什么Kafka速度这么快 Kafka的消息是保存或缓存在磁盘上的,一般认为在磁盘上读写数据是会降低性能的&#x…

leetcode 91. Decode Ways

91. Decode Ways https://www.cnblogs.com/grandyang/p/4313384.html 当前位置只可能来自前一个位置和前两个位置的dp,来自前一个位置的话,当前的数字不能是0;来自前两个位置,必须是1到26之间 class Solution { public:int numDec…

文本搜索

说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。 什么是文本搜索(Text Retrieval) 存在一个文档集,用户输入查询语句表示查询需求,搜索引擎返回搜索结果。这个过程一般被称为信…

【数据结构与算法】平衡二叉树、红黑树

1.树、二叉树 2.二叉查找树 3.平衡二叉树、红黑树 4.递归树 一,什么是“平衡二叉查找树” 1,定义:二叉树中任意一个节点的左右子树的高度相差不能大于1。 所以:完全二叉树,满二叉树都是平衡二叉树,非完全…

第五十一期:互联网不如国企,去BAT的程序员都是diao丝?

要说互联网是目前最热门的行业,应该没人反驳吧。尤其是技术,大家都想毕业后去BAT大厂,甚至比如微软、google等外企科技公司,学编程出身的高校学子,去国企的还是比较少。除非为了拿一线城市的户口,不然可能真…

linux基本命令2

一.文件打包与压缩工具 1.zip可以压缩多个文件或目录 压缩多个文件zip /tmp/backp.zip /etc/hosts /etc/inittab 案例如下[rootlocalhost tmp]# zip backup.zip file5 file6 adding: file5 (deflated 63%) adding: file6 (stored 0%)[rootlocalhost tmp]# ll backup.zip -rw-r-…

文档排序--相似度模型--VSM

说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。 上文提到文档排序函数是TR的核心。文档排序函数的实现有几种思路,其中一种是基于相似度的模型。这种模型具体是用空间向量模型(Vector Sp…

第二十五期:搞定Linux Shell文本处理工具,看完这篇集锦就够了

Linux Shell是一种基本功,由于怪异的语法加之较差的可读性,通常被Python等脚本代替。既然是基本功,那就需要掌握,毕竟学习Shell脚本的过程中,还是能了解到很多Linux系统的内容。 Linux Shell是一种基本功,由…

【数据结构与算法】递归树

1.树、二叉树 2.二叉查找树 3.平衡二叉树、红黑树 4.递归树 一、什么是递归树 如果我们把这个一层一层的分解过程画成图,它其实就是一棵树。我们给这棵树起一个名字,叫作递归树。 时间复杂度分析的递归树法 分析每一步核心操作的时间复杂度分析树高&…

【02】Kubernets:使用 kubeadm 部署 K8S 集群

写在前面的话 通过上一节,知道了 K8S 有 Master / Node 组成,但是具体怎么个组成法,就是这一节具体谈的内容。概念性的东西我们会尽量以实验的形式将其复现。 部署 K8S 集群 互联网常用的 K8S 集群部署方式: 1. kubeadm&#xff0…

构建一个文本搜索系统

说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。 1 TR的主要构成 在文章中文本检索系统全文检索系统TR System  从图中看到(红色的方框)TR的主要过程有:分词(Tokenizer)、索引(Indexer)…

[Linux][Ubuntu]Linux实习常用操作/Debug总结

一、 Win下装Jupter 1.安装anaconda 配置环境变量 打开jupyter 2.切换目录 装软件 二、 移动复制粘贴上锁文件 sudo nautilus 三、 视频播放 sudo nano /etc/environment 添加QT_X11_NO_MITSHM1 四、 修改阿里源 提高下载速度 1.1打开software&updates 1.2 打…

第二十六期:100 个网络基础知识普及,看完成半个网络高手

本篇文章是关于100个网络基础知识普及,看完成半个网络高手!下面,我们一起来看。 作者:佚名来源 本篇文章是关于100个网络基础知识普及,看完成半个网络高手!下面,我们一起来看。 1)什么是链接? 链接是指两个设备之间…

团队冲刺第一天

今天要做什么:每个人都在网上学习Android软件开发的知识,完成简单的操作,实现简单功能。 明天要做什么:学习各种控件的作用,用法 站立会议照片: 任务看板照片: 燃尽图: 转载于:https…

[Leetcode][第679题][JAVA][24点游戏][回溯][暴力]

【问题描述】[困难] 【解答思路】 回溯 时间复杂度:O(1) 空间复杂度:O(1) class Solution {static final int TARGET 24;static final double EPSILON 1e-6;static final int ADD 0,MULTIPLY1,SUBTRACT 2,DIVIDE 3;public boolean judgePoint24(int…

第二十七期:网络爬虫程序员被抓,我们还敢爬虫吗?细数那些Java爬虫技术

最近,某大数据科技公司因为涉嫌非法抓取某招聘网站用户的简历信息,公司被查封,负责编写抓取程序的程序员也将面临坐牢。 作者:架构之路来源 最近,某大数据科技公司因为涉嫌非法抓取某招聘网站用户的简历信息&#xff…

文本搜索系统的评估

说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。  这部分本应该继续说反馈(FeedBack)的。但是课程中安排的是评估(Evaluation)。评估是用于衡量搜索引擎质量的。反馈是为了提高搜索引擎质量而进行的…