python自然语言处理书籍_精通Python自然语言处理pdf

自然语言处理(NLP)是有关计算语言学与人工智能的研究领域之一。NLP主要关注人机交互,它提供了计算机和人类之间的无缝交互,使得计算机在机器学习的帮助下理解人类语言。

本书详细介绍如何使用Python执行各种自然语言处理(NLP)任务,并帮助读者掌握利用Python设计和构建基于NLP的应用的实践。本书引导读者应用机器学习工具来开发各种各样的模型。对于训练数据的创建和主要NLP应用的实现,例如命名实体识别、问答系统、语篇分析、词义消歧、信息检索、情感分析、文本摘要以及指代消解等,本书都进行了清晰的介绍。本书有助于读者使用NLTK创建NLP项目并成为相关领域的专家。

通过阅读本书,你将能够:

● 实现字符串匹配算法以及标准化技术;

● 实现统计语言建模技术;

● 深刻理解词干提取器、词形还原器、形态分析器以及形态生成器的开发;

● 开发搜索引擎并实现词性标注和统计建模(包含n-gram方法)等相关概念;

● 熟悉诸如树型库建设、CFG建设、CYK以及Earley线图解析算法等相关概念;

● 开发基于NER的系统并理解和应用情感分析的相关概念;

● 理解并实现信息检索和文本摘要等相关概念;

● 开发语篇分析系统以及基于指代消解的系统。

精通Python自然语言处理 内容简介

自然语言处理是计算语言学和人工智能之中与人机交互相关的领域之一。

本书是学习自然语言处理的一本综合学习指南,介绍了如何用Python实现各种NLP任务,以帮助读者创建基于真实生活应用的项目。全书共10章,分别涉及字符串操作、统计语言建模、形态学、词性标注、语法解析、语义分析、情感分析、信息检索、语篇分析和NLP系统评估等主题。

本书适合熟悉Python语言并对自然语言处理开发有一定了解和兴趣的读者阅读参考。

精通Python自然语言处理 目录

前言

第1章 字符串操作

1.1 切分

1.2 标准化

1.3 替换和校正标识符

1.4 在文本上应用Zipf定律

1.5 相似性度量

1.6 小结

第2章 统计语言建模

2.1 理解单词频率

2.2 在MLE模型上应用平滑

2.3 为MLE开发一个回退机制

2.4 应用数据的插值以便获取混合搭配

2.5 通过复杂度来评估语言模型

2.6 在语言建模中应用Metropolis-Hastings算法

2.7 在语言处理中应用Gibbs采样法

2.8 小结

第3章 形态学:在实践中学习

3.1 形态学简介

3.2 理解词干提取器

3.3 理解词形还原

3.4 为非英文语言开发词干提取器

3.5 形态分析器

3.6 形态生成器

3.7 搜索引擎

3.8 小结

第4章 词性标注:单词识别

4.1 词性标注简介

4.2 创建词性标注语料库

4.3 选择一种机器学习算法

4.4 涉及n-gram的统计建模

4.5 使用词性标注语料库开发分块器

4.6 小结

第5章 语法解析:分析训练资料

5.1 语法解析简介

5.2 Treebank建设

5.3 从Treebank提取上下文无关文法规则

5.4 从CFG创建概率上下文无关文法

5.5 CYK线图解析算法

5.6 Earley线图解析算法

5.7 小结

第6章 语义分析:意义很重要

6.1 语义分析简介

6.2 使用Wordnet生成同义词集id

6.3 使用Wordnet进行词义消歧

6.4 小结

第7章 情感分析:我很快乐

7.1 情感分析简介

7.2 小结

第8章 信息检索:访问信息

8.1 信息检索简介

8.2 向量空间评分及查询操作符关联

8.3 使用隐性语义索引开发IR系统

8.4 文本摘要

8.5 问答系统

8.6 小结

第9章 语篇分析:理解才是可信的

9.1 语篇分析简介

9.2 小结

第10章 NLP系统评估:性能分析

10.1 NLP系统评估要点

10.2 IR系统的评估

10.3 错误识别指标

10.4 基于词汇搭配的指标

10.5 基于句法匹配的指标

10.6 使用浅层语义匹配的指标

10.7 小结

精通Python自然语言处理 精彩文摘

自然语言处理(Natural Language Processing,NLP)关注的是自然语言与计算机之间的交互。它是人工智能(Artificial Intelligence,AI)和计算语言学的主要分支之一。它提供了计算机和人类之间的无缝交互并使得计算机能够在机器学习的帮助下理解人类语言。在编程语言(例如C、C++、Java、Python等)里用于表示一个文件或文档内容的基础数据类型被称为字符串。在本章中,我们将探索各种可以在字符串上执行的操作,这些操作将有助于完成各种NLP任务。

本章将包含以下主题:

·文本切分。

·文本标准化。

·替换和校正标识符。

·在文本上应用Zipf定律。

·使用编辑距离算法执行相似性度量。

·使用Jaccard系数执行相似性度量。

·使用Smith Waterman算法执行相似性度量。

切分可以认为是将文本分割成更小的并被称作标识符的模块的过程,它被认为是NLP的一个重要步骤。

当安装好NLTK包并且Python的交互式开发环境(IDLE)也运行起来时,我们就可以将文本或者段落切分成独立的语句。为了实现切分,我们可以导入语句切分函数,该函数的参数即为需要被切分的文本。

sent_tokenize函数使用了NLTK包的一个叫作PunktSentenceTokenizer类的实例。基于那些可以标记句子开始和结束的字母和标点符号,NLTK中的这个实例已经被训练用于对不同的欧洲语言执行切分。

6322.jpg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/542541.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

通达oa 2013 php解密,通达OA漏洞学习 - 安全先师的个人空间 - OSCHINA - 中文开源技术交流社区...

说明通达OA漏洞在去年上半年已爆出,这不趁着周末没事做,将源码下载下来进行复现学习。文件包含测试文件包含检测,payload1:ip/ispirit/interface/gateway.php?json{"url":"/general/../../mysql5/my.ini"}利用文件包含访…

温赵轮 访谈

“温赵轮”三大软狗,你听说过吗?今天的1024访谈录给大家介绍的就是程序员中当之无愧的偶像组合——温赵轮。 Winter寒冬。阿里P8,正在向P9的道路上奔跑。传说中的他有钱、出身好,可不是搞互联网的屌丝程序员。 老赵,…

linux开源文档管理系统_Linux中的系统管理员问题 免费和开源软件

linux开源文档管理系统根帐号 (Root Account) The "root" account is the most unrestrictive account on a Linux Operating system. This account enables you to complete all features of System admin, including accounts, changing client passwords, looking…

matlab上机实验1,上机实验1:熟悉matlab基本操作

其中 x 在 [-2, 2] 间共等切分为 21 点,y 在 [-1, 1] 间共等切分为 21 点,所以此曲面共有 21*21441 个点。a. 请用预设的颜色对应表(Colormap)来画出此曲面。 b. 请以曲面的斜率来设定曲面的颜色。 c. 请以曲面的曲率来设定曲面的颜色。2. 请用 meshc 指…

公众号 -「前端攻略 开光篇」

作为一枚程序员,每件重要项目的开始都忍不住使用"Hello World"。 这个公众号是不是来晚了?如果你有这个疑问,那么我想说:对于写作和思考,任何时候都不晚。我用四个简单的自问自答,来讲讲这个前端…

python 桌面应用 启动缓慢_如何加快Python 应用的启动时间

我听说pipenv9.0.2已经发布,启动时间有了很大的改进。 我很快就试了一下,但我觉得并不快。所以我用Python3.7的新特性来研究它。 在本文中,我将介绍该特性以及如何使用它。 启动时间≒导入时间 例如,pipenv -h 的执行时间比显示帮…

python单词首字母大写_在Python中将每个单词的首字母大写

python单词首字母大写Here, we are implementing a python program to capitalizes the first letter of each word in a string. 在这里,我们正在实现一个python程序来大写字符串中每个单词的首字母。 Example: 例: Input: "HELLO WORLD!"O…

matlab中求模最大,matlab求取模极大值时出错

本帖最后由 Nate_ 于 2016-4-17 15:57 编辑points1024 时,有波形输出,但信号有5438个点。改为5438就不行。主程序:%小波模极大值重构是采用的交替投影法close all;points5438; level4; sr360; num_inter6; wfdb4;%所处理数据的…

stl向量_如何检查C ++ STL中向量中是否存在元素?

stl向量Given a vector and an element to be searched in the vector. 给定一个向量和要在向量中搜索的元素。 To check whether an elements exists in a vector or not – we use find() function. find() function takes 3 arguments. 要检查向量中是否存在元素 –我们使用…

java socket如何请求485协议_javaSE第十五部分 网络编程(1)Socket和ServerSocket

网络编程基础知识C/S结构:全称为Client/Server结构,是指客户端和服务器结构。常见程序有QQ、迅雷等软件。B/S结构:全称为Browser/Server结构,是指浏览器和服务器结构。常见浏览器有谷歌、火狐等。两种架构各…

【分享】linux下u盘使用

2019独角兽企业重金招聘Python工程师标准>>> linux下u盘使用 方案一: Linux不像Windows一样,接上新硬件后可以自动识别,在Linux下无法自动识别新硬件的,需要手动去识别。USB移动存储设备通常被识别为sda1,…

kotlin中判断字符串_Kotlin程序删除字符串中所有出现的字符

kotlin中判断字符串Given a string and a character, we have to remove all occurrences of the character in given string. 给定一个字符串和一个字符,我们必须删除给定字符串中所有出现的字符。 Example: 例: Input:string "includeHelp Del…

Java9中使用jpa,jpa – eclipselink在Java 9上使用final字段进行静态编织

我有一些JPA注释字段,如下所示:Column(name "SOME_FIELD", updatable false, nullable false)private final String someField;当实体插入数据库时​​,这些字段存储在数据库中.它们无法进一步更新.对于Java编程语言,可以将这些字段视为final.使用Ecli…

python语言程序设计及医学应用_Python语言程序设计(高等学校计算机专业规划教材)...

第1章Python语言概述/1 1.1Python语言的发展1 1.1.1Python的起源1 1.1.2Python的发展2 1.2Python语言的特点2 1.2.1Python的特性2 1.2.2Python的缺点4 1.2.3Python与其他语言的比较5 1.3简单的Python程序介绍5 1.4Python的程序开发工具8 1.4.1Python的版本选择8 1.4.2Python的安…

swift 3.0 中使用 xib

文章写于2016年9月底,Xcode 8,swift 3.0真是蛋疼,折腾了很长时间,试了网上很多教程,结果又莫名的可以了! 1.方法和OC中一样 将一个xib文件和一个ViewController类进行关联的几步操作: command &…

数字图像处理图像反转的实现_使用8086微处理器反转16位数字

数字图像处理图像反转的实现Problem statement: 问题陈述: Write an assembly language program in 8086 microprocessor to reverse 16 bit number using 8 bits operation. 在8086微处理器中编写汇编语言程序,以使用8位操作反转16位数字。 Example: …

php猴子找大王算法,教程方法;php实现猴子选大王问题算法实例电脑技巧-琪琪词资源网...

琪琪词资源网-教程方法;php实现猴子选大王问题算法实例电脑技巧,以下是给大家带来的教程方法;php实现猴子选大王问题算法实例,大家可以了解一下哦!下面为你介绍php实现猴子选大王问题算法实例。本文实例讲述了php实现猴子选大王问题算法。分享给大家供大…

numpy 归一化_NumPy 数据归一化、可视化

仅使用 NumPy,下载数据,归一化,使用 seaborn 展示数据分布。下载数据import numpy as npurl https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.datawid np.genfromtxt(url, delimiter,, dtypefloat, usecols[1])仅提取…

java虚拟机规范阅读(三)异常

Java虚拟机里面的异常使用Throwable或其子类的实例来表示,抛异常的本质实际上是程序控制权的一种即时的、非局部(Nonlocal)的转换——从异常抛出的地方转换至处理异常的地方。绝大多数的异常的产生都是由于当前线程执行的某个操作所导致的&am…

puppeteer api_使用Node.js和puppeteer API从URL创建PDF文件

puppeteer apiWe will continue using Node.js and puppeteer which is a node library. As we saw in our last article, Puppeteer is a Node library developed by Google and provides a high-level API for developers. 我们将继续使用Node.js和puppeteer(这是一个节点库)…