本帖是对(印度)Jalaj Thanaki作品《python自然语言处理》的翻译、缩减及改编~
nlp的基础应用
NLP是AI的子分支,其相关概念可以用于以下专家系统中:
语音识别系统
问答系统
机器翻译
文本摘要
情感分析
基于模板的聊天机器人
文本分类
主题分割
nlp的高级应用
·理解自然语言指令并通过自然语言同人类交互的类人机器人。
·构建一个通用机器翻译系统是NLP领域的长期目标之一。因为你可以轻松地构建两个特定语种之间的机器翻译系统,但这个系统并不能用来翻译这两个语种之外的其他语言。在深度学习的帮助下,我们可以构建一个通用的机器翻译系统,谷歌最近声称已经非常接近这一目标了。
·为指定文档生成逻辑标题的NLP系统是高级应用之一。在深度学习的帮助下,我们可以为文档生成标题和摘要。
·为某个主题或图像生成文本是一种高级NLP应用。
·为人类生成个性化文本并忽略手写错误的高级机器人也是我们努力的目标之一。图1展现了更多的NLP应用。
NLP和Python相结合的优势
下面的几个因素决定了 Python是构建自然语言处理专家系统的最佳选择之一·。使用Python为基于NLP的专家系统开发原型相当快速和便捷。
·有大量的开源NLP库可供 Python程序员使用。
·社区支持非常强力。
·易于使用,对初学者而言不复杂。
·快速开发:测试和评估都很简单。
·许多新框架,如 Apache Spark、 Apache Flink、 TensorFlow等,都提供 Python接口·相比其他编程范式,使用 Python构建的基于NLP的系统的最优化更为简单。
nltk环境搭建
建议本书的所有读者都从 GitHub 上获取NLPython项目的分支,项目地址是https://github.com/jalajthanaki/NLPython
本书使用 Linux(Ubuntu)作为操作系统。如果对 Linux不太熟悉,最好试着习惯使用它,因为大部分的高级框架,如 Apache Hadoop、 Apache Spark、 Apache Flink、 Google TensorFlow等,都需要 Linux系统环境。
GitHub项目中包含了如何安装 Linux,以及本书将要用到的基础 Linux命令的教学。如果你对Git不太了解,同样可以在项目中找到基础的 github 操作命令,链接是https://github.com/jalajthanaki/NLPython/tree/master/ch1/documentation
本章所需环境的安装指南见地址https://github.com/jalajthanaki/NLPython/tree/master/ch1/documentation
GitHub项目包含了安装指南、代码和wiki页面等。如果读者有任何问题,可以把它们发在 Gitter小组上。Gitter小组的网址是https://gitter.im/NLPython/Lobby
安装nltk的步骤如下
①其实最简单的安装方法就是直接在Google colab输入:
import nltk
nltk.download("popular")
②而书上提供的方法是针对Ubuntu的:
Installation and setup NLTK enviroment on Linux Ubuntu 14.04 (recommended way)
import sys
sys.version
sys.version_info 2_Pythonsys.version_info(major=2, minor=7, micro=6, releaselevel='final', serial=0)Installation of pyhton on Ubuntu 14.04Ubuntu system has pyhton 2.7.X inbuilt no need to download and install it To confirm whether python has been properly install or not do following steps.Step 1: Open system terminal
Step 2:
$ python -V
Python 2.7.6Install pip and setup tools On Linux ubuntu 14.04What is pip?
pip is a package management system used to install and manage software packages written in PythonOpen your system's terminal and execute following commands$ sudo apt-get install -y python-pip
$ sudo pip install -U pip
$ sudo pip install setuptools==33.1.1Confirm pip has been installed successfully.$ pip -V
pip 9.0.1 from /usr/local/lib/python2.7/dist-packages (python 2.7)Next step is to install nltk package and download nltk dataInstallation steps for NLTK on terminal execute following command
$ sudo pip install nltk
$ pythonAfter this now you are inside the python shell and check your nltk package install properly or not$ python
Python 2.7.6 (default, Oct 26 2016, 20:30:19)
[GCC 4.8.4] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>>import nltk
>>>nltk.download()Choose the path where you wnat to download nltk data and click "Download" option.Download process may take long time.
you can refer the diagram 1.4 given in chapter no 1OR If you don't want to go inside python shell you can open your system's terminal and execute the following command
Command : sudo python -m nltk.downloader -d PATH_OF_NLTK_DATA all
Actual command : sudo python -m nltk.downloader -d /usr/local/share/nltk_data all
读者提示
本书是一本实用指南。作为专业人士,我强烈建议读者复现 GitHub上的代码,并完成书中的练习,这有助于理解NLP概念。不经练习而想彻底了解NLP几乎是不可能的,我保证这些代码很有趣。接下来的章节内容如下:
NLP概念解释
相关应用
NLP概念的必要性
实现概念的可行方法(代码都在 GitHub上)
面临的挑战
克服挑战的方法
练习