python分词代码_中文分词--最大正向匹配算法python实现

最大匹配法:最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描(为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描)。例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字。然后逐字递减,在对应的词典中进行查找。

下面以“我们在野生动物园玩”为例详细说明一下正向与逆向最大匹配方法:

1、正向最大匹配法:

正向即从前往后取词,从7->1,每次减一个字,直到词典命中或剩下1个单字。

第1次:“我们在野生动物”,扫描7字词典,无

第2次:“我们在野生动”,扫描6字词典,无

。。。。

第6次:“我们”,扫描2字词典,有

扫描中止,输出第1个词为“我们”,去除第1个词后开始第2轮扫描,即:

第2轮扫描:

第1次:“在野生动物园玩”,扫描7字词典,无

第2次:“在野生动物园”,扫描6字词典,无

。。。。

第6次:“在野”,扫描2字词典,有

扫描中止,输出第2个词为“在野”,去除第2个词后开始第3轮扫描,即:

第3轮扫描:

第1次:“生动物园玩”,扫描5字词典,无

第2次:“生动物园”,扫描4字词典,无

第3次:“生动物”,扫描3字词典,无

第4次:“生动”,扫描2字词典,有

扫描中止,输出第3个词为“生动”,第4轮扫描,即:

第4轮扫描:

第1次:“物园玩”,扫描3字词典,无

第2次:“物园”,扫描2字词典,无

第3次:“物”,扫描1字词典,无

扫描中止,输出第4个词为“物”,非字典词数加1,开始第5轮扫描,即:

第5轮扫描:

第1次:“园玩”,扫描2字词典,无

第2次:“园”,扫描1字词典,有

扫描中止,输出第5个词为“园”,单字字典词数加1,开始第6轮扫描,即:

第6轮扫描:

第1次:“玩”,扫描1字字典词,有

扫描中止,输出第6个词为“玩”,单字字典词数加1,整体扫描结束。

正向最大匹配法,最终切分结果为:“我们/在野/生动/物/园/玩”

2、python代码实现

1 #-*- coding: utf-8 -*-

2 """

3 Created on Thu Jul 19 08:57:56 20184

5 @author: Lenovo6 """

7

8 test_file = ‘train/train.txt‘#训练语料

9 test_file2 = ‘test/test.txt‘#测试语料

10 test_file3 = ‘test_sc/test_sc_zhengxiang.txt‘#生成结果

11

12 def get_dic(test_file): #读取文本返回列表

13 with open(test_file,‘r‘,encoding=‘utf-8‘,) as f:14 try:15 file_content =f.read().split()16 finally:17 f.close()18 chars =list(set(file_content))19 returnchars20

21 dic =get_dic(test_file)22 defreadfile(test_file2):23 max_length = 5

24

25 h = open(test_file3,‘w‘,encoding=‘utf-8‘,)26 with open(test_file2,‘r‘,encoding=‘utf-8‘,) as f:27 lines =f.readlines()28

29 for line in lines:#分别对每行进行正向最大匹配处理

30 max_length = 5

31 my_list =[]32 len_hang =len(line)33 while len_hang>0 :34 tryWord =line[0:max_length]35 while tryWord not indic:36 if len(tryWord)==1:37 break

38 tryWord=tryWord[0:len(tryWord)-1]39 my_list.append(tryWord)40 line =line[len(tryWord):]41 len_hang =len(line)42

43 for t in my_list:#将分词结果写入生成文件

44 if t == ‘\n‘:45 h.write(‘\n‘)46 else:47 h.write(t + " ")48

49 h.close()50

51 readfile(test_file2)

3、训练语料和测试语料见附件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/528934.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python输出所有组合数_python – GridSearchCV是否存储了所有参数组合的所有分数?...

GridSearchCV使用“评分”来选择最佳估算器.训练GridSearchCV后,我希望看到每个组合的得分. GridSearchCV是否存储每个参数组合的所有分数?如果它如何获得分数?谢谢.这是我在另一篇文章中使用的示例代码.from sklearn.feature_extraction.text import Co…

php 504网关,504 gateway timeout什么意思

504 gateway time-out(504网关超时错误)是HTTP状态代码,这意味着一个服务器在尝试加载网页或填写浏览器的另一个请求时未从其访问的另一台服务器收到及时响应。换句话说,504错误通常表明不同的计算机,即您正在获取504消息的网站无法控制但依赖…

python 二维数组长度_剑指offer二维数组中的查找【Java+Python】

点击上方"蓝字",关注了解更多二维数组中的查找1. 题目描述在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组…

php 静态变量 引用,PHP的返回引用(方法名前加)和局部静态变量(static)

先阅读手册从函数返回一个引用,必须在函数声明和指派返回值给一个变量时都使用引用操作符 & :例子 17-13. 由函数返回一个引用有关引用的更多信息, 请查看引用的解释。在来看一段很多开源代码喜欢用的单例注册模式 class a{} class b{} function &am…

失物招领小程序_通知 | 保卫部拟设置失物招领处

保卫部拟设置失物招领处为规范对遗失物品的接收、登记、发放等工作,切实维护师生利益,保卫部拟设置失物招领处,现将有关失物招领的流程明确如下:1、失物招领地点:保卫部二楼中厅。2、遗失物的接收。师生将拾得的遗失物…

php获取表所有数据类型,php excel 导入 导入三级分类 表格应该怎么设计才能得到想要的数据格式?...

就是多个1级分类 下面有不确定个二级分类 二级分类下面有不确定个三级分类 我想获取到相关的数据组合写入数据库 但是这个格式不知道怎么排才能获取到对的数据有空的亲们给看看 帮下 谢谢有没有办法获取整列的值 然后根据长度去区分2列 然后再区分三列现在获取到的数据格式是按…

python数据清理的实践总结_python3常用的数据清洗方法(小结)

首先载入各种包:import pandas as pdimport numpy as npfrom collections import Counterfrom sklearn import preprocessingfrom matplotlib import pyplot as plt%matplotlib inlineimport seaborn as snsplt.rcParams[font.sans-serif] [SimHei] # 中文字体设置…

转转钓鱼php,最新转转钓鱼源码程序网站微信:mm88wk 最新转转源码 - 下载 - 搜珍网...

压缩包 : 转转钓鱼源码微:mm88wk.zip 列表转转/转转/360safe/转转/360safe/360webscan.php转转/360safe/webscan_cache.php转转/admin/转转/admin/add.php转转/admin/addsite.php转转/admin/adduser.php转转/admin/downfile.php转转/admin/download.php转转/admin/e…

PHP即将退出,PHP4即将退出历史舞台

http://www.phpeye.com/bbs/viewthread.php?tid92 PHP官方团队在php.net上发布了一则公告: Today it is exactly three years ago since PHP 5 has been released. In those three years it has seen many improvements over PHP 4. PHP 5 is fast, stablehttp://w…

redis 清空db下_PHP操作redis实现的分页列表

正文内容封装类文件如下:/* * redis 分页数据类库 */class redisPage{protected $_redis;protected $_redis_ip 127.0.0.1; //ipprotected $_redis_port 6379; //端口protected $_redis_db 0; //数据库号protected $_hash_prefix my_data; //前缀名称public fun…

php5.1.4,apache 2.2.2 + PHP5.1.4 不能运行的解_php

apache 2.2.2 php5.1.4 不能运行的解决办法.问题,使用传统的模块化方法安装PHP5.1.* apache 2.2.2 后不能启动,提示:"Cannot load C:/php/php5apache2.dll into server: The specified module could not be found."原因:PHP压缩包里的php5apache2.dll只适用于apach…

python3中的zip_Python3实现将文件归档到zip文件及从zip文件中读取数据的方法

Created on Dec 24, 2012将文件归档到zip文件,并从zip文件中读取数据author: liury_lab# 压缩成zip文件from zipfile import * #UnusedWildImportimport osmy_dir d:/中华十大名帖/myzip ZipFile(d:/中华十大名帖.zip, w, ZIP_DEFLATED)for file_name in os.listd…

java mariadb 使用,java连接mariaDB的设置,java连接mariadb

java连接mariaDB的设置,java连接mariadbjava连接mariaDB数据库的设置:(tomcat 8)第一种方法:使用tomcat自带的mysql-connector-java-5.1.40-bin.jarjava代码中的设置:driver驱动类为:com.mysql.jdbc.Driverurl为&#…

python产品发布会_【Mac系统 + Python + Django】之开发一个发布会系统【Django模型(三)】...

上一部分给大家介绍Django的视图。接下来继续来了解Django框架,来看第三部分,此部分是对数据库的操作。目录:一、设计系统表            返回目录首先打开sign/models.py,通过模型完成标的创建:from djang…

java 保留字符串,如何在Java中保留字符串而不使用反转功能

有以下几种在Java中反转字符串的方法:使用for循环使用While循环使用静态方法使用For循环使用for循环在Java中反转字符串的示例在下面的示例中, 我们使用了for循环来反转字符串。 for循环执行直到条件i> 0变为false为止。import java.util.Scanner;class ReverseS…

python增删改查csv文件_Python增删改查文件

#!/usr/bin/env python# -*- coding:utf-8 -*-# author:Erik Chan# datetime:2018/12/27 9:29# software: PyCharmimport os# 获取当前文件的父目录文件夹DIR os.path.dirname(os.path.abspath(__file__))cwd os.getcwd() #获取当前目录即dir目录下print(cwd)# 创建添加一个文…

php 模块 远程,ThinkPHP远程调用模块的操作方法 URL 参数格式

* 远程调用模块的操作方法 URL 参数格式 [项目://][分组/]模块/操作* param string $url 调用地址* param string|array $vars 调用参数 支持字符串和数组* param string $layer 要调用的控制层名称* return mixedfunction R($url,$varsarray(),$layer‘‘) {$info pathinfo($…

python3 csv 读入数组_如何将CSV数据读入NumPy中的记录数组?

我建议read_csv函数的pandas图书馆:import pandas as pddfpd.read_csv(myfile.csv, sep,,headerNone)df.valuesarray([[ 1. , 2. , 3. ],[ 4. , 5.5, 6. ]])DataFrame是一种具有潜在不同类型列的二维标记数据结构.你可以把它想象成一个电子表格或SQL表.我也建议…

php用cdn打不开,开启 CDN 后 wordpress 后台打不开的解决办法

现在很多站长把网站放到国外,使用 CDN 加速功能提高国内的访问速度,前面提到过开启腾讯云 CDN 后 wordpress 后台显示:连接被重置的解决办法,而今天遇到的是另外一种情况,有时候会遇到开启 CDN 后 wordpress 后台打不开…

android 支付宝月账单 统计图_记账其实很简单,用微信、支付宝就够了!

用微信、支付宝记账,从起告别糊涂账养成记账的好习惯,能让你对生活中的各种收支做到心中有数,从此告别糊涂账。长期坚持,能帮助我们理性消费、科学理财。但或许是因为记账的过程太枯燥,或许是因为没找到合适的记账方法…