NLP基础——中文分词

简介

分词是自然语言处理(NLP)中的一个基本任务,它涉及将连续的文本序列切分成多个有意义的单元,这些单元通常被称为“词”或“tokens”。在英语等使用空格作为自然分隔符的语言中,分词相对简单,因为大部分情况下只需要根据空格和标点符号来切分文本。

然而,在汉语等语言中,并没有明显的单词界限标记(如空格),因此汉语分词比较复杂。汉字序列必须被正确地切割成有意义的词组合。例如,“我爱北京天安门”,应该被正确地划分为“我/爱/北京/天安门”。

方法

中文分词技术主要可以归类为以下几种方法:

  1. 基于字符串匹配的方法:这种方法依赖一个预先定义好的字典来匹配和确定句子中最长能够匹配上的字符串。这包括正向最大匹配法、逆向最大匹配法以及双向最大匹配法。

  2. 基于理解的方法:通过模拟人类理解句子含义进行分词,考虑上下文、句法结构和其他信息。

  3. 基于统计学习模型:利用机器学习算法从大量已经人工标注好了分词结果的数据集里学习如何进行有效地分词。常见算法包括隐马尔可夫模型(HMM)、条件随机场(CRF)以及近年来流行起来基于深度学习框架构建神经网络模型(RNNs、CNNs、LSTMs、Transformer、BERT等)。

  4. 混合方法:结合以上几种不同策略以提高精确度和鲁棒性。

  5. 基于规则: 通过制定一系列规则手动或半自动地进行文字断开, 这通常需要专业知识并且效率不高, 但可以在特定情境下发挥作用。

Python栗子

基于字符串匹配,最大前向匹配,代码如下

def max_match_segmentation(text, dictionary):max_word_length = max(len(word) for word in dictionary)start = 0segmentation = []while start < len(text):for length in range(max_word_length, 0, -1):if length > len(text) - start:continueword = text[start:start + length]if word in dictionary:segmentation.append(word)start += lengthbreakelse:  # 如果没有找到,则按单字切分segmentation.append(text[start])start += 1return segmentation# 示例字典和用法:
dictionary = {"我", "爱", "北京", "天安门"}
text_to_segment = "我爱北京天安门"segments = max_match_segmentation(text_to_segment, dictionary)print("分词结果:", "/ ".join(segments))

构建思路(如何实现基于统计的分词方法)

基于统计学习的中文分词方法其核心思想是从大量已经分词的文本(语料库)中学习如何将连续的汉字序列切分成有意义的词汇。通常包括以下几个步骤:

  1. 语料库准备:收集并整理一定量的已经进行过人工分词处理的文本数据,作为训练集。

  2. 特征提取:从训练数据中提取有助于模型学习和预测的特征。在传统统计模型中,这些特征可能包括:

    • 字符及其邻近字符
    • 词性标注信息
    • 字符组合频率
  3. 概率模型选择:选择合适的统计概率模型来估算不同切分方式出现的概率。常见模型包括:

    • 隐马尔可夫模型(HMM)
    • 条件随机场(CRF)
    • 最大熵模型
    • 支持向量机(SVM)
  4. 参数估计与训练:利用选定的统计学习算法对特征和标签进行建模,并通过算法调整参数以最大化某种性能指标或者最小化误差。

  5. 解码与优化:使用如Viterbi算法等解码技术找到给定字序列下最可能对应的词序列。

  6. 评估与调整:通过交叉验证、留出验证或引入开发集等方式,在非训练数据上评价分词效果,并据此调整特征或者优化参数。

  7. 迭代改进: 在实际应用过程中,根据反馈持续追踪新出现单字、新兴流行语等元素,更新语料库并重新训练以保证系统性能不断提升。

基于统计学习方法进行中文分词具有较强实用性和广泛适用性。它不依赖复杂规则体系,而是通过从数据本身“学会”如何正确地将句子划分为单个单词或短语。

分词参考链接

  • tokenizer https://huggingface.co/docs/tokenizers
  • 微型中文分词器 https://github.com/howl-anderson/MicroTokenizer
  • 中文分词jieba https://github.com/fxsjy/jieba
  • THULAC:一个高效的中文词法分析工具包https://github.com/thunlp/THULAC-Python

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/595399.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

React实现简单登录

一 实现效果(样式是之前设置的&#xff09; 二 具体实现代码 2.1 Login.js import {useNavigate} from "react-router-dom"; import React from "react"; // import ./style2.cssfunction Login(){const navigateuseNavigate()func…

nginx在国产服务器上stream配置项无法识别的问题

最近在搭建k8sranchar&#xff0c;需要用到nginx做负载均衡&#xff0c;之前在系统中也会用到&#xff0c;之前一直使用http选项&#xff0c;做转发配置。 基本格式如下图所示&#xff1a; 但是在ranchar的安装中默认方式使用stream配置项。 使用yum默认安装的nginx不支持该关…

Yapi安装配置(CentOs)

环境要求 nodejs&#xff08;7.6) mongodb&#xff08;2.6&#xff09; git 准备工作 清除yum命令缓存 sudo yum clean all卸载低版本nodejs yum remove nodejs npm -y安装nodejs,获取资源,安装高版本nodejs curl -sL https://rpm.nodesource.com/setup_8.x | bash - #安装 s…

Spring Cloud Config相关面试题及答案(2024)

1、什么是 Spring Cloud Config&#xff0c;它解决了哪些问题&#xff1f; Spring Cloud Config 是一个为微服务架构提供集中化外部配置支持的项目。它是构建在 Spring Cloud 生态系统之上&#xff0c;利用 Spring Boot 的开发便利性&#xff0c;简化了分布式系统中的配置管理…

现在的人们如何看待数据隐私?

PrimiHub一款由密码学专家团队打造的开源隐私计算平台&#xff0c;专注于分享数据安全、密码学、联邦学习、同态加密等隐私计算领域的技术和内容。 在当前时代&#xff0c;每一次点击、触摸或按键都留下了数字痕迹。但是我们对自己的个人数据几乎没有控制的权限&#xff0c;这让…

百度自由DIY小程序源码:PHP+MySQL组合开发 带完整的搭建教程

随着移动互联网的快速发展&#xff0c;小程序已成为企业与用户互动的重要平台。然而&#xff0c;对于许多中小企业和开发者来说&#xff0c;从零开始开发一款小程序需要投入大量的时间和资源。 以下是部分代码示例&#xff1a; 系统特色功能一览&#xff1a; 1.高度自定义&…

三、C语言中的分支与循环—if语句 (1)

在这一章节中我们的学习内容如下&#xff0c;咱们一步步来。 分支结构 1. if语句 2. 关系操作符 3. 条件操作符 4. 逻辑操作符&#xff1a;&& , || , &#xff01; 5. switch语句 循环结构 6. while循环 7. for循环 8. do-while循环 9. break和conti…

Python 微服务架构指南

概要 微服务架构作为一种设计风格&#xff0c;它将应用程序构建为一套小服务的集合&#xff0c;每个服务实现特定的业务功能&#xff0c;这些服务可以独立部署、扩展并围绕特定业务能力构建。Python 凭借其简洁易读的语法和强大的库生态系统成为实现微服务的受欢迎选择。本文将…

机器学习在缺陷检测中的突破与实践

机器学习在缺陷检测中的突破与实践主要体现在以下几个方面&#xff1a; 自动化检测&#xff1a;机器学习技术能够自动化地处理大量的数据&#xff0c;并通过学习和识别各种缺陷的模式和特征&#xff0c;实现自动化检测。这大大提高了缺陷检测的效率和准确性&#xff0c;减少了人…

【番外】【Airsim in Windows ROS in WSL2-Ubuntu20.04】环境配置大全

【番外】【Airsim in Windows &ROS in WSL2-Ubuntu20.04】环境配置大全 【前言&#xff08;可省略不看&#xff09;】1.在windows上面部署好UE4AirSim联合仿真环境2.在windows上面部署wsl2系统以及在wsl2上面部署ubuntu系统3.安装好ubuntu系统之后&#xff0c;目前只能在命…

河北首例:黑科技人工心脏为终末期心衰患者带来新希望

近日&#xff0c;河北工程大学附属医院心脏中心成功完成河北省首例左心室辅助装置植入&#xff08;人工心脏&#xff09;&#xff0c;为终末期心衰患者提供了除心脏移植以外新的解决方案。 55岁刘女士因间断胸闷气短7年&#xff0c;诊断为扩张型心肌病&#xff0c;经过规范的“…

Unity AVProVideo安卓播放视频问题

Pico4播放全景8K视频播放不了&#xff0c;普通视频也播放不了解决方案&#xff1a; 1.Vulkan去掉&#xff0c;或者优先级放下面2.Pico4打包ARM64&#xff0c;插件里arm64里的几个库都设置arm64&#xff0c;平台选择安卓 Pico其他设置参考官方文档即可。

LDD学习笔记 -- Linux内核模块

LDD学习笔记 -- 内核模块 简介LKM类型Static Linux Kernel ModuleDynamic Linux Kernel ModuleLKM编写语法 syntax详细描述内核头文件用户空间头文件Module Initialization FunctionModule Cleanup FunctionKeyword & Tag宏 __init __exitLKM入口注册Module Metadate&#…

win10提示“KBDSF.DLL文件缺失”,游戏或软件无法启动运行,快速修复方法

很多用户在日常使用电脑的时候&#xff0c;或多或少都遇到过&#xff0c;在启动游戏或软件的时候&#xff0c;Windows桌面会弹出错误提示框“KBDSF.DLL文件缺失&#xff0c;造成软件无法启动或运行&#xff0c;请尝试重新安装解决”。 首先&#xff0c;先来了解DLL文件是什么&a…

Python的Selenium自动化:从入门到精通

引言&#xff1a; 随着互联网的快速发展&#xff0c;网页自动化测试和数据抓取的需求日益增长。Python的Selenium库作为自动化测试和数据抓取的利器&#xff0c;受到了广大开发者的青睐。本文将带领你深入了解Selenium&#xff0c;从入门到精通&#xff0c;全面掌握网页自动化…

基于springboot的java读取文档内容(超简单)

读取一个word文档里面的内容&#xff0c;并取出来。 代码&#xff1a; SneakyThrowsGetMapping(value "/readWordDoc")ApiOperationSupport(order 1)ApiOperation(value "文档读取 ", notes "文档读取 ")public R ReadWordDoc () {System.o…

使用vue实现一个网页的贴边组件。

使用vue实现一个网页的贴边组件。 先来看效果&#xff1a; 2024-01-04 10.46.22 https://www.haolu.com/share/V00O6HWYR8/36207fc21c35b2a8e09bf22787a81527 下面是具体代码实现&#xff1a; 1、父组件。&#xff08;用于贴边展示的组件&#xff09; <template>&…

编程题实训-查找

第1关&#xff1a;基于递归的折半查找 任务描述 请编写一个递归的折半查找算法&#xff0c;查找给定有序数组中的某一元素。 编程要求 输入 多组数据&#xff0c;每组数据有三行。第一行为数组长度n&#xff0c;第二行为n个递增排列的数字&#xff0c;第三行为需要查找的数…

XCTF-Misc1 USB键盘流量分析

m0_01 附件是一个USB流量文件 分析 1.键盘流量 USB协议数据部分在Leftover Capture Data域中&#xff0c;数据长度为八个字节&#xff0c;其中键盘击健信息集中在第三个字节中。 usb keyboard映射表&#xff1a;USB协议中HID设备描述符以及键盘按键值对应编码表 2.USB…

PC网站或H5网站接入客服系统

网页链接接入 PC网站或H5网站可以通过多种方式接入客服系统&#xff0c;直接访问或跳转聊天链接&#xff0c;是最简单的一种方式 获取聊天链接 前往【部署】【团队设置】【网站接入】可以找到聊天链接&#xff0c;直接把该链接放入自己网站的任何位置&#xff0c;就可以点击直…