python中文字符串转list

本文主要记录了将中文字符串转换为list的过程，其中我们使用了keras preprocessing中的text_to_word_sequence方法。这个方法是完全适配中文的。需要注意的是，中文语料一般字符之间是没有空格分割的，这与英文是不同的。如下所示，如果我们直接进行转换，由于没有空格分词，会将字符串默认为一个字符。

from tensorflow.keras.preprocessing.text import text_to_word_sequence
text = '我是人'
token = text_to_word_sequence(text)
print(token)
print(type(token))
print(token[0])

运行结果如下 :

['我是人']
<class 'list'>
我是人

要解决这个问题，我们只需要在转换之前首先在每个中文字符后加上一个空格进行分割就可以。

from tensorflow.keras.preprocessing.text import text_to_word_sequence
text = '我是人'
# 使用join方法在每个中文字符后加入空格
text = ' '.join(text)
token_h = text_to_word_sequence(text)
print(token_h)
print(type(token_h))
print(token_h[0])

这样我们就可以将’我是人’三个字组成的字符串转换为一个有三个元素的list了。
输出结果如下 :

['我', '是', '人']
<class 'list'>
我

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/386778.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

python中文字符串转list

相关文章

IP通信基础回顾2(第三周)

ThreadPoolExecutor线程池 + Queue队列

python list pop方法

linux基础文件管理软硬链接

mybatis动态更新xml文件后热部署,不重启应用的方法

Leetcode 反转字符串 II python解法

下拉插件 (带搜索) Bootstrap-select 从后台获取数据填充到select的 option中用法详解...

pytorch tensorboard基本用法整理

php 支付宝付款接口测试

spring boot mybatis拦截器

Linux自有服务(2)-Linux从入门到精通第六天(非原创）

Spring 事务以及拦截器的前后关系实验 Mybatis 日志拦截

四级翻译常用词汇

一般拦截器 serviceImpl部分

营销-营销方式：营销方式

以后可能用到的一些OQL

leetcode1041困于环中的机器人

一个拆分使用的存储过程例子

python的pwntools工具的日常使用

Kibana可视化管理页面详细使用说明