one-hot编码案例

import jieba
from tensorflow.keras.preprocessing.text import Tokenizer  # 安装了新版本的tensorflow
# from keras.preprocessing.text import Tokenizer  # 系统里面没有按照新版本的tensorflow 直接使用keras# pytroch tensorflow1.xxxx  (keras)
# 导入用于对象保存与加载的joblib
# from sklearn.externals import joblib
import joblib# 思路分析 生成onehot
# 1 准备语料 vocabs
# 2 实例化词汇映射器Tokenizer, 使用映射器拟合现有文本数据 (内部生成 index_word word_index)
# 2-1 注意idx序号-1
# 3 查询单词idx 赋值 zero_list，生成onehot
# 4 使用joblib工具保存映射器 joblib.dump()
def dm01_onehot_gen():# 1 准备语料 vocabs# vocabs = {"周杰伦", "陈奕迅", "王力宏", "李宗盛", "吴亦凡", "鹿晗"}vocabs = ["周杰伦", "陈奕迅", "王力宏", "李宗盛", "吴亦凡", "鹿晗"]# 2 实例化词汇映射器Tokenizer, 使用映射器拟合现有文本数据 (内部生成 index_word word_index)mytokenizer = Tokenizer()   # cmd+shift +umytokenizer.fit_on_texts(vocabs)print('mytokenizer.index_word-->', mytokenizer.index_word)print('mytokenizer.word_index-->', mytokenizer.word_index)# 2-1 注意idx序号-1# 3 查询单词idx 赋值 zero_list，生成onehotfor vocab in vocabs:zero_list = [0] * len(mytokenizer.index_word)  # 词表有多长 onehot特征就有多长idx = mytokenizer.word_index[vocab] - 1zero_list[idx] = 1print(vocab, '的onehot编码是', zero_list)# 4 使用joblib工具保存映射器 joblib.dump()joblib.dump(mytokenizer, './mytokenizer2' )print('保存 token ok')pass# 思路分析
# 1 加载已保存的词汇映射器Tokenizer joblib.load(mypath)
# 2 查询单词idx 赋值zero_list，生成onehot 以token为'李宗盛'
# 3 token = "狗蛋" 会出现异常 # mytokenizer对没有拟合的词 会报错
# OOV单词问题 out of vocab 10万单词 把常用的21128个单词进行训练 其他单词我不要！
# 文本生成 单词表 5682 单词！
def dm_onehot_use():# 1 load已经存在词汇映射器文件mytokenizer = joblib.load('mytokenizer2')# 2 准备单词vocab = '李宗盛'idx = mytokenizer.word_index[vocab] -1zero_list = [0] * len(mytokenizer.index_word)zero_list[idx] = 1# 3print(vocab, '的onehot编码是', zero_list)# 4print('狗蛋 开始 ...')vocab = '狗蛋'idx = mytokenizer.word_index[vocab] - 1zero_list = [0] * len(mytokenizer.index_word)zero_list[idx] = 1print(vocab, '的onehot编码是', zero_list)passif __name__ == '__main__':# dm01_onehot_gen()dm_onehot_use()print('one-hot编码 End')

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/44804.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

one-hot编码案例

相关文章

uniapp 九宫格抽奖

SAP S4 销售组的定义和分配

JavaScript-map方法

详细介绍TS中的枚举

应用案例 | 台积电为保证光罩运输质量选择MSR冲击振动记录仪！内含台积电工程师专访

Bugly并非无所不能

Blender 中导出模型fbx

Java面试八股之Redis有哪些数据类型？底层实现分别是什么

windows系统上python3安装open3d第三方库

CSDN回顾与前行：我的创作纪念日——2048天的技术成长与感悟

MVC 控制器中Action 不能同名，参数不一样，路由器寻找不到对应的，要加特性

【SQL】InnoDB中的行锁

vue 自定义(hook)--(模块化)

react学习——26redux实现求和案例（异步action）

Python:引号应用、字符串应用

mavlink协议解析

java并发编程概述

python:openpyxl DataBarRule 制作数据条

微服务中的 “客户端负载均衡” 简介

系统设计题-路由表最长匹配