one-hot编码案例

import jieba
from tensorflow.keras.preprocessing.text import Tokenizer  # 安装了新版本的tensorflow
# from keras.preprocessing.text import Tokenizer  # 系统里面没有按照新版本的tensorflow 直接使用keras# pytroch tensorflow1.xxxx  (keras)
# 导入用于对象保存与加载的joblib
# from sklearn.externals import joblib
import joblib# 思路分析 生成onehot
# 1 准备语料 vocabs
# 2 实例化词汇映射器Tokenizer, 使用映射器拟合现有文本数据 (内部生成 index_word word_index)
# 2-1 注意idx序号-1
# 3 查询单词idx 赋值 zero_list,生成onehot
# 4 使用joblib工具保存映射器 joblib.dump()
def dm01_onehot_gen():# 1 准备语料 vocabs# vocabs = {"周杰伦", "陈奕迅", "王力宏", "李宗盛", "吴亦凡", "鹿晗"}vocabs = ["周杰伦", "陈奕迅", "王力宏", "李宗盛", "吴亦凡", "鹿晗"]# 2 实例化词汇映射器Tokenizer, 使用映射器拟合现有文本数据 (内部生成 index_word word_index)mytokenizer = Tokenizer()   # cmd+shift +umytokenizer.fit_on_texts(vocabs)print('mytokenizer.index_word-->', mytokenizer.index_word)print('mytokenizer.word_index-->', mytokenizer.word_index)# 2-1 注意idx序号-1# 3 查询单词idx 赋值 zero_list,生成onehotfor vocab in vocabs:zero_list = [0] * len(mytokenizer.index_word)  # 词表有多长 onehot特征就有多长idx = mytokenizer.word_index[vocab] - 1zero_list[idx] = 1print(vocab, '的onehot编码是', zero_list)# 4 使用joblib工具保存映射器 joblib.dump()joblib.dump(mytokenizer, './mytokenizer2' )print('保存 token ok')pass# 思路分析
# 1 加载已保存的词汇映射器Tokenizer joblib.load(mypath)
# 2 查询单词idx 赋值zero_list,生成onehot 以token为'李宗盛'
# 3 token = "狗蛋" 会出现异常 # mytokenizer对没有拟合的词 会报错
# OOV单词问题 out of vocab 10万单词 把常用的21128个单词进行训练 其他单词我不要!
# 文本生成 单词表 5682 单词!
def dm_onehot_use():# 1 load已经存在词汇映射器文件mytokenizer = joblib.load('mytokenizer2')# 2 准备单词vocab = '李宗盛'idx = mytokenizer.word_index[vocab] -1zero_list = [0] * len(mytokenizer.index_word)zero_list[idx] = 1# 3print(vocab, '的onehot编码是', zero_list)# 4print('狗蛋 开始 ...')vocab = '狗蛋'idx = mytokenizer.word_index[vocab] - 1zero_list = [0] * len(mytokenizer.index_word)zero_list[idx] = 1print(vocab, '的onehot编码是', zero_list)passif __name__ == '__main__':# dm01_onehot_gen()dm_onehot_use()print('one-hot编码 End')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/44804.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp 九宫格抽奖

<template><view class"container"><view class"navleft" click"navback"><image src"/static/cj/left.png" mode""></image></view><view class"navtitle">抽奖</…

SAP S4 销售组的定义和分配

spro-企业结构-定义-销售与分销-维护销售组 新增一个记录 spro-企业结构-分配-销售与分销-给销售办公室分配销售组

JavaScript-map方法

map可以遍历数组处理数据&#xff0c;并返回新的数组 语法&#xff1a; ​const arr[元素1&#xff0c;元素2&#xff0c;元素3] const newarrarr.map(function(数组的元素,数组的索引)){return 新元素 } const arr[blue,red,green]const newarrarr.map(function(ele,index){co…

详细介绍TS中的枚举

在 TypeScript 中&#xff0c;枚举&#xff08;Enums&#xff09;是一个用于表示常见常量集合的便利特性。枚举是一种特殊的类型&#xff0c;它们允许你为一组值定义一个固定的命名空间。枚举常用于模式匹配的 switch 语句和提供更可读的类型检查。 枚举的基本语法&#xff1a…

应用案例 | 台积电为保证光罩运输质量选择MSR冲击振动记录仪!内含台积电工程师专访

晶圆运输需要注意什么&#xff1f; 晶圆运输是半导体制造过程中极为关键和敏感的一环。在晶圆运输过程中&#xff0c;需要注意以下几点&#xff1a; 1.静电防护 晶圆非常容易受到静电的干扰&#xff0c;因此在运输过程中需要遵守严格的静电防护措施。使用适当的静电防护包装…

Bugly并非无所不能

在 iOS 应用因为内存占用过大而被系统 killed 的情况下&#xff0c;Bugly 以及大多数崩溃报告工具是无法捕获到这种类型的崩溃信息的。原因在于&#xff0c;当系统由于内存压力过大而终止应用时&#xff0c;是直接将应用进程杀死&#xff0c;不会触发常规的崩溃处理流程&#x…

Blender 中导出模型fbx

准备模型&#xff1a;确保你的模型已经完成&#xff0c;并且所有的材质、纹理等都已设置好。 应用所有变换&#xff1a; 选择模型&#xff0c;按下 CtrlA&#xff0c;选择 "All Transforms" 以应用所有的变换&#xff08;位置、旋转和缩放&#xff09;。 导出模型&a…

Java面试八股之Redis有哪些数据类型?底层实现分别是什么

Redis有哪些数据类型&#xff1f;底层实现分别是什么 Redis数据类型概述 Redis作为一款键值存储系统&#xff0c;提供了丰富多样的数据类型以满足不同场景的需求。以下是Redis支持的主要数据类型及其基本用途&#xff1a; String&#xff08;字符串&#xff09; 存储单个键…

windows系统上python3安装open3d第三方库

打开命令提示符&#xff0c;输入&#xff0c; pip install open3d -i https://pypi.tuna.tsinghua.edu.cn/simple成功页面&#xff0c;

CSDN回顾与前行:我的创作纪念日——2048天的技术成长与感悟

CSDN回顾与前行&#xff1a;我的创作纪念日——2048天的技术成长与感悟 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 前言 时光荏苒&#xff0c;岁月如梭。转眼间&#xff0c;从我在CSDN上写下第一篇技术博客《2-6 带头结点的链式表操作…

MVC 控制器 中Action 不能同名,参数不一样,路由器寻找不到对应的,要加特性

//1 方法不可能完全相同&#xff0c;参数不同//2 那还需要特性吗&#xff1f;需要的&#xff0c;因为MVC选择方法时&#xff0c;不是按参数选择&#xff1a;http请求发送很多数据&#xff0c;其实没法识别&#xff0c;//因为mvc找方法是通过反射来的&#xff0c;GetMethods(nam…

【SQL】InnoDB中的行锁

InnoDB 里的行锁机制主要通过索引来实现&#xff0c;而不是直接对表中的记录加锁。具体来说&#xff0c;InnoDB 使用以下几种锁定机制来实现行锁&#xff1a; 记录锁 (Record Lock)&#xff1a;锁定单个索引记录。间隙锁 (Gap Lock)&#xff1a;锁定索引记录之间的间隙&#x…

vue 自定义(hook)--(模块化)

文章目录 定义示例代码 定义 什么是hook&#xff1f;—— 本质是一个函数&#xff0c;把setup函数中使用的Composition API进行了封装&#xff0c;类似于vue2.x中的mixin。 自定义hook的优势&#xff1a;复用代码, 让setup中的逻辑更清楚易懂。 示例代码 useSum.ts中内容如下…

react学习——26redux实现求和案例(异步action)

1、安装redux-thunk npm install redux-thunk npm install redux-thunk2、redux/store.js 引入redux-thunk /*该文件专门用于创建一个为Count组件服务的store对象*/ //引入createStore,专门创建redux中最为核心的store对象 import {createStore,applyMiddleware} from redux …

Python:引号应用、字符串应用

# 把前面的引号理解为起始符&#xff0c;后面的理解为终止符 # 单双引号的灵活运用 想输出"hello,Q" 用单引号 # 想输出 This is Qs 用双引号 # 想输出既有单引号又有双引号或者特定格式 用三对单引号### word "hello,Q" word2 "This is Qs" …

mavlink协议解析

1. mavlink数据包格式 字节索引C 版本内容值说明0uint8_t magic数据包启动标记0xFE特定于协议的文本启动 (stx) 标记, 用于指示新数据包的开始。 任何不识别协议版本的系统都将跳过数据包。1uint8_t len载荷长度0 - 255指示以下 payload 部分的长度 (为特定消息固定)。2uint8_t…

java并发编程概述

java并发编程概述 一. 进程和线程的概念 进程是计算机中的程序关于某数据集合上的一次运行活动&#xff0c;是系统进行资源分配的基本单位。进程是程序运行的实例&#xff0c;每当操作系统在运行一个程序时&#xff0c;会为其创建一个进程。每个进程都拥有自己的一整套变量。…

python:openpyxl DataBarRule 制作数据条

技术文档&#xff1a; 条件格式 — openpyxl 3.0.7 文档 openpyxl.formatting.rule module — openpyxl 3.1.3 documentation 但是&#xff0c;想让单元格数值按比例显示&#xff08;右边正确&#xff09;只能按data_bar_rule_2编写&#xff1a; from openpyxl import Workb…

微服务中的 “客户端负载均衡” 简介

微服务中的客户端负载均衡是指将负载&#xff08;即工作任务或访问请求&#xff09;在客户端进行分配&#xff0c;以决定由哪个服务实例来处理这些请求。这种负载均衡方式与服务端负载均衡相对&#xff0c;后者是在服务端&#xff08;如服务器或负载均衡器&#xff09;进行请求…

系统设计题-路由表最长匹配

一、题目 路由表最长匹配&#xff1a;将目标IP地址dstIP与路由为entryIP/掩码长度m&#xff08;比如10.166.50.0/23&#xff09;进行匹配&#xff0c;找出匹配掩码m最长值。 匹配规则&#xff1a; 如果dstIP和entryIP的二进制表示的前m个位相同&#xff0c;则说明是匹配的。 0…