【深度学习】【NLP】词表，分词，嵌入

【深度学习】【NLP】词表，分词，嵌入

diannao/2025/9/19 12:28:24/文章来源:https://blog.csdn.net/x1131230123/article/details/139171012

from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("prajjwal1/bert-tiny")
tokenizer.save_pretrained("./bert-tiny/")input_string = "Your input string here 我是中文"
token_ids = tokenizer.encode(input_string, add_special_tokens=True)
print(token_ids)# 打印词表对应的token
print(tokenizer.convert_ids_to_tokens(token_ids))

输出：

[101, 2115, 7953, 5164, 2182, 1855, 100, 1746, 1861, 102]
[‘[CLS]’, ‘your’, ‘input’, ‘string’, ‘here’, ‘我’, ‘[UNK]’, ‘中’, ‘文’, ‘[SEP]’]

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/17781.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【PID算法详解】

【PID算法详解】

PID算法 PID算法介绍用途pid数学表达式及其含义P算法D算法I算法 PID总结数学公式转换代码设计实际运用PID代码实现 PID算法介绍 PID控制器是一种广泛应用于工业控制系统的反馈控制器，它通过比例（Proportional）、积分（Integral&am…

阅读更多...

快写猪好用吗 #知识分享#笔记#学习方法

快写猪好用吗 #知识分享#笔记#学习方法

快写猪是一个非常好用的论文写作工具，它提供了强大的查重降重功能，帮助用户轻松完成论文写作任务。无论是在学术研究还是日常写作中，快写猪都能提供高效、准确的检测，确保文本的原创性和质量。首先，快写猪的查重降重功…

阅读更多...

朴素贝叶斯算法解析：从原理到实践

朴素贝叶斯算法解析：从原理到实践

课程链接：AI小天才：让你轻松掌握机器学习引言： 朴素贝叶斯（Naive Bayes）算法是一种简单而又高效的机器学习算法，在文本分类、垃圾邮件过滤、情感分析等领域有着广泛的应用。本文将深入介绍朴素贝叶斯算法的…

阅读更多...

c 系统宏有多少

c 系统宏有多少

在C语言中，系统宏（也称为预定义宏或内置宏）的数量并不是固定的，因为它们取决于C标准、编译器以及可能的其他因素。然而，有一些常见的预定义宏是几乎所有C编译器都支持的。以下是一些常见的C预定义宏： __…

阅读更多...

C#拼接xml

C#拼接xml

1、xml字符串示例 <?xml version"1.0" encoding"utf-8" standalone"no"?><DATA><ITEMS><ITEM><ID>01<ID/><CODE>0001<CODE><NAME>测试1<NAME/></ITEM></ITEMS><…

阅读更多...

利用预测大模型完成办公室饮水机剩余热水量

利用预测大模型完成办公室饮水机剩余热水量

背景在每天上班的时候，很多同事都有喝热水的习惯，但是饮水机内的热水量总是比较少的，如何避免等待，高效的接到热水是我接下来要做的事情的动机。理论基础在大量真实数据的情况下，可以分析出用水紧张的时间段和用水…

阅读更多...

【css3】01-css3新特性样式篇

【css3】01-css3新特性样式篇

目录 1 背景 1.1 设置背景图片的定位 1.2 背景裁切-规定背景的绘制区域 1.3 设置背景图片尺寸 2 边框 2.1 盒子阴影box-shadow 2.2 边框图片border-image 3 文本 -文字阴影text-shadow 1 背景 1.1 设置背景图片的定位 background-origin：规定背景图片的定位…

阅读更多...

【文末附gpt升级秘笈】美国AI软件工程师薪酬现状分析及行业趋势

【文末附gpt升级秘笈】美国AI软件工程师薪酬现状分析及行业趋势

美国AI软件工程师薪酬现状分析及行业趋势摘要：随着人工智能（AI）技术的迅猛发展，对AI人才的需求日益旺盛。本文基于薪资数据网站Levels.fyi的数据，对美国AI软件工程师的薪酬现状进行了深入分析。研究发现，…

阅读更多...

科技守护，河流水文监测保障水资源安全！

科技守护，河流水文监测保障水资源安全！

中小河流是城乡水资源的补给，又是不可或缺的排放渠道，维系着城乡水资源的平衡与生态的健康。然而，随着工业化、城市化的快速推进，河流生态环境面临着越来越大的压力。为了有效保护和合理利用河流资源，河流水文监测成为…

阅读更多...

C++ 构造函数和析构函数能不能是虚函数

C++ 构造函数和析构函数能不能是虚函数

C 构造函数和析构函数能不能是虚函数一、构造函数能不能是虚函数二、析构函数能不能是虚函数一、构造函数能不能是虚函数在 C 中，构造函数不能是虚函数。构造函数是在对象创建时调用的，它们负责初始化对象的成员变量和执行其他必要的初始化操作。在对…

阅读更多...

2024年新算法-红嘴蓝鹊优化器(RBMO)优化BP神经网络回归预测

2024年新算法-红嘴蓝鹊优化器(RBMO)优化BP神经网络回归预测

2024年新算法-红嘴蓝鹊优化器(RBMO)优化BP神经网络回归预测亮点： 输出多个评价指标：R2，RMSE，MSE，MAPE和MAE 满足需求，分开运行和对比的都有对应的主函数：main_BP, main_RBMO, main_BPvsBP_R…

阅读更多...

Java 18 介绍及其优势，高效利用

Java 18 介绍及其优势，高效利用

Java 18是Java平台的最新版本，它在2022年3月发布，带来了许多新的特性和改进。作为一种广泛使用的编程语言，Java 18的发布受到了开发者社区的高度关注。本文将介绍Java 18的新特性及其优势。一、Java 18的新特性简化的编译器控制 (JEP 400)…

阅读更多...

MySQL的事务隔离级别

MySQL的事务隔离级别

MySQL的事务隔离级别用于解决并发事务中的一些问题，如脏读、不可重复读和幻读。MySQL支持以下四种事务隔离级别： READ-UNCOMMITTED（读未提交）：最低的隔离级别，允许读取尚未提交的数据变更，可能…

阅读更多...

亡羊补牢，一文讲清各种场景下GIT如何回退

亡羊补牢，一文讲清各种场景下GIT如何回退

系列文章目录手把手教你安装Git，萌新迈向专业的必备一步 GIT命令只会抄却不理解？看完原理才能事半功倍！ 常用GIT命令详解，手把手让你登堂入室 GIT实战篇，教你如何使用GIT可视化工具 GIT使用需知，哪些操作…

阅读更多...

区块链的运行原理与演示

区块链的运行原理与演示

目录前言具体演示 1、在浏览器中输入区块链演示网址： 2、创建新区块 3、篡改区块信息使其无效 4、新增P2P 网络节点。 5、节点连接。 6、区块信息同步总结前言区块链系统是由一系列分布在全球各地的分布式节点组成的。这些节点互不隶属，通过…

阅读更多...

Mesa GL Dispatch分发分析与理解

Mesa GL Dispatch分发分析与理解

Mesa GL Dispatch分发分析与理解引言这篇博客的核心是从OpenGL应用程序的典型api入手，分析gl api 调用到用户态驱动后端的过程，进而总结出一个典型的调用栈。理解了这个典型调用栈，对后续任何一个API的调用过程分析，都是a piec…

阅读更多...

Java项目在linux上部署步骤

Java项目在linux上部署步骤

1、根据linux系统在网上下载对应的jdk1.8安装包，有32位和64位区别。 2、解压并配置jdk的环境 （1）解压安装包： tar xzvf jdk安装包 （2）修改环境变量： vim /etc/profile 最后加上: export JAVA_H…

阅读更多...

文本匹配.grep与Select-String用法对比

文本匹配.grep与Select-String用法对比

Linux Shell与PowerShell上匹配字符串 grep与Select-String用法对比 - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite：http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article…

阅读更多...

家居厨房安全无小事：可燃气体报警器探头校准检测重要性解析

家居厨房安全无小事：可燃气体报警器探头校准检测重要性解析

家居厨房作为日常生活中烹饪美食的重要场所，其安全问题不容忽视。近年来，随着家庭用气设备的普及，煤气泄露事件时有发生，给人们的生命财产安全带来了严重威胁。因此，安装可燃气体报警器探头，及时检测并…

阅读更多...

Python Orange3库：数据挖掘与机器学习的终极利器

Python Orange3库：数据挖掘与机器学习的终极利器

更多Python学习内容：ipengtao.com Orange3是一个开源的数据挖掘和机器学习库，提供了丰富的工具和算法来处理和分析数据。Orange3的图形用户界面使得非编程用户也能轻松进行数据分析，而其Python API则为编程用户提供了强大的灵活性。本文将详细…

阅读更多...

最新文章