使用 EmbeddingBag 和 Embedding 完成词嵌入

🍨 本文为[🔗365天深度学习训练营学习记录博客\n🍦 参考文章:365天深度学习训练营\n🍖 原作者:[K同学啊 | 接辅导、项目定制]\n🚀 文章来源:[K同学的学习圈子](https://www.yuque.com/mingtian-fkmxf/zxwb45)

使用 EmbeddingBagEmbedding 完成词嵌入,首先需要处理文档中的文本,将其转换为适合进行词嵌入的格式,涉及到以下步骤:

  1. 文本清洗:移除文档中的特殊字符和标点符号,将文本统一为小写(如果适用)。
  2. 分词:将文本分割成单词或标记(tokens)。
  3. 建立词汇表:从分词后的文本中创建一个词汇表,每个唯一的单词对应一个索引。
  4. 文本向量化:将文本转换为数字形式,以便进行嵌入处理。

第二步,使用 EmbeddingBagEmbedding 层进行词嵌入。EmbeddingBag 层适用于处理变长的文本,它会计算所有嵌入向量的平均值或和。而 Embedding 层适用于单个单词或固定长度的序列。

目标文件:

实现代码: 

from collections import Counter
import torch
import torch.nn as nn
import re# 清洗文本并进行分词
def tokenize(text):# 移除特殊字符和标点,并转换为小写text = re.sub(r'[^\w\s]', '', text).lower()# 分词return text.split()# 创建词汇表
def create_vocab(text_tokens):vocab = Counter(text_tokens)vocab = sorted(vocab, key=vocab.get, reverse=True)vocab_to_int = {word: ii for ii, word in enumerate(vocab, 1)} # 索引从1开始return vocab_to_int# 将文本转换为数字形式
def text_to_int(tokens, vocab_to_int):return [vocab_to_int[word] for word in tokens if word in vocab_to_int]# 定义Embedding和EmbeddingBag层
def define_embedding_layers(vocab_size, embedding_dim=100):embedding = nn.Embedding(num_embeddings=vocab_size, embedding_dim=embedding_dim)embedding_bag = nn.EmbeddingBag(num_embeddings=vocab_size, embedding_dim=embedding_dim, mode='mean')return embedding, embedding_bag# 读取文件内容
file_path = 'D:/任务文件 (1).txt'
with open(file_path, 'r', encoding='utf-8') as file:file_content = file.read()# 文本清洗和分词
tokens = tokenize(file_content)# 创建词汇表
vocab_to_int = create_vocab(tokens)# 将文本转换为数字形式
int_text = text_to_int(tokens, vocab_to_int)# 定义嵌入层参数
embedding_dim = 100
vocab_size = len(vocab_to_int) + 1# 定义Embedding和EmbeddingBag层
embedding, embedding_bag = define_embedding_layers(vocab_size, embedding_dim)# 转换为tensor以供嵌入层使用
input_tensor = torch.tensor([int_text], dtype=torch.long)# 使用Embedding和EmbeddingBag进行词嵌入
embedded = embedding(input_tensor)
embedded_bag = embedding_bag(input_tensor)# 打印结果
print("Embedding shape:", embedded.shape)
print("EmbeddingBag shape:", embedded_bag.shape)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/617914.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

移除两个双向链表中的重复元素,每个链表中的元素不重复

移除两个双向链表中的重复元素,每个链表中的元素不重复,请给出算法。 ans: 该问题比单向链表要更加复杂一些,必须考虑并更新前向节点的指向情况,具体编码中存在一些难度,加上链表调试相对不容易,因此难度系…

技术专栏——你所不知道的 RocketMQ 的集群管理:副本机制

这些精彩的技术类型的体系化文章,后面我会放到公众号上,并集中在合集“分布式消息中间件专栏”中,欢迎大家去订阅我的公众号和视频号“架构随笔录”,大家可以订阅合集,这样更加方便喔,后面会出电子版本&…

C++采集亚马逊amazon产品数据教程

最近亚马逊电商非常火爆,今天我将用C语言写一个亚马逊商品数据的爬虫程序,只要是用来收集一些产品相关信息。例如产品自身特性以及产品所对应的销量,为了后期布局亚马逊做一些参考,提供数据支持,同时另外我也会用C语言…

Msa全球最新研究:多系统萎缩特效药全球最新进展

多系统萎缩是一种罕见的神经系统疾病,它涉及到多个系统的功能减退或丧失。对于这种疾病,传统的西医治疗方法往往束手无策。然而,中国著名中医刘家峰大夫,却通过中药治疗,为多系统萎缩患者带来了新的希望。 刘家峰大夫…

【目标检测】评价指标:混淆矩阵概念及其计算方法(yolo源码)

本篇文章首先介绍目标检测任务中的评价指标混淆矩阵的概念,然后介绍其在yolo源码中的实现方法。 目标检测中的评价指标: mAP概念及其计算方法(yolo源码/pycocotools) 混淆矩阵概念及其计算方法(yolo源码) 本文目录 1 概念2 计算方法 1 概念 在分类任务中…

适用于动态 IT 环境的服务器流量监控软件

服务器在网络性能中起着至关重要的作用,这意味着保持其最佳容量至关重要。企业需要将 AI、ML 和云技术融入其 IT 中,从而提供充分的敏捷性、安全性和灵活性,在这方面,服务器流量监控已成为当务之急。通过定期监控通信、跟踪流量上…

Docker 安装以及加速器配置

通常我们因为安装docker出现许多错误,使用解压版安装方便快捷,并且增加加速器的配置,以及可视化界面的配置,让我们的成长更近了一步 1. 虚拟机网络配置 虚拟机使用nat模式,配置ens33如下: TYPEEthernet P…

C++内存管理和简单模板

文章目录 目录 文章目录 前言 一.内存管理 1.new delete操作符 对内置类型 对自定义类型 2.operator new与operator delete函数 3.定位new 二.模板 1.函数模板 2.类模板 前言 C是一种通用编程语言,支持面向对象、过程性和泛型编程。在C中,内…

编译和链接(1)

目录 1. 程序的翻译环境和执行环境 2. 详解编译链接 2.1 翻译环境 2.2 编译本身也分为几个阶段: 2.3 运行环境 3. 预处理详解 3.1 预定义符号 3.2 #define 3.2.1 #define 定义标识符 3.2.2 #define 定义宏 3.2.3 #define 替换规则 3.2.4 #和## 1. 程序的翻译环境和执…

分类预测 | Matlab实现RP-LSTM-Attention递归图优化长短期记忆神经网络注意力机制的数据分类预测【24年新算法】

分类预测 | Matlab实现RP-LSTM-Attention递归图优化长短期记忆神经网络注意力机制的数据分类预测【24年新算法】 目录 分类预测 | Matlab实现RP-LSTM-Attention递归图优化长短期记忆神经网络注意力机制的数据分类预测【24年新算法】分类效果基本描述模型描述程序设计参考资料 分…

计算n的平方根m 进而将m向下取整 math.isqrt()

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 计算n的平方根m 进而将m向下取整 math.isqrt() 选择题 请问执行math.isqrt(10)的运行结果是: import math print("【执行】math.sqrt(10)") print (math.sqrt(10)) pr…

Linux中Docker数据管理的数据卷及挂载

目录 一、数据管理 1. 讲述 2. 应用场景 二、数据卷的应用 1. 命令 2. tomcat镜像 3. 挂载数据卷 4. 项目部署在数据卷 三、目录挂载 四、完善Tomcat配置 每篇一获 一、数据管理 1. 讲述 Docker 的数据管理主要涉及到两个方面:数据卷(Volumes&#xff09…

【基于Java Swing设计药品信息管理系统】——界面美观、功能全,可直接上手使用

一、基本功能描述 药品信息管理系统的选题背景主要是因为现今医疗行业中,药品管理和库存管理都是非常重要而复杂的工作。传统的手动记录、查询等方式耗费人力物力较多,并且容易出错。因此,采用计算机技术来帮助药品信息管理和库存管理已成为必要的趋势。 该药品信息管理系统…

Linux中PyTorch的安装教程

在安装PyTorch之前,我们需要确保已经安装了Python和pip。可以使用以下命令检查是否已经安装: python --version pip --version如果没有安装,可以使用以下命令安装: sudo apt-get update sudo apt-get install python3 sudo apt-…

利用网络威胁情报增强网络安全态势

在当今的网络威胁形势下,明智且主动的防御策略至关重要。网络威胁情报是组织的重要工具,可帮助他们预测和应对网络风险。网络威胁情报不仅提供原始数据,还提供: 深入了解网络攻击者的动机了解他们的潜在目标了解他们的战术 通过…

2024阿里云服务器ECS介绍_全方位解析_CPU性能详解

阿里云服务器ECS英文全程Elastic Compute Service,云服务器ECS是一种安全可靠、弹性可伸缩的云计算服务,阿里云提供多种云服务器ECS实例规格,如经济型e实例、通用算力型u1、ECS计算型c7、通用型g7、GPU实例等,阿里云百科aliyunbai…

【Unity】Attribute meta-data#com.google.android.play.billingclient.version 多版本库冲突

文章目录 一、背景二、问题描述三、解决方案 一、背景 1、Unity 2021.3.9f1 2、Max由6.0.1至最新版本6.1.0 二、问题描述 错误信息 Attribute meta-data#com.google.android.play.billingclient.versionvalue value(6.1.0) from [com.android.billingclient:billing:6.1.0] An…

【LeetCode】203. 移除链表元素(简单)——代码随想录算法训练营Day03

题目链接:203. 移除链表元素 题目描述 给你一个链表的头节点 head 和一个整数 val ,请你删除链表中所有满足 Node.val val 的节点,并返回 新的头节点 。 示例 1: 输入:head [1,2,6,3,4,5,6], val 6 输出&#xff…

Android 12.0 系统开启和关闭黑白模式主题功能

1.概述 在12.0的rom系统开发定制化中,在系统SystemUI的下拉状态栏中,产品开发功能需求要求添加黑白模式功能开关的功能,就是打开黑白模式,系统颜色就会变成黑白颜色, 关闭黑白模式开关系统就会变成彩色模式,所以就需要了解下系统是怎么设置黑白模式和彩色模式的,然后添…

什么是国密算法

国密算法是指由中国国家密码管理局发布的密码算法标准,旨在保障国家信息安全。目前,国家密码管理局已发布了一系列国产商用密码标准算法,包括SM1(SCB2)、SM2、SM3、SM4、SM7、SM9以及祖冲之密码算法(ZUC)等…