做投资类网站服务器/亚马逊市场营销案例分析

做投资类网站服务器,亚马逊市场营销案例分析,苹果网站用什么做的吗,wordpress 会员 下载一、Word Embedding(词嵌入)简介 Word Embedding(词嵌入): 词嵌入技术是自然语言处理(NLP)领域的一项重大创新,它极大地推动了计算机理解和处理人类语言的能力。 通过将单词、句子甚…

一、Word Embedding(词嵌入)简介

Word Embedding(词嵌入): 词嵌入技术是自然语言处理(NLP)领域的一项重大创新,它极大地推动了计算机理解和处理人类语言的能力。

通过将单词、句子甚至图像转换为数字向量,词嵌入技术不仅改善了文本的表示方式,更重要的是,它捕捉到了语言的本质

Word Embedding

语义搜索(Semantic Search): Word Embedding这一创新使得语义搜索成为可能,我们能够更精准地理解和分析不同语言的文档。通过探索这些高级的数值表示形式,我们能够洞察计算机是如何开始理解人类语言的细微差别的。 这一进步正在改变我们在数字时代处理信息的方式,使得我们能够更高效地处理和分析大量的文本数据。

2.原理

词嵌入模型则通过将词映射为连续的向量,使得语义上相似的词在向量空间中的位置相近,从而捕捉到了词之间的语义关系。

                        

语义相似性

Word2Vec: 一种基于神经网络的词嵌入模型,它利用神经网络来训练词向量。在训练过程中,Word2Vec通过预测上下文中的词来学习词向量,使得语义上相似的词在向量空间中的距离更近。

它通过在大规模文本语料库上的训练,能够理解单词间复杂的关系,如同义词、反义词和关联词,这些都是通过向量空间的几何属性来实现的。

             

Word2Vec

Word2Vec工作原理: 通过一个简单的双层神经网络来从大量文本中学习单词之间的联系。 这一模型的设计基于一个核心假设:出现在相似语境中的单词在语义上是相似的。

Word2Vec通过两种主要的训练算法来实现这一目标: 连续词袋(CBOW)和Skip-Gram。 这两种算法在处理单词上下文的方法上有所区别,但共同致力于捕捉单词之间的语义关系。

1.连续词袋(CBOW)
工作原理:CBOW模型通过上下文(即周围的词)来预测当前词。具体来说,它首先接收上下文中的多个词向量作为输入,然后通过对这些词向量的处理(如求和或平均)来预测目标词。

实现方式:CBOW模型通常包括输入层、隐藏层和输出层。输入层接收上下文词的one-hot编码,隐藏层通过权重矩阵将输入转换为低维的密集向量,输出层则使用softmax函数来预测目标词的概率分布。

优点:在处理大型语料库时,CBOW模型能够平滑许多分布信息,对于较小的数据集表现较好。

2. Skip-Gram
工作原理:与CBOW相反,Skip-Gram模型通过当前词来预测上下文中的词。它接收一个中心词的词向量作为输入,然后尝试预测该词周围一定窗口大小内的上下文词。

实现方式:Skip-Gram模型同样包括输入层、隐藏层和输出层。但在这里,输入层只接收中心词的one-hot编码,隐藏层同样通过权重矩阵转换为密集向量,而输出层则尝试为上下文中的每个词分配概率。

优点:Skip-Gram模型在处理较小数据集时表现更好,尤其是在捕捉稀有词上。此外,它通常能够学习到更细致的词向量表示。

3.实现流程

1. 语料库准备

  • 数据收集:从各种渠道收集大量的文本数据,这些渠道可以包括新闻网站、社交媒体平台、书籍、学术论文等。例如,若要训练一个新闻领域的词向量模型,就可以从各大新闻媒体网站抓取新闻文章作为语料库的基础数据。
  • 数据预处理
    • 分词:将文本分割成单个的词或标记。对于英文文本,通常可以使用空格和标点符号进行简单分割;对于中文文本,需要使用专门的分词工具,如结巴分词。例如,“我爱自然语言处理” 经过分词后可能变为 “我 爱 自然语言处理”。
    • 去除停用词:停用词是指在文本中频繁出现但对语义表达贡献较小的词,如 “的”“是”“在” 等。去除停用词可以减少数据的噪声,提高后续处理的效率。
    • 标准化处理:包括将所有单词转换为小写形式,统一数字、标点符号的表示等。例如,将 “Apple” 和 “apple” 都转换为 “apple”。

2. 词汇表构建

  • 提取唯一词汇:对预处理后的语料库进行遍历,提取其中出现的所有唯一词汇。例如,对上述分词后的文本集合进行处理,得到一个包含所有不同词汇的列表。
  • 过滤低频词:根据实际需求,过滤掉那些在语料库中出现频率过低的词汇。因为这些低频词可能是拼写错误或者非常罕见的词汇,对模型的训练贡献不大,反而会增加计算量和存储成本。
  • 构建映射关系:为词汇表中的每个词分配一个唯一的索引,形成词到索引和索引到词的映射关系。这样在后续处理中,可以方便地通过词查找其索引,或者通过索引查找对应的词。

3. 词向量训练

  • 选择模型:常见的词向量训练模型有 Word2Vec(包括 CBOW 和 Skip - gram 模型)、GloVe 等。以 Word2Vec 的 Skip - gram 模型为例,它的目标是根据当前词来预测其上下文词。
  • 初始化词向量:为词汇表中的每个词随机初始化一个低维向量表示。这些初始向量是模型训练的起点,在训练过程中会不断调整和优化。
  • 训练模型:使用预处理后的语料库对模型进行训练。在训练过程中,模型会根据输入的上下文信息,不断调整词向量的参数,使得语义相近的词在向量空间中的距离逐渐靠近。例如,在一个包含大量体育新闻的语料库中训练时,“篮球” 和 “投篮” 的词向量会在训练过程中逐渐变得相似。
  • 保存词向量:训练完成后,将每个词对应的最终向量保存下来,以便后续使用。可以将词向量保存为文本文件、二进制文件等格式

4.基于别人预训练的词向量来实现:

self.embedding_pretrained = torch.tensor(np.load(dataset + '/data/' + embedding)["embeddings"].astype('float32'))\if embedding != 'random' else None       self.embed = self.embedding_pretrained.size(1)\if self.embedding_pretrained is not None else 300      

确定维度和以及预训练的模型

        if config.embedding_pretrained is not None:self.embedding = nn.Embedding.from_pretrained(config.embedding_pretrained, freeze=False)else:self.embedding = nn.Embedding(config.n_vocab, config.embed, padding_idx=config.n_vocab - 1)

调用api 来训练

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/71185.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot @Value 注解使用

Value 注解用于将配置文件中的属性值注入到Spring管理的Bean中。 1. 基本用法 Value 可以直接注入配置文件中的属性值。 配置文件 (application.properties 或 application.yml) 配置文件定义需要注入的数据。 consumer:username: lisiage: 23hobby: sing,read,sleepsubje…

Redis面试常见问题——使用场景问题

目录 Redis面试常见问题 如果发生了缓存穿透、击穿、雪崩,该如何解决? 缓存穿透 什么是布隆过滤器? 缓存击穿 缓存雪崩 双写一致性(redis做为缓存,mysql的数据如何与redis进行同步呢?) …

在Ubuntu 22.04 LTS 上安装 MySQL两种方式:在线方式和离线方式

Ubuntu安装MySQL 介绍: Ubuntu 是一款基于Linux操作系统的免费开源发行版,广受欢迎。它以稳定性、安全性和用户友好性而闻名,适用于桌面和服务器环境。Ubuntu提供了大量的软件包和应用程序,拥有庞大的社区支持和活跃的开发者社区…

用Java编写sql

1.概念 通过Java代码操作mysql数据库 数据库编程,是需要数据库服务器,提供一些API,供程序员调用的 2.安装 2.1下载 在程序中操作mysql需要先安装mysql的驱动包 并且要把驱动包引入到项目中 在中央仓库可以下载到驱动包(mvnrepository.…

Redis数据结构-List列表

1.List列表 列表类型适用于存储多个有序的字符串(这里的有序指的是强调数据排列顺序的重要,不是升序降序的意思),列表中的每个字符串称为元素(element),一个列表最多可以存储2^32-1个元素。在R…

Linux实操——在服务器上直接从百度网盘下载(/上传)文件

Linux Linux实操——在服务器上直接从百度网盘下载(/上传)文件 文章目录 Linux前言一、下载并安装bypy工具二、认证并授权网盘账号三、将所需文件转移至目的文件夹下四、下载文件五、上传文件六、更换绑定的百度云盘账户 前言 最近收到一批很大的数据&…

题解 | 牛客周赛82 Java ABCDEF

目录 题目地址 做题情况 A 题 B 题 C 题 D 题 E 题 F 题 牛客竞赛主页 题目地址 牛客竞赛_ACM/NOI/CSP/CCPC/ICPC算法编程高难度练习赛_牛客竞赛OJ 做题情况 A 题 判断字符串第一个字符和第三个字符是否相等 import java.io.*; import java.math.*; import java.u…

基金 word-->pdf图片模糊的解决方法

1. 首先需要Adobe或福昕等pdf阅读器。 2. word中 [文件]--[打印],其中打印机选择pdf阅读器,例如此处我选择福昕阅读器。 3. 选择 [打印机属性]--[编辑]--[图像],将所有的采样、压缩均设置为 关闭。点击[另存为],保存为 基金报告…

基于RKNN的嵌入式深度学习开发(2)

上一个章节我们介绍的RKNN模型的模型转换和模型的推理,这一章节我们将介绍模型的量化和评估部分。 2.3 RKNN模型的量化 量化就是将浮点转换为定点运算的过程,或者训练后由rknn来量化。量化模型使用较低精度(如int8/uint8/int16)保…

Qt 中signals和slots、Q_SIGNAL和Q_LOT、Q_SIGNALS和Q_SLOTS的区别和使用

Qt 中signals和slots、Q_SIGNAL和Q_SLOT、Q_SIGNALS和Q_SLOTS的区别和使用 1.signals和slots 信号和槽函数需要在类的声明中明确声明。信号需要使用signals关键字,而槽函数可以使用slots关键字(虽然在现代Qt中,槽函数也可以直接作为普通成员…

【极客时间】浏览器工作原理与实践-2 宏观视角下的浏览器- 2.1 Chrome架构:仅仅打开了1个页面,为什么有4个进程?

https://time.geekbang.org/column/article/113513 2.1 Chrome架构:仅仅打开了1个页面,为什么有4个进程? 前置:基于Chrome浏览器学习浏览器的工作原理 原因: 因为 Chrome、微软的 Edge 以及国内的大部分主流浏览器…

智能图像处理平台:图像处理配置类

这里我们先修改一下依赖&#xff0c;不用JavaCV&#xff0c;用openCV。 导入依赖&#xff1a; <!-- JavaCV 依赖&#xff0c;用于图像和视频处理 --> <!-- <dependency>--> <!-- <groupId>org.bytedeco</groupId>--> &l…

【Python 初级函数详解】—— 参数沙漠与作用域丛林的求生指南

欢迎来到ZyyOvO的博客✨&#xff0c;一个关于探索技术的角落&#xff0c;记录学习的点滴&#x1f4d6;&#xff0c;分享实用的技巧&#x1f6e0;️&#xff0c;偶尔还有一些奇思妙想&#x1f4a1; 本文由ZyyOvO原创✍️&#xff0c;感谢支持❤️&#xff01;请尊重原创&#x1…

夜天之书 #106 Apache 软件基金会如何投票选举?

近期若干开源组织进行换届选举。在此期间&#xff0c;拥有投票权的成员往往会热烈讨论&#xff0c;提名新成员候选人和治理团队的候选人。虽然讨论是容易进行的&#xff0c;但是实际的投票流程和运作方式&#xff0c;在一个成员众多的组织中&#xff0c;可能会有不少成员并不清…

DeepSeek开源周 Day04:从DualPipe聊聊大模型分布式训练的并行策略

DualPipe简介 今天是DeepSeek开源周的第四天&#xff0c;官方开源了一种新型并行计算优化策略——DualPipe。 其实大家阅读过Deepseek-V3技术报告的同学&#xff0c;对这个技术并不陌生。 开源地址&#xff1a;https://github.com/deepseek-ai/DualPipe 核心亮点 DualPipe&…

React:B站评论demo,实现列表渲染、删除按钮显示和功能实现、导航栏渲染切换及高亮显示、评论区的排序

功能要求&#xff1a; 1、渲染评论列表 2、删除评论功能&#xff1a;只显示自己评论的删除按钮&#xff1b;点击删除按钮&#xff0c;删除当前评论&#xff0c;列表中不再显示。 3、渲染导航Tab&#xff08;最新 | 最热&#xff09;和其 高亮实现 4、评论排序功能实现&…

一文了解:部署 Deepseek 各版本的硬件要求

很多朋友在咨询关于 DeepSeek 模型部署所需硬件资源的需求&#xff0c;最近自己实践了一部分&#xff0c;部分信息是通过各渠道收集整理&#xff0c;so 仅供参考。 言归正转&#xff0c;大家都知道&#xff0c;DeepSeek 模型的性能在很大程度上取决于它运行的硬件。我们先看一下…

C#贪心算法

贪心算法&#xff1a;生活与代码中的 “最优选择大师” 在生活里&#xff0c;我们常常面临各种选择&#xff0c;都希望能做出最有利的决策。比如在超市大促销时&#xff0c;面对琳琅满目的商品&#xff0c;你总想用有限的预算买到价值最高的东西。贪心算法&#xff0c;就像是一…

【JAVA SE基础】抽象类和接口

目录 一、前言 二、抽象类 2.1 抽象类的概念 2.2 抽象类语法 2.3 抽象类特性 2.4 抽象类的作用 三、接口 3.1 什么是接口 3.2 语法规则 3.3 接口使用 3.4 接口特性 3.5 实现多接口 3.6 接口间的继承 四、Object类 4.1 获取对象信息&#xff08; toString() &…

查找Excel包含关键字的行(の几种简单快速方法)

需求&#xff1a;数据在后缀为xlsx的Excel的sheet1中且量比较大&#xff0c;比如几十万行几百列&#xff1b;想查找一个关键字所在的行,比如"全网首发"&#xff1b; 情况①知道关键字在哪一列 情况②不确定在哪一列&#xff0c;很多列相似又不同&#xff0c;本文演…