机器学习——词向量模型(CBOW代码实现-未开始)

本来是不打算做这个CBOW代码案例的,想快马加鞭看看前馈神经网络
毕竟书都买好了
可是…可是…我看书的时候,感觉有点儿困难,哭的很大声…
感觉自己脑细胞可能无法这么快接受
要不,还是退而求个稍微难度没那么大的事,想想自己还有什么是没实现的呢
哦!CBOW的案例还没做呢~
在一个巨人面前,我无耻地选择了暂避其锋芒
就好像,我本应该英勇地迈过刀山火海,可是我却怂了
而且,怂的有理有据:CBOW还没实现呢
只希望,CBOW案例,不要太难,不然我根本寸步难行,只能天天打游戏聊以自慰

首先,我计划做一个客服预料包,然后用CBOW去预测某个中间关键词

目标明确后,问题接踵而至

问题1-能否用中文语料:不行,因为中文分词很麻烦,我懒得去搞分词,重点是CBOW
英文语料很简单,因为英文是一个词跟另一个词,用空格分开,获取十分简单

问题2-头尾单词怎么解决:毕竟CBOW是获取关键词的前c个和后c个单词来训练的,但开头单词没有前c个单词,末尾单词没有后c个单词
解决办法:用额外的单词替代,比如None,应该问题不大的吧

问题3-按句还是按所有句取上下文:如果是按句取上下文,那么一个句子开头和末尾单词的下文就是None,语料文件有很多个句子,就会有很多个None。
如果按所有句取上下文,那整个语料文件就只有开头有None,末尾有None,None数量很少
解决办法:还是按句吧,毕竟两句之间的上下文,是毫无关系的。

按照【基于HierarchicalSoftmax的CBOW】正反向传播流程,来设计程序吧!

【基于HierarchicalSoftmax的CBOW】正向传播过程

  • 输入层:
    • 转换独热编码:将词典D转换为one-hot独热编码,
    • 获取上下文:按规定上下文的长度k,来截取语库C里的上下文单词 x x x和预测单词 y ∗ y* y
    • 获取独热编码:获取上下文单词x的独热编码向量 x 1 x1 x1, x 2 x2 x2, x 3 x3 x3, x 4 x4 x4,作为初始输入矩阵X=[ x 1 x1 x1, x 2 x2 x2, x 3 x3 x3, x 4 x4 x4]
  • 投影层:
    • 计算中间向量:
      • 将初始矩阵X乘以一个权重矩阵W,提取出各个初始向量 x 1 x1 x1, x 2 x2 x2, x 3 x3 x3, x 4 x4 x4的权重系数 w 1 w1 w1 w 2 w2 w2 w 3 w3 w3 w 4 w4 w4
      • 将这些权重系数加和,作为中间向量h=[ w 1 w1 w1+ w 2 w2 w2+ w 3 w3 w3+ w 4 w4 w4],注意,这里的加和是按列加和
  • 输出层:
    • 构建huffman树,
    • 计算路径概率
    • 计算预测模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/166359.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【多线程】-- 01 线程创建之继承Thread多线程同步下载网络图片

多线程 1 简介 1.1 多任务、多线程 普通方法调用:只有主线程一条执行路径 多线程:多条执行路径,主线程和子线程并行交替执行 如下图所示: 1.2 程序.进程.线程 一个进程可以有多个线程,例如视频中同时听声音、看图…

idea 问题合集

调试按钮失效: 依次点击:Modules-web-src-Sources,重启IDEA即可(网上看到的方法,原因呢未明)

U-boot(四):start_armboot

本文主要探讨210的uboot启动的第二阶段,主要函数为start_armboot。 uboot 一阶段初始化SoC内部部件(看门狗、时钟等),初始化DDR,重定位 二阶段初始化其余硬件(iNand、网卡芯片)以及命令、环境变量等 启动打印硬件信息,进入bootdelay,读秒完后执行bootc…

SpringCloud Alibaba集成 Gateway(自定义负载均衡器)、Nacos(配置中心、注册中心)、loadbalancer

文章目录 POM依赖环境准备配置配置文件配置类 案例展示 POM依赖 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>2.7.10</version><relativePath/></p…

【华为OD】C卷真题 100%通过:执行时长 C/C++实现

【华为OD】C卷真题 100%通过:执行时长 C/C实现 目录 题目描述&#xff1a; 示例1 示例2 代码实现&#xff1a; 题目描述&#xff1a; 为了充分发挥GPU算力&#xff0c;需要尽可能多的将任务交给GPU执行&#xff0c;现在有一个任务数组&#xff0c;数组元素表示在这1秒内…

百度ai试用

JMaven Central: com.baidu.aip:java-sdk (sonatype.com) Java sdk地址如上&#xff1a; 文心一言开发者 文心一言 (baidu.com) ERNIE Bot SDK提供便捷易用的接口&#xff0c;可以调用文心一言的能力&#xff0c;包含文本创作、通用对话、语义向量、AI作图等。 pip install…

什么是轻量应用服务器?可以从亚马逊云科技的优势入手了解

什么是轻量应用服务器&#xff1f; 随着如今各行各业对云计算的需求越来越多&#xff0c;云服务器也被越来越多的企业所广泛采用。其中&#xff0c;轻量应用服务器是一种简单、高效、可靠的云计算服务&#xff0c;能够为开发人员、企业和个人提供轻量级的虚拟专用服务器&#x…

PTP精密时钟同步(1588)如何完成精准时间同步?

PTP精密时钟同步&#xff08;1588&#xff09;如何完成精准时间同步&#xff1f; PTP精密时钟同步&#xff08;1588&#xff09;如何完成精准时间同步&#xff1f; 引言   以太网技术由于其开放性好、价格低廉和使用方便等特点&#xff0c;已经广泛应用于电信级别的网络中&am…

Centos部署GitLab-备份恢复

1. 下载rpm包 wget https://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/yum/el7/gitlab-ce-10.8.4-ce.0.el7.x86_64.rpm2. 安装依赖 yum -y install policycoreutils openssh-server openssh-clients postfix policycoreutils-python3. rpm安装 rpm -ivh gitlab-ce-10.8.4-ce.…

TCP 重传、滑动窗口、流量控制、拥塞控制的剖析

TCP 是一个可靠传输的协议&#xff0c;那它是如何保证可靠的呢&#xff1f; 为了实现可靠性传输&#xff0c;需要考虑很多事情&#xff0c;例如数据的破坏、丢包、重复以及分片顺序混乱等问题。如不能解决这些问题&#xff0c;也就无从谈起可靠传输。 那么&#xff0c;TCP 是…

zend studio 的主题安装、卸载和更新

zend studio的主题插件安装 我的zend studio版本是13.6 在Welcome页面右侧看到有好多插件可以安装&#xff0c;现在我们来安装主题&#xff0c;主题插件就是Eclipse Color Theme。先选中Eclipse Color Theme选项打勾&#xff0c;然后点击Apply changs 按钮进行安装。 安装完成…

深入理解移动端H5视频通话中的摄像头切换实践

在移动端H5应用中实现视频通话功能,已经成为现代Web应用的标配之一。随着Web技术的发展,我们不仅能够在桌面浏览器上实现复杂的视频通话功能,也能够在移动端浏览器中提供几乎原生应用级别的流畅体验。本文将详细介绍如何在使用声网(Agora)Web SDK的移动端H5应用中实现摄像…

亚马逊云科技向量数据库助力生成式AI成功落地实践探秘(一) ​

随着大语言模型效果明显提升&#xff0c;其相关的应用不断涌现呈现出越来越火爆的趋势。其中一种比较被广泛关注的技术路线是大语言模型&#xff08;LLM&#xff09;知识召回&#xff08;Knowledge Retrieval&#xff09;的方式&#xff0c;在私域知识问答方面可以很好的弥补通…

案例023:基于微信小程序的童装商城的设计与实现

文末获取源码 开发语言&#xff1a;Java 框架&#xff1a;SSM JDK版本&#xff1a;JDK1.8 数据库&#xff1a;mysql 5.7 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven3.5.4 小程序框架&#xff1a;uniapp 小程序开发软件&#xff1a;HBuilder X 小程序…

Nginx503有哪些解决办法

还是经常见到的服务部署问题&#xff0c;今天遇见的是503&#xff1a; 503 的可能原因 Nginx 返回 503 错误通常表示服务暂时不可用。一些常见的原因包括&#xff1a; 后端服务故障&#xff1a;后端服务可能由于程序错误、崩溃或异常情况而无法正常响应请求。这可能是由于服…

在vue或者react或angular中,模板表达式中的箭头函数是无效的吗?为什么无效?

出现此问题的背景&#xff1a; 我在Angular项目中对一个标签属性绑定了一个箭头函数&#xff0c;编译报错。 在vue或者react或angular中&#xff0c;模板表达式中的箭头函数是无效的吗&#xff1f; 在 Vue、React 或 Angular 中&#xff0c;模板表达式中的箭头函数是无效的。…

Java常量池理论篇:Class常量池、运行时常量池、String常量池、基本类型常量池,intern方法1.6、1.7的区别

文章目录 Class常量池运行时常量池String常量池基本类型常量池Integer 常量池Long 常量池 加餐部分 Class常量池 每个Class字节码文件中包含类常量池用来存放字面量以及符号引用等信息。 运行时常量池 java文件被编译成class文件之后&#xff0c;也就是会生成我上面所说的 …

webshell之基于框架免杀

thinkphp array_map_recursive函数 array_map_recursive函数分析 这里存在一个call_user_func命令执行函数 免杀效果 B函数 免杀效果 B函数分析 exec函数分析 在exec函数用存在有个类调用&#xff0c;且所有的参数都可控 smarty_php_tag函数 免杀效果 smarty_php_tag函数分析…

【开源】基于Vue.js的数据可视化的智慧河南大屏

项目编号&#xff1a; S 059 &#xff0c;文末获取源码。 \color{red}{项目编号&#xff1a;S059&#xff0c;文末获取源码。} 项目编号&#xff1a;S059&#xff0c;文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、系统展示四、核心代码4.1 数据模块 …

HTML新手入门笔记整理:块元素和行内元素

块元素 在HTML中&#xff0c;块元素在浏览器显示状态下独占一行&#xff0c;并且排斥其他元素与其位于一行。一般情况下&#xff0c;块元素内部可以容纳其他块元素和行内元素。 常见块元素 块元素 说明 h1~h6 标题元素 p 段落元素 div div元素 hr 水平线 ol 有序列…