【机器学习300问】120、该怎么用RNN来构建语言模型?

一、基本概念补充

        在构建语言模型之前补充几个自然语言处理(NLP)基本概念。

(1)语料库(Corpus)

① 语料库的定义 

        在自然语言处理(NLP)领域,语料库是一个经过组织和加工的大型文本集合。这个集合可以包含各种形式的文本材料,比如书籍、报纸文章、网页内容、社交媒体帖子、对话记录等。语料库是构建和评估语言模型、进行文本分析、语法研究、机器翻译等NLP任务的基础资源。一个好的语料库往往具有代表性和广泛性,能够覆盖目标语言或领域内的各种语言现象和风格。

② 语料库可以按照不同的标准分类

  • 按语言类型:单语语料库(只包含一种语言的文本)、双语或多语对照语料库。
  • 按主题领域:通用语料库、法律语料库、医疗语料库等。
  • 按文本来源:书面语语料库、口语语料库、网络语料库等。
  • 按标注程度:未标注语料库、句法标注语料库、语义标注语料库等。

(2)NLP中的训练集

        在机器学习和NLP任务中,训练集是语料库的一个子集,专门用于训练模型。 训练集中的一个个实例通常包括输入数据(如文本)及其对应的标签或期望输出(如分类标签、翻译文本等)。通过在训练集上不断调整模型参数,模型逐渐学会如何从输入预测正确的输出,从而达到学习任务的目标。

(3)分词(Tokenization)

① 分词的定义

        分词(Tokenization)是自然语言处理(NLP)中的一个基本步骤,它指的是将文本数据分割成更小的、具有意义的单位,这些单位被称为“tokens”。在很多语言中,如英语,这些tokens通常是单词,但也可以是句子或任何有意义的字符序列。

        一句英文句子 "The quick brown fox jumps over the lazy dog." 经过分词后,可能得到如下tokens:["The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog", "."]。在中文中,由于没有自然的空格分隔,分词可能更为复杂,需要识别词语边界,如“我爱北京天安门”分词后可能是 ["我", "爱", "北京", "天安门"]。

③ 以单词级医疗语料库举例

患者 主诉 腹痛 伴 发热 三 日 ,
初步 诊断 为 急性 胃炎 ,
建议 行 血常规 检查 与 腹部 B 超 。
给予 抗生素 治疗 ,
并 注意 饮食 调整 ,
避免 辛辣 刺激 食物 。

        在这个简化示例中,通过空格分隔词语来构造语料库是一种基本方法,这有助于模型识别和学习词语之间的统计关系。

        对于中文而言,由于它是表意文字且缺乏自然的分隔符,分词(即将连续的汉字序列切分成有意义的词语单元)是一个更为复杂的过程,通常使用jieba分词器。正确的分词对于确保模型理解句子意义至关重要。

二、用RNN来构建语言模型的步骤

        通过以下步骤,可以构建一个基于RNN的语言模型,该模型能够学习语言的统计规律并生成新的文本序列。 

(1)准备语料库/数据预处理

  • 文本清洗:去除无关字符,如标点符号、数字等(根据需求保留部分标点符号以保持语义完整性)。
  • 分词:对中文文本进行分词处理,英文文本则可能直接按空格分隔。
  • 构建词汇表:创建一个词汇到索引的映射表,通常包括所有出现过的单词和一个特殊的未知词(UNK)标记。
  • 序列化与填充:将文本转化为数字序列,每个单词用词汇表中的索引表示,并对序列进行填充或截断以统一长度。

(2)模型架构设计

  • 选择RNN类型:基于任务需求,选择标准RNN、长短期记忆网络(LSTM)或门控循环单元(GRU)等。
  • 输入层:定义输入数据的形状,通常是词嵌入(word embeddings)形式。
  • 循环层:构建循环结构,让模型能够捕获序列数据中的时间依赖性。
  • 输出层:使用softmax函数,输出每个时间步下一个词的概率分布。

(3)训练模型

  • 定义损失函数:常用交叉熵损失(Cross-Entropy Loss),衡量预测概率分布与真实标签之间的差异。
  • 优化器选择:如Adam、SGD等,用于更新模型权重以最小化损失。
  • 训练循环:通过反向传播和梯度下降,多次遍历整个训练数据集,逐步调整模型参数。
标准RNN训练过程

(4)超参数优化与评估

  • 学习率批次大小隐藏层大小词嵌入维度等参数的选择和调整,以提升模型性能。
  • 使用验证集监控过拟合,调整模型直到性能不再提升。
  • 在测试集上评估模型性能,常用指标包括困惑度(Perplexity)、准确率(对于分类任务)等。

(5)生成文本

  • 采样策略:可以使用贪婪搜索等策略从模型输出的概率分布中选择下一个词。
  • 生成序列:给定初始词汇或随机词汇开始,不断根据模型预测的下一个词概率生成后续文本,直至达到预定长度或满足特定停止条件。
标准RNN预测过程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/28878.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024长三角高校数学建模:“抢救”落水手机

背景 上有天堂,下在苏杭;五一假期,杭州西湖、西溪湿地、京杭大运河等著名景点,游人如织,作为享誉国内外的旅游胜地,杭州再次成为顶流。今年五一假期,西湖不断忙上热搜,据悉今年“五…

Android adb-wm命令详解

1.wm窗口管理命令可以获取屏幕的 分辨率、像素密度 等信息,甚至可以临时修改屏幕的 分辨率、像素密度 等参数,可以很方便地查看 APP 在不同像分辨率和素密度手机/平板上的显示效果。 查看帮助 wm # 或 wm help 查看 屏幕分辨率 和 像素密度 wm size …

使用python库moviepy完成视频剪辑

1.关于moviepy和原理 moviepy事github上面的一个开源项目,地址是:GitHub - Zulko/moviepy: Video editing with Python 官方文档地址: User Guide — MoviePy 1.0.2 documentation 中文版文档可参考: MoviePy中文手册 — mov…

GitHub项目里的api

在一个GitHub项目中提到的"api"通常指的是该项目提供的应用程序编程接口(Application Programming Interface)。这意味着该项目包含了一套规则和工具,允许其他开发者通过代码调用该接口来与项目功能互动、获取数据或执行特定任务。…

Ollama:本地部署大模型 + LobeChat:聊天界面 = 自己的ChatGPT

本地部署大模型 在本地部署大模型有多种方式,其中Ollama方式是最简单的,但是其也有一定的局限性,比如大模型没有其支持的GGUF二进制格式,就无法使用Ollama方式部署。 GGUF旨在实现快速加载和保存大语言模型,并易于阅读…

vue中的代码分割

随着Web应用的日益复杂化,用户对页面加载速度的期望越来越高。在这种背景下,前端性能优化成为了开发者们必须面对的挑战。Vue.js,作为现代前端开发的首选框架之一,其轻量级和灵活性为构建高性能的Web应用提供了可能。然而&#xf…

软件开发背景介绍?程序员为您揭秘软件开发的流程?

本文将由小编为您介绍关于软件开发的背景及其流程,希望能够帮助大家更好地理解软件开发的基本概念和具体步骤。在现代信息技术飞速发展的今天,软件已成为推动社会进步和商业发展的重要力量。无论是个人生活还是企业运营,都离不开各类软件的支…

在大模型应用中,如何提升RAG(检索增强生成)的能力?

01、什么是RAG? RAG简单来说就是给予LLM的一些增强。 • 引入新的信息,这些信息可能不在LLM中。 • 使用RAG控制内容来减少幻觉(模型生成与现实不符的输出),这是RAG的一个常见用途。通常的用例是提供内容给模型&…

java-内部类 2

### 8. 内部类的访问规则和限制 #### 8.1 访问外部类的成员 内部类可以直接访问外部类的成员变量和方法,包括私有成员。例如: java class OuterClass { private String outerField "Outer field"; class InnerClass { void di…

Vue47-修改默认配置webpack.config.js文件

main.js是脚手架项目的入口文件,系统运行时,默认去找src下的main.js文件。这是webpack通过配置文件:webpack.config.js配置的。 脚手架把所有重要的配置文件都隐藏了,方式被开发者修改。 一、查看被隐藏的webpack配置 1-1、webpa…

网线不通?瞅瞅这里----关于交叉网线的原理。

最近搞了个项目,UDP对接UDP,死活对接不上。 最后发现是交叉网线的事情,在此记录交叉网线的原理。 先说结论:不同设备用直连,相同设备用交叉网线 细说说 1.原理 网线的原理实际就是TX与RX对接。 正常一个设备同时有…

哪些不得不记下的汇编指令

指令 1、8种寻址方式 寄存器寻址 立即寻址 寄存器移位寻址 寄存器间接寻址 基址寻址 多寄存器寻址 堆栈寻址 相对寻址 2、6类指令: 数据处理指令: 数据传输指令, MOV --------传送字或字节。 …

uthash使用指南

uthash用户使用指南 uthash支持哪些操作如何使用uthash定义可以使用作hash表的结构体关于内存 声明哈希表添加元素查找元素删除元素遍历元素计数排序 我们利用哈希表可以通过键值对的方式处理元素,即哈希表中存储键-值形式的数据,关键字是唯一的。uthash…

vue3 使用 watch 时陷入了个直觉陷阱

场景:在vue中,使用watch 的场景是很常见的。编写业务代码时,需要监听一个或多个值的变化时,经常性会使用watch,日常使用就不提了,直入主题,来一段使用watch的简单代码,有一定前端水平…

秘密背后的秘密-高速PCB的层叠确认时,工厂为何不写铜箔类型

一博高速先生成员:王辉东 “三面青山一面湖,无尽烟波画舫浮。”说的是巢湖,到了合肥怎能不去巢湖看看呢。 周末休息,大刚说我开车,小胡(丽华)说我也去。 大刚说走就走,秒开车&…

Web前端遇到的难题:挑战与突破之路

Web前端遇到的难题:挑战与突破之路 在快速发展的互联网时代,Web前端技术作为连接用户与应用程序的桥梁,扮演着举足轻重的角色。然而,在实际开发中,Web前端开发者往往会遇到诸多难题。本文将从四个方面、五个方面、六个…

网络编程(六)服务器模型

文章目录 (一)概念(二)TCP并发服务器(三)使用多线程实现TCP并发服务器1. 思路2. 代码实现 (四)使用多进程实现TCP并发服务器1. 思路2. 代码实现3. 注意点 (五&#xff09…

关于使用命令行打开wps word文件

前言 在学习python-docx时,想在完成运行时使用命令行打开生成的docx文件。 总结 在经过尝试后,得出以下代码: commandrstart "C:\Users\86136\AppData\Local\Kingsoft\WPS Office\12.1.0.16929\office6\wps.exe" "./result…

函数的一点点习题

1、利用递归计算0-n的和 #include <stdio.h> #include <string.h> #include <stdlib.h> int rec(int n) {if(n0)return 0;elsereturn nrec(n-1); } int main(int argc, const char *argv[]) {int n0;printf("please enter n:");scanf("%d&quo…

c# 去掉字符串首尾的 特殊符号

如果首尾的 - 数量不确定,可以使用以下方法来去掉字符串两端的 - 字符: 使用正则表达式: using System.Text.RegularExpressions;string input "---Hello, World!---"; string trimmed Regex.Replace(input, "^-*|-*$", ""); // trimmed 为 …