大语言模型的发展-OPENBMB

一、自然语言处理的基础

1、图灵测试 就是验证人工智能程序有多智能

让计算机像人一样,能够听懂问题,然后给出答案;

自然语言发展历史:

advances in Natural Lannguage Processing --论文

2、自然语言处理的基本任务和应用

2.1任务:

词性质(动词,名词),命名实体识别(人名,地名,机构名),共指消解(it,she代指的是谁),句法的理论(主谓宾,定状补),中文分词任务

2.2 应用:

1、搜索引擎,query和document的相似段

搜索引擎出广告:文本匹配的问题

2、知识图谱:是搜索引擎重要的点

query如何找知识图谱的实体,如何构建知识图谱

使用自然语言处理,把一篇文章,识别出哪些实体是有关系,然后自动输出到知识图谱中,用于后续的知识图谱的查询

3、个人助手

智能音箱,理解人说的话给出回复

4、机器翻译

5、情感分类和意见挖掘

6、社会科学 books.google.com/ngrams

3、词表示:就要把我们说的词转换为计算机可以理解的表示

3.1 one hot 表示

任何一个词都表示词表大小的向量

star 【0,0,1,0,0】

sun【0,1,0,0,0

3.2 上下文表示词

词向量的长度也是字典的大小,但是向量中每个值的是上下文中出现的次数

3.3 word embedding

word2vector 方法,使用一个低维度的向量就是表示一个高纬度的向量且信息不丢失

语言模型

根据前面的词预测后面的词

语言模型的假设:后面的词只依赖前面的词;马尔可夫的假设

N-gram模型 使用条件概率和联合概率计算下一个词,每个词都是一个符号没有啥含义

问题:上下文不能特别大;词之间的相似度是独立的

Neural labaguage Model 模型

使用前面说的wordembedding表示的向量

大模型基础知识

word2vec,RNN,Elmo,Bert

预训练语言模型 作为nlp领域的基础工具

预训练语言模型:从无标注数据学习,使用任务相关数据进行微调,最终获取行业的大模型

这种方式也叫迁移学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/54315.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2-100 基于matlab的水果识别

基于matlab的水果识别。从面积特征、似圆形特征,颜色(rgb值和hsv值)特征对图像中的梨子、苹果、桃子、香蕉和菠萝进行特征提取,边缘检测识别,最后按照筛选出来的特征对水果进行识别。程序已调通,可直接运行。 下载源程序请点链接…

一天认识一个硬件之连接线

我们在日常工作生活中经常会用到许多连接线,比如视频线,USB线,但是他们的区别在哪里,可能太不清楚,今天就来给大家分享一下。 HDMI线 特点:HDMI线是一种全数字化视频和声音发送接口,可以发送未…

PCL 点云圆柱邻域搜索

目录 一、概述 1.1原理 1.2实现步骤 1.3应用场景 二、代码实现 2.1关键函数 2.2完整代码 三、实现效果 PCL点云算法汇总及实战案例汇总的目录地址链接: PCL点云算法与项目实战案例汇总(长期更新) 一、概述 本文将介绍如何使用PCL库进…

Snapchat API 访问:Objective-C 实现示例

Snapchat 是一个流行的社交媒体平台,它允许用户发送和接收短暂存在的图片和视频。对于开发者来说,访问 Snapchat API 可以为应用程序添加独特的社交功能。本文将介绍如何在 Objective-C 中实现对 Snapchat API 的访问,并提供一个详细的代码示…

spring boot启动报错:so that it conforms to the canonical names requirements

springboot 2.x的版本中对配置文件中的命名规范有了强制性的要求,如下图所示中的dataSource属性属于驼峰格式,但是在springboot 2.x中不允许使用驼峰形式。 根据错误提示可知将其使用 - 来分割即可 错误信息的含义:“Canonical names should…

LLM - 理解 多模态大语言模型(MLLM) 的 指令微调(Instruction-Tuning) 与相关技术 (四)

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/142237871 免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。 完备(F…

最新版本TensorFlow训练模型TinyML部署到ESP32入门实操

最新版本TensorFlow训练模型TinyML入门实操 1.概述 这篇文章介绍微型嵌入式设备的机器学习TinyML,它们的特点就是将训练好的模型部署到单片机上运行。 2.TensorFlow深度学习原理 TensorFlow开源项目是由google研发的一个嵌入式机器学习工具,通过调用…

鸿蒙媒体开发系列07——AVRecorder音频录制

如果你也对鸿蒙开发感兴趣,加入“Harmony自习室”吧!扫描下方名片,关注公众号,公众号更新更快,同时也有更多学习资料和技术讨论群。 1、概述 在HarmonyOS系统中,多种API都提供了音频录制开发的支持&#x…

【洛谷】P1313 [NOIP2011 提高组] 计算系数 的题解

【洛谷】P1313 [NOIP2011 提高组] 计算系数 的题解 题目传送门 题解 一题水水的数学题qaq,祝 CSP 初赛 rp!!! 其实就是一个组合数加上杨辉三角(记得要快速幂),根据二项式定理, (…

2024永久激活版 Studio One 6 Pro for mac 音乐创作编辑软件 完美兼容

Studio One 6是一款功能强大的音乐制作软件,由PreSonus公司开发。它提供了全面的音频录制、编辑、混音和母带处理工具,适用于音乐制作人、音频工程师和创作人员。 Studio One 6拥有直观的用户界面,使用户能够快速而流畅地进行音乐创作。它采…

ubuntu安装emqx

目录 1.预先下载好emqx压缩包 2.使用tar命令解压 3.进入bin目录 5.放开访问端口18083 6.从通过ip地址访问emqx后台 7.默认用户名密码为admin/public 8.登录后台 9.资源包绑定在此博文可自取 1.预先下载好emqx压缩包 2.使用tar命令解压 sudo tar -xzvf emqx-5.0.8-el8-…

莱卡相机sd内存卡格式化了怎么恢复数据

在数字化时代,相机已成为我们记录生活、捕捉瞬间的重要设备。而SD内存卡,作为相机的存储媒介,承载着我们的珍贵记忆和重要数据。然而,有时由于误操作、系统错误或其他原因,我们可能会不小心格式化SD内存卡,…

一个基于VB的期刊信息管理系统

一个基本的期刊信息管理系统的示例,使用 Visual Basic (VB.NET) 编写。这个示例将展示如何创建一个简单的期刊信息管理系统,其中包括添加、查看、编辑和删除期刊的功能。 系统需求 添加期刊:允许用户输入期刊的信息(如标题、作者…

如何应对脚本 Kiddie 攻击:检测与防御策略

在网络安全领域,“脚本 Kiddie”通常指的是那些使用现成工具进行攻击的人,而不是编写自己的恶意软件或漏洞利用程序。这些工具往往很容易在网上找到,并且不需要太多的专业知识就可以使用。尽管如此,脚本 Kiddie 的攻击仍然可能对没…

OpenAI GPT o1技术报告阅读(3)-英文阅读及理解

✨继续阅读报告:使用大模型来学习推理(Reason) 原文链接:https://openai.com/index/learning-to-reason-with-llms/ 这次我们继续看一个英文阅读理解的案例。 原问题: The following passage is the draft of an excerpt from a contempora…

Android中的Intent的作用

在深入探讨Android中的Intent及其作用之前,我们首先需要理解Android作为一个开源的移动操作系统,其核心设计哲学之一是鼓励组件之间的解耦与重用。这种设计使得开发者能够构建出灵活、可扩展且模块化的应用程序。而Intent,正是这一设计理念中…

条件编译代码记录

#include <iostream>// 基类模板 template<typename T> class Base { public:void func() {std::cout << "Base function" << std::endl;} };// 特化的子类 template<typename T> class Derived : public Base<T> { public:void…

TypeScript系列:初篇 - 类型系统

TypeScript 是 JavaScript 的一个超集&#xff0c;添加了类型系统和编译期错误检查等功能 > 静态类型检查。 类型指的是一组具有相同特征的值。 静态类型系统描述了运行程序时的值的形状和行为。 TypeScript 支持块级类型声明&#xff0c;即类型可以声明在代码块&#xff0…

MYSQL数据库——MYSQL管理

MYSQL数据库安装完成后&#xff0c;自带四个数据库&#xff0c;具体作用如下&#xff1a; 常用工具 1.mysql 不是指mysql服务&#xff0c;而是指mysql的客户端工具 例如&#xff1a; 2.mysqladmin 这是一个执行管理操作的客户端程序&#xff0c;可以用它来检查服务器的配置和…

多线程篇六

多线程篇六 如笔者理解有误欢迎交流指正~⭐ 什么是单例模式&#xff1f; 单例模式是最常见的 设计模式. 顾名思义&#xff0c;单例模式指的就是单个实例的模式.&#xff08;针对某些类只能使用一个对象的场景【如MySQL、JDBC、DataSource】&#xff09; 设计模式 设计模式是…