华为AI培训-NLP实验

中文分词、命名实体识别、语义词性标注、语句逻辑推理、文本摘要、机器翻译、文本情感分析、内容创作

1 实验介绍
1.1 实验背景
       中文分词、命名实体识别、语义词性标注、语句逻辑推理是自然语言处理领域中的重要任务。中文分词是将连续的汉字序列切分成有意义的词语序列的过程。命名实体识别是指在文本中识别出具有特定意义的实体,如人名、地名、机构名等。语义词性标注是将词语标注为其在句子中的语法和语义角色。语句逻辑推理是指根据语句中的逻辑关系,推导出新的结论。利用 ChatGLM3 进行这些任务的实验可以帮助我们更好地理解和掌握自然语言处理技术,提高我们对自然语言处理应用的理解和能力。
       ChatGLM3是一个基于 GPT-3的自然语言处理模型,它具有强大的文本生成和理解能力,可以应用于文本摘要、机器翻译、文本情感分析、内容创作等多个领域。
       在文本摘要方面,ChatGLM3可以根据输入的文本内容,自动提取出其中的关键信息,生成简洁准确的摘要,帮助用户快速了解文章主题和要点。
        在机器翻译方面,ChatGLM3可以将一种语言翻译成另一种语言,支持多种语言的翻译,为跨语言交流提供了便利。在文本情感分析方面,ChatGLM3可以分析文本中的情感倾向,包括积极、消极和中性等情感类型,帮助用户了解文本的情感色彩和情感倾向。
        在内容创作方面,ChatGLM3可以根据用户输入的关键词和主题,自动生成文章、新闻、广告等多种文本内容,为用户提供创作灵感和快速撰写文本的工具。

1.2 实验原理
        中文分词是将一段中文文本切分成一系列有意义的词语的过程。ChatGLM3 使用了基于统计学习的分词方法,通过学习大量的中文文本,自动构建出一个词语库,并使用隐马尔可夫模型(HMM)对文本进行分词。命名实体识别是指在文本中识别出具有特定含义的实体,如人名、地名、组织机构名等。ChatGLM3 使用了基于条件随机场(CRF)的方法,通过学习大量的标注数据,自动构建出一个命名实体识别模型,对文本进行命名实体识别。语义词性标注是指为文本中的每个词语标注其词性,并给出其在句子中的语义角色。ChatGLM3 使用了基于深度学习的方法,通过学习大量的标注数据,自动构建出一个语义词性标注模型,对文本进行语义词性标注。语句逻辑推理是指根据前提条件和逻辑规则,推导出结论的过程。ChatGLM3使用了基于逻辑回归的方法,通过学习大量的逻辑规则和标注数据,自动构建出一个逻辑推理模型,对文本进行逻辑推理。
       文本摘要:利用 ChatGLM3 生成摘要,可以通过输入一段长文本,让模型自动生成一段简短的摘要。实验原理是ChatGLM3通过学习大量的文本数据,能够理解文本的主题和关键信息,从而生成简洁准确的摘要。
       机器翻译;利用 ChatGLM3 实现机器翻译,可以输入一句话或一段文本,让模型自动将其翻译成另一种语言。实验原理是,ChatGLM3 通过学习大量的双语语料库,能够理解不同语言之间的语法、词汇和语义,从而实现准确的翻译
       文本情感分析:利用 ChatGLM3 进行文本情感分析,可以输入一段文本,让模型自动判断文本的情感倾向,如积极消极或中性。实验原理是,ChatGLM3通过学习大量的情感标注数据,能够理解文本中的情感色彩和情感表达方式,从而实现准确的情感分析。
       内容创作:利用 ChatGLM3进行内容创作,可以输入一些关键词或主题,让模型自动生成一篇文章、一段对话或首诗歌等。实验原理是,ChatGLM3 通过学习大量的文本数据,能够理解文本的主题和结构,从而生成符合主题和结构的内容。同时,它还能够自动创作出新颖的、富有创意的内容,为内容创作者提供了很大的帮助。

1.3 实验目的
        中文分词:通过分析中文文本,将其切分成一个个有意义的词语,以便后续的语义分析和理解。
        命名实体识别:识别文本中的人名、地名、组织机构名等命名实体,以便更好地理解文本的含义和上下文。
        语义词性标注:对文本中的词语进行词性标注,以便更好地理解其在句子中的作用和语义。
        语句逻辑推理:通过对文本中的逻辑关系进行分析和推理,进一步理解文本的含义和逻辑结构。
        文本摘要:利用 ChatGLM3可以对一篇较长的文章进行自动化的文本摘要,提取出文章的主要内容和关健信息,从而快速了解文章的核心内容。
        机器翻译:ChatGLM3 可以用于机器翻译,将一种语言翻译成另一种语言。利用 ChatGLM3 的强大语言模型,可以提高翻译的准确性和流畅度,从而更好地满足用户的需求。
       文本情感分析:ChatGLM3 可以用于文本情感分析,帮助用户了解一段文本的情感倾向。通过分析文本中的词汇和语义,ChatGLM3 可以自动识别文本的情感,如积极、消极或中性等。
        内容创作:利用 ChatGLM3 可以生成高质量的文本内容,如文章、新闻、广告等。通过输入一些关键词和主题ChatGLM3 可以自动生成相关的文本内容,从而提高内容创作的效率和质量。

2.实验

2.1任务一 中文分词

连接服务器后

cd /root/home/ChatGLM3-main/openai_api_demo

python api_server.py(只能一个人执行)

本地新建"中文分词.py"文件,将以下代码制到"中文分词.py"并保存,127.0.0.1 改为 ChatGLM3 部署服务器的地址即可。

import sys
from openai import OpenAIbase_url = "http://127.0.0.1:8000/v1/"
client = OpenAI(api_key="EMPTY", base_url=base_url)def simple_chat(use_stream=True,text=""):messages = [{"role": "system","content": "You are ChatGLM3, a large language model trained by Zhipu.AI. Follow the user's ""instructions carefully. Respond using markdown.",},{"role": "user","content": f"例如:'中国 / 的 / 首都 / 是 / 北京 / 。',分词结果应该是逐个词语独立,并且每个词语都要分割出来,按照以上案例将以下中文句子进行分词:{text} \n"}]response = client.chat.completions.create(model="chatglm3-6b",messages=messages,stream=use_stream,max_tokens=1024,temperature=0.8,presence_penalty=1.1,top_p=0.8)if response:if use_stream:for chunk in response:print(chunk.choices[0].delta.content)else:content = response.choices[0].message.contentprint(content)else:print("Error:", response.status_code)if __name__ == "__main__":simple_chat(use_stream=False,text=sys.argv[1])#simple_chat(use_stream=True)

修改之后保存,在Anaconda中进入自己的环境:conda activate student,进入自己要运行的文件中:cd D:\AI,运行python .\中文分词.py 信号与系统课程的教学方法给了我很大的启发,让我意识到在教学中要不断创新教学方法 ,将抽象的理论知识与实际应用相结合,提高学生的学习兴趣和积极性。在今后的教学中,我将尝试引入更多的实际案例、工程应用。

得到下图分词结果:

2.2语义词性标注

将上述代码中的
"content": f"例如:'中国 / 的 / 首都 / 是 / 北京 / 。',分词结果应该是逐个词语独立,并且每个词语都要分割出来,按照以上案例将以下中文句子进行分词:{text} \n"

替换成

"content": f"请标注以下中文句子中的每个单词的词性:{text}\n"

修改之后保存,运行 python .\语义词性.py 信号与系统课程的教学方法给了我很大的启发,让我意识到在教学中要不断创新教学方法 ,将抽象的理论知识与实际应用相结合,提高学生的学习兴趣和积极性。在今后的教学中,我将尝试引入更多的实际案例、工程应用。

得到下图结果

2.3语句逻辑推理

语句逻辑推理同样替换
'contents":f"根据以下句子,进行逻辑推理:{text}”

得到结果:

2.4其他实验

文本摘要
'contents":f"请对以下中文文本进行摘要:{text}”情感分析
'contents":f"请分析以下用户回复的情感倾向:{text}”内容创作
'contents":f"基于以下内容帮助用户生成文章、故事、诗歌等文本内容、用于媒体、广告、营销等场景:{text} ”命名实体识别
'contents":f"请识别以下句子中的命名实体:{text}”

2.5 机器翻译

修改以下:
19行:def simple_chat(use_stream=True,original="中文",target="英文",text=""):
28行; 请将以下{original}句子翻译为{target}:{text}
52行:simple_chat(use_stream=False,original=sys.argv[1],target=sys.argv[2],text=sys.argv[3])

其他步骤同上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/68505.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flask学习入门笔记

Flask学习入门笔记 前言1. 安装Flask2. 创建一个简单的Flask应用3. 路由与视图函数3.1 基本路由3.2 动态路由3.3 HTTP方法 4. 请求与响应4.1 获取请求数据4.2 返回响应 5. 模板渲染5.1 基本模板渲染5.2 模板继承 6. 静态文件6.1 静态文件的目录结构6.2 在模板中引用静态文件6.2…

citrix netscaler13.1 重写负载均衡响应头(基础版)

在 Citrix NetScaler 13.1 中,Rewrite Actions 用于对负载均衡响应进行修改,包括替换、删除和插入 HTTP 响应头。这些操作可以通过自定义策略来完成,帮助你根据需求调整请求内容。以下是三种常见的操作: 1. Replace (替换响应头)…

【Web】2025西湖论剑·中国杭州网络安全安全技能大赛题解(全)

目录 Rank-l Rank-U sqli or not Rank-l username存在报错回显,发现可以打SSTI 本地起一个服务,折半查找fuzz黑名单,不断扔给fenjing去迭代改payload from flask import Flask, request, render_template_stringapp Flask(__name__)app…

WEB渗透技术研究与安全防御

目录 作品简介I IntroductionII 1 网络面临的主要威胁1 1.1 技术安全1 2 分析Web渗透技术2 2.1 Web渗透技术的概念2 2.2 Web漏洞产生的原因2 2.3 注入测试3 2.3.1 注入测试的攻击流程3 2.3.2 进行一次完整的Sql注入测试4 2.3.3 Cookie注入攻击11 3 安全防御方案设计…

软考高级5个资格、中级常考4个资格简介及难易程度排序

一、软考高级5个资格 01、网络规划设计师 资格简介:网络规划设计师要求考生具备全面的网络规划、设计、部署和管理能力;该资格考试适合那些在网络规划和设计方面具有较好理论基础和较丰富从业经验的人员参加。 02、系统分析师 资格简介:系统分…

Centos 宝塔安装

yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh 安装成功界面 宝塔说明文档 https://www.bt.cn/admin/servers#wcu 或者可以注册宝塔账号 1 快速部署 安装docker 之后 2 需要在usr/bin下下载do…

Java锁 从乐观锁和悲观锁开始讲 面试复盘

目录 面试复盘 Java 中的锁 大全 悲观锁 专业解释 自我理解 乐观锁 专业解释 自我理解 悲观锁的调用 乐观锁的调用 synchronized和 ReentrantLock的区别 相同点 区别 详细对比 总结 面试复盘 Java 中的锁 大全 悲观锁 专业解释 适合写操作多的场景 先加锁可以…

使用nginx搭建通用的图片代理服务器,支持http/https/重定向式图片地址

从http切换至https 许多不同ip的图片地址需要统一进行代理 部分图片地址是重定向地址 nginx配置 主站地址:https://192.168.123.100/ 主站nginx配置 server {listen 443 ssl;server_name localhost;#ssl证书ssl_certificate ../ssl/ca.crt; #私钥文件ssl_ce…

latin1_swedish_ci(latin1 不支持存储中文、日文、韩文等多字节字符)

文章目录 1、SHOW TABLE STATUS WHERE Name batch_version;2、latin1_swedish_ci使用场景注意事项修改字符集和排序规则修改表的字符集和排序规则修改列的字符集和排序规则修改数据库的默认字符集和排序规则 3、ALTER TABLE batch_version CONVERT TO CHARACTER SET utf8mb4 C…

复健第二天之[MoeCTF 2022]baby_file

打开题目在线环境可以看到: 感觉要用伪协议去求,但是我们并不知道flag的位置,这里我选择用dirsearch去扫一下: 最像的应该就是flag.php了 于是就构建payload: **?filephp://filter/convert.base64-encode/resource…

机器学习之SVD奇异值分解实现图片降维

SVD奇异值分解实现图片降维 目录 SVD奇异值分解实现图片降维1 SVD奇异值分解1.1 概念1.2 基本步骤1.2.1 矩阵分解1.2.2 选择奇异值1.2.3 重建矩阵1.2.4 降维结果 1.3 优缺点1.3.1 优点1.3.2 缺点 2 函数2.1 函数导入2.2 函数参数2.3 返回值2.4 通过 k 个奇异值降维 3 实际测试3…

PyTorch使用教程(6)一文讲清楚torch.nn和torch.nn.functional的区别

torch.nn 和 torch.nn.functional 在 PyTorch 中都是用于构建神经网络的重要组件,但它们在设计理念、使用方式和功能上存在一些显著的区别。以下是关于这两个模块的详细区别: 1. 继承方式与结构 torch.nn torch.nn 中的模块大多数是通过继承 torch.nn…

移动端布局 ---- 学习分享

响应式布局实现方法 主流的实现方案有两种: 通过rem \ vw/vh \ 等单位,实现在不同设备上显示相同比例进而实现适配. 响应式布局,通过媒体查询media 实现一套HTML配合多套CSS实现适配. 在学习移动端适配之前,还需要学习移动端适配原理: 移动端适配原理(Viewport) 了解VSCo…

cuda + cudnn安装

1.安装CUDA Toolkit 在设备管理器(此电脑–右键–属性)的显示适配器中可以查看自己的显卡型号,去下载对应的CUDA Toolkit 。或者输入以下命令查看Driver Version ,cuda Version:12.2代表12.2版本以下兼容可以进行安装 …

DevUI 2024 年度运营报告:开源生态的成长足迹与未来蓝图

在当今数字化飞速发展的时代,开源已成为推动技术创新与协作的重要力量。DevUI 作为开源领域的重要一员,其发展历程与成果备受关注。值此之际,GitCode 精心整理了 DevUI 年度运营报告,为您全面呈现 DevUI 社区在过去一年里的开源之…

python中的RPA->playwright自动化录制脚本实战案例笔记

playwright录制功能使用绕过登录操作 1、首先安装playwright pip install playwright2、 安装支持的浏览器 playwright install # 安装支持的浏览器:cr, chromium, ff, firefox, wk 和 webkit3、接着在自己的项目下运行录制命令: playwright codegen…

如何选择适合特定项目需求的人工智能学习框架?

人工智能学习框架(AI Learning Framework)是一种用于开发、训练和部署人工智能模型的软件平台,旨在简化AI模型的设计、训练和部署过程。这些框架通常提供一系列工具、库和预构建模块,使开发者能够快速实现机器学习任务&#xff0c…

Spring Bug解决

报错: Exception in thread "main" org.springframework.beans.factory.NoUniqueBeanDefinitionException: No qualifying bean of type com.itxl.spring6.iocxml.User available: expected single matching bean but found 2: user,user1 at org.sp…

U盘被格式化后的数据救赎与防范策略

一、U盘格式化后的数据困境 在日常的工作与生活中,U盘作为数据传输与存储的重要工具,扮演着不可或缺的角色。然而,当U盘不幸遭遇格式化操作后,存储在其中的宝贵数据瞬间化为乌有,给用户带来极大的困扰。格式化后的U盘…

【AI论文】LlamaV-o1:重新思考大型语言模型(LLMs)中的逐步视觉推理方法

摘要:推理是解决复杂多步骤问题的基本能力,特别是在需要逐步顺序理解的视觉环境中尤为重要。现有的方法缺乏一个全面的视觉推理评估框架,并且不强调逐步解决问题。为此,我们通过三项关键贡献,提出了一个在大型语言模型…