【语言处理和机器学习】概述篇(基础小白入门篇)

 前言

自学笔记,分享给语言学/语言教育学方向的,但对语言数据处理感兴趣但是尚未入门,却需要在论文中用到的小伙伴,欢迎大佬们补充或绕道。ps:本文不涉及公式讲解(文科生小白友好体质)~(部分讲解会参考知乎等平台)

本文重点:语言学数据处理框架下的,机器学习方法的整体概述。

1.机器学习是做什么的?

2.机器学习有哪些分类?

3.每种分类具体对应哪些方法?

一.机器学习是做什么的?

  机器学习使计算机可以从语言数据中学习人类语言的规律,在理解、生成、分析等方面逼近人类水平。机器学习的核心是让机器通过学习数据自动提取知识进行预测和决策

结合简单语言学处理实例介绍简单机器学习的主要处理逻辑:

实例:以【新闻文本体裁分类】为例,希望训练一个模型,能够自动将新闻文章分为体育娱乐财经科技等不同的类别。

基本步骤定义语言学数据实例
---------------------------------------------------基础步骤(必须有!)----------------------------------------------------------
1.数据准备收集和预处理用于训练和测试的数据。这一步至关重要,数据质量直接影响模型性能。
  • 收集大量不同体裁的新闻文章

  • 对文章进行分词等语言指标抽出,例如:平均句长,动词使用率等(自变量)

  • 标注每篇文章的体裁类别(响应变量)

2.划分数据集将数据分为训练集、验证集和测试集。训练集用于训练模型,验证集用于调参和选择模型,测试集用于评估模型的泛化能力。
  • 将标注好的新闻文章数据随机划分为训练集和测试集

  • 训练集用于训练分类模型,测试集用于评估模型效果

3.模型选择与训练根据任务和数据的特点,选择合适的机器学习算法(如决策树、神经网络等),并使用训练集对模型进行训练,让模型学习数据中的模式。
  • 选择合适的分类算法,如朴素贝叶斯、支持向量机等

  • 用训练集训练分类模型,让模型学习不同体裁的文本特征

4.性能评估使用验证集评估模型性能,通过交叉验证等方法选择最优模型和超参数。再用测试集评估模型的泛化性能。
  • 用测试集评估模型在各个体裁上的分类准确率

  • 选择整体分类效果最好的模型

--------------------------------------------------------附加步骤(有更好!)-------------------------------------------------------
5.模型优化分析模型错误,进行优化,如增加训练数据、调整模型结构、引入正则化等。性能评估和优化往复进行,不断提升模型。
  • 分析模型分错的文章,总结规律

  • 优化措施:如增加训练数据、调整模型参数、尝试其他算法等

  • 多次迭代,不断提升分类效果

6.模型应用将训练好的模型部署到实际的应用场景中,对新数据进行预测。
  • 将训练好的新闻体裁分类模型集成到新闻推荐系统中

  • 对新来的文章自动预测其体裁,再推荐给对应兴趣的用户

7.反馈优化收集实际应用中的新数据和反馈,优化模型,形成迭代闭环。
  • 收集用户反馈,分析体裁分类错误对推荐效果的影响

  • 持续迭代优化分类模型,提高整个系统的用户体验

二.机器学习有哪些分类?

1.有监督学习(教師あり学習)

  • 训练数据中包含了输入及其对应的预期正确输出(标签)
  • 目标是学习输入到输出的映射函数,用于预测新数据的输出
  • 广泛应用于分类回归任务,如文本分类、图像识别等

语言学处理实例:

  • 词性标注:以词性标注的语料库为训练集,学习词性分类模型,自动标注新文本
  • 语法纠错:以正确和错误的句子对为训练数据,学习语法纠错模型,自动检查和修正语法错误
  • 语音识别:以语音-文本对为训练数据,学习语音转录模型,实现语音到文本的自动转换
  • 阅读理解:以文本-问题-答案三元组为训练数据,学习阅读理解模型,自动回答文本内容的问题

2.无监督学习(教師なし学習)

  • 训练数据没有标签,只有输入本身
  • 目标是发现数据内在的结构和模式,如聚类、关联、降维
  • 常用于数据压缩、异常检测、推荐系统等

语言学处理实例:

  • 词聚类:无监督地将语料库中的词汇按语义聚成不同的类,发现词汇的语义关系
  • 话题发现:从大量文本语料中无监督地提取隐含的主题,理解语料的话题结构
  • 字词表示学习:从海量语料中自主学习词嵌入表示,刻画词汇的语义特征,用于各种下游NLP任务
  • 语言结构发现:从未标注的语料中自主学习短语结构、句法结构等,发现语言的结构规律

3.强化学习(強化学習)

  • 通过智能体(Agent)与环境的交互来学习最优策略
  • 没有直接的监督标签,而是根据行为获得的奖励或惩罚来优化
  • 适用于序贯决策问题,如游戏、机器人控制、自动化运营等

语言学处理实例:

  • 对话生成:通过强化学习训练对话系统,根据人类反馈优化对话策略,生成更自然、贴切的回复
  • 语言游戏:设计益智的语言交互游戏,通过强化学习训练游戏AI,提供智能的游戏陪练,供学习者练习
  • 写作评分:将自动作文评分系统建模为强化学习过程,通过学生反馈和专家打分等奖励信号,持续优化评分策略
  • 教育个性化:将个性化教学决策建模为强化学习问题,通过学生学习过程数据及反馈,自适应优化个性化教学策略

    总的来说,有监督学习需要人工标注数据,学习明确的目标;而无监督学习让算法自主探索数据的内在规律。而强化学习通过主动探索和试错来优化系统行为,以获得最大化的累积奖励。

    三.每种机器学习所对应的具体方法

    (了解!之后推文会详细介绍)

    分类常用方法
    有监督学习
    • - 线性回归 (Linear Regression)

    • -逻辑回归 (Logistic Regression)

    • - 决策树 (Decision Tree)

    • - 随机森林 (Random Forest)

    • 支持向量机 (Support Vector Machine, SVM)

    • - K近邻 (K-Nearest Neighbors, KNN)

    • - 朴素贝叶斯 (Naive Bayes)

    无监督学习
    • - K均值聚类 (K-Means Clustering)
    • - 层次聚类 (Hierarchical Clustering)
    • - 高斯混合模型 (Gaussian Mixture Model, GMM)
    • - 主成分分析 (Principal Component Analysis, PCA)
    • - 潜在语义分析 (Latent Semantic Analysis, LSA)
    强化学习
    • - Q学习 (Q-Learning)
    • - SARSA学习 (State-Action-Reward-State-Action)
    • - 蒙特卡洛方法 (Monte Carlo Methods)
    • - 时序差分学习 (Temporal Difference Learning)

    本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/66581.shtml

    如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

    相关文章

    小程序获取微信运动步数

    1、用户点击按钮&#xff0c;在小程序中触发getuserinfo方法&#xff0c;获取用户信息 <scroll-view class"scrollarea" scroll-y type"list"><view class"container"><button bind:tap"getLogin">获取</button&…

    leetcode——找到字符串中所有字母异位词(java)

    给定两个字符串 s 和 p&#xff0c;找到 s 中所有 p 的 异位词 的子串&#xff0c;返回这些子串的起始索引。不考虑答案输出的顺序。 示例 1: 输入: s "cbaebabacd", p "abc" 输出: [0,6] 解释: 起始索引等于 0 的子串是 "cba", 它是 "…

    LDN的蓝牙双模键盘帮助文档

    文档索引 已支持的PCB列表(仅列出少部分)&#xff1a;键盘特性硬件软件键盘以及驱动蓝牙模式USB模式 驱动功能介绍主界面键盘列表页面键盘配置&#xff08;使用双模键盘的请务必细看本说明&#xff09;功能层配置(改键)触发层配置(改FN键等触发功能)功能选择&#xff08;重要&a…

    STM32 FreeRTOS 信号量

    信号量的简介 reeRTOS中的信号量是一种用于任务间同步和资源管理的机制。信号量可以是二进制的&#xff08;只能取0或1&#xff09;也可以是计数型的&#xff08;可以是任意正整数&#xff09;。信号量的基本操作包括“获取”和“释放”。 比如动车上的卫生间&#xff0c;一个…

    Android SystemUI——系统快捷设置面板(十三)

    通过前面的内容我们了解了 SystemUI 的启动流程以及相关组件的加载流程,同时也详细介绍了导航栏的创建和加载流程,对于 SystemUI 的组件来说,除了导航栏之外,下拉快捷设置面板也是比较重要的一个组件。 一、快捷设置面板 快捷设置面板(Quick Settings, QS)是 Android 系…

    C 语言雏启:擘画代码乾坤,谛观编程奥宇之初瞰

    大家好啊&#xff0c;我是小象٩(๑ω๑)۶ 我的博客&#xff1a;Xiao Xiangζั͡ޓއއ 很高兴见到大家&#xff0c;希望能够和大家一起交流学习&#xff0c;共同进步。* 这一课主要是让大家初步了解C语言&#xff0c;了解我们的开发环境&#xff0c;main函数&#xff0c;库…

    VSCode下EIDE插件开发STM32

    VSCode下STM32开发环境搭建 本STM32教程使用vscode的EIDE插件的开发环境&#xff0c;完全免费&#xff0c;有管理代码文件的界面&#xff0c;不需要其它IDE。 视频教程见本人的 VSCodeEIDE开发STM32 安装EIDE插件 Embedded IDE 嵌入式IDE 这个插件可以帮我们管理代码文件&am…

    Linux内核编程(二十一)USB驱动开发

    一、驱动类型 USB 驱动开发主要分为两种&#xff1a;主机侧的驱动程序和设备侧的驱动程序。一般我们编写的都是主机侧的USB驱动程序。 主机侧驱动程序用于控制插入到主机中的 USB 设备&#xff0c;而设备侧驱动程序则负责控制 USB 设备如何与主机通信。由于设备侧驱动程序通常与…

    论文笔记-arXiv2025-A survey about Cold Start Recommendation

    论文笔记-arXiv2025-Cold-Start Recommendation towards the Era of Large Language Models: A Comprehensive Survey and Roadmap 面向大语言模型&#xff08;LLMs&#xff09;时代的冷启动推荐&#xff1a;全面调研与路线图1.引言2.前言3.内容特征3.1数据不完整学习3.1.1鲁棒…

    C#使用WMI获取控制面板中安装的所有程序列表

    C#使用WMI获取控制面板中安装的所有程序列表 WMI 全称Windows Management Instrumentation,Windows Management Instrumentation是Windows中用于提供共同的界面和对象模式以便访问有关操作系统、设备、应用程序和服务的管理信息。如果此服务被终止&#xff0c;多数基于 Windo…

    风光并网对电网电能质量影响的matlab/simulink仿真建模

    这个课题早在一几年的时候比较热门&#xff0c;之前作电科院配电网的一个项目中也有所涉及&#xff0c;我把其中一部分经典仿真模型思路分享给大家&#xff0c;电能质量影响这部分&#xff0c;我在模型中主要体现的就是不同容量的光伏、风电接入&#xff0c;对并网点的电压影响…

    Ubuntu 24.04 LTS linux 文件权限

    Ubuntu 24.04 LTS 文件权限 读权限 &#xff1a;允许查看文件的内容。写权限 (w)&#xff1a;允许修改文件的内容。执行权限 (x)&#xff1a;允许执行文件&#xff08;对于目录来说&#xff0c;是进入目录的权限&#xff09;。 文件权限通常与三类用户相关联&#xff1a; 文…

    第13章:Python TDD完善货币加法运算(二)

    写在前面 这本书是我们老板推荐过的&#xff0c;我在《价值心法》的推荐书单里也看到了它。用了一段时间 Cursor 软件后&#xff0c;我突然思考&#xff0c;对于测试开发工程师来说&#xff0c;什么才更有价值呢&#xff1f;如何让 AI 工具更好地辅助自己写代码&#xff0c;或许…

    .Net Core微服务入门全纪录(六)——EventBus-事件总线

    系列文章目录 1、.Net Core微服务入门系列&#xff08;一&#xff09;——项目搭建 2、.Net Core微服务入门全纪录&#xff08;二&#xff09;——Consul-服务注册与发现&#xff08;上&#xff09; 3、.Net Core微服务入门全纪录&#xff08;三&#xff09;——Consul-服务注…

    C#防止重复提交

    C#防止重复提交 文章目录 C#防止重复提交前言防止重复提交的思路Web API 防止重复提交代码实现代码讲解使用方法 MVC防止重复提交总结 前言 当用户在前端进行提交数据时&#xff0c;如果网络出现卡顿和前端没有给出响应的话顾客通常都会狂点提交按钮&#xff0c;这样就很容易导…

    python学opencv|读取图像(三十九 )阈值处理Otsu方法

    【1】引言 前序学习了5种阈值处理方法&#xff0c;包括(反)阈值处理、(反)零值处理和截断处理&#xff0c;还学习了一种自适应处理方法&#xff0c;相关文章链接为&#xff1a; python学opencv|读取图像&#xff08;三十三&#xff09;阈值处理-灰度图像-CSDN博客 python学o…

    嵌入式硬件篇---PID控制

    文章目录 前言第一部分&#xff1a;连续PID1.比例&#xff08;Proportional&#xff0c;P&#xff09;控制2.积分&#xff08;Integral&#xff0c;I&#xff09;控制3.微分&#xff08;Derivative&#xff0c;D&#xff09;控制4.PID的工作原理5..实质6.分析7.各种PID控制器P控…

    日志收集Day001

    1.ElasticSearch 作用&#xff1a;日志存储和检索 2.单点部署Elasticsearch与基础配置 rpm -ivh elasticsearch-7.17.5-x86_64.rpm 查看配置文件yy /etc/elasticsearch/elasticsearch.yml&#xff08;这里yy做了别名&#xff0c;过滤掉空行和注释行&#xff09; yy /etc/el…

    集合帖:前缀和及差分模板题 ← 一维及二维

    【一维前缀和及一维差分知识点】 ● 一维“前缀和数组”预处理过程&#xff1a;cin>>a[i], sum[i]sum[i-1]a[i] 或者 cin>>sum[i], sum[i]sum[i-1] &#xff08;1≤i≤n&#xff09; ● 一维“区间和”计算过程&#xff1a;sum[y]-sum[x-1] &#xff08;y…

    《offer 来了:Java 面试核心知识点精讲 -- 框架篇》(附资源)

    继上篇文章介绍了《offer 来了&#xff1a;Java 面试核心知识点精讲 -- 原理篇》书后&#xff0c;本文章再给大家推荐兄弟篇 《offer来了&#xff1a;Java面试核心知识点精讲--框架篇》&#xff0c; 简直就是为Java开发者量身定制的面试神器。 本书是对Java程序员面试中常见的…