1.倒排索引 2.逻辑斯提回归算法

在这里插入图片描述

1.倒排索引

https://help.aliyun.com/zh/open-search/retrieval-engine-edition/introduction-to-inverted-indexes

倒排索引(Inverted Index)是一种数据结构,用于快速查找包含某个特定词或词语的文档。它主要用于全文搜索引擎等应用,允许用户根据关键词迅速定位相关文档。

倒排索引的基本思想是反转(倒排)文档-词语的映射关系。通常,在构建倒排索引时,会对文档集合中的每个文档进行分词,并记录每个词在哪些文档中出现。每个词都对应一个包含它的文档列表。这样,当需要搜索包含某个关键词的文档时,只需查找倒排索引中相应词的文档列表。

以下是构建倒排索引的基本步骤:

  1. 文档分词: 将每个文档进行分词,得到一组词语。

  2. 构建映射关系: 对每个词语,记录它在哪些文档中出现。

  3. 构建倒排索引: 对每个词语,建立一个索引,将其映射到包含它的文档列表。

倒排索引的优点包括:

  • 高效的检索: 对于大规模文本数据,使用倒排索引可以快速定位包含特定关键词的文档。

  • 省空间: 与直接存储文档之间的映射关系相比,倒排索引通常更省空间。

  • 支持复杂查询: 可以轻松支持多关键词的布尔查询和短语查询等。

倒排索引在全文搜索引擎中被广泛应用,例如在Google、Bing等搜索引擎中,它们利用倒排索引实现了快速而准确的搜索功能。

2.逻辑斯提回归算法

逻辑斯蒂回归(Logistic Regression)是一种用于二分类问题的机器学习算法,尽管名字中包含“回归”一词,但它实际上是一种分类算法而非回归算法。逻辑斯蒂回归可以用于解决概率估计问题,它输出一个在0和1之间的概率值,表示样本属于某一类的可能性。

逻辑斯蒂回归的基本原理如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  1. 假设函数: 假设函数采用逻辑斯蒂(sigmoid)函数,它的数学表达式为:

    [ h_\theta(x) = \frac{1}{1 + e{-\thetaT x}} ]

    其中,(h_\theta(x)) 是样本 (x) 属于正类的概率,(\theta) 是模型的参数向量。

  2. 损失函数: 逻辑斯蒂回归使用交叉熵损失函数(Cross-Entropy Loss)来衡量模型的性能,其数学表达式为:

    [ J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_\theta(x^{(i)})) \right] ]

    其中,(m) 是样本数量,(y^{(i)}) 是样本 (x^{(i)}) 的实际类别标签。

  3. 参数优化: 通过最小化损失函数来优化模型的参数 (\theta)。这通常使用梯度下降等优化算法来实现。

逻辑斯蒂回归适用于线性可分的二分类问题,它对特征进行线性组合,并通过逻辑斯蒂函数将结果映射到0到1之间的概率。在实践中,逻辑斯蒂回归广泛应用于各种领域,如医学、金融和自然语言处理等。

需要注意的是,逻辑斯蒂回归虽然名字中包含“回归”,但其实质是一种分类算法,用于解决二分类问题。在处理多分类问题时,可以通过扩展为多类别逻辑斯蒂回归(Multinomial Logistic Regression)或使用其他多分类算法。

2.1 机器学习算法(一):逻辑回归模型(Logistic Regression, LR)

https://blog.csdn.net/weixin_39910711/article/details/81607386

(1) 分类平面是平面,曲面或者超平面分别是什么含义与作用

在机器学习中,分类平面、曲面和超平面是描述决策边界(decision boundary)的概念,这些边界用于将不同类别的样本分开。

  1. 分类平面: 一般指的是在二维空间中的平面,用于将两个类别的数据点分开。在这种情况下,决策边界就是一个平面。分类平面用于解决简单的二分类问题,其中数据可以被直线或平面分开。

  2. 曲面: 当决策边界不能通过平面表示,而需要通过曲面来分隔不同类别的样本时,我们可以使用曲面。曲面可以是在三维空间中的曲面,也可以是在更高维度空间中的曲面。曲面常常用于解决二分类或多分类问题。

  3. 超平面: 超平面是在高维空间中的一个平面。在机器学习中,支持向量机(Support Vector Machine,SVM)等算法常常使用超平面作为决策边界。对于二分类问题,超平面是一个 (n-1) 维的平面,其中 n 是特征的维度。超平面将特征空间分成两个部分,每一部分对应一个类别。

这些概念的作用是定义了模型的决策边界,即在特征空间中,模型如何将不同类别的样本分隔开。决策边界的形状取决于模型的类型和复杂性。线性模型(如逻辑斯蒂回归、线性支持向量机)可能产生线性的决策边界(平面或超平面),而非线性模型(如核支持向量机、决策树)可能产生曲面或更为复杂的决策边界,以更好地拟合数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(2)什么是交叉熵?什么是MSE?分别有什么优势和劣势。

交叉熵(Cross-Entropy)和均方误差(Mean Squared Error,MSE)是用于衡量模型预测值与真实值之间差异的两种损失函数。它们在不同的任务和模型中有各自的优势和劣势。

1. 交叉熵(Cross-Entropy):

交叉熵主要用于分类问题,特别是在神经网络中用作分类模型的损失函数。对于二分类问题,交叉熵损失函数的数学表达式如下:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

优势:

  • 适用于分类问题,尤其在深度学习中常用于训练分类模型。
  • 对于分类问题,交叉熵损失函数可以更好地反映模型对不同类别的置信度。

劣势:

  • 对于离散的标签,交叉熵更为适用,但在一些回归问题上不够合适。

2. 均方误差(Mean Squared Error,MSE):

均方误差主要用于回归问题,衡量模型预测值与真实值之间的平方差的平均值。均方误差的数学表达式为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中,(y_i) 是真实标签,(\hat{y}_i) 是模型的预测值,(N) 是样本数量。

优势:

  • 适用于回归问题,对于输出是连续值的任务较为合适。
  • 对异常值不敏感,因为使用了平方。

劣势:

  • 在处理分类问题时,MSE 通常不如交叉熵效果好,因为它对于分类问题中的概率分布不够敏感。

在选择损失函数时,需要根据任务类型和模型特性进行合适的选择。在分类任务中,通常使用交叉熵损失函数;而在回归任务中,可以选择均方误差或其他适用的回归损失函数。

2.2 【机器学习】逻辑回归(非常详细)

https://zhuanlan.zhihu.com/p/74874291

2.3 加入正则化项的作用,以及加入正则化项的形式

正则化是在机器学习模型的训练过程中为损失函数添加额外项,以避免过拟合和提高模型的泛化能力。通过正则化,可以对模型参数的大小进行限制,防止其过于复杂,减小模型对训练数据的过度拟合。

在损失函数中添加正则化项的一般形式为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中,(J(\theta)) 是包含正则化项的新损失函数,(\lambda) 是正则化强度的超参数,(\theta) 是模型的参数。

常用的正则化项包括 L1 正则化和 L2 正则化:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

L2 正则化通过对权重的平方进行惩罚,倾向于让权重尽可能小,但不会让它们变为零。它有助于缓解特征间的共线性问题。

在机器学习中,正则化的作用有以下几点:

  1. 防止过拟合: 正则化通过限制模型的复杂度,防止模型在训练数据上过度拟合,提高对新数据的泛化能力。

  2. 特征选择: L1 正则化的特点是可以使一些特征的权重为零,从而实现特征选择,减少不重要的特征对模型的影响。

  3. 缓解共线性: L2 正则化有助于缓解特征之间的共线性问题,使模型对输入特征变化更为稳健。

在实际应用中,超参数 (\lambda) 的选择通常通过交叉验证等方法来确定。正则化在许多机器学习算法中都得到了广泛的应用,例如线性回归、逻辑斯蒂回归、支持向量机等。

2.4 为什么L1正则化可以产生稀疏模型(L1是怎么让系数等于零的),以及为什么L2正则化可以防止过拟合。

L1 正则化产生稀疏模型的原因:

L1 正则化通过在损失函数中添加 ( \lambda \sum_{i=1}^{n} |w_i| ) 项,其中 (w_i) 是模型的权重,(n) 是权重的数量。这个额外的惩罚项具有一种特殊的性质,它促使模型学习到的权重中的一些值变为零。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

具体来说,L1 正则化在优化过程中,倾向于将某些特征对应的权重直接设为零。这是因为 L1 正则化的梯度在某个特征的权重等于零时不可导,而在其他地方都是可导的。因此,为了最小化损失函数,模型倾向于让一些特征的权重直接变为零,从而实现稀疏性。

对于具有大量特征的问题,L1 正则化能够帮助识别并保留对目标变量预测有贡献的关键特征,而将其他特征的权重设为零。这种特性在特征选择和解释模型中很有用。

L2 正则化防止过拟合的原因:

L2 正则化通过在损失函数中添加 ( \lambda \sum_{i=1}^{n} w_i^2 ) 项,其中 (w_i) 是模型的权重,(n) 是权重的数量。相比于 L1 正则化,L2 正则化的梯度在任何地方都是可导的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

L2 正则化的效果主要表现在对权重的平方进行惩罚。这导致模型在训练过程中倾向于将权重保持较小的值,避免过度拟合训练数据。

防止过拟合的原因在于,L2 正则化通过限制权重的大小,减缓了模型对训练数据中噪声的过度拟合。较小的权重值使得模型对输入特征的小变化不敏感,从而提高了模型对新数据的泛化能力。

综合来看,L1 正则化通过产生稀疏模型,有助于特征选择和模型解释;而 L2 正则化通过控制权重的大小,有助于防止模型过拟合。在实际应用中,可以根据问题的特性选择使用 L1 正则化、L2 正则化,或者它们的组合(弹性网络 Elastic Net)。

2.5 softmax函数

Softmax 函数是一种常用的激活函数,特别适用于多分类问题。它将一个包含任意实数的 K 维向量,映射为一个 K 维的概率分布,其中每个元素的取值范围在 (0, 1) 之间,并且所有元素的和为 1。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Softmax 函数的性质使得它在多分类问题中特别有用,因为它可以将模型的原始输出转换为类别概率。在深度学习中,通常将 Softmax 函数作为神经网络输出层的激活函数,以便将神经网络的原始输出转换为类别概率。

Softmax 函数的特点包括:

  1. 归一性: Softmax 函数的输出是一个概率分布,因此所有元素的和等于 1,这使得它可以表示一个完整的类别分布。

  2. 连续性: Softmax 函数是光滑的,可导数的,这在梯度下降等优化算法中很有用。

  3. 转换作用: Softmax 函数对原始分数进行了指数变换,使得大的分数更大,小的分数更小,这有助于突显模型在输入上的置信度。

Softmax 函数在交叉熵损失(Cross-Entropy Loss)等多分类问题中的配合使用,使得模型能够输出概率分布,并且在训练过程中通过最小化损失函数来调整模型参数,以便更好地匹配真实的类别分布。

5 为什么逻辑斯蒂回归的输出值可以作为概率

逻辑斯蒂回归(Logistic Regression)的输出值可以被解释为样本属于某一类别的概率,这是因为逻辑斯蒂回归使用了逻辑斯蒂函数(sigmoid函数)作为激活函数。

逻辑斯蒂函数的数学表达式为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

逻辑斯蒂函数具有以下性质:

  1. 输出范围:逻辑斯蒂函数的输出范围在 (0, 1) 之间,即对于任何实数输入,输出都在 0 到 1 之间。

  2. 单调性:逻辑斯蒂函数是单调递增的,即当 (z_1 < z_2) 时,(\sigma(z_1) < \sigma(z_2))。

  3. 饱和性:逻辑斯蒂函数在两端接近 0 或 1,但不会完全到达,因此避免了输出值严格等于 0 或 1。

由于逻辑斯蒂函数的输出在 (0, 1) 之间,并且趋向于0或1,可以将其解释为某个样本属于正类别的概率。在二分类问题中,通常设定一个阈值(例如0.5),当逻辑斯蒂函数的输出大于阈值时,将样本划分为正类别,否则划分为负类别。

这种概率的解释使得逻辑斯蒂回归在分类问题中非常有用,尤其是在需要估计概率而不仅仅是类别标签的情况下。逻辑斯蒂回归的训练过程通过最小化对数损失函数,使得模型输出的概率尽量接近真实标签的概率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/516731.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

塑云科技基于 KafKa+OTS+MaxCompute 完成物联网系统技术重构

塑云科技&#xff1a;性能突破&#xff0c;基于KafKaOTSMaxCompute 完成了一次物联网系统技术重构 背景&#xff1a;创业团队&#xff0c;专注于氢能燃料电池生态链的运营支撑&#xff0c;当前主要的业务组成为新能源车整车实时运营监控分析&#xff0c;加氢站实时运营监控分析…

什么是Docker?看这一篇文章就够了

作者 | 码农的荒岛求生来源 | 程序员小灰&#xff08;ID: chengxuyuanxiaohui&#xff09;程序员&#xff0c;应该怎样理解docker&#xff1f;容器技术的起源假设你们公司正在秘密研发下一个“今日头条”APP&#xff0c;我们姑且称为明日头条&#xff0c;程序员自己从头到尾搭建…

基于MaxCompute 衣二三帮助客户找到合适自己的衣服

摘要&#xff1a;本文由衣二三CTO程异丁为大家讲解了如何基于MaxCompute构建智能化运营工具。 衣二三作为亚洲最大的共享时装平台&#xff0c;MaxCompute是如何帮助它解决数据提取速度慢、数据口径差异等问题呢&#xff1f;程异丁通过衣二三数据体系架构&#xff0c;从用户运营…

Nexus 3.31.1 maven 私服 搭建篇 linux

文章目录1. Nexus 3 下载2. 解压3. 目录调整4. 重命名5. 创建用户6. 调整家目录7. 指定启动用户8. 环境变量配置9. 刷新环境变量10. 修改工作目录11. 指定jdk12. 修改权限13. nexus启动14. 状态验证15. 浏览器验证16. 登录17. 初始化设置软件版本JDK1.8.0_202Nexus3.31.1Disk s…

Typora简介

Typora简介 一、Typora是什么&#xff1f; ​ Typora 是一款支持实时预览的 Markdown 文本编辑器。它有 OS X、Windows、Linux 三个平台的版本&#xff0c;并且由于仍在测试中&#xff0c;是完全免费的。 ​ Typora 首先是一个 Markdown 文本编辑器&#xff0c;它支持且仅支…

基于MaxCompute InformationSchema进行血缘关系分析

一、需求场景分析 在实际的数据平台运营管理过程中&#xff0c;数据表的规模往往随着更多业务数据的接入以及数据应用的建设而逐渐增长到非常大的规模&#xff0c;数据管理人员往往希望能够利用元数据的分析来更好地掌握不同数据表的血缘关系&#xff0c;从而分析出数据的上下游…

不要再被 Python 洗脑了!!

Python 作为一种解释型技术脚本语言&#xff0c;越来越被认可为程序员新时代的风口语言。 无论是刚入门的程序员&#xff0c;还是年薪百万的 BATJ 的技术大牛都无可否认&#xff1a;Python的应用能力是成为一名码农大神的必要项。 而作为Python初学者来讲&#xff0c;最大的问题…

Nexus 3.31.1 maven 私服 仓库配置篇 linux

文章目录1. 新建仓库概述2. 阿里云代理仓库3. 自己的仓库4. 自己的仓库组5. 效果图1. 新建仓库概述 总共新建3各仓库 一个是国内开源仓库&#xff0c;加速下载 一个是自己的仓库&#xff0c;用于存放自己公司的jar 一个是子类型的仓库&#xff0c;用于将上述两个组成一个地址 …

Struct复杂数据类型的UDF编写、兼容HIVE的GenericUDF编写

一、背景介绍&#xff1a; MaxCompute 2.0版本升级后&#xff0c;Java UDF支持的数据类型从原来的BIGINT、STRING、DOUBLE、BOOLEAN扩展了更多基本的数据类型&#xff0c;同时还扩展支持了ARRAY、MAP、STRUCT等复杂类型&#xff0c;以及Writable参数。Java UDF使用复杂数据类型…

如何跨项目工作空间访问MaxCompute资源和函数?

1、背景介绍 同一个主账号下面的两个工作空间&#xff0c;工作空间名称分别为 A工作空间名称:wei_wwww A工作空间子账号&#xff1a;mc_oss B工作空间名称:wei_mc B工作空间子账号&#xff1a;bigdata_wei 现在B工作空间子账号bigdata_wei需要访问A工作空间子账号mc_oss创建的U…

Nexus 3.31.1 maven 私服 仓库和IntelliJ IDEA 2021.2 实战篇 linux

文章目录一、maven配置1. 私服配置2. 替换后的配置二、IntelliJ IDEA2.1. 创建项目2.2. 指定配置2.3. 下载依赖三、nexus3 监控3.1. 查看依赖版本3.2. 版本对比3.3. aliyun 仓库地址一、maven配置 1. 私服配置 在本地的maven 配置settings.xml内容&#xff0c;用下面内容覆盖…

我把这篇文章给女朋友看,她终于明白什么是「数据中台」了

来源 | 智领云科技责编 | Carol封图 | CSDN 下载自视觉中国这几天&#xff0c;女朋友一直忙着为自己挑选情人节礼物&#xff0c;毕竟直男的审美她也觉得不靠谱。就在昨天&#xff0c;她气冲冲地跑过来问我&#xff1a;为什么有些平台总是推荐一些我不喜欢的东西&#xff1f;为什…

发光的二次元克拉克拉 满足年轻用户个性化、碎片化的文娱需求

克拉克拉&#xff08;KilaKila&#xff09;是国内专注二次元、主打年轻用户的娱乐互动内容社区软件。KilaKila 推出互动语音直播、短视频配音、对话小说等功能&#xff0c;满足当下年轻用户个性化、碎片化的文娱需求。随着业务规模增长&#xff0c;海量数据存储与计算的瓶颈也日…

Nexus 3.31.1 maven 私服 服务器配置篇 linux

文章目录一、以服务运行1. 编写配置2. 赋予可执行权限3. 配置自启动4. 启动nexus5. 监控状态6. 停止服务二、配置文件说明2.1. JAVA配置2.2. 自定义配置2.3. 工作/日志 目录修改三、使用nginx代理3.1. HTTP3.2. HTTPS四、其他配置4.1. 配置匿名访问4.2. 更改管理员电子邮件地址…

混合云模式助力斗鱼搭建混搭大数据架构

云栖号案例库&#xff1a;【点击查看更多上云案例】 不知道怎么上云&#xff1f;看云栖号案例库&#xff0c;了解不同行业不同发展阶段的上云方案&#xff0c;助力你上云决策&#xff01; 案例背景 2019杭州云栖大会大数据企业级服务专场&#xff0c;由斗鱼大数据高级专家张龙…

架构师技术文档:Redis+Nginx+Spring全家桶+Dubbo精选

最近花了很长的时间去搜罗整理Java核心技术好文&#xff0c;我把每个Java核心技术的优选文章都整理成了一个又一个的文档。今天就把这些东西分享给老铁们&#xff0c;也能为老铁们省去不少麻烦&#xff0c;想学什么技能了&#xff0c;遇到哪方面的问题了 直接打开文档学一学就好…

天弘基金交易数据清算从8小时缩至1.5小时 解决余额宝算力难题

天弘基金作为国内总规模最大的公募基金&#xff0c;阿里云MaxCompute为我们构建了企业级一站式大数据解决方案。MaxCompute对于海量数据的存储、运维、计算能力强大且安全稳定&#xff0c;MaxCompute服务将原本需要清算8小时的用户交易数据缩短至清算1个半小时&#xff0c;同时…

配置MaxCompute任务消费监控告警,避免资源过度消费

MaxCompute 按量计费资源为弹性伸缩资源&#xff0c;对于计算任务&#xff0c;按任务需求提供所需资源&#xff0c;对资源使用无限制&#xff0c;同时MaxCompute按量计费的账单为天账单&#xff0c;即当天消费需要第二天才出账&#xff0c;因此&#xff0c;有必要对计算任务的消…

Vue3.0 备受热捧!2020 前端开发进阶必读

你好&#xff0c;我是汤小洋。前华为全栈工程师&#xff0c;南京大学软件工程硕士&#xff0c;拥有11年全栈开发及内部培训分享经验。作为一名前端人&#xff0c;学习从不是一件容易的事&#xff0c;这是我一路走过来的真实感受。“只要付出&#xff0c;就有收获”、“只要努力…

Docker 查看日志记录

日志文件对于处理故障十分重要&#xff0c;对于docker容器如何查看日志呢 查看docker容器的日志用到的是docker logs这个命令&#xff1a; 先看下官方给的命令说明 docker logs --help–details 显示更多的信息 –f, --follow 跟踪实时日志–since string 显示自某个timestam…