每个产品经理都应该知道的机器学习术语

摘要: 公司正在上马AI项目?想要熟悉机器学习的世界,想要了解所有关于机器学习的术语,看看本文吧!

公司正在上马AI项目?或许你已经熟悉了机器学习的世界,但是仍然希望扩展你的知识面,并且了解你所听到的所有关于机器学习的术语,争取在和别人交流的时候不会呆呆的站在那里哑口无言。


本机器学习术语表旨在简要介绍最重要的机器学习术语,无论你是对商业还是技术感兴趣。这绝不是详尽无遗,而是在与AI总监或供应商会面前能够进行简单的交流——或者是在面试前快速回顾这些重要的知识点!




概述:


 1.NLP - 自然语言处理

 2.数据集

 3.计算机视觉

 4.监督学习

 5.无监督学习

 6.强化学习

 7.神经网络

 8.过度拟合

1. NLP - 自然语言处理:


自然语言处理(NLP)是各种机器学习方法的一种常用概念,它使得计算机可以使用人类(即自然)语言来理解和执行操作。



自然语言处理最重要的用例是:


1.1文本分类和排名:


此任务的目标是预测文档的类别(标签),或根据文档的相关性将文档排列在列表中。它可以用于垃圾邮件过滤(判别电子邮件是否是垃圾邮件)或内容分类(从网络上选择有关你竞争对手正在做什么事情的文章)。


1.2情绪分析:


情感分析旨在确定某个人对于某个主题的态度或情绪反应——例如正面或负面的态度、愤怒、讽刺。它正在广泛用于客户满意度研究(例如分析产品评论),这对于每一家公司都是非常重要的。


1.3文件汇总:


文件汇总是一组用于创建对长文本(即文件或研究论文)的简短而有意义的描述的方法。


1.4命名实体识别(NER):


命名实体提取算法处理的是非结构化文本流,并识别其中的对象(实体)的预定义类别,例如人员、公司名称、日期、价格、标题等。它通过将非结构化信息转换为结构化,表格式(或JSON)形式。


1.5语音识别:


语音识别技术用于确定说话人的音频信号的文本表示。你可能听说过Siri,天猫精灵,他们都是如何使用语音识别的一个很好的例子。


1.6自然语言理解和生成:


自然语言理解用于将人类生成的文本转换为计算机可解释的表示形式,反之亦然:自然语言生成技术支持将形式逻辑表示转换为人类生成的文本。目前,NLGNLU主要用于聊天机器人和自动报告生成,也有一些大神,将它们应用于艺术创作。从概念上讲,它与命名实体识别相反。


1.7机器翻译:


机器翻译是将文本或语音从一种人类语言自动翻译成另一种语言的任务,今天的谷歌翻译已经利用机器学习做的很不错了。


2.数据集:



数据是机器学习的重要组成部分。如果你想建立任何机器学习系统,你需要获取数据(例如来自某些公共资源)或自行收集数据。所有用于构建或测试ML模型的数据都称为数据集。基本上,数据科学家将他们的数据集分成三个独立的组:

·         训练数据:
训练数据用于训练模型。这意味着ML模型可以获得数据并学习检测模式或确定哪些特征在预测期间最为重要,训练数据的任务是帮助机器学习模型定参数。

·         验证数据:
验证数据用于调整模型参数并比较不同模型以确定最佳模型参数。验证数据应与训练数据不同,它不应在训练阶段使用。否则,该模型会过度拟合,并且不能很好地推广到新的(生产)数据。

·         测试数据:
这个过程看起来可能很乏味,但总是有第三个最终测试集(通常也称为“Hold-Out”)。一旦选择最终模型来模拟模型在完全看不见的数据上的行为,即在构建模型时不使用的数据点,或者甚至在决定选择哪个模型时使用它。

3.计算机视觉:


计算机视觉(CV)是一个人工智能比较关键的领域,它涉及提供分析和高级图像和视频数据理解的工具。CV中最常见的问题包括:


3.1图像分类:

 

图像分类是教模型以识别给定图像上的内容的CV任务。例如,可以训练模型来区分公共空间中的各种物体(可用于自驾车)。


3.2对象检测:


对象检测是一种CV任务,通过在给定类的每个实例周围提供边界框来教导模型从一组预定义类别中检测对象的实例。例如,可以使用对象检测来构建人脸识别系统。然后该模型能够在图片上检测到的每个脸部周围绘制边界框。(顺便说一下,图像分类系统只能识别图像上是否存在人脸,而不能检测到物体在哪里,就像物体检测系统所能做的那样)。



3.3图像分割:


图像分割是一个CV任务,其中某个人训练一个模型,用一个给定像素最可能属于的预定义集合中的类对每个像素进行注释。



3.4显着性检测:


显着性检测是训练模型以提供最有可能引起观看者注意的区域的CV任务(即检测人类最感兴趣的区域)。这可以用来确定视频中的广告展示位置。


4.监督学习:


监督学习是一个机器学习模型家族,通过一些示例自我教导。这意味着监督ML任务的数据需要标记。例如,如果我们想建立一个机器学习模型来识别给定的文本是否与市场营销有关,那么我们需要为模型提供一组标注示例(文本+信息,如果是关于市场营销与否)。给定一个新的,看不见的例子,该模型预测其目标 - 例如,对于所述示例,标签(例如,如果文本是关于市场营销,则为1,否则为0)。


5.无监督学习:


与监督学习相反,无监督学习模式通过观察来自我学习。提供给这种算法的数据是未标记的(算法没有给出真实值)。无监督学习模型能够找到不同输入之间的结构或关系,最重要的一种无监督学习技术是聚类。在聚类中,给定数据后,模型创建不同的输入集群(相似输入在同一个集群中),并且能够将任何新的,以前未见过的输入放入适当的集群中。



6.强化学习:


强化学习与我们之前描述的方法不同。在RL中,该算法起着游戏的作用,其目的是最大化奖励。该算法通过反复试验尝试不同的方法移动,并查看哪个方法提高了最大的利润。

最常见的RL使用案例是教计算机解决魔方或下棋,但更多的是强化学习而不仅仅是游戏。最近,实时出价中RL解决方案数量不断增加,其中模型负责为广告投标,其回报是客户的转化率。


7.神经网络:


神经网络是一个非常广泛的机器学习模型。它们背后的主要想法来源是模仿人脑在处理数据时的行为。就像连接人脑中真实神经元的网络一样,人造神经网络由层组成。每一层都是一组神经元,所有这些神经元都负责检测不同的事物。神经网络按顺序处理数据,这意味着只有第一层直接连接到输入。随后的所有图层都基于前一层的输出检测特征,这使得模型随着层数的增加可以学习更多更复杂的数据模式。当许多图层快速增加时,该模型通常被称为深度学习模型。现在很难确定一个网络被认为很深的特定层数,10年前它曾经是3层,现在是20层左右。


神经网络有许多不同的变体。最常用的是:

·                 卷积神经网络:这是计算机视觉领域中的一个巨大突破(但最近,它在NLP问题中也被证明非常有用)。

·                 经常性神经网络(RNN):设计用于处理具有序列性质的数据,例如文本或股票价格。它们相对较旧,但随着近20年来现代计算机的计算能力急剧增加,它们变得可以在合理的时间内进行训练和使用。

·                 完全连接的神经网络:在静态/表格数据上使用的最简单的模型。

8.过度拟合:


当模型从数据量不足的角度建立假设偏差时,这是一种负面影响而且是一个相当常见和非常重要的问题。

假设你几次访问过一家面包店,而且还没有你最喜欢的蛋糕在那里!你可能会对面包店感到失望,即使其他一千个客户可能会对该产品满意。如果你是一个机器学习模型,那么说你对一些例子过度适应是公平的,开发出一个有偏见的模型,这是你的头脑中的一个表示,与事实相比,这是不准确的。

发生过拟合时,通常意味着该模型将数据中的随机噪声视为重要信号并对其进行调整,这就是为什么随着新数据的恶化(因为噪声不同)。在神经网络或梯度增强等非常复杂的模型中,情况通常如此。


想象一下,建立一个模型来检测提及奥林匹克运动期间特定体育学科的文章。由于你的训练集偏向于有关奥林匹克的文章,因此该模型可能会学习诸如奥林匹克这样的词的特征,并且无法检测到不包含该词的正确文章。


本文由阿里云云栖社区组织翻译。

文章原标题《Machine Learning Terms every manager should know

作者:sigmoidal

译者:虎说八道,审校:。


原文链接


干货好文,请关注扫描以下二维码:



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522334.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

工作流实战_22_flowable 驳回/回退 并行网关驳回 多实例驳回 子流程驳回

项目地址https://gitee.com/lwj/flowable.git代码分支flowable-base视频讲解地址https://www.bilibili.com/video/av78779999/ 用户名密码0000001test0000002test0000003test0000004test文章目录1. 场景2. 演示3. 代码分享3.1. 获取可驳回节点3.2. 驳回代码分享1. 场景 驳回&…

真相了!AI 程序员:我们根本没有 80w 年薪好么?

去年大家曾热议一篇文章《已毕业年薪就80万,没出校门就抢光,AI人才真这么值钱?》,大多数业内人士都表示,其实这是幸存者偏差,有人拿到80万,但不是全部。笔者综合了BOSS招聘、拉勾网、猎聘、领英…

ECS控制台实例搜索的优化与改进

摘要: 搜索功能是控制台非常重要的功能,承载着实例管理入口的作用,应该好用,快速和准确。然而,ECS控制台实例列表的搜索功能经常被吐槽不好用,痛点主要有以下三点: 每次搜索之前需要选择搜索类型…

Wpf中的sqlite数据库的连接和迁移

首先你需要安装如图的三个第三方包,创建APi项目并且将此项目设置为启动项第二步,在你的APi项目里面创建context文件夹,在此文件夹下创建你所需要的类(数据库的表),在类中创建字段(数据库中的字段…

python request url 转义_Python爬虫入门笔记

来源:blog.csdn.net/weixin_44864260爬虫四大步骤:1.获取页面源代码2.获取标签3.正则表达式匹配4.保存数据1. 获取页面源代码5个小步骤:1.伪装成浏览器2.进一步包装请求3.网页请求获取数据4.解析并保存5.返回数据代码:import urllib.request,…

ECS TAG功能详解

摘要: Tag(标签),阿里云提供的一种标记资源的方式,对资源添加标签可以方便地对资源进行标记,从而方便的进行资源的批量管理,现在ECS可以使用Tag标记的资源主要有以下几种:实例、磁盘…

日本三大移动通信运营商已重启华为手机销售;高通与LG和解 签署新的5年期专利授权协议; Facebook加密货币Libra被审查...

戳蓝字“CSDN云计算”关注我们哦!嗨,大家好,重磅君带来的【云重磅】特别栏目,如期而至,每周五第一时间为大家带来重磅新闻。把握技术风向标,了解行业应用与实践,就交给我重磅君吧!重…

工作流实战_21_flowable 加签 任务向前加签 向后加签

项目地址https://gitee.com/lwj/flowable.git代码分支flowable-base视频讲解地址https://www.bilibili.com/video/av78471660/ 用户名密码0000001test0000002test0000003test0000004test文章目录1. 场景分析2. 演示:3. 代码分享3.1. 加签的方法3.2. 审批环节处理1.…

视频直播常见问题与解决办法汇总【系列二—直播截图】

摘要: 使用场景 用户常需要对视频直播的内容进行分析。例如,需要对直播中的某一帧的内容作为封面图片或者对于直播内容进行鉴黄以查看内容合法性等需求。因此,视频直播提供了实时截图功能满足用户的截图需求。 截图功能介绍 截图功能配置 配置…

hibernate 复合主键 根据主键删除_Python 之 MySql“未解之谜”11--主键 id 那些事

主键 id 用自增和 uuid 有什么区别?● uuid 有 16 个字节,比 int(4 byte)和 bigint(8 byte)占用更多存储空间有大量数据的时候 uuid 主键不会像自增主键那样越界,如果使用自增 id,字段类型一般选择 bigint● 如果 InnoDB 表的数据…

上万条数据撕开微博热搜的真相!

戳蓝字“CSDN云计算”关注我们哦!作者 | 徐麟,某互联网公司数据分析狮来源 | 数据森麟(id:shujusenlin)吃瓜前言关于新浪微博,向来都是各路吃瓜群众聚集之地,大家在微博中可以尽情吃瓜&#xff…

机器学习与Scikit Learn学习库

摘要: 本文介绍机器学习相关的学习库Scikit Learn,包含其安装及具体识别手写体数字案例,适合机器学习初学者入门Scikit Learn。在我科研的时候,机器学习(ML)是计算机科学领域中最先吸引我的一门学科。虽然这…

工作流实战_19_flowable 任务委派

项目地址https://gitee.com/lwj/flowable.git代码分支flowable-base视频讲解地址https://www.bilibili.com/video/av78294766/ 用户名密码0000001test0000002test0000003test0000004test文章目录场景分析1. 演示2. 代码分享3. 委派的执行处理场景分析 解释:委派 A…

【视频点播最佳实践】使用OSS SDK上传视频到点播

摘要: 场景 点播上传SDK缺乏需要的语言版本(如C/C、Go等)或相应的功能(如网络流上传、追加上传),可以直接使用OSS的SDK进行上传。 准备工作 确认已开通点播服务并完成了相关配置。确认已准备了阿里云账号AK…

Aruba 推出Instant On 为中小型企业提供安全、高速的无线连接

戳蓝字“CSDN云计算”关注我们哦!让你过几天没有Wi-Fi的生活,是一种什么样的感受?在现代人的生活里,离不开Wi-Fi已经成为日常,超市、酒店、住宅、医院、高铁……你能想到的所有场景几乎都已经部署了Wi-Fi。从个人角度来…

NSURLProtocol 拦截 NSURLSession 请求时body丢失问题解决方案探讨

摘要: “IP直连方案”主要在于解决DNS污染、省去DNS解析时间,通常情况下我们可以在项目中使用 NSURLProtocol 拦截 NSURLSession 请求,下面将支持 Post 请求中面临的一个挑战,以及应对策略介绍一下。 “IP直连方案”主要在于解决D…

工作流实战_18_flowable 流程任务的转办

项目地址https://gitee.com/lwj/flowable.git代码分支flowable-base视频讲解地址https://www.bilibili.com/video/av78184848/ 用户名密码0000001test0000002test0000003test0000004test文章目录1. 演示2. 代码分享1. 演示 2. 代码分享 public ReturnVo<String> turnTa…

深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力

摘要&#xff1a; Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告&#xff0c;报告对云化数据仓库&#xff08;Cloud Data Warehouse, CDW&#xff09;的主要功能、区域表现、细分市场和典型客户等进行了全面评估。 1.前言 本文基于Now Tech: Cloud Data Warehous…

用C语言倒置字符串

要逆置这个字符串&#xff0c;有很多种方法&#xff0c;在此说一次比较巧妙的方法 首先&#xff0c;逆置这个字符串&#xff0c;可以考虑单独的把每个单词都逆序一下&#xff0c;在对整个字符串进行逆序 考虑本题中的I like beijing. 首先对I、like、beijing. 中的每个单词逆序…

java中怎么把生成文件到项目根目录_[SpringBoot2.X] 02- 项目结构介绍

POM文件继承Spring Boot 的父级依赖&#xff0c;只有继承它项目才是 Spring Boot 项目。 spring-boot-starter-parent 是一个特殊的 starter&#xff0c;它用来提供相关的 Maven 默认依赖。使用它之后&#xff0c;常用的包依赖可以省去 version 标签。也就是继承的是springboot…