1. 机器学习基本知识(5)——练习题(参考答案)

20.🔗本章代码笔记📓链接(需要🪜):(01_the_machine_learning_landscape.ipynb - Colab (google.com))

如果你不想通过上面的官方网址下载本章的笔记,还可以在本篇博文的附件中下载笔记!但我更推荐你支持原版的书和原版的网址


21.参考答案原文及其中文翻译:

  1. Machine Learning is about building systems that can learn from data.
    机器学习是关于构建能够从数据中学习的系统。

    Learning means getting better at some task, given some performance measure.
    学习意味着在某些任务上变得更好,这是根据某些性能度量来衡量的。

  2. Machine Learning is great for complex problems for which we have no algorithmic solution, to replace long lists of hand-tuned rules, to build systems that adapt to fluctuating environments, and finally to help humans learn (e.g., data mining).
    机器学习非常适合那些我们没有算法解决方案的复杂问题,用来替代长长的手工调整规则列表,构建能够适应波动环境的系统,最终帮助人类学习(例如,数据挖掘)。

  3. A labeled training set is a training set that contains the desired solution (a.k.a. a label) for each instance.
    一个被标记的训练集是一个训练集,它为每个实例包含了期望的解决方案(即标签)。

  4. The two most common supervised tasks are regression and classification.
    两种最常见的监督任务是回归和分类。

  5. Common unsupervised tasks include clustering, visualization, dimensionality reduction, and association rule learning.
    常见的无监督任务包括聚类、可视化、降维和关联规则学习。

  6. Reinforcement Learning is likely to perform best if we want a robot to learn to walk in various unknown terrains, since this is typically the type of problem that Reinforcement Learning tackles. It might be possible to express the problem as a supervised or semi-supervised learning problem, but it would be less natural.
    如果我们希望机器人学会在各种未知地形中行走,强化学习可能会表现得最好,因为这是强化学习通常处理的问题类型。虽然有可能将问题表达为监督或半监督学习问题,但这样做会显得不那么自然。

  7. If you don’t know how to define the groups, then you can use a clustering algorithm (unsupervised learning) to segment your customers into clusters of similar customers. However, if you know what groups you would like to have, then you can feed many examples of each group to a classification algorithm (supervised learning), and it will classify all your customers into these groups.
    如果你不知道如何定义组别,那么可以使用聚类算法(无监督学习)将客户分割成相似客户的群集。然而,如果你知道你想要的组别,那么你可以向分类算法(监督学习)提供每个组的许多示例,它将把所有客户分类到这些组中。

  8. Spam detection is a typical supervised learning problem: the algorithm is fed many emails along with their labels (spam or not spam).
    垃圾邮件检测是一个典型的监督学习问题:算法被输入了许多电子邮件及其标签(垃圾邮件或非垃圾邮件)。

  9. An online learning system can learn incrementally, as opposed to a batch learning system. This makes it capable of adapting rapidly to both changing data and autonomous systems, and of training on very large quantities of data.
    在线学习系统可以逐步学习,与批量学习系统相反。这使得它能够快速适应变化的数据和自主系统,并且能够训练大量数据。

  10. Out-of-core algorithms can handle vast quantities of data that cannot fit in a computer’s main memory. An out-of-core learning algorithm chops the data into mini-batches and uses online learning techniques to learn from these mini-batches.
    核心外算法可以处理大量无法适应计算机主存储器的数据。核心外学习算法将数据分割成小批量,并使用在线学习技术从小批量中学习。

  11. An instance-based learning system learns the training data by heart; then, when given a new instance, it uses a similarity measure to find the most similar learned instances and uses them to make predictions.
    基于实例的学习系统通过心记忆训练数据;然后,当给定一个新的实例时,它使用相似性度量来找到最相似的学习实例,并用它们进行预测。

  12. A model has one or more model parameters that determine what it will predict given a new instance (e.g., the slope of a linear model). A learning algorithm tries to find optimal values for these parameters such that the model generalizes well to new instances. A hyperparameter is a parameter of the learning algorithm itself, not of the model (e.g., the amount of regularization to apply).
    模型有一个或多个模型参数,这些参数决定了它将对新实例进行什么预测(例如,线性模型的斜率)。学习算法试图找到这些参数的最优值,以便模型能够很好地泛化到新实例。超参数是学习算法本身的参数,而不是模型的参数(例如,要应用的正则化量)。

  13. Model-based learning algorithms search for an optimal value for the model parameters such that the model will generalize well to new instances. We usually train such systems by minimizing a cost function that measures how bad the system is at making predictions on the training data, plus a penalty for model complexity if the model is regularized. To make predictions, we feed the new instance’s features into the model’s prediction function, using the parameter values found by the learning algorithm.
    基于模型的学习算法寻找模型参数的最优值,以便模型能够很好地泛化到新实例。我们通常通过最小化一个代价函数来训练这样的系统,该函数衡量系统在训练数据上进行预测的表现有多差,如果模型进行了正则化,还会加上模型复杂性的惩罚。要进行预测,我们将新实例的特征输入到模型的预测函数中,使用学习算法找到的参数值。

  14. Some of the main challenges in Machine Learning are the lack of data, poor data quality, nonrepresentative data, uninformative features, excessively simple models that underfit the training data, and excessively complex models that overfit the data.
    机器学习面临的一些主要挑战包括数据缺乏、数据质量差、数据不具代表性、特征不具信息量、过于简单的模型导致训练数据欠拟合,以及过于复杂的模型导致数据过拟合。

  15. If a model performs great on the training data but generalizes poorly to new instances, the model is likely overfitting the training data (or we got extremely lucky on the training data). Possible solutions to overfitting are getting more data, simplifying the model (selecting a simpler algorithm, reducing the number of parameters or features used, or regularizing the model), or reducing the noise in the training data.
    如果一个模型在训练数据上表现很好,但对新实例的泛化能力很差,那么模型可能过拟合了训练数据(或者我们在训练数据上非常幸运)。解决过拟合的可能方案是获取更多数据、简化模型(选择一个更简单的算法、减少使用的参数或特征数量,或者对模型进行正则化)或减少训练数据中的噪声。

  16. A test set is used to estimate the generalization error that a model will make on new instances, before the model is launched in production.
    测试集用于在模型投入生产之前估计模型将在新实例上犯的泛化错误。

  17. A validation set is used to compare models. It makes it possible to select the best model and tune the hyperparameters.
    验证集用于比较模型。它使得选择最佳模型和调整超参数成为可能。

  18. The train-dev set is used when there is a risk of mismatch between the training data and the data used in the validation and test datasets (which should always be as close as possible to the data used once the model is in production). The train-dev set is a part of the training set that’s held out (the model is not trained on it). The model is trained on the rest of the training set, and evaluated on both the train-dev set and the validation set. If the model performs well on the training set but not on the train-dev set, then the model is likely overfitting the training set. If it performs well on both the training set and the train-dev set, but not on the validation set, then there is probably a significant data mismatch between the training data and the validation + test data, and you should try to improve the training data to make it look more like the validation + test data.
    当训练数据与验证和测试数据集使用的数据之间存在不匹配的风险时,使用训练-开发集(train-dev set)。训练-开发集是保留出来的训练集的一部分(模型未在此部分上训练)。模型在训练集的其余部分上进行训练,并在训练-开发集和验证集上进行评估。如果模型在训练集上表现良好,但在训练-开发集上表现不佳,那么模型可能过拟合了训练集。如果它在训练集和训练-开发集上都表现良好,但在验证集上表现不佳,那么训练数据与验证+测试数据之间可能存在显著的数据不匹配,你应该尝试改进训练数据,使其更接近验证+测试数据。

  19. If you tune hyperparameters using the test set, you risk overfitting the test set, and the generalization error you measure will be optimistic (you may launch a model that performs worse than you expect).
    如果你使用测试集来调整超参数,你冒着过拟合测试集的风险,你测量的泛化错误将会是乐观的(你可能推出的模型表现比你预期的要差)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/62769.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

通常一个 Xml 映射文件,都会写一个 Dao 接口与之对应, 请问,这个 Dao 接口的工作原理是什么?Dao 接口里的方法, 参数不同时,方法能重载吗?

Dao 接口 即 Mapper 接口 。接口 的 全 限 名 ,就是 映 射 文 件 中 的 namespace 的值 ; 接口 的 方 法 名 , 就 是 映 射 文 件 中 Mapper 的 Statement 的 id 值; 接 口 方 法 内 的 参数 , 就 是 传 递 给 sql 的参…

硬件设计 | Altium Designer软件PCB规则设置

基于Altium Designer(24.9.1)版本 嘉立创PCB工艺加工能力范围说明-嘉立创PCB打样专业工厂-线路板打样 规则参考-嘉立创 注意事项 1.每次设置完规则参数都要点击应用保存 2.每次创建PCB,都要设置好参数 3.可以设置默认规则,将…

WebDAV服务不能上传大文件,文件超过50M报错[0x800700DF]怎么办?

这个问题需要分别从服务端和客户端解决。 1.Windows客户端 解除50M文件限制,Windows访问Webdav服务时,大于50M文件提示错误[错误:0x800700DF] 部署了webdav,Windows10映射网络磁盘,传输文件超过大约50MB的文件会弹出“0x800700…

安全基础学习-keil调试汇编代码

初始目的是为了通过汇编编写CRC功能。 但是基础为0,所以目前从搭建工程开始记录。 大佬绕路。 (一)创建项目 1. 新建项目 打开 Keil uVision。选择 Project -> New uVision Project 创建一个新项目。选择你的目标设备(如 AR…

安装qt 5.15.2笔记

撰文是2024年12月 最终实现了 1、用梯子下载了离线包5.14.2,最后没用 2、用内地镜像在线安装5.15.2,3分钟装完 正文开始,qt官方简称官方。 官方包官方自5.15.X起,不再提供的exe/run安装包https://download.qt.io/archive/qt/ …

Redis Java 集成到 Spring Boot

Hi~!这里是奋斗的明志,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 🌱🌱个人主页:奋斗的明志 🌱🌱所属专栏:Redis 📚本系列文章为个人学习笔…

【Syncfusion系列】Diagram 杂谈 第三篇 序列化和反序列化

目录 序列化保存C# 代码示例, 方式1 :C# 代码示例, 方式2 : 反序列化加载C# 代码示例, 方式1:C# 代码示例, 方式2: **如何序列化自定义属性**序列化和反序列化都存在的一个问题解决方式 图表是否已修改&…

麒麟信安推出支持信创PC的新一代云桌面方案,助力政务信创高效安全运维

12月11日,在第二届国家新一代自主安全计算系统产业集群融通生态大会上,麒麟信安发布了支持信创PC的新一代云桌面方案,该方案是基于国际TCI架构实现国产PC机云化纳管在国内的首次发布,并与银河麒麟桌面操作系统、长城国产PC整机实现…

中国科学院2001年数据结构试题

一、单项选择题(每空2分,共20分) 1.下列函数中渐近时间复杂度最小的是( )。 A.T1(n)nlog2n5000n B.T2(n)n2-8000n C.T3(n)nlog221-6000n D.T4(n)2nlog2n-7000n 2.线性表的静态链表存储结构与顺序…

MySQL数据表记录删操作

删除操作:作用删除表里的记录行(都是整行整行的删除的) 1.单表的删除 语法 delete from 表名 where 要删除的记录筛选条件; 案例:删除员工编号大于203的员工信息 delete from employees where employee_id>203; 2.多表的删除…

网络原理04

可靠传输,是TCP最核心的特性 可靠传输不是说数据100%传输给接收方了 1)发送方发出数据后,能过知道接收方是否收到数据 2)一旦发现对方没收到,可以通过一定的方法”补救” 1. 确认应答 发送方,把数据已…

微信小程序5-图片实现点击动作和动态加载同类数据

搜索 微信小程序 “动物觅踪” 观看效果 感谢阅读,初学小白,有错指正。 一、功能描述 a. 原本想通过按钮加载背景图片,来实现一个可以点击的搜索button,但是遇到两个难点,一是按钮大小调整不方便(网上搜索…

Java里局部变量和成员变量的隐式初始化

注:本文是对另一篇文档( https://blog.csdn.net/duke_ding2/article/details/142365872 )的补充。 文章目录 环境初始化局部变量(栈)成员变量(堆)其它数组 分析安全性性能成员变量 VS. 局部变量…

孚盟云 MailAjax.ashx SQL注入漏洞复现

0x01 产品简介 上海孚盟软件有限公司是一家外贸SaaS服务提供商,也是专业的外贸行业解决方案专业提供商。 全新的孚盟云产品,让用户可以用云模式实现信息化管理,让用户的异地办公更加流畅,大大降低中小企业在信息化上成本,用最小的投入享受大型企业级别的信息化服务,主要…

“切片赋值”创建列表批量操作“新”方法(Python)

[start:end]切片赋值,扩展了list批量增减元素的操作能力。 (笔记模板由python脚本于2024年12月06日 15:07:56创建,本篇笔记适合研python基础的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网:https://www.python.org/ Free:…

LabVIEW实现GPS通信

目录 1、GPS通信原理 2、硬件环境部署 3、程序架构 4、前面板设计 5、程序框图设计 6、测试验证 本专栏以LabVIEW为开发平台,讲解物联网通信组网原理与开发方法,覆盖RS232、TCP、MQTT、蓝牙、Wi-Fi、NB-IoT等协议。 结合实际案例,展示如何利用LabVIEW和常用模块实现物联网系…

Java简介:打开通往变成世界的大门

Java是什么?为什么它是全球开发者广泛使用的语言?本篇文章介绍Java的特点、应用场景以及“写一次,随处运行”的核心特性,让零基础的你建立对Java语言的初步认知。 注:此文章可以仅作了解,不影响之后的学习。…

Unraid实现相册同步与展示的方案探讨

背景:Unraid作为一个NAS系统,能够实现基本的NAS文件管理功能,但是不提供额外的功能如影音、同步、办公、和内网穿透等,这些在其他的NAS产品如群晖、绿联、威联通等都是提供支持的。然而unraid也有其他方案,即通过特别方…

常见的网络攻击手段

IP 欺骗 IP 是什么? 在网络中,所有的设备都会分配一个地址。这个地址就仿佛小蓝的家地址「多少号多少室」,这个号就是分配给整个子网的,「室」对应的号码即分配给子网中计算机的,这就是网络中的地址。「号」对应的号码为网络号…

积分形式的辐射传输方程

The Equation of Transfer in Integral Form Let L L L be the streaming-collision operator, and S S S is scattering operator, we have L I Ω ⋅ ∇ I ( r , Ω ) σ ( r , Ω ) I ( r , Ω ) LI\Omega\cdot\nabla I(r,\Omega)\sigma(r,\Omega)I(r,\Omega) LIΩ⋅∇…