ML.NET机器学习、API容器化与Azure DevOps实践(二):案例

在上文中,我简单地介绍了机器学习以及ML.NET的相关知识,从本讲开始,我会基于一个简单的案例:学生成绩预测,来介绍使用ML.NET进行机器学习以及API部署的基本过程。

本案例的数据来源为加州大学尔湾分校的机器学习公开样本数据集,数据介绍页面和下载地址为:https://archive.ics.uci.edu/ml/datasets/Student+Performance。该数据集包含了来自两所学校的学生的问卷调查结果,以及每位学生的综合成绩。数据集为CSV格式,每个字段的含义在官网上都有详细介绍,因此,在这里就不再赘述了。

确定问题类型

我们的任务很简单,就是基于这套已有的学生问卷调查结果以及综合成绩,进行机器学习模型训练,然后,再根据一套给定的学生情况信息,来预测该名学生的综合成绩。不难发现,我们需要使用监督学习中的回归算法来进行模型训练,因为我们需要得到一个连续的预测值,而不是离散的二元或者多元值。在确定了我们的任务之后,就可以对得到的数据集进行一些预处理,以便机器学习的过程能够顺利进行。

数据预处理与数据分析

在得到训练数据集之后,通常不能直接拿来进行机器学习,需要对数据进行一些处理。数据预处理任务大致有:

  • 数据格式规整化:对每一列的数据进行类型和单位统一,比如,“浓度”字段有些行使用的是ug/mL,有些行使用的是g/L,需要对单位进行统一,并将“浓度”字段的值转换为数值类型,以便进行统计

  • 特殊值处理:有些样本数据的取值比较异常,超出正常范围很多,对于这样的数据,可以直接丢弃,也可以通过一些统计学算法对其进行修正

  • 空值、无效值处理:有些样本数据的取值为空(或者对于数值型的数据,取值为0,并且不合理),对于这样的数据,也需要进行修正或者舍弃

  • 数据一致性校验:对数据一致性进行校验

  • 识别特征属性与目标属性:分析训练数据中,哪些属性会对预测目标造成影响,哪些属性不会影响预测结果

例如,基于本案例中的学生问卷调查结果,我们可以看到,有些学生的综合成绩为0,在本案例中,我们可以选择舍弃这些数据:

640?wx_fmt=png

再比如,通过下面的热图我们可以了解到,平时学习时间相对较长,外出时间较短,并且有意向继续深造的学生,综合成绩也会相对越好。因此,学习时间、外出时间以及是否有意向继续深造,都有可能是影响综合成绩的因素。在进行模型训练时,就有可能需要将这些因素考虑进去。

640?wx_fmt=png

在实际应用中,数据对于机器学习而言尤为重要,数据清洗的任务相当繁重。据我所知,某国际知名制药公司正在将人工智能应用在新药研发中,但由于数据清洗任务巨大,根本没有足够的标准化、规整化数据来支持各种机器学习任务,因此,在新药研发领域,人工智能的应用进展缓慢。

回到我们的案例,在完成了数据清洗任务和特征属性、目标属性的识别之后,就可以使用ML.NET进行编程,实现学生学习成绩的预测。

注:本案例代码已开源。地址是:https://github.com/daxnet/mlnet-trainer。

通过上面的分析不难得出,我们的应用场景属于监督学习中的回归(Regression)预测,因此,我们可以选择使用ML.NET中所提供的回归算法,使用样本数据逐一完成模型训练,然后,使用测试数据对每个模型的预测结果进行评估,以选择合适的预测算法。为了对所有ML.NET默认支持的回归算法进行预测评估,在程序中使用如下数据结构来保存这些算法的实例,以便之后进行模型训练的时候,可以逐一对这些算法进行训练和评估:


var trainers = new List<ITrainerEstimator<ISingleFeaturePredictionTransformer<ModelParametersBase<float>>, ModelParametersBase<float>>>()

{

    mlContext.Regression.Trainers.FastTree(),

    mlContext.Regression.Trainers.FastForest(),

    mlContext.Regression.Trainers.FastTreeTweedie(),

    mlContext.Regression.Trainers.GeneralizedAdditiveModels(),

    mlContext.Regression.Trainers.OnlineGradientDescent(),

    mlContext.Regression.Trainers.PoissonRegression(),

    mlContext.Regression.Trainers.StochasticDualCoordinateAscent()

};

首先,我们将原始样本数据分成两份,一份用来训练,另一份用来测试,将两份数据读入ML.NET的DataView,使用训练数据集进行模型训练,并使用测试数据集对模型进行评估,代码如下:


public IEnumerable<KeyValuePair<string, RegressionMetrics>> TrainAndEvaluate(IDataView trainingDataView, IDataView testDataView)

{

    var metrics = new Dictionary<string, RegressionMetrics>();

    foreach(var trainer in this.trainers)

    {

        var pipeline = mlContext.Transforms.CopyColumns(inputColumnName: "G3", outputColumnName: "Label")

            .Append(mlContext.Transforms.Categorical.OneHotEncoding("School"))

            .Append(mlContext.Transforms.Categorical.OneHotEncoding("Sex"))

            .Append(mlContext.Transforms.Categorical.OneHotEncoding("Age"))

            .Append(mlContext.Transforms.Categorical.OneHotEncoding("Famsize"))

            .Append(mlContext.Transforms.Categorical.OneHotEncoding("Guardian"))

            .Append(mlContext.Transforms.Categorical.OneHotEncoding("Traveltime"))

            .Append(mlContext.Transforms.Categorical.OneHotEncoding("Studytime"))

            .Append(mlContext.Transforms.Categorical.OneHotEncoding("Failures"))

            .Append(mlContext.Transforms.Categorical.OneHotEncoding("Paid"))

            .Append(mlContext.Transforms.Categorical.OneHotEncoding("Higher"))

            .Append(mlContext.Transforms.Categorical.OneHotEncoding("Famrel"))

            .Append(mlContext.Transforms.Categorical.OneHotEncoding("Absences"))

            .Append(mlContext.Transforms.Concatenate("Features",

                "School",

                "Sex",

                "Age",

                "Famsize",

                "Guardian",

                "Traveltime",

                "Studytime",

                "Failures",

                "Paid",

                "Higher",

                "Famrel",

                "Absences"))

            .AppendCacheCheckpoint(mlContext)

            .Append(trainer);

        var trainedModel = pipeline.Fit(trainingDataView);

        trainedModels.Add(trainer.GetType().Name, trainedModel);

        var predictionModel = trainedModel.Transform(testDataView);

        var regMetrics = mlContext.Regression.Evaluate(predictionModel);

        metrics.Add(trainer.GetType().Name, regMetrics);

    }

    return metrics;

}

上面代码中所出现的列名(比如School、Sex、Age等)均来自于学生问卷调查原始数据,此处并没有包含原始数据中的所有字段,因为仅有上述这些字段会对综合成绩产生影响,所以并不需要将所有字段列出。接下来,就是针对各个算法的评估结果,找出合适的算法,然后将模型保存下来以便后续使用:


var regressionMetrics = session.TrainAndEvaluate(trainingDataView, testingDataView);

foreach (var item in regressionMetrics)

{

    LearningSession.OutputRegressionMetrics(item.Key, item.Value);

}

var winnerAlgorithmName = regressionMetrics.OrderBy(x => x.Value.Rms).First().Key;

Console.WriteLine($"最优算法为:{winnerAlgorithmName}");

Console.WriteLine();

var winnerModel = session.GetTrainedModel(winnerAlgorithmName);

using (var fileStream = new FileStream(ModelFileName, FileMode.Create, FileAccess.Write))

{

    mlContext.Model.Save(winnerModel, fileStream);

}

此处,使用Root Mean Squared Error的评估值作为参考,得出Rms取值最小的回归算法作为最优算法。保存的模型为一个ZIP文件,在后续的API构建部分,会使用这个ZIP文件保存的训练模型,来构建RESTful API。上述代码就不详细分析了,Github上有完整的源代码。

本文简要介绍了基于学生成绩预测的机器学习案例,并介绍了数据分析与清洗工作的一些思路,之后,大致介绍了一下基于ML.NET进行模型训练、算法评估和模型保存的过程。在下文中,我会介绍如何基于产生的模型,构建RESTful API。

原文地址:https://sunnycoding.cn/2019/05/05/mlnet-containerize-and-azure-devops-practices-part2/

.NET社区新闻,深度好文,欢迎访问公众号文章汇总 http://www.csharpkit.com 
640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/315901.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

业界萌新对斯坦纳树的小结

业界萌新对斯坦纳树的小结 0.简介 斯坦纳树问题是组合优化问题&#xff0c;与最小生成树相似&#xff0c;是最短网络的一种。最小生成树是在给定的点集和边中寻求最短网络使所有点连通。而最小斯坦纳树允许在给定点外增加额外的点&#xff0c;使生成的最短网络开销最小。 ——…

cf1208E. Let Them Slide

cf1208E. Let Them Slide 题意&#xff1a; 都放在一个长度为W的框里面。有n个序到&#xff0c;第i个序列的长度是1。这些序到并排放在一起&#xff0c;每一个序列都放在一个长度为w的框里 这些序列可以在框里面滑动&#xff0c;但是不能划出框。 对于每一个位置&#xff0…

结合eShopOnWeb全面认识领域模型架构

一.项目分析在上篇中介绍了什么是"干净架构"&#xff0c;DDD符合了这种干净架构的特点&#xff0c;重点描述了DDD架构遵循的依赖倒置原则&#xff0c;使软件达到了低藕合。eShopOnWeb项目是学习DDD领域模型架构的一个很好案例&#xff0c;本篇继续分析该项目各层的职…

SOS_dp算法

Codeforces博客 简介&#xff1a; 前置知识&#xff1a;状压dp Sum over Subsets dynamic programming&#xff0c;简称Sos dp,状压dp的一种 用一个列题引出SOS dp&#xff1a; 给你一个由2N2^N2N个整数组成的确定数组A&#xff0c;我们需要计算对于任意的x&#xff0c;F(x)所…

微软开源Bing搜索背后的关键算法

微软今天宣布开源了一项 Bing 搜索背后的关键算法 —— SPTAG&#xff0c;它使 Bing 能够快速将搜索结果返回给用户。仅在几年前&#xff0c;网络搜索很简单&#xff0c;用户输入几个关键词然后浏览结果页面。现如今&#xff0c;这些用户可能会在手机上拍照并将其放入搜索框中&…

Stern-Brocot Tree

Stern-Brocot Tree 0.简介 Stern-Brocot Tree&#xff0c;俗称SB树&#xff08;滑稽&#xff09;。它能够表示出所有的最简分数&#xff0c;如下图。 1.一些规律 显然&#xff0c;对于两个相邻的最简分数 可以得到另一个最简分数 这样就可以在Stern-Brocot Tree上表示出所有…

FWT(快速沃尔什变换)

文章目录引入&#xff1a;or卷积and卷积xor卷积IFWT模板&#xff1a;例题&#xff1a;引入&#xff1a; FFT/NTT是用来解决∑ijkA[i]B[j]\sum_{ijk}A[i]B[j]∑ijk​A[i]B[j]的式子 而FWT是用来解决Ci∑j⊕kiAjBkC_i\sum_{j⊕ki}A_jB_kCi​∑j⊕ki​Aj​Bk​ ​ FWT是一种用于处…

教你自制.NET Core Global Tools

点击上方蓝字关注“汪宇杰博客”命令行是程序员装逼利器&#xff0c;.NET Core也可以写命令行程序&#xff0c;但是如何分发给其他程序员使用&#xff0c;一直是个问题。现在&#xff0c;有了.NET Core Global Tools&#xff0c;可以很方便的解决分发问题&#xff0c;我们来看看…

三点间LCA

三点间LCA 1.直接上题——jzoj5883. 【NOIP2018模拟A组9.25】到不了 Dscription wy 和 wjk 是好朋友。 今天他们在一起聊天&#xff0c;突然聊到了以前一起唱过的《到不了》。 “说到到不了&#xff0c;我给你讲一个故事吧。” “嗯&#xff1f;” “从前&#xff0c;神和凡人…

CF1208F Bits And Pieces(未解决)

CF1208F Bits And Piecesa 题意&#xff1a; 给定 n 个数的数组d,找到i<j<ki\lt j\lt ki<j<k 的 i,j,k&#xff0c;使得 di∣(dj&dk)d_i|(d_j \& d_k)di​∣(dj​&dk​)最大 题解&#xff1a; 一开始以为是01字典树&#xff0c;看了题解说是SOSdp&…

微软拥抱开源,Win10为啥要引入真Linux4.X内核?

来源 | 异步 | 文末赠书2019 年微软 Build 开发者大会在雷德蒙德召开。继将 Bash shell、原生 OpenSSH、WSL 引入 Windows&#xff0c;以及在微软商店提供 Ubuntu、SUSE Linux 和 Fedora 等发行版&#xff0c;微软又宣布了一个重大的决定 —— 将完整的 Linux 内核引入 Windows…

文件快速输入输出

某考试中出题人给出的毒瘤文件快速输入输出。 namespace io {const int SIZE (1 << 21) 1;char ibuf[SIZE], *iS, *iT, obuf[SIZE], *oS obuf, *oT oS SIZE - 1, c, qu[55]; int f, qr;// getchar#define gc() (iS iT ? (iT (iS ibuf) fread (ibuf, 1, SIZE, …

F.孤独(牛客小白月赛39)

F.孤独&#xff08;牛客小白月赛39&#xff09; 题意&#xff1a; 给定一棵树&#xff0c;寻找一个路径&#xff0c;将断掉所有与这个路径上的点相连的边&#xff0c;使得剩下的最大连通块的大小最小 题解&#xff1a; 这题有点印象&#xff0c;感觉做过&#xff0c;至少这…

分布式 - 分布式系统的特点

20世纪60年代&#xff0c;IBM研发了System 360架构大型机&#xff0c;与同时期的波音707、福特汽车誉为商业三大成就&#xff0c;凭借其卓越的性能和良好的稳定性&#xff0c;开启了大型机的时代&#xff0c;诞生了非常多的集中式系统&#xff0c;采用单机架构&#xff0c;有非…

[WC2011][BZOJ2115] Xor

BZOJ2115 Xor 题目描述&#xff1a; 题目大意&#xff1a; 给定一张 n 个点 m 条边的无向带权连通图&#xff0c;求一条从点 1 到点 n 的路径&#xff0c;使得经过的边权异或和最大。 路径可以经过重复点和重复边&#xff0c;当一条边被重复经过时也会相应地被 xor 多次。 s…

.NET Core 3.0 可回收程序集加载上下文

.NET诞生以来&#xff0c;程序集的动态加载和卸载都是一个Hack的技术&#xff0c;之前的NetFx都是使用AppDomain的方式去加载程序集&#xff0c;然而AppDomain并没有提供直接卸载一个程序集的API&#xff0c;而是要卸载整个AppDomain才能卸载包含在其中的所有程序集。然而卸载整…

ADPC2-G 希望

希望 题意&#xff1a; 有A&#xff0c;B两棵树&#xff0c;对于一个1到n的全排列a[i],让树A中的点i和树B的节点a[i]连一条边&#xff0c;希望指数&#xff1a;两棵树和新加入的边构成的图中&#xff0c;环长为m的环的个数。数组a[]可以任意交换位置&#xff0c;且任意&#…

[BeiJing2011][bzoj2460] 元素

[BeiJing2011][bzoj2460] 元素 无需多言。 直接贪心&#xff0c;从大到小放到线性基里即可。 #include<bits/stdc.h> using namespace std; const int MAXN100005; typedef long long ll; ll ans0; struct node{ll x,y; }a[MAXN]; int compare(node x,node y) { retu…

.Net Core中依赖注入服务使用总结

一、依赖注入引入依赖注入的目的是为了解耦和。说白了就是面向接口编程&#xff0c;通过调用接口的方法&#xff0c;而不直接实例化对象去调用。这样做的好处就是如果添加了另一个种实现类&#xff0c;不需要修改之前代码&#xff0c;只需要修改注入的地方将实现类替换。上面的…

ADPC2-D 分配颜色

ADPC2-D 分配颜色 题意&#xff1a; n*m的表格&#xff0c;一开始都是红色的&#xff0c;现在可以进行p次操作1和q次操作2 操作1&#xff1a; 把某一行的同学进行取反操作&#xff1a;即红色变为蓝色&#xff0c;蓝色变成红色。 操作2&#xff1a; 把某一列的同学进行取反操作…