ML.NET 0.8特性简介

本周.NET生态圈内的更新源源不断,除了.NET Core 2.2,ASP.NET Core 2.2和Entity Framework Core 2.2之外,ML.NET 0.8也一并登上舞台。

新的推荐场景

ML.NET使用基于矩阵分解(Matrix Factorization)和场感知分解机(Field-aware Factorization Machine)的方法来作推荐。一般而言,场感知分解机是矩阵分解更通用的例子,它允许传入额外的元数据。

在ML.NET 0.8中新加了运用矩阵分解的推荐场景。

推荐场景推荐方案示例链接
基于产品Id,评价,用户Id和诸如产品描述,用户特征(年龄,国家)的额外元数据的产品推荐场感知分解机ML.NET 0.3
基于产品Id,评价,用户Id的产品推荐矩阵分解ML.NET 0.7
基于产品Id和与其一同购买的产品Id的产品推荐One Class矩阵分解ML.NET 0.8

在新的推荐场景中,即使没有可用的评价,也可以通过历史购买数据为用户构建"经常一起购买的产品"(Frequently Bought Together)的列表。

通过预览数据改进调试功能

在多数例子里,当开始运行你的机器学习管道(pipeline),且加载数据时,能看到已经载入的数据是很有用的功能。尤其是在某些中间转换过程之后,需要确保数据如预期的一样发生变化。

现在当你想要预览DataView的数据模式(Schema)时,可以悬停鼠标在IDataView对象上,展开它,观察它的数据模式属性。
640?wx_fmt=png

而要查看DataView中已加载的实际数据,通过以下三步可以达成目标。

  • 在调试模式中打开观察窗口

  • 输入DataView对象的变量名,调用它的Preview方法

  • 点开想看的某行,这样就能显示其中实际加载的数据

默认情况下,只会显示100行的数据,但可以在Preview方法里传入参数,比如Preview(500),以获得更多的数据。

模型可解释性

为了让模型更具可解释性,ML.NET 0.8引入了新的API,用以帮助理解模型的特征重要性(整体特征重要度(Overall Feature Importance))以及创建能被其他人解释的高效模型(广义加性模型(Generalized Additive Models))。

整体特征重要度用于评判在模型中哪些特性是整体上最重要的。它帮助理解哪些特征是最有价值的,从而得到更好的预测结果。例如,当预测汽车价格时,一些特性比如里程数和生产商品牌是更重要的,而其它特性,如汽车颜色,则是影响甚小。

模型的整体特征重要度可以通过"排列特征重要度"(Permutation Feature Importance)(PFI)技术来获得。PFI借由"如果特征值设为随机数,会怎样影响模型"这一问题以测量特征重要度。

PFI方法的好处是其与模型无关,任何模型都可以用它作评估,并且它还可以使用任意数据。

使用PFI的方法如下例代码所示:

// Compute the feature importance using PFIvar permutationMetrics = mlContext.Regression.PermutationFeatureImportance(model, data);// Get the feature names from the training setvar featureNames = data.Schema.GetColumns().Select(tuple => tuple.column.Name) // Get the column names.Where(name => name != labelName) // Drop the Label.ToArray();// Write out the feature names and their importance to the model's R-squared valuefor (int i = 0; i < featureNames.Length; i++)Console.WriteLine($"{featureNames[i]}\t{permutationMetrics[i].rSquared:G4}");

生成的结果包括了特征名与它的重要度。

Console output:Feature            Model Weight    Change in R - Squared--------------------------------------------------------RoomsPerDwelling      50.80             -0.3695EmploymentDistance   -17.79             -0.2238TeacherRatio         -19.83             -0.1228TaxRate              -8.60              -0.1042NitricOxides         -15.95             -0.1025HighwayDistance        5.37             -0.09345CrimesPerCapita      -15.05             -0.05797PercentPre40s         -4.64             -0.0385PercentResidental      3.98             -0.02184CharlesRiver           3.38             -0.01487PercentNonRetail      -1.94             -0.007231

广义加性模型拥有很好的预测可解释性。在便于理解上,它类似于线性模型,但更加灵活,并具有更佳的性能以及利于分析的可视化能力。

更多的API增强

在DataView中过滤行

有时你会需要对数据集过滤一部分数据,比如那些离群值(outlier)。ML.NET 0.8中新加入了FilterByColumn()API可以帮助解决类似问题。

使用方法如下面的代码所示:

IDataView trainingDataView = mlContext.Data.FilterByColumn(baseTrainingDataView, "FareAmount", lowerBound: 1, upperBound: 150);

缓存功能的API

当对同一数据作多次迭代处理时,通过缓存数据可以大幅减少训练时间。

以下例子可以减少50%的训练时间:

var dataProcessPipeline = mlContext.Transforms.Conversion.MapValueToKey("Area", "Label").Append(mlContext.Transforms.Text.FeaturizeText("Title", "TitleFeaturized")).Append(mlContext.Transforms.Text.FeaturizeText("Description", "DescriptionFeaturized")).Append(mlContext.Transforms.Concatenate("Features", "TitleFeaturized", "DescriptionFeaturized"))        //Example Caching the DataView .AppendCacheCheckpoint(mlContext) .Append(mlContext.BinaryClassification.Trainers.AveragedPerceptron(DefaultColumnNames.Label,                                  DefaultColumnNames.Features,numIterations: 10));

以IDataView二进制格式保存读取数据

将经过转换的数据保存为IDataView二进制格式相较普通的文本格式,可以极大地提升效率。同时,由于此格式保留了数据模式,所以可以方便读取而不需要再指定列类型。

读取与保存的API如下所示,十分简单:

mlContext.Data.ReadFromBinary("pathToFile");
mlContext.Data.SaveAsBinary("pathToFile");

用于时间序列问题的状态性预测引擎

ML.NET 0.7里可以基于时间序列处理异常检查问题。然而,其预测引擎是无状态的,这意味着每次要指出最新的数据点是否是异常的,需要同时提供历史数据。
新的引擎中可以保留时间序列的状态,所以现在只要有最新的数据点,即可以进行预测。需要改动的地方是将CreatePredictionFunction()方法替换成CreateTimeSeriesPredictionFunction()

原文地址:https://www.cnblogs.com/kenwoo/p/10090881.html

.NET社区新闻,深度好文,欢迎访问公众号文章汇总 http://www.csharpkit.com
640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/318560.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

F-Lucky Pascal Triangle(Lucas+数位dp)

F-Lucky Pascal Triangle issue是fw题解 下面代码TLE了&#xff0c;但是此题数位dp的思想非常值得学习 Lucas的过程相当于把n,mn,mn,m在p进制下的每一位拿出来做组合数 Lucas(n,m,p)∏(nkmk)modp\text{Lucas}(n,m,p)\prod \dbinom {n_k}{m_k} \bmod pLucas(n,m,p)∏(mk​nk​…

树的合并(ybtoj-树上dp)

文章目录题目描述前言解析代码thanks for reading&#xff01;题目描述 前言 全网唯一AC&#xff01;&#xff01;&#xff01; 妙啊 而且还是完全自己想出来的做法 开心 &#xff08;APIO还是没白听&#xff09; 但是思路出来后代码实现十分坎坷 建两个图分别dfs3次那个地方…

.net core中的高效动态内存管理方案

.net core在新增的System.Buffers中引入了一大堆高效内存管理的类&#xff0c;如span和memory、内存池。本文今天这里介绍一个高效动态内存访问方案。ReadOnlySequenceSegment<T>在我们读取数据的过程&#xff0c;很多时候会出现如下场景&#xff1a;不知道数据实际大小一…

.net core 上 K8S(三)Yaml文件运行.netcore程序

正文上一章我们通过kubectl run简单运行了一个.netcore网站&#xff0c;但实际的开发中&#xff0c;我们都是通过yaml来实现的。1.编写yaml文件关于yaml文件的格式在此就不多描述了&#xff0c;不熟悉的可以去网上搜一下示例。2.运行yamlkubectl create -f netcore.yaml 我们可…

Jozky模板

文章目录字符串处理后缀数组manacherhashKMP最大最小表达法数论约瑟夫环欧拉函数莫比乌斯反演逆序对归并排序求逆序对素数线性筛欧几里得与扩展欧几里得欧几里得算法&#xff1a;扩展欧几里得算法&#xff1a;逆元扩展欧几里得费马小定理欧拉定理递推求逆元__int128高精度运算唯…

Visual Studio 2017 15.9 版本发布:推出全新的导入 / 导出配置功能

Microsoft 在开发 Visual Studio 2019 的同时&#xff0c;还在继续支持 VS2017 的用户。公司已经发布了 9 次更新&#xff0c;这展示了 Microsoft 在常规更新发布之后仍然会坚守继续支持 Visual Studio 的承诺。我们已经介绍过 15.9 版本中的一些新增内容&#xff0c;但是在最终…

染色(树链剖分 洛谷-P2486)

文章目录题目描述解析代码thanks for reading&#xff01;传送门首先&#xff0c;对hash学姐对本题拔刀相助的debug行为表示衷心的感谢 题目描述 解析 用线段树维护颜色序列个数、最左颜色与最右颜色 合并时如果左儿子的最右颜色等于右儿子的最左颜色&#xff0c;就把加和-1 在…

C# 8中的范围类型(Range Type)

C# 8.0中加入了一个新的范围类型(Range Type)。这里我们首先展示一些代码&#xff0c;并一步一步为代码添加一些不同的东西, 为大家展示一下范围类型的功能和用法。我们最原始的代码如下&#xff1a;这里我们显示的定义了我们查询数组的索引1-3, 并输出他们的值。毫无疑问&…

选数游戏(ybtoj-二叉堆)

文章目录题目描述解析代码thanks for reading&#xff01;题目描述 解析 一道很考验代码能力与思维的题 &#xff08;我不是在为自己的菜找理由&#xff09; 首先由于可以每一列都有类似于环的性质 所以我们可以忽略点的出入的纵坐标的位置&#xff0c;只考虑每列选几个 首先&…

CF741C Arpa’s overnight party and Mehrdad’s si

题目描述&#xff1a; 有n对情侣&#xff08;2n个人&#xff09;围成一圈坐在桌子边上&#xff0c;每个人占据一个位子&#xff0c;要求情侣不能吃同一 种食物&#xff0c;并且桌子上相邻的三个人的食物必须有两个人是不同的&#xff0c;只有两种食物&#xff08;1或者是2&…

开源库支付库Magicodes.Pay发布

Magicodes.Pay&#xff0c;是心莱科技团队提供的统一支付库&#xff0c;相关库均使用.NET标准库编写&#xff0c;支持.NET Framework以及.NET Core。目前支持以下支付方式和功能&#xff1a;支付宝APP支付支付宝Wap支付支付宝国际支付 支持分账微信小程序支付微信APP支付统一支…

火车载客(ybtoj-二叉堆)

文章目录题目描述解析我的思路代码题解思路题目描述 解析 我的思路 其实就是线段覆盖的一个变体 贪心的想&#xff1a; 把游客按右端点升序排序 后面的证明就和线段覆盖一样了 如果有两个游客冲突 我们应该选右端点靠右的 因为这样对以后继续在右边出现的游客来说肯定不会更差…

NetCore基于EasyNetQ的高级API使用RabbitMq

一、消息队列消息队列作为分布式系统中的重要组件&#xff0c;常用的有MSMQ&#xff0c;RabbitMq&#xff0c;Kafa&#xff0c;ActiveMQ&#xff0c;RocketMQ。至于各种消息队列的优缺点比较&#xff0c;在这里就不做扩展了&#xff0c;网上资源很多。更多内容可参考 消息队列及…

二分图匹配(二)

文章目录例题&#xff1a;NC20483 [ZJOI2009]假期的宿舍题目描述&#xff1a;题解&#xff1a;NC51316 Going Home题目描述&#xff1a;题解&#xff1a;NC107638 poj3041 Asteroids题目描述&#xff1a;题解&#xff1a;NC20472 [ZJOI2007]矩阵游戏题目描述&#xff1a;题解&a…

质数和分解(动态规划)

文章目录题目描述解析记忆化搜索代码无限背包代码thanks for reading&#xff01;题目描述 解析 很好的题 记忆化搜索 我一开始的思路就是记忆化搜索 为了不重复&#xff0c;搜索的时候规定拆出来一个数A后一会不能再拆比A更小的了 这样就不难写了 &#xff08;忽略我n^2的素…

【.NET Core项目实战-统一认证平台】第十章 授权篇-客户端授权

上篇文章介绍了如何使用Dapper持久化IdentityServer4&#xff08;以下简称ids4&#xff09;的信息&#xff0c;并实现了sqlserver和mysql两种方式存储&#xff0c;本篇将介绍如何使用ids4进行客户端授权。.netcore项目实战交流群&#xff08;637326624&#xff09;&#xff0c;…

内存管理(ybtoj-二叉堆)

文章目录题目描述解析代码题目描述 解析 这题感觉做的不错 不难看出&#xff0c;要维护一个空闲的优先队列&#xff0c;在每次申请时弹出编号最小的 但是对判断当前哪些被访问的内存重新进入空闲状态是一个难题 最简单的办法是存起来每次扫一遍判断 但这样在极端数据时会TLE&…

[翻译]初试C# 8.0

原文地址: https://blogs.msdn.microsoft.com/dotnet/2018/12/05/take-c-8-0-for-a-spin/初试C# 8.0昨天我们宣布了Visual Studio 2019的第一个预览版&#xff08;使用Visual Studio 2019提高每个开发人员的工作效率&#xff09;和.NET Core 3.0&#xff08;宣布.NET Core 3预览…

上帝造题的七分钟(ybtoj-树状数组)

文章目录题目描述解析代码thanks for reading&#xff01;题目描述 解析 差点活活恶心死 搬砖题 &#xff08;其实细节没有那么多&#xff0c;还是代码能力太差&#xff09; 利用矩阵的二维差分 加上树状数组搞一搞 就完事了&#xff08;我实在不想再写了 &#xff09; 洛谷…

.NET Core微服务之路:让我们对上一个Demo通讯进行修改,完成RPC通讯

最近一段时间有些事情耽搁了更新&#xff0c;抱歉各位了。上一篇我们简单的介绍了DotNetty通信框架&#xff0c;并简单的介绍了基于DotNetty实现了回路&#xff08;Echo&#xff09;通信过程。我们来回忆一下上一个项目的整个流程&#xff1a;当服务端启动后&#xff0c;绑定并…