大多数ML.NET数据操作都是'延迟执行'的:声明时,操作符不会立即处理数据,而是验证该操作是否可行。执行被推迟到实际请求输出数据为止。这意味着架构不匹配将在声明时抛出,但是直到执行时才抛出数据错误。延迟计算是数据库系统的一种技巧,它允许在评估管道时优化性能,但确实会增加逐步完成和调试实验的难度。
为了提高调试能力,我们为所有数据视图、转换器、估计器和加载程序添加了Preview()
扩展方法:
数据视图的
Preview
是在单个内存结构中包含编码为对象的数据视图的前100行(可配置)。转换器的
Preview
是将数据作为输入,并输出转换后的数据的预览。估计器的
Preview
也将数据作为输入,在数据的前100行(可配置)中拟合“近似模型”,然后输出结果转换器的预览。
我们试图使Preview
调试器变得友好:我们的期望是,如果您在Watch窗口中输入data.Preview()
,那么您将能够轻松地检查那里的数据。
这是代码示例:
var estimator = mlContext.Transforms.Conversion.MapValueToKey("Label").Append(mlContext.MulticlassClassification.Trainers.SdcaMaximumEntropy()).Append(mlContext.Transforms.Conversion.MapKeyToValue("PredictedLabel"));var data = mlContext.Data.LoadFromTextFile(new TextLoader.Column[] {new TextLoader.Column("Label", DataKind.String, 0),new TextLoader.Column("Features", DataKind.Single, 1, 4) }, filePath);// 预览数据。
var dataPreview = data.Preview();// 预览训练和转换的结果。
var transformationPreview = estimator.Preview(data);