使用ML.NET实现情感分析[新手篇]

在发出《.NET Core玩转机器学习》和《使用ML.NET预测纽约出租车费》两文后,相信读者朋友们即使在不明就里的情况下,也能按照内容顺利跑完代码运行出结果,对使用.NET Core和ML.NET,以及机器学习的效果有了初步感知。得到这些体验后,那么就需要回头小结一下了,本文仍然基于一个情感分析的案例,以刚接触机器学习的.NET开发者的视角,侧重展开一下起手ML.NET的基本理解和步骤。

当我们意识到某个现实问题超出了传统的模式匹配能力范围,需要借助模拟的方式先尽可能还原已经产生的事实(通常也称为拟合),然后复用这种稳定的模拟过程(通常也称为模型),对即将发生的条件进行估计,求得发生或不发生相同结果的概率,此时就是利用机器学习最好的机会,同时也要看到,这也是机器学习通常离不开大量数据的原因,历史数据太少,模拟还原这个过程效果就会差很多,自然地,评估的结果误差就大了。所以在重视数据的准确性、完整性的同时,要学会经营数据的体量出来。

若要使用机器学习解决问题,一般会经历以下这些步骤:

1. 描述问题产生的场景

2. 针对特定场景收集数据

3. 对数据预处理

4. 确定模型(算法)进行训练

5. 对训练好的模型进行验证和调优

6. 使用模型进行预测分析

 接下来我将用案例逐一介绍。 

描述问题产生的场景


说到情感分析,我假定一个最简单的句子表达的场景,就是当看到一句话,通过特定的词语,我们能判断这是一个正向积极的态度,或是负面消极的。比如“我的程序顺利通过测试啦”这就是一个正向的,而“这个函数的性能实在堪忧”就是一个负面的表达。所以,对词语的鉴别就能间接知道说这句话的人的情感反应。(本案例为降低理解的复杂程度,暂不考虑断句、重音、标点之类的这些因素。)

 

针对特定场景收集数据


为了证实上面的思路,我们需要先收集一些有用的数据。其实这也是让众多开发者卡住的环节,除了使用爬虫和自己系统中的历史数据,往往想不到短时间还能在哪获取到。互联网上有不少学院和机构,甚至政府都是有开放数据集提供的,推荐两处获取比较高质量数据集的来源:

UC Irvine Machine Learning Repository来自加州大学

kaggle.com一个著名的计算科学与机器学习竞赛网站

这次我从UCI找到一个刚好只是每行有一个句子加一个标签,并且标签已标注好每个句子是正向还是负向的数据集了。在Sentiment Labelled Sentences Data Set下载。格式类似如下:

A very, very, very slow-moving, aimless movie about a distressed, drifting young man.  0

Not sure who was more lost - the flat characters or the audience, nearly half of whom walked out.  0

Attempting artiness with black & white and clever camera angles, the movie disappointed - became even more ridiculous - as the acting was poor and the plot and lines almost non-existent.  0

Very little music or anything to speak of.  0

The best scene in the movie was when Gerardo is trying to find a song that keeps running through his head.  1

The rest of the movie lacks art, charm, meaning... If it's about emptiness, it works I guess because it's empty.  0

Wasted two hours.  0

...

观察每一行,一共是Tab分隔的两个字段,第一个字段是句子,一般我们称之为特征(Feature),第二个字段是个数值,0表示负向,1表示正向,一般我们称之为目标或标签(Label),目标值往往是人工标注的,如果没有这个,是无法使用对历史数据进行拟合这种机器学习方式的。所以,一份高质量的数据集对人工标注的要求很高,要尽可能准确。

 

对数据预处理


对于创建项目一系列步骤,参看我开头提到的两篇文章即可,不再赘述。我们直接进入正题,ML.NET对数据的处理以及后面的训练流程是通用的,这也是为了以后扩展到其他第三方机器学习包设计的。首先观察数据集的格式,创建与数据集一致的结构,方便导入过程。LearningPipeline类专门用来定义机器学习过程的对象,所以紧接着我们需要创建它。代码如下:

const string _dataPath = @".\data\sentiment labelled sentences\imdb_labelled.txt";

const string _testDataPath = @".\data\sentiment labelled sentences\yelp_labelled.txt";


public class SentimentData

{

    [Column(ordinal: "0")]

    public string SentimentText;

    [Column(ordinal: "1", name: "Label")]

    public float Sentiment;

}


var pipeline = new LearningPipeline();

pipeline.Add(new TextLoader<SentimentData>(_dataPath, useHeader: false, separator: "tab"));

pipeline.Add(new TextFeaturizer("Features", "SentimentText"));

SentimentData就是我需要的导入用的数据结构,可以看到,Column属性除了指示对应数据集的行位置,额外的对应最后一列,表示正向还是负向的字段,还要指定它是目标值,并取了个标识名。TextLoader就是专门用来导入文本数据的类,TextFeaturizer就是指定特征的类,因为每一行数据不是每一个字段都可以成为特征的,如果有较多字段时,可以在此处特别地指定出来,这样不会被无关的字段影响。

 

确定模型(算法)进行训练


本案例目标是一个0/1的值类型,换句话说恰好是一个二分类问题,因此模型上我选择了FastTreeBinaryClassifier这个类,如果略有了解机器学习的朋友一定知道逻辑回归算法,与之在目的上大致相似。若要定义模型,同时要指定一个预测用的结构,这样模型就会按特定的结构输出模型的效果,一般这个输出用的结构至少要包含目标字段。代码片段如下:

public class SentimentPrediction

{

    [ColumnName("PredictedLabel")]

    public bool Sentiment;

}


pipeline.Add(new FastTreeBinaryClassifier() { NumLeaves = 5, NumTrees = 5, MinDocumentsInLeafs = 2 });


PredictionModel<SentimentData, SentimentPrediction> model = pipeline.Train<SentimentData, SentimentPrediction>();

对训练好的模型进行验证和调优


在得到模型后,需要用测试数据集进行验证,看看拟合的效果是不是符合预期,BinaryClassificationEvaluator就是FastTreeBinaryClassifier对应的验证用的类,验证的结果用BinaryClassificationMetrics类保存。代码片段如下:

var testData = new TextLoader<SentimentData>(_testDataPath, useHeader: false, separator: "tab");

var evaluator = new BinaryClassificationEvaluator();

BinaryClassificationMetrics metrics = evaluator.Evaluate(model, testData);

Console.WriteLine();

Console.WriteLine("PredictionModel quality metrics evaluation");

Console.WriteLine("------------------------------------------");

Console.WriteLine($"Accuracy: {metrics.Accuracy:P2}");

Console.WriteLine($"Auc: {metrics.Auc:P2}");

Console.WriteLine($"F1Score: {metrics.F1Score:P2}");

像Accuracy,Auc,F1Score都是一些常见的评价指标,包含了正确率、误差一类的得分,如果得分很低,就需要调整前一个步骤中定义模型时的参数值。详细的解释参考:Machine learning glossary

 

使用模型进行预测分析


训练好一个称心如意的模型后,就可以正式使用了。本质上就是再取来一些没有人工标注结果的数据,让模型进行分析返回一个符合某目标值的概率。代码片段如下:

IEnumerable<SentimentData> sentiments = new[]

{

    new SentimentData

    {

        SentimentText = "Contoso's 11 is a wonderful experience",

        Sentiment = 0

    },

    new SentimentData

    {

        SentimentText = "The acting in this movie is very bad",

        Sentiment = 0

    },

    new SentimentData

    {

        SentimentText = "Joe versus the Volcano Coffee Company is a great film.",

        Sentiment = 0

    }

};

IEnumerable<SentimentPrediction> predictions = model.Predict(sentiments);

Console.WriteLine();

Console.WriteLine("Sentiment Predictions");

Console.WriteLine("---------------------");


var sentimentsAndPredictions = sentiments.Zip(predictions, (sentiment, prediction) => (sentiment, prediction));

foreach (var item in sentimentsAndPredictions)

{

    Console.WriteLine($"Sentiment: {item.sentiment.SentimentText} | Prediction: {(item.prediction.Sentiment ? "Positive" : "Negative")}");

}

运行结果可以看到,其分类是符合真实判断的。尽管验证阶段的得分不高,这也是很正常的,再没有任何调优下,存在一些中性、多义的句子干扰预测导致的。

 640?wx_fmt=png

这样,再有新的句子就可以放心地通过程序自动完成分类了,是不是很简单!希望本文能带给.NET开发的朋友们对ML.NET跃跃欲试的兴趣。

顺便提一下,微软Azure还有一个机器学习的在线工作室,链接地址为:https://studio.azureml.net/,相关的AI项目库在:https://gallery.azure.ai/browse,对于暂时无法安装本地机器学习环境,以及找不到练手项目的朋友 ,不妨试试这个。

最后放出项目的文件结构以及完整的代码:

640?wx_fmt=png

using System;

using Microsoft.ML.Models;

using Microsoft.ML.Runtime;

using Microsoft.ML.Runtime.Api;

using Microsoft.ML.Trainers;

using Microsoft.ML.Transforms;

using System.Collections.Generic;

using System.Linq;

using Microsoft.ML;


namespace SentimentAnalysis

{

    class Program

    {

        const string _dataPath = @".\data\sentiment labelled sentences\imdb_labelled.txt";

        const string _testDataPath = @".\data\sentiment labelled sentences\yelp_labelled.txt";


        public class SentimentData

        {

            [Column(ordinal: "0")]

            public string SentimentText;

            [Column(ordinal: "1", name: "Label")]

            public float Sentiment;

        }


        public class SentimentPrediction

        {

            [ColumnName("PredictedLabel")]

            public bool Sentiment;

        }


        public static PredictionModel<SentimentData, SentimentPrediction> Train()

        {

            var pipeline = new LearningPipeline();

            pipeline.Add(new TextLoader<SentimentData>(_dataPath, useHeader: false, separator: "tab"));

            pipeline.Add(new TextFeaturizer("Features", "SentimentText"));

            pipeline.Add(new FastTreeBinaryClassifier() { NumLeaves = 5, NumTrees = 5, MinDocumentsInLeafs = 2 });


            PredictionModel<SentimentData, SentimentPrediction> model = pipeline.Train<SentimentData, SentimentPrediction>();

            return model;

        }


        public static void Evaluate(PredictionModel<SentimentData, SentimentPrediction> model)

        {

            var testData = new TextLoader<SentimentData>(_testDataPath, useHeader: false, separator: "tab");

            var evaluator = new BinaryClassificationEvaluator();

            BinaryClassificationMetrics metrics = evaluator.Evaluate(model, testData);

            Console.WriteLine();

            Console.WriteLine("PredictionModel quality metrics evaluation");

            Console.WriteLine("------------------------------------------");

            Console.WriteLine($"Accuracy: {metrics.Accuracy:P2}");

            Console.WriteLine($"Auc: {metrics.Auc:P2}");

            Console.WriteLine($"F1Score: {metrics.F1Score:P2}");

        }


        public static void Predict(PredictionModel<SentimentData, SentimentPrediction> model)

        {

            IEnumerable<SentimentData> sentiments = new[]

            {

                new SentimentData

                {

                    SentimentText = "Contoso's 11 is a wonderful experience",

                    Sentiment = 0

                },

                new SentimentData

                {

                    SentimentText = "The acting in this movie is very bad",

                    Sentiment = 0

                },

                new SentimentData

                {

                    SentimentText = "Joe versus the Volcano Coffee Company is a great film.",

                    Sentiment = 0

                }

            };

            IEnumerable<SentimentPrediction> predictions = model.Predict(sentiments);

            Console.WriteLine();

            Console.WriteLine("Sentiment Predictions");

            Console.WriteLine("---------------------");


            var sentimentsAndPredictions = sentiments.Zip(predictions, (sentiment, prediction) => (sentiment, prediction));

            foreach (var item in sentimentsAndPredictions)

            {

                Console.WriteLine($"Sentiment: {item.sentiment.SentimentText} | Prediction: {(item.prediction.Sentiment ? "Positive" : "Negative")}");

            }

            Console.WriteLine();

        }


        static void Main(string[] args)

        {

            var model = Train();

            Evaluate(model);

            Predict(model);

        }

    }

}

相关文章: 

  • .NET Core玩转机器学习

  • 使用ML.NET预测纽约出租车费

原文地址: http://www.cnblogs.com/BeanHsiang/p/9020919.html


.NET社区新闻,深度好文,欢迎访问公众号文章汇总 http://www.csharpkit.com

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/321323.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

codeforces 932E Team Work 高等数学求导、dp

题解 这是一道纯粹的数学求导题目。 首先我们先写出要求的公式。 ans∑r1nCnrrkans \sum_{r1}^{n} C_n^{r}r^kans∑r1n​Cnr​rk 乍一看&#xff0c;雾草好吓人&#xff0c;但是学过高等数学且稍有常识的人&#xff08;不是我&#xff09;可以看出&#xff0c;这个可以由某个…

【背包】小明逛超市(jzoj 2148)

小明逛超市 题目大意&#xff1a; 有一个大小为n的背包&#xff0c;和m件物品&#xff0c;每件物品都有自己的价格和价值还有个数&#xff0c;当个数为0时则为无限件&#xff0c;为1实则为1件&#xff0c;求最大的价值 样例输入 4 5 5 3 0 5 3 1 4 4 0 2 3 0 3 2 1 样…

P4093-[HEOI2016/TJOI2016]序列【CDQ分治,树状数组】

正题 题目链接:https://www.luogu.com.cn/problem/P4093 题目大意 nnn个数字&#xff0c;每次有一个数字可能和原序列不同&#xff0c;但最多只有一个不同。 求所有情况下都满足的最长不降子序列 解题思路 定义maximax_imaxi​表示位置iii的最大数&#xff0c;minimin_imini…

潘正磊:再过三五年 AI会变成开发人员的基本概念

在微软Build 2018开发者大会上&#xff0c;微软公司全球开发平台事业部的资深副总裁潘正磊&#xff08;Julia Liuson&#xff09;接受了界面记者在内的采访。潘正磊在微软西雅图总部带领一千多人组成的团队&#xff0c;微软的开发工具&#xff0c;包括Visual Studio&#xff0c…

codeforces 938D Buy a Ticket 有初值的Dijkstra、有趣的题目

题意 给出一些城市电影票的价格&#xff0c;以及城市之间交通的路费&#xff0c;询问每一个城市怎样才能花最少的钱看到电影&#xff08;看完电影还要再回来&#xff09;。 题解 这是一道不太难但是挺有趣的题目。 我们这样想&#xff0c;每个城市只需要查看票价比他更便宜的城…

P2480-[SDOI2010]古代猪文【中国剩余定理,Lucas定理】

大早上起来写题有助于醒脑&#xff08;其实是昨晚没睡好/kk 正题 题目链接:https://www.luogu.com.cn/problem/P2480 题目大意 给出nnn和ggg&#xff0c;求g∑d∣nCnd%999911659g^{\sum_{d|n}C_{n}^d}\% 999911659g∑d∣n​Cnd​%999911659 解题思路 因为999911659999911659…

qMISPlat入门级使用问题解答一

qMISPlat 2.0(业务配置开发平台) 自2018-4-18号正式开源以来&#xff0c;得到了众多.net core爱好者的关注&#xff0c;现将近半个月以来&#xff0c;大家反馈的一些使用配置方面的问题统一作如下解答。如你对qMISPlat不了解&#xff0c;请查看文章qMISPlat产品介绍。一、从码云…

【DP】小明游天界(zjoj 2149)

小明游天界 题目大意&#xff1a; 有 m个单位时间&#xff0c;让你从1走到n&#xff08;不能早到&#xff0c;不能晚到&#xff09;&#xff0c;要使经过的城市最多&#xff0c;若无法用m个单位时间到达n就输出-1 样例输入 5 12 4 1 2 5 1 4 3 4 2 4 2 5 5 样例输出 …

codeforces 935E Fafa and Ancient Mathematics 语法树、动态规划

题解 一道很有意思的题目&#xff0c;同时把动态规划和语法树结合起来&#xff0c;很有新意&#xff0c;思路我是想出来了&#xff0c;但是我的写法较为麻烦&#xff0c;从别人的submission中找了一个写起来简介的代码分享给大家。 看到表达式的形式&#xff0c;我们可以想到使…

P1429-平面最近点对(加强版)【分治】

正题 题目链接:https://www.luogu.com.cn/problem/P1429 题目大意 平面上nnn个点&#xff0c;求最近点对 解题思路 考虑分治求最近点对&#xff0c;首先将平行于yyy轴将平面穿过xxx左边的中位数分割成两半&#xff0c;现在最近点对有三种可能&#xff0c; 在分割线左边在分…

夏季(8 ~9)月 在深圳举办线下dotnet 大会 调查

随着微软 Build 2018的落幕&#xff0c;微软为.NET Core的应用规划了七大场景&#xff1a;计划今年夏季&#xff08;8 ~9&#xff09;月 在深圳举办线下dotnet 大会 &#xff0c;特此向大家做个调查。请大家抽出5分钟做下投票&#xff1a;顺便送大家一个福利&#xff1a;.NET社…

2019.01.22【NOIP普及组】模拟赛C组总结

总结 这次模拟赛拿到了10010010060360的分数 第1,2题不怎么难&#xff0c;快速解决&#xff0c;第3题看到之后马上想到了混合背包&#xff0c;打了大概半小时解决了&#xff0c;最后一道题想来想去&#xff0c;想了一堆没用的东西&#xff0c;最后打了一个垃圾DP拿了60分&…

codeforces 938E MaxHistory 组合数学

题意 给出一个长为n的序列&#xff0c;对于这个序列的任意一个排列&#xff0c;求∑fa\sum f_a∑fa​的值。 题解 我们枚举每一个aia_iai​然后&#xff0c;计算aia_iai​出现了多少次&#xff0c;然后把ai∗numa_i*numai​∗num加入到ans里面。 考虑aia_iai​什么时候出现。 a…

.NET 图形化开源爬虫Hawk 3发布

超级图形化爬虫Hawk已经发布两年半时间了&#xff0c;2015年升级到第二版&#xff0c;收到上千条用户反馈(tucao)&#xff0c;100多个红包&#xff0c;总共666块五毛~一直想攒着这笔钱&#xff0c;去北境之王天通苑的龙德商场买最心爱的阿迪王&#xff01;啥&#xff0c;你不知…

P4027-[NOI2007]货币兑换【斜率优化dp,CDQ分治】

正题 题目链接:https://www.luogu.com.cn/problem/P4027 题目大意 nnn天开始时有SSS元钱&#xff0c;每天AAA种股票价格为aia_iai​,BBB种价格为bib_ibi​。然后出售必须AAA和BBB出售相同比例&#xff0c;买入时AAA和BBB必须按照rir_iri​的比例买入。 求最后的钱最多是多少 …

【栈】【字符】匹配(jzoj 1612)

匹配 题目大意&#xff1a; 给你一个长度为n的字符串&#xff08;有多组数据&#xff09;&#xff0c;中间有小写字母&#xff08;没用的东西&#xff09;和大写字母&#xff0c;A-M是左括号&#xff0c;与之相对的是右括号Z-N&#xff08;之所以说是Z-N而不是N-Z是因为只有Z…

codeforces 940E Cashback 有趣的dp

题解 这么明显的一个dp&#xff0c;我怎么就没看出来呢&#xff1f;&#xff01; 首先我们需要一些前提条件&#xff1a;任何划分出来的一个区间的长度不应该超过c。 如果这个区间长度大于c&#xff0c;那么设lenn∗cklenn∗ck&#xff0c;那么这个区间应该被分成n个长度为c的…

理解 C# 项目 csproj 文件格式的本质和编译流程

写了这么多个 C# 项目&#xff0c;是否对项目文件 csproj 有一些了解呢&#xff1f;Visual Studio 是怎么让 csproj 中的内容正确显示出来的呢&#xff1f;更深入的&#xff0c;我能够自己扩展 csproj 的功能吗&#xff1f;本文将直接从 csproj 文件格式的本质来看以上这些问题…

P2000-拯救世界【生成函数,NTT】

正题 题目链接:https://www.luogu.com.cn/problem/P2000 题目大意 十种东西&#xff0c;有要求 金神石A的块数必须是 6 的倍数。 木神石A最多用 9 块。 水神石A最多用 5 块。 火神石A的块数必须是 4 的倍数。 土神石A最多用 7 块。 金神石B的块数必须是 2 的倍数。 木神石B最…

【模拟】生日蛋糕(jzoj 1613)

生日蛋糕 题目大意&#xff1a; 一个正方形蛋糕&#xff0c;竖着横着各切一刀&#xff0c;使他变成四块正方形蛋糕&#xff0c;蛋糕中有一些巧克力&#xff0c;而小明只能拿巧克力最少的一块&#xff0c;请问小明要怎么切才能吃到最多的巧克力 样例输入 8 …#…#… .##……