原标题:逻辑回归分类技术分享,使用Java和Spark区分垃圾邮件
由于最近的工作原因,小鸟很久没给大家分享技术了。今天小鸟就给大家介绍一种比较火的机器学习算法,逻辑回归分类算法。
回归是一种监督式学习的方式,与分类类似,他们的共性都是可以预测变量的归类。但是他们的区别也是在变量类型,分类通常预测离散型的变量,比如区分骚扰电话和非骚扰电话,而回归则是区别线性的变量,例如通过身高和饭量预测一个人的体重。下面来看一个使用Java编写,基于Spark机器学习库的垃圾邮件分类程序:
首先先构造特征向量和数据集:
此处的spam和ham分别为正常邮件数据和垃圾邮件数据。
接下来使用Spark中自带的算法库,对训练数据进行训练,形成一个邮件分类模型:
接下来对模型进行测试,构造两封邮件,内容分别为垃圾邮件和正常邮件。然后利用模型对这两封邮件进行预测:
预测结果如下所示:
可见预测结果准确,其实机器学习就是一种利用经验来预测结果的思想。古时候有句老话叫瑞雪兆丰年,其实古人并不知道这其中的科学原理,凭借的就是多年的经验积累。因此在实际生活中,这种自我学习的方式也能帮助人们做出更多贡献。
以上就是本次逻辑回归算法代码分享了,大家可以多多收藏。最后欢迎关注小鸟,持续获取更多的前沿技术和技术分享。返回搜狐,查看更多
责任编辑: