机器学习之 weka学习(一)weka介绍,安装和配置环境变量



本部分详情可查看博客http://blog.csdn.net/u011067360/article/details/20844443

                                            数据挖掘开源软件:WEKA基础教程

Weka简介:

       Weka是由新西兰怀卡托大学开发的智能分析系统(Waikato Environment for Knowledge Analysis)  。在怀卡托大学以外的地方,Weka通常按谐音念成Mecca,是一种现今仅存活于新西兰岛的,健壮的棕色鸟,  非常害羞,好奇心很强,但不会飞  。

         Weka是用Java写成的,它可以运行于几乎所有的操作平台,包括Linux,Windows等操作系统。

         Weka平台提供一个统一界面,汇集了当今最经典的机器学习算法及数据预处理工具。做为知识获取的完整系统,包括了数据输入、预处理、知识获取、模式评估等环节,以及对数据及学习结果的可视化操作。并且可以通过对不同的学习方法所得出的结果进行比较,找出解决当前问题的最佳算法。

Weka下载网页

                      http://www.cs.waikato.ac.nz/ml/weka/

                     http://www.cs.waikato.ac.nz/ml/weka/downloading.html

        在WEKA的安装文件中有weka-3-8-0.exe和 weka-3-8-0jre.exe,这两个软件我们安装一个即可,它们的区别是weka-3-8-0.exe只安装WEKA,而weka- 3-8-0jre.exe是将WEKA和JRE一起安装,所以在安装之前我们应该首先检查一下我们的电脑中是否安装了JRE,如果本机中已经安装了 JRE,那么我们就选择weka-3-8-0.exe安装程序,如果没有安装JRE,我们就选择weka-3-8-0jre.exe安装程序。


Weka安装后需要配置环境变量

环境变量的配置具体可参见

java 基础安装和Tomcat8配置


        Weka提供了许多用于数据可视化及预处理的工具(也称作过滤器),包括种类繁多的用于数据集转换的工具等。所有机器学习算法对输入数据都要求其采用ARFF格式。   Weka作为一个公开的知识过去的工作平台,集合了大量能承担数据(知识)挖掘任务的机器学习算法,包括分类,回归、聚类、关联规则等。

       Weka存储数据的格式是ARFF(Attribute-RelationFile Format)文件,这是一种ASCII文本文件。Weka的ARFF文件可以分为两部分。第一部分给出了头信息(Head information),包括了对关系的声明和对属性的声明。第二部分给出了数据信息(Data information),即数据集中给出的数据。从@Data标记开始,后面的就是数据信息了。


Weka与许多数据分析软件一样,Weka所处理的数据集是一个二维的表格.


 Weka处理的数据表格中,一个横行称为一个实例(Instance),竖行代表一个属性(Arrtibute),数据表格称为一个数据集,在weka看来,呈现了属性之间的一种关系(Relation)

        下面代码所示的二维表格存储在如下的ARFF文件中。这也就是Weka自带的“weather.arff”文件,在Weka安装目录的“data”子目录下可以找到。

@relation weather

 

@attribute outlook {sunny, overcast, rainy}

@attribute temperature numeric

@attribute humidity numeric

@attribute windy {TRUE, FALSE}

@attribute play {yes, no}

 

@data

sunny,85,85,FALSE,no

sunny,80,90,TRUE,no

overcast,83,86,FALSE,yes

rainy,70,96,FALSE,yes

rainy,68,80,FALSE,yes

rainy,65,70,TRUE,no

overcast,64,65,TRUE,yes

sunny,72,95,FALSE,no

sunny,69,70,FALSE,yes

rainy,75,80,FALSE,yes

sunny,75,70,TRUE,yes

overcast,72,90,TRUE,yes

overcast,81,75,FALSE,yes

rainy,71,91,TRUE,no


 Weka中的属性介绍:

       数据集中的每一个属性都有它对应的“@attribute”语句,来定义它的属性名称和数据类型。  

       Weka支持的有四种,分别是

        numeric-------------------------数值型

        nominal-specification-----------分类(nominal)型  

        string----------------------------字符串型

       date[]--------日期和时间型


数值属性:是整数或者实数,但Weka把它们都当作实数看待。

字符串属性:可以包含任意的文本。这种类型的属性在文本挖掘中非常有用。如:@ATTRIBUTE LC string

分类属性:由列出所有可能的类别名称并放在花括号中,如:

@attribute outlook {sunny, overcast, rainy} 。每个实例对应的“outlook”值必是这三者之一。

日期和时间属性:统一用“date”类型表示,它的格式是:@attribute date [] 其中是这个属性的名称,是一个字符 串,来规定该怎样解析和显示日期或时间的格式, 默认的字符串是ISO-8601所给的日期时间组合格式“yyyy-mm-dd hh:mm:ss”。 数据信息部分表达日期的字符串必须符合声明中规定的格式要求。


“Exploer”界面:



根据不同的功能把这个界面分成8个区域。


区域1的几个选项卡是用来切换不同的挖掘任务面板。这一节用到的只有“Preprocess”,其他面板的功能将在以后介绍。

主界面最左上角(标题栏下方)的是标签栏,分为五个部分,功能依次是:

Preprocess(数据预处理):选择和修改要处理的数据;

Classify(分类):训练和测试关于分类或回归的学习方案;

Cluster(聚类):从数据中学习聚类;

Associate(关联):从数据中学习关联规则;

Select attributes(属性选择):选择数据中最相关的属性;

Visualize(可视化):查看数据的交互式二维图像。


区域2是一些常用按钮。包括打开数据,保存及编辑功能。我们在这里把"bank-data.csv"另存为"bank-data.arff"。

载入、编辑数据

标签栏下方是载入数据栏,功能如下:

Open file:打开一个对话框,允许你浏览本地文件系统上的数据文件(.dat); 
Open URL:请求一个存有数据的URL 地址; 
Open DB:从数据库中读取数据; 
Generate:从一些数据生成器中生成人造数据。

在区域3中“Choose”某个“Filter”,可以实现筛选数据或者对数据进行某种变换。数据预处理主要就利用它来实现。


区域4展示了数据集的一些基本情况。

区域5中列出了数据集的所有属性。勾选一些属性并“Remove”就可以删除它们,删除后还可以利用区域2的“Undo”按钮找回。区域5上方的一排按钮是用来实现快速勾选的。

在区域5中选中某个属性,则区域6中有关于这个属性的摘要。注意对于数值属性和分类属性,摘要的方式是不一样的。图中显示的是对数值属性“income”的摘要。

区域7是区域5中选中属性的直方图。若数据集的最后一个属性(我们说过这是分类或回归任务的默认目标变量)是分类变量(这里的“pep”正好是),直方图中的每个长方形就会按照该变量的比例分成不同颜色的段。要想换个分段的依据,在区域7上方的下拉框中选个不同的分类属性就可以了。下拉框里选上“No Class”或者一个数值属性会变成黑白的直方图。

区域8是状态栏,可以查看Log以判断是否有错。右边的weka鸟在动的话说明WEKA正在执行挖掘任务。右键点击状态栏还可以执行JAVA内存的垃圾回收。



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/246992.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第一章:线性空间和线性变换

转载于:https://www.cnblogs.com/invisible2/p/11514817.html

机器学习之 weka学习(二)算法说明

本文转自:http://blog.csdn.net/mm_bit/article/details/47405433 weka中的各算法说明 1) 数据输入和输出 WOW():查看Weka函数的参数。 Weka_control():设置Weka函数的参数。 read.arff():读Weka Attribute-Relation File Forma…

TypeScript泛型

泛型的概念 指不预先确定的数据类型,具体的类型要在使用的时候才能确定。咋一听,是不是觉得JavaScript本身就是这样?这是由于理解有误。前面说“在使用的时候确定”,而非在程序执行的时候确定。 泛型函数 现在有个需求&#xff1a…

TypeScript类型检查机制

类型推断 指不需要指定变量的类型,TS编译器可以根据某些规则自动推断出类型。 什么时候会有类型推断? 声明变量时没有指定类型函数默认参数函数返回值......let a; // 这时自动推断为any类型 let b 1; // 推断为number类型 let c []; // 推断为由any类…

机器学习之 weka学习(三)

本文转自:http://blog.csdn.net/qiao1245/article/category/6115745 Weka教程笔记 http://blog.csdn.net/qiao1245/article/category/6115745 使用Weka进行数据挖掘(Weka教程二)Weka数据之ARFF与多文件格式转换 http://blog.csdn.net/qiao…

机器学习之 weka学习(四)

本文转自: http://blog.csdn.net/lantian0802/article/details/8875874 http://blog.csdn.net/lkj345/article/details/50152055 点击最上方的Classify按钮,选择Logistic(逻辑回归)分类方法,在Test options中选择…

TypeScript模块系统、命名空间、声明合并

命名空间 命名空间能有效避免全局污染。在ES6引入模块之后,命名空间就较少被提及了。如果使用了全局的类库,命名空间仍是一个好的解决方案。 namespace Shape{const pi Math.PI;// 使用export关键字导出,可以在全局空间内可见export functio…

机器学习之 weka学习(五)示例用法

WEKA 开发学习 :源码法分析 http://www.360doc.com/userhome.aspx?userid13256259&cid11# 用 WEKA 进行数据挖掘 http://www.ibm.com/developerworks/cn/opensource/os-weka1/WEKA使用教程 http://blog.csdn.net/yangliuy/article/details/7589306 初试w…

如何在TypeScript中使用JS类库

使用流程 1.首先要清除类库是什么类型,不同的类库有不同的使用方式 2.寻找声明文件 JS类库一般有三类:全局类库、模块类库、UMD库。例如,jQuery是一种UMD库,既可以通过全局方式来引用,也可以模块化引用。 声明文件 当我…

机器学习之 weka学习(六)最大内存

Weka 常见问题处理: weka如何安装支持向量机工具包 方法一、打开 weka,工具栏的Tools–>Package manager,可在里面添加需要的工具包。 方法二、下载 libsvm-**.jar 包,开源的。解压文件夹,里面……\libsvm-3.19\java ,下面有…

使用Jest进行单元测试

Jest是Facebook推出的一款单元测试工具。 安装 npm install --save-dev jest ts-jest types/jest 在package.json中添加脚本: “test”: "jest" 生成Jest配置文件(生成jest.config.js) npx ts-jest config:init 使用 先简单编写一个…

国外十大高校人工智能实验室及其代表性人物一览

本文转自: http://toutiao.com/a6293031494186107137/?tt_frommobile_qq&utm_campaignclient_share&appnews_article&utm_sourcemobile_qq&iid4325464459&utm_mediumtoutiao_android 高校建立的实验室与大公司有所不同,其研究项目…

pytorch简单框架

网络搭建: mynn.py: import torchfrom torch import nnclass mynn(nn.Module): def __init__(self): super(mynn, self).__init__() self.layer1 nn.Sequential( nn.Linear(3520, 4096), nn.BatchNorm1d(4096), nn.ReLU(True) …

java 基础安装和Tomcat8配置

初识 java,基础安装的说明。 下载 在oracle官网一般在同一个java版本会提供2个版本, 一个是Java SE Development Kit 7u80,此版本包含JDK开发环境版本; 另外一个是 Java SE Runtime Environment 7u80,此为只包含JR…

TypeScript React

环境搭建 我们当然可以先用脚手架搭建React项目,然后手动配置成支持TypeScript的环境,虽然比较麻烦,但可以让你更清楚整个过程。这里比较麻烦,就不演示了,直接用命令配置好。 npx create-react-app appname --typescri…

matlab内存溢出的解决方案

(1) 增加虚拟内存:cmd -> taskmgr 打开任务管理器,查看物理内存和虚拟内存,可观察matlab在运行过程中是否超过物理内存和虚拟内存。若超过,增加虚拟内存的方法是不可行的。物理内存不足的时候可以通过将…

c++MMMMM:oo

1.union,struct和class的区别 转载于:https://www.cnblogs.com/invisible2/p/11524465.html

matlab调用Java程序时出现 Java.lang.OutOfMemoryErrot: GC overhead limit exceeded

matlab调用Java程序时出现 java.lang.OutOfMemoryError: GC overhead limit exceeded JDK1.6.0_37和JDK_1.7.0_60版本,这2个版本中JVM默认启动的时候-XX:UseGCOverheadLimit,即启用了该特性。这其实是JVM的一种推断,如果垃圾回收耗费了98%的…

[FY20 创新人才班 ASE] 第 1 次作业成绩

作业概况 条目备注作业链接【ASE高级软件工程】热身作业!提交人数19未完成人数2满分10分作业情况总结 本次作业作为大家软工课程的第一次作业,完成度相当不错(尤其是在国外暑研/赶论文的同学也在尽力完成作业,很感动)。…

JVM 参数设置

1、集成开发环境下启动并使用JVM,如eclipse需要修改根目录文件eclipse.ini; 2、Windows服务器下安装版Tomcat,可使用Tomcat8w.exe工具(tomcat目录下)和直接修改注册表两种方式修改Jvm参数; 3、Windows服务…