生成arff文件,csv转为arff

一、什么是arff格式文件

  1、arff是Attribute-Relation File Format缩写,从英文字面也能大概看出什么意思。它是weka数据挖掘开源程序使用的一种文件模式。由于weka是个很出色的数据挖掘开源项目,所以使用的比较广,这也无形中推广了它的数据存储格式。

  2、下面是weka自带的一个arff文件例子(weather.arff)

复制代码
 1 @relation weather2 3 @attribute outlook {sunny, overcast, rainy}4 @attribute temperature real5 @attribute humidity real6 @attribute windy {TRUE, FALSE}7 @attribute play {yes, no}8 9 @data
10 sunny,85,85,FALSE,no
11 sunny,80,90,TRUE,no
12 overcast,83,86,FALSE,yes
13 rainy,70,96,FALSE,yes
14 rainy,68,80,FALSE,yes
15 rainy,65,70,TRUE,no
16 overcast,64,65,TRUE,yes
17 sunny,72,95,FALSE,no
18 sunny,69,70,FALSE,yes
19 rainy,75,80,FALSE,yes
20 sunny,75,70,TRUE,yes
21 overcast,72,90,TRUE,yes
22 overcast,81,75,FALSE,yes
23 rainy,71,91,TRUE,no
复制代码

   a) 第1行,是关系名称,这个自己随便起,不过写的最好要有意义。

   b) 第3~7行是特征列表,其中第1列是特征说明,不可缺少,第2列是特征名称,第3列是特征类型或特征取值范围。

   c) @data(第9行)是数据域说明,在它下面的全是数据。其中每一行体表一条数据。

   d) 例子中给出的数据域是最基本的表示方法,实际应用中,一般都是用稀疏表示法。

   e) 此处对于arff文件格式不做进一步解释,不懂的地方可以给我留言。 

二、总体思路

  1、生成特征文件

  2、文件格式转换

三、具体实现

 参考:weka数据挖掘拾遗(一)---- 生成Arff格式文件

 

四、weka csv转为arff

  虽然Weka也支持其他一些格式的文件,但是ARFF格式是支持的最好的。因此有必要在数据处理之前把数据集的格式转换成ARFF。

  参考:http://miaochen314.blog.163.com/blog/static/8696422009227101756428/

  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/291578.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据库映射模式

数据库映射模式 关系数据库映射模式 四类架构模式: Row Data GatewayTable Data Gateway 此两种模式中不包含领域逻辑,包含所有数据访问逻辑,内存模型与关系表结构完全相同。Active Record 此模式将领域逻辑与数据访问扩及封装在一个对象中Da…

python字符串创建_在Python上创建完整的字符串

我需要在葡萄牙语字符串上执行词干.为此,我使用nltk.word_tokenize()函数对字符串进行标记,然后单独生成每个单词.之后,我重建了字符串.它工作正常,但表现不佳.我怎样才能让它更快?字符串长度约为200万字.tokenAux""tokens nltk.word_tokenize(portugues…

linux之Vim用快捷键快速移动光标至行首和行尾

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程 1、Vim用快捷键快速移动光标至行首 1)按home键 2)按住shift 6 键 3)按住大写 I 键,按住了…

C#中的类

前言今天咱们简单复习下C#中类的相关知识。在刚开始学习编程的时候,都是从面向过程的C语言开始的,它有个特征就是有其执行顺序,先干这,再干那,很直接,也很好理解。但现在学习C#或者JAVA等面向对象的语言&am…

运维服务器信息收集

运维服务器信息收集 运维服务器信息收集; 作为一个运维,我们新服务器上架时有很多头疼的事。其中数据收集在我看来就是一个比较恶心的事。以下来讨论一下数据收集方面我的一此想法和做法,欢迎板砖^_^ 一.供货商的“特殊服务” 供 货商通常是选…

Stopwatch类学习

1、概述:给一条大MSDN的链接关于Stopwatch类最详细的教程 ,然后看着教程自己手动敲一边,加深映象,好记性不如烂键盘,哈哈,开个玩笑! 2、类位置:这个类在哪里,这个是重点,虽然C#IDE很强大,但是我们还是得简单的了解下。通过一段代码来说明: using System; namespace …

linux之vim如何快速找到第二次打开文件的指定行

1、得到指定行的行号 vim 1.c 打开这个文件之后,比如有一行内容为 int main() 我们需要知道这是在哪一行,我们可以通过set nu命令来显示vim的行数,在vim里面用下面命令 :set nu 然后显示行数了,如果这个时候我们可以知道int main()在哪一行了…

epoch训练时间不同_tesnorflow实现N个epoch训练数据读取的办法

方式一:不显示设置读取N个epoch的数据,而是使用循环,每次从训练的文件中随机读取一个batch_size的数据,直至最后读取的数据量达到N个epoch。说明,这个方式来实现epoch的输入是不合理。不是说每个样本都会被读取到的。对…

看看这套WPF开源基础控件库:WPFDevelopers

此项目包含了 微信公众号 《 WPF开发者》 日常开发分享,欢迎Star。运行环境 Visual Studio 2019,dotNet Framework 4.0 SDK欢迎关注微信公众号支持贡献者DrawPrize(WPF 实现大转盘抽奖)GIF帧数太多,无法上传&#xff0…

如何将EDM营销与多渠道推广方式相结合

目前,消费者每天都会从各种渠道收到信息,如果仅用单一渠道的营销会影响整体营销。多渠道推广方式是所有渠道都要兼顾到从而接触用户,让他接收到他想接收的信息,多渠道的过程中邮件还是非常好的营销方式。你要想让你的EDM营销获得成…

Cannot resolve the collation conflict between SQL_Latin1_General_CP1_CI_AS and Latin1_General_100...

ErrorMessage Cannot resolve the collation conflict between "SQL_Latin1_General_CP1_CI_AS" and "Latin1_General_100_CI_AS" in the equal to operation. 查看SQL Server的Collation SELECT SERVERPROPERTY (Collation) Solution 1. 在安装SQL Server…

linux网络编程之用epoll实现io复用(基于tcp)

1、epoll介绍 epoll是在2.6内核中提出的,是之前的select和poll的增强版本。相对于select和poll来说,epoll更加灵活,没有描述符限制。epoll使用一个文件描述符管理多个描述符,将用户关系的文件描述符的事件存放到内核的一个事件表中,这样在用户空间和内核空间的copy只需一次…

语言 ota_荣威RX5 PLUS使用最新的家族设计语言,给人更年轻时尚的感觉

如果要用一个词来形容 荣威RX5 PLUS,我第一个能想到的便是“诚意”。斑马最新VENUS系统、米其林PS4轮胎、双层隔音玻璃、终身原厂质保、终身免费基础保养……从产品到政策,荣威RX5 PLUS的方方面面都显示出了上汽荣威的诚意。从上市到现在,荣威…

C# 制作指示灯(经典)

群友提问:C#中的指示灯怎么做,改变状态有什么好的方法吗?制作指示灯的方法有很多中:比如:通过GDI绘制自定义LED指示灯控件;调用现成的第三方控件库;采用label标签,通过改变背景色实现…

linux网络编程之SCTP套接字常用接口

转载地址: oracle开发帮助文档:http://docs.oracle.com/cd/E19253-01/819-7052/index.html SCTP 套接字接口 当 socket() 调用为 IPPROTO_SCTP 创建套接字时,它会调用特定于 SCTP 的套接字创建例程。针对 SCTP 套接字执行的套接字调用会自动调…

第一个c++泛型函数(即模板)

先定义如下&#xff1a; ns.h template <typename T> // 这个关键字typename, 明显多此一举 inline void PRINT_ELEMENTS(const T& coll,const std::string& optstr"") {std::cout << optstr << endl;for(const auto& ele:coll) {st…

结合ChatGPT和MINDSHOW自动生成PPT

总结/朱季谦 一、首先&#xff0c;通过chatGPT说明你的需求&#xff0c;学会提问是Ai时代最关键的一步。你需要提供一些关键信息&#xff0c;如果没有关键信息&#xff0c;就按照大纲方式让它设计&#xff0c;例如&#xff0c;我让它帮我写一份《2023年年中述职报告》的模版—…

位域全解析

所谓”位域“是把一个字节中的二进位划分为几 个不同的区域&#xff0c; 并说明每个区域的位数。每个域有一个域名&#xff0c;允许在程序中按域名进行操作。 它实际上是C语言提供的一种数据结构。使用位域的好处是&#xff1a; 1.有些信息在存储时&#xff…

华为怎么删除自带的音乐_原来华为手机相册隐藏剪辑功能!按下这个开关,还能制作音乐相册...

华为手机相册你肯定在用&#xff0c;但除了最近删除、智能搜索之外&#xff0c;你还知道手机相册的其他功能吗&#xff1f;这里就分享一个&#xff0c;相册中隐藏的实用剪辑功能&#xff0c;按下这个开关&#xff0c;还能把照片制作成音乐相册。创作开关首先将华为手机上的相册…

使用 Dapr 缩短软件开发周期,提高生产效率

Microsoft DevOps 文档里的文章&#xff08;https://docs.microsoft.com/zh-cn/azure/devops/report/dashboards/cycle-time-and-lead-time?viewazure-devops&#xff09;中的这张图片在给我们介绍了 什么是周期时间 以及它如何影响我的项目流时非常有影响力。第一次输入 &quo…