java weka 聚类_简单开源数据挖掘工具weka进行文本聚类

java weka 聚类_简单开源数据挖掘工具weka进行文本聚类

news/2025/10/30 23:10:20/文章来源:https://blog.csdn.net/weixin_39633917/article/details/114564922

目前非代码的数据挖掘工具很多，但非开源，weka是一款开源软件。只要安装jdk环境就可使用(具体安装jdk可以百度)

本文将论述如何不用代码，使用weka操作，通过与文档频数与单词权的特征选择方法进行文本聚类(数据为附件)

第一步：将weka创建NetBeans文件目录中

将weka导入NetBeans软件中，

1 在某处新建一个WEKA-Rebuild目录，在它下面建一个目录叫src。在WEKA的安装目录中找到weka-src.jar，用winrar之类的解压缩软件打开，并把其中的目录weka解压缩到刚才建立的src目录下。现在的目录结构应该是 WEKA-Rebuild -> src-> weka -> associations, attributeSelection, ... 打开NetBeans，“文件”菜单 - “新建项目” - 选择“常规”中的“基于现有源代码的Java项目” - “下一步”。“项目文件夹”选择WEKA-Rebuild目录，“项目名称”写weka-rebuild， “下一步”。在“源包文件夹”那里“添加文件夹”，找到src目录“打开”，“完成”。

2现在NetBeans左上方项目那一栏应该有粗体的“weka-rebuild”，这就是我们要编译的weka项目。右键点它，“生成项目”。下方会出现很多警告，不用管，不出意外的话最后会提示你生成项目成功。仍然右键点击“weka-rebuild”，“运行项目”。会弹出一个对话框让你设置主类。WEKA的主类可设置成weka.gui.Main。选中合适的主类后“确定”，不一会儿WEKA的界面就会出现在你面前，和开始菜单里运行的WEKA效果一样。

打开NetBeans软件。点击源包-weka.gui.，找到Main.java文件。双击，结果如下图所示。

第二步：执行weka

1.点击源包-weka core tokenizers，右键选择新建java类。

修改类名为：CHWordTokenizer

选择包为：weka core tokenizers

点击完成。结果见下图。

2.修改代码。将已给资料中的代码复制到文本中。

并将原橘黄色部分“Utf-8”改成“cp936”。如下图所示。

3.点开之前已经打开过的Main.java界面

点击运行-运行文件

出现下图所示界面。

在该界面中，点击 application-explorer。返回weka界面，点击open file，载进中文文档。

第三步：创建中文文本文件。

1.将已有中文文本资料 sample 文件夹放入D盘。

2.打开weka - SimpleCLI。

3.在输入栏输入【java weka.core.converters.TextDirectoryLoader-dir d:/sample > d:/sample.arff】点击回车键运行。如下图所示。

4.D盘出现sample.arff文件。

5.打开C盘weka的安装文件夹，找到RunWeka.ini文件

将cp1252替换成cp936(简体中文)

保存文件

第四步：改分词。

1.打开 weka-explorer-open file-sample .arff

2.Filter-choose-unsupervised-attribute-StringToWordVector

将 tokenizer 改成 CHWordTokenizer

点击ok

4.点击apply，点击save，查看word形式(命名：sampleword1)的成果。

再次打开Filter-choose-unsupervised-attribute-StringToWordVector

双击修改 StringToWordVector 的参数。

将 IDFTransform 改为 True (调平滑)

outputWordCounts 改为 True

minTermFreq改为 1

wordToKeep 改为 200

点击 OK 运行

7.点击apply，点击save，查看word形式(命名：sampleword2)的成果。

8.由下图可以看出，第1个的权重变成1。660731，第2个权重是2.040221，第5个权重是2.278869……

权重结果和sampleword1 不同。

9.返回weka，重新加载sample.arff原始文件

10.点击 Cluster-simpleMeans，双击调整参数。

11.点击 distanceFunction ,选择第二项欧氏距离。

将 numClusters 改为 10

点击OK

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/436749.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

java 不识别enum_Java enum关键字不识别的快速解决办法

java 不识别enum_Java enum关键字不识别的快速解决办法

从别人那儿拷贝过来的myeclipse java工程，打开一看标红了一大片，仔细一看，原来是不识别enum关键字，这就有点尴尬了。我自己重新建了一个java工程，测试了下，假如我在新建工程的时候选择javase-1.6&#xff1…

阅读更多...

【转】ABP源码分析四：Configuration

【转】ABP源码分析四：Configuration

核心模块的配置 Configuration是ABP中设计比较巧妙的地方。其通过AbpStartupConfiguration，Castle的依赖注入，Dictionary对象和扩展方法很巧妙的实现了配置中心化。配置中心化是一个支持模块开发的框架必备功能。 ABP中核心功能模块中的一些功能的运行时…

阅读更多...

java 实现堆和栈_JAVA中的堆和栈

java 实现堆和栈_JAVA中的堆和栈

JVM是基于堆栈的虚拟机.JVM为每个新创建的线程都分配一个堆栈.也就是说,对于一个Java程序来说，它的运行就是通过对堆栈的操作来完成的。堆栈以帧为单位保存线程的状态。JVM对堆栈只进行两种操作:以帧为单位的压栈和出栈操作。差异：1.堆内存用来存放由new…

阅读更多...

【转】ABP源码分析五：ABP初始化全过程

【转】ABP源码分析五：ABP初始化全过程

ABP在初始化阶段做了哪些操作，前面的四篇文章大致描述了一下。为个更清楚的描述其脉络，做了张流程图以辅助说明。其中每一步都涉及很多细节，难以在一张图中全部表现出来。每一步的细节（会涉及到较多接口，类&#xff0…

阅读更多...

【转】ABP源码分析六：依赖注入的实现

【转】ABP源码分析六：依赖注入的实现

ABP的依赖注入的实现有一个本质两个途径：1.本质上是依赖于Castle这个老牌依赖注入的框架。2.一种实现途径是通过实现IConventionalDependencyRegistrar的实例定义注入的约定（规则），然后通过IocManager来读取这个规则完成依赖注入。…

阅读更多...

java从小到大排序函数_利用随机函数产生10个1～100之间的整数，按从小到大的顺序排列输出...

java从小到大排序函数_利用随机函数产生10个1～100之间的整数，按从小到大的顺序排列输出...

该楼层疑似违规已被系统折叠隐藏此楼查看此楼public interface planeGraphics2{public abstract double area();public abstract double perimeter();public abstract void print();}public class rectangle2 implements planeGraphics2{protected double length;protected do…

阅读更多...

【转】ABP源码分析七：Setting 以及 Mail

【转】ABP源码分析七：Setting 以及 Mail

本文主要说明Setting的实现以及Mail这个功能模块如何使用Setting. 首先区分一下ABP中的Setting和Configuration。 Setting一般用于需要通过外部配置文件（或数据库）设置的简单类型数据（一般就是字符串），比如SMTP HOST.…

阅读更多...

java流换行符方法_java换行符的使用方法

java流换行符方法_java换行符的使用方法

java换行符的使用方法发布时间：2020-06-22 17:49:56来源：亿速云阅读：121作者：Leah这篇文章将为大家详细讲解有关java换行符的使用方法，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完…

阅读更多...

【转】ABP源码分析八：Logger集成

【转】ABP源码分析八：Logger集成

ABP使用Castle日志记录工具，并且可以使用不同的日志类库，比如：Log4Net, NLog, Serilog... 等等。对于所有的日志类库，Castle提供了一个通用的接口来实现，我们可以很方便的处理各种特殊的日志库，而且当业务需…

阅读更多...

java并发锁获取的方式_Java精通并发-notify方法详解及线程获取锁的方式分析

java并发锁获取的方式_Java精通并发-notify方法详解及线程获取锁的方式分析

wait()：在上一次https://www.cnblogs.com/webor2006/p/11404521.html中对于无参数的wait()方法的javadoc进行了解读，而它是调用了一个参数的重载方法，回忆下：其中如果传0代表无限等待，否则是等待指定的时间就会停止等待…

阅读更多...

【转】ABP源码分析九：后台工作任务

【转】ABP源码分析九：后台工作任务

文主要说明ABP中后台工作者模块（BackgroundWorker）的实现方式，和后台工作模块（BackgroundJob）。ABP通过BackgroundWorkerManager来管理BackgroundJobManager，然后通过BackgroundJobManager来管理Background…

阅读更多...

java引入resource下的模板_Beetl自定义ResourceLoader，实现特殊的模板加载需求

java引入resource下的模板_Beetl自定义ResourceLoader，实现特殊的模板加载需求

一直以来，有个目标是：使用Beetl的时候，如果web root 里有模板文件，则beetl从web root里加载。如果没有，则从jar里加载，或者从Db里加载。这样，工程里大量相同的模板模板可以共用(当你的应用&…

阅读更多...

【转】ABP源码分析十：Unit Of Work

【转】ABP源码分析十：Unit Of Work

ABP以AOP的方式实现UnitOfWork功能。通过UnitOfWorkRegistrar将UnitOfWorkInterceptor在某个类被注册到IOCContainner的时候，一并添加到该类在容器中对应的ComponentModel的Interceptors集合中。总结一句话就是，UOW的功能是通过自定义Castle拦截器来实现…

阅读更多...

java光标位置无效_java - java.sql.SQLException：无效的光标位置 - 堆栈内存溢出

java光标位置无效_java - java.sql.SQLException：无效的光标位置 - 堆栈内存溢出

我创建了一个简单的应用程序，使用户可以购买门票。但是，每当我尝试购买“ n”张门票时，都会遇到此错误。现在，我知道在使用数据库进行操作时需要crs.next()语句，我已经使用了很多次，但是由于某种原因&…

阅读更多...

【转】C#命名空间大全详细教程

【转】C#命名空间大全详细教程

www.51rgb.com System 命名空间包含了定义数据类型、事件和事件处理程序等基本类； System.Data 命名空间包含了提供数据访问功能的命名空间和类； System.IO 命名空间包含了数据流读写相关功能的类； System.Windows.Forms 命名空间包含了W…

阅读更多...

java构造方法的签名_如何在 Java 中构造对象（学习 Java 编程语言 034）

java构造方法的签名_如何在 Java 中构造对象（学习 Java 编程语言 034）

1. 构造器Java 对象都是在堆中构造的。先看看 Employee 类的构造器：public class Employee {private String name;private double salary;private LocalDate hireDay;public Employee(String name, double salary, int year, int month, int day) {this.name name;…

阅读更多...

【转】ABP源码分析十一：Timing

【转】ABP源码分析十一：Timing

Timing这个简单实用的功能主要用来以统一的方式表示时间。因为ABP中有大量的module,另外还支持自定义module，所以将时间统一表示为local时间（默认）或utc时间是必要的。 IClockProvider:提供获取当前时间和标准化时间的接口。 UtcClockProvide…

阅读更多...

java更改背景_java – 使用jquery更改menue的背景颜色

java更改背景_java – 使用jquery更改menue的背景颜色

我正在尝试用Zenphoto建立一个照片库.他们使用PHP,可以添加这样的自定义菜单：PHP printCustomMenu(main_menue); ?>我改变了sylesheet中整个事物的外观,看起来像这样：#navmenu {width: 1000px;height: 42px;margin: 0px auto 30px auto;font-family:…

阅读更多...

【转】ABP源码分析十二：本地化

【转】ABP源码分析十二：本地化

本文逐个分析ABP中涉及到localization的接口和类，以及他们之间的关系。本地化主要涉及两个方面：一个是语言（Language）的管理，这部分相对简单。另一个是语言对应得本地化资源（Localization）的管理…

阅读更多...

pandas 批量修改列名_pandas修改DataFrame列名的方法

pandas 批量修改列名_pandas修改DataFrame列名的方法

在做数据挖掘的时候，想改一个DataFrame的column名称，所以就查了一下，总结如下：数据如下：>>>import pandas as pd>>>a pd.DataFrame({A:[1,2,3], B:[4,5,6], C:[7,8,9]})>>> aA B C0 1 4 7…

阅读更多...

最新文章