apache mahout_Apache Mahout：入门

apache mahout

最近，我有一个有趣的问题要解决：如何使用自动化对不同来源的文本进行分类？前一段时间，我读到一个有关该项目以及许多其他文本分析工作的项目– Apache Mahout 。尽管它不是一个非常成熟的版本（当前版本为0.4 ），但它非常强大且可扩展。在另一个出色的项目Apache Hadoop的基础上，它能够分析巨大的数据集。

因此，我做了一个小项目，以了解Apache Mahout的工作方式。我决定使用Apache Maven 2来管理所有依赖关系，因此我将首先从POM文件开始。

<!--?xml version="1.0" encoding="UTF-8"?-->
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemalocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd"><modelversion>4.0.0</modelversion><groupid>org.acme</groupid><artifactid>mahout</artifactid><version>0.94</version><name>Mahout Examples</name><description>Scalable machine learning library examples</description><packaging>jar</packaging><properties><project.build.sourceencoding>UTF-8</project.build.sourceencoding><apache.mahout.version>0.4</apache.mahout.version></properties><build><plugins><plugin><groupid>org.apache.maven.plugins</groupid><artifactid>maven-compiler-plugin</artifactid><configuration><encoding>UTF-8</encoding><source>1.6<target>1.6</target><optimize>true</optimize></configuration></plugin></plugins></build><dependencies><dependency><groupid>org.apache.mahout</groupid><artifactid>mahout-core</artifactid><version>${apache.mahout.version}</version></dependency><dependency><groupid>org.apache.mahout</groupid><artifactid>mahout-math</artifactid><version>${apache.mahout.version}</version></dependency><dependency><groupid>org.apache.mahout</groupid><artifactid>mahout-utils</artifactid><version>${apache.mahout.version}</version></dependency><dependency><groupid>org.slf4j</groupid><artifactid>slf4j-api</artifactid><version>1.6.0</version></dependency><dependency><groupid>org.slf4j</groupid><artifactid>slf4j-jcl</artifactid><version>1.6.0</version></dependency></dependencies>
</project>

然后，我研究了可用于文本分类问题的Apache Mahout示例和算法。最简单，最准确的方法是朴素贝叶斯分类器。这是一个代码片段：

package org.acme;import java.io.BufferedReader;
import java.io.IOException;
import java.io.FileReader;
import java.util.List;import org.apache.hadoop.fs.Path;
import org.apache.mahout.classifier.ClassifierResult;
import org.apache.mahout.classifier.bayes.TrainClassifier;
import org.apache.mahout.classifier.bayes.algorithm.BayesAlgorithm;
import org.apache.mahout.classifier.bayes.common.BayesParameters;
import org.apache.mahout.classifier.bayes.datastore.InMemoryBayesDatastore;
import org.apache.mahout.classifier.bayes.exceptions.InvalidDatastoreException;
import org.apache.mahout.classifier.bayes.interfaces.Algorithm;
import org.apache.mahout.classifier.bayes.interfaces.Datastore;
import org.apache.mahout.classifier.bayes.model.ClassifierContext;
import org.apache.mahout.common.nlp.NGrams;public class Starter {public static void main( final String[] args ) {final BayesParameters params = new BayesParameters();params.setGramSize( 1 );params.set( "verbose", "true" );params.set( "classifierType", "bayes" );params.set( "defaultCat", "OTHER" );params.set( "encoding", "UTF-8" );params.set( "alpha_i", "1.0" );params.set( "dataSource", "hdfs" );params.set( "basePath", "/tmp/output" );try {Path input = new Path( "/tmp/input" );TrainClassifier.trainNaiveBayes( input, "/tmp/output", params );Algorithm algorithm = new BayesAlgorithm();Datastore datastore = new InMemoryBayesDatastore( params );ClassifierContext classifier = new ClassifierContext( algorithm, datastore );classifier.initialize();final BufferedReader reader = new BufferedReader( new FileReader( args[ 0 ] ) );String entry = reader.readLine();while( entry != null ) {List< String > document = new NGrams( entry, Integer.parseInt( params.get( "gramSize" ) ) ).generateNGramsWithoutLabel();ClassifierResult result = classifier.classifyDocument( document.toArray( new String[ document.size() ] ), params.get( "defaultCat" ) );          entry = reader.readLine();}} catch( final IOException ex ) {ex.printStackTrace();} catch( final InvalidDatastoreException ex ) {ex.printStackTrace();}}
}

这里有一个重要的注意事项：开始分类之前必须教系统。为此，有必要提供不同文本分类的示例（更多–更好）。它应该是简单的文件，其中每一行都以用制表符分隔的类别与文本本身开头。铁

SUGGESTION  That's a great suggestion
QUESTION  Do you sell Microsoft Office?
...

您可以提供更多的文件，可以获得更精确的分类。所有文件都必须放在“ / tmp / input”文件夹中，它们将首先由Apache Hadoop处理。 :)

参考： JCG合作伙伴的 Apache Mahout入门 Andriy Redko {devmind}的 Andrey Redko。

翻译自: https://www.javacodegeeks.com/2012/02/apache-mahout-getting-started.html

apache mahout

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/356656.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

apache mahout_Apache Mahout：入门

相关文章

硬链接和软连接（符号链接）

基于nbu oj c语言答案,Just oj 2018 C语言程序设计竞赛（高级组）F:Star（结构体排序+最小生成树）...

与JBoss BPM Travel Agency更新了现代BPM数据集成

c语言中坐标xoy轴在哪里,用C语言在linux下获取鼠标指针的相对位置

codeblock不能调试

与詹金斯一起将GitLab中的Gradle项目发布到Artifactory

比较排序算法的时间复杂度 c语言,c语言四种排序算法时间复杂度比较（10页）-原创力文档...

三维漫游的实现

MySQL JDBC驱动程序如何处理准备好的语句

Nodejs学习（三）－安装nodejs supervisor，提高点效率吧。

网络语言不c,哪些网络用语不文明?

android 无限旋转动画,android ——不停旋转动画

九章算法强化班 - 课程大纲

JavaOne演讲者选择了您不应该错过的10个会话

谷歌发布最新版安卓Android,谷歌正式除名华为，安卓12华为首发无望，但鸿蒙将迎难顶上！...

android sd卡格式化 rom,Android开发之获取SD卡及手机ROM容量的方法

未知的生成错误因为没有预加载，所以无法解析程序集 GalaSoft.MvvmLight

maven原型_Maven原型创建技巧

android 副mic测试,【收藏】Android Audio Framework CTS Verifier 测试方法

python的数与字符串