[轉]数据挖掘工具的选择

轉自:http://blog.csdn.net/redvalley/archive/2006/02/06/593233.aspx

 

 

 一、数据挖掘工具分类
  数据挖掘工具根据其适用的范围分为两类:专用挖掘工具通用挖掘工具

专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化。对任何领域,都可以开发特定的数据挖掘工具。例如,IBM公司的AdvancedScout系统针对NBA的数据,帮助教练优化战术组合。特定领域的数据挖掘工具针对性比较强,只能用于一种应用;也正因为针对性强,往往采用特殊的算法,可以处理特殊的数据,实现特殊的目的,发现的知识可靠度也比较高。
通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。例如,IBM公司Almaden研究中心开发的QUEST系统,SGI公司开发的MineSet系统,加拿大SimonFraser大学开发的DBMiner系统。通用的数据挖掘工具可以做多种模式的挖掘,挖掘什么、用什么来挖掘都由用户根据自己的应用来选择。

 

二、数据挖掘工具选择需要考虑的问题

  数据挖掘是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断的磨合,才能取得成功,因此我们在选择数据挖掘工具的时候,要全面考虑多方面的因素,主要包括以下几点:
(1) 可产生的模式种类的数量:分类,聚类,关联等
(2) 解决复杂问题的能力
(3) 操作性能
(4) 数据存取能力
(5) 和其他产品的接口


三、数据挖掘工具介绍:

1.QUEST

  QUEST是IBM公司Almaden研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据开采基本构件。系统具有如下特点:
  提供了专门在大型数据库上进行各种开采的功能:关联规则发现、序列模式发现、时间序列聚类、决策树分类、递增式主动开采等。
  各种开采算法具有近似线性计算复杂度,可适用于任意大小的数据库。
  算法具有找全性,即能将所有满足指定类型的模式全部寻找出来。
为各种发现功能设计了相应的并行算法。

2.MineSet

  MineSet是由SGI公司和美国Standford大学联合开发的多任务数据挖掘系统。MineSet集成多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘、理解大量数据背后的知识。MineSet有如下特点:
  MineSet以先进的可视化显示方法闻名于世。
  支持多种关系数据库。可以直接从Oracle、Informix、Sybase的表读取数据,也可以通过SQL命令执行查询。
  多种数据转换功能。在进行挖掘前,MineSet可以去除不必要的数据项,统计、集合、分组数据,转换数据类型,构造表达式由已有数据项生成新的数据项,对数据采样等。
  操作简单、支持国际字符、可以直接发布到Web。

3.DBMiner

  DBMiner是加拿大SimonFraser大学开发的一个多任务数据挖掘系统,它的前身是DBLearn。该系统设计的目的是把关系数据库和数据开采集成在一起,以面向属性的多级概念为基础发现各种知识。DBMiner系统具有如下特色:
  能完成多种知识的发现:泛化规则、特性规则、关联规则、分类规则、演化知识、偏离知识等。
  综合了多种数据开采技术:面向属性的归纳、统计分析、逐级深化发现多级规则、元规则引导发现等方法。
  提出了一种交互式的类SQL语言——数据开采查询语言DMQL。
  能与关系数据库平滑集成。
  实现了基于客户/服务器体系结构的Unix和PC(Windows/NT)版本的系统。

4.Intelligent Miner

  由美国IBM公司开发的数据挖掘软件Intelligent Miner是一种分别面向数据库和文本信息进行数据挖掘的软件系列,它包括Intelligent Miner for Data和Intelligent Miner for Text。Intelligent Miner for Data可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、诈骗行为监测及客户联系管理等;Intelligent Miner for Text允许企业从文本信息进行数据挖掘,文本数据源可以是文本文件、Web页面、电子邮件、Lotus Notes数据库等等。

5.SAS Enterprise Miner

  这是一种在我国的企业中得到采用的数据挖掘工具,比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。SAS Enterprise Miner是一种通用的数据挖掘工具,按照"抽样--探索--转换--建模--评估"的方法进行数据挖掘。可以与SAS数据仓库和OLAP集成,实现从提出数据、抓住数据到得到解答的"端到端"知识发现。

6.SPSS Clementine

SPSS Clementine是一个开放式数据挖掘工具,曾两次获得英国政府SMART 创新奖,它不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准--CRISP-DM。Clementine的可视化数据挖掘使得"思路"分析成为可能,即将集中精力在要解决的问题本身,而不是局限于完成一些技术性工作(比如编写代码)。提供了多种图形化技术,有助理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。


7.数据库厂商集成的挖掘工具

SQL Server 2000包含由Microsoft研究院开发的两种数据挖掘算法:Microsoft决策树和Microsoft聚集。此外,SQL Server 2000中的数据挖掘支持由第三方开发的算法。 Microsoft决策树算法:该算法基于分类。算法建立一个决策树,用于按照事实数据表中的一些列来预测其他列的值。该算法可以用于判断最倾向于单击特定标题(banner)或从某电子商务网站购买特定商品的个人。 Microsoft聚集算法:该算法将记录组合到可以表示类似的、可预测的特征的聚集中。通常这些特征可能是隐含或非直观的。例如,聚集算法可以用于将潜在汽车买主分组,并创建对应于每个汽车购买群体的营销活动。,SQL Server 2005在数据挖掘方面提供了更为丰富的模型、工具以及扩展空间。包括:可视化的数据挖掘工具与导航、8种数据挖掘算法集成、DMX 、XML/A、第三方算法嵌入支持等等。
Oracle Data Mining (ODM) 是 Oracle 数据库 10g 企业版的一个选件,它使公司能够从最大的数据库中高效地提取信息并创建集成的商务智能应用程序。数据分析人员能够发现那些隐藏在数据中的模式和内涵。应用程序开发人员能够在整个机构范围内快速自动提取和分发新的商务智能 — 预测、模式和发现。ODM 针对以下数据挖掘问题为 Oracle 数据库 10g 提供支持:分类、预测、回归、聚类、关联、属性重要性、特性提取以及序列相似性搜索与分析 (BLAST)。所有的建模、评分和元数据管理操作都是通过 Oracle Data Mining 客户端以及 PL/SQL 或基于 Java 的 API 来访问的,并且完全在关系数据库内部进行。
    IBM Intelligent Miner 通过其世界领先的独有技术,例如典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据发掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。现在,IBM的 Intelligent Miner已形成系列,它帮助用户从企业数据资产中识别和提炼有价值的信息。它包括分析软件工具 ----Intelligent Miner for Data和IBM Intelligent Miner forText ,帮助企业选取以前未知的、有效的、可行的业务知识---- 如客户购买行为,隐藏的关系和新的趋势,数据来源可以是大型数据库和企业内部或Internet 上的文本数据源。然后公司可以应用这些信息进行更好、更准确的决策,获得竞争优势。

 

转载于:https://www.cnblogs.com/Athrun/archive/2009/11/23/1608779.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/299634.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java秘技之Json数据解析与转换 -- Java使用示例

概要 json是前后台交互常用的数据格式,在java后台中经常需要实现java bean、list和json字符串的相互转化,故简单介绍不同框架的使用,提供简单工具类。 在Java中,常见的json框架有:Jackson(springboot默认…

黑科技轮胎:有能发电的,脑洞简直不要太大...

全世界只有3.14 % 的人关注了青少年数学之旅人类历史上的很多伟大发明,都是由脑洞产生的,这样那样,然后问题就解决了,过程很复杂,却又很简单,甚至有时候,是一种很奇葩的方式。在漫长的历史进程中…

将权限授予文件夹和程序集

http://technet.microsoft.com/zh-cn/office/zdc263t0.aspx 如何:将权限授予文件夹和程序集 (2003 System) 注意 适用于 本主题中的信息仅适用于指定的 Visual Studio Tools for Office 项目和 Microsoft Office 版本。 有关更多信息,请参见按应用程序…

VS 2019 16.11正式发布 | 新功能(Hot Reload 热重载)试用

VS 2019 16.11VS 2019 16.11已于2021.8.10正式发布。(https://devblogs.microsoft.com/visualstudio/visual-studio-16-11/)这个版本主要包括以下内容:Visual Studio中的Git工具体验改进支持.NET应用程序的Hot Reload(热重载&…

测试String, StringBuilder,StringBuffer 的数据,我居然发现这些了~~

懒的搞什么开头了,直接撸代码吧 想了想还是给大家看看学姐照片吧,保持眼睛的明亮,代码敲多了,伤眼 1: 作StringBuilder与String的拼接比较 Test public void testString () {String s"";long begin S…

LeetCode --- Valid Parentheses

题目链接 Problem discription Given a string containing just the characters (, ), {, }, [ and ], determine if the input string is valid. The brackets must close in the correct order, "()" and "()[]{}" are all valid but "(]" and…

作息时间安排:

7:20起床7:30出发7:40早饭11:30-12:00午饭13:00-13:30午睡5:30-6:00 打水、 锻炼身体(跑步到燕宏桥)6:00-7:30 学习 英语、…

厉害了!这里藏着通关学霸的秘籍

全世界只有3.14 % 的人关注了青少年数学之旅在这个资讯丰富且易获取的时代,越来越多的人不愿意花时间阅读书籍,碎片化阅读成了主流。人们获取的东西多而杂,很难系统、全面。海量信息对人是冲击,更是诱惑。谁不想了解天下奇闻&…

学习了MPLS ×××

最近学习了一下MPLS 技术,确实蛮复杂的,而且觉得MPLS 技术主要是用在ISP以及厂商里面,是未来网络架构的一种主流技术,要完全掌握确实不是一件容易的事情,没法子,只能好好的先把理论学通了~加油加油~~TCP/IP路由技术我也还在看,全英文版,总体感觉英文版要比中文版容易理解的多了…

『 编程思维』之我见

编程思维,对于一个开发人员来说是必备的,但凡能让应用跑起来,不管应用的大小,优劣,说明这个开发人员都具有编程思维,毕竟程序认可了这个开发人员逻辑,能启动起来。小到几行代码,一个…

史上最全图详解Jvm—诊断工具和JVM监控

3.1. 工具概述 使用上一章命令行工具或组合能帮您获取目标Java应用性能相关的基础信息,但它们存在下列局限: 1.无法获取方法级别的分析数据,如方法间的调用关系、各方法的调用次数和调用时间等(这对定位应用性能瓶颈至…

STL容器[10]

STL容器[0] 转载于:https://www.cnblogs.com/motadou/archive/2009/11/29/1613152.html

去医院看病如何开开心心出来? | 今日最佳

全世界只有3.14 % 的人关注了青少年数学之旅(图源百度弱智吧,侵权删)

BF533和触摸屏接口芯片TSC2200调试日志

问了一下亿旗&#xff0c;终于调出来了&#xff0c;下面是部分源代码&#xff1a;//************************************************// //** file: spi.c //** target: ADSP-BF533 //** creat time: 2008-8-19 #include <ccblkfn.h> #include <cdefBF533.h> #in…

玩机器学习,能不知道它?

推荐一个端对端的开源机器学习平台编程导航 致力于推荐优质编程资源 ????项目开源仓库&#xff1a;https://github.com/liyupi/code-nav跪求一个 star ⭐️大家好&#xff0c;我是编程导航的小编 Made 。今天安利一个强大的开源机器学习平台—TensorFlow。TensorFlow 是一个…

js获取当前页面url网址等信息

使用js获取当前页面的url网址信息。 1、设置或获取整个 URL 为字符串&#xff1a; window.location.href 2、设置或获取与 URL 关联的端口号码&#xff1a; window.location.port 3、设置或获取 URL 的协议部分 window.location.protocol 4、&#xff08;www.jbxue.com&…

面试被问到Java 静态代理/动态代理?不用怕,这样子就可以!!

理解Java动态代理需要对Java的反射机制有一定了解 什么是代理模式# 在有些情况下&#xff0c;一个客户不能或者不想直接访问另一个对象&#xff0c;这时需要找一个中介帮忙完成某项任务&#xff0c;这个中介就是代理对象。 例如&#xff0c;购买火车票不一定要去火车站买&…

ASP.NET 视频截图功能的C#代码

前公司在制作播客系统(Web程序)中,用到从视频截图功能.下边是截图CatchImg方法,可从大多数的视频文件中截图成功,大家可测试;如果截图不成功,大多是因为视频本身的问题,如编码标准或加了密.但从在线录制的视频Flv文 前公司在制作播客系统(Web程序)中,用到从视频截图功能.下边是…

那些读了硕士博士的人,最不想让你知道的是什么?

全世界只有3.14 % 的人关注了青少年数学之旅在这个资讯丰富且易获取的时代&#xff0c;越来越多的人不愿意花时间阅读书籍&#xff0c;碎片化阅读成了主流。人们获取的东西多而杂&#xff0c;很难系统、全面。海量信息对人是冲击&#xff0c;更是诱惑。谁不想了解天下奇闻&…

ASP.NET中常用的26个优化性能方法

1. 数据库访问性能优化 数据库的连接和关闭访问数据库资源需要创建连接、打开连接和关闭连接几个操作。这些过程需要多次与数据库交换信息以通过身份验证&#xff0c;比较耗费服务器资源。ASP.NET中提供了连接池(Connection Pool)改善打开和关闭数据库对性能的影响。系统将用户…