电子商务应用课程知识整理 第六章-数据挖掘

文章目录

  • 一、概述
  • 二、关联分析
        • 概念:
        • 关联分析步骤:
        • 用于寻找频繁项集的算法
          • 算法一:蛮力法
          • 算法二:Apriopri算法(先验算法)
  • 三、分类与预测
        • k近邻算法(kNN)
  • 四、聚类分析
        • k均值算法(k-means)
  • 五、异常分析
  • 六、数据挖掘在电子商务中的应用
      • 数据来源
      • 常用数据挖掘技术
          • 1.路径分析
          • 2.关联规则
          • 3.序列模式
          • 4.分类
          • 5.聚类

一、概述

数据挖掘(Data Mining):从大量数据中寻找其规律的技术,是统计学、数据库和人工智能等技术的综合,是从大量不完全有噪声模糊随机的实际应用数据中,提取隐含在其中事先不知道、但有潜在的有用信息和知识的过程。

数据挖掘的四大核心任务:关联分析、分类与预测、聚类分析、异常检测

二、关联分析

关联:某种事物发生时其他事物也会发生。

关联规则的表示形式
R:X→Y,其中,X和Y是两个不相交的项集,即X,Y⊂I 且X∩Y=Φ
X称为规则的前提或前项,Y称为结果或后项

概念:

  • 交易(事务):每一条购买记录成为一个交易。
  • 项集:包含一个或多个项的集合。
  • 支持数(σ):一个项集在所有交易中出现的次数。
  • 支持度(s):s(X→Y)= 同时包含X和Y的交易数 / 总交易数
  • 置信度(c):c(X→Y)= 同时包含X和Y的交易数 / 以X作为前项的交易数

关联分析步骤:

  1. 设定最小支持度minsup和最小置信度minconf
  2. 找出(s ≥ minsup)∧(c ≥ minconf)的项集作为频繁项集
  3. 由频繁项集产生强关联规则

用于寻找频繁项集的算法

算法一:蛮力法

当有d个项时,将产生2d2^d2d个候选项集,产生的关联规则总个数有3d−2d+13^d-2^d+13d2d+1

算法二:Apriopri算法(先验算法)

算法基于的先验知识:频繁项集的子集也一定是频繁的。例如:如果{A,B}是频繁项集,则{A}和{B}也一定是频繁项集。

对于k各项,从1到k,递归地查找频繁项集。
在这里插入图片描述

三、分类与预测

分类:用于预测离散的目标变量,预测类别未知的数据项的类别。
预测:用于预测连续的目标变量,主要方法时回归。

分类的目的时获取分类函数或分类模型(分类器),该模型能把数据项映射到一个指定类别。
分类可用于提取描述重要数据类的模型或预测未来的数据趋势。步骤为1.创建模型;2.使用模型。

k近邻算法(kNN)

给定测试样本和阈值k(可以使用交叉检验确定),基于某种距离度量(如欧氏距离)找出训练集中于测试样本最靠近的k个训练样本,然后基于这k 个邻居的信息来进行预测:在分类任务中,采用“投票法”,即选择这k个邻居中出现最对的类别作为预测结果;在回归任务中,采用“平均法”,即将k个邻居的实际输出的平均值作为预测结果;还可以基于距离远近进行加权平均或加权投票。

难点:样本的非数值特征如何转化为数值、不同特征对距离度量的影响权值如何确定。
优点:易于理解,易于实现,无需训练(懒惰学习);精度高,对异常值不敏感。
缺点:计算量大,空间开销大。

四、聚类分析

无监督的分类,是指把一组数据分成不同的,每簇中的数据相似而不同簇间的数据距离较远。
原则:最大化类内相似性、最小化类间相似性。

k均值算法(k-means)

是一种简便、使用的无监督聚类分析算法。在已知簇的个数时,可以很好地实现数据的聚类分析。

首先,随机选择K个点作为聚类中心,计算其他样本与各个聚类中心的向量距离,将每个样本都划入与其距离最近的聚类中心对应的簇中。对每一个簇,计算其中所有样本的均值向量,产生K个新的聚类中心。如此反复,不断改变聚类中心的位置,直到聚类中心不再变化或达到迭代上限为止。在这里插入图片描述

五、异常分析

又称为偏差分析或离群点分析。离群点指异常对象,属性是明显偏离期望或常见的属性值。

六、数据挖掘在电子商务中的应用

数据来源

  • 服务器数据(系统日志、访问日志)
  • 在线销售数据(订单、收藏信息)
  • Web页面数据(浏览次数)
  • Web页面超链接关系
  • 客户注册信息
  • ……

常用数据挖掘技术

1.路径分析

用于判断在一个Web站点中最频繁访问的路径。
可以用于改进页面及网站结构的设计。

2.关联规则

找到客户对网站上各种文件和资源之间访问的相互联系。
可用于更好的组织站点,实施有效的市场策略。

3.序列模式

找到与时间相关,“一个项跟随另一个项”的内部事务模式。
能够用于预测用户的访问模式,对客户开展有针对性的广告和促销服务。

4.分类

给出识别一个特殊群体的公共属性的描述,可以用来分类(预测)新的项。
可以进行适合某一类客户的商务活动。

5.聚类

从Web访问信息数据中聚集出具有相似特性的客户。
能够便于开发和执行未来的市场战略。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/290627.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

.NET Core 返回结果统一封装

本文使用.NET Core Webapi演示&#xff01;一:新建.NetCore webapi项目为了方便开发,简化代码,也为了与前端方便对接,需要对接口服务返回结果进行统一处理。二:定义返回结果结构我们需要定义一个统一返回结果泛型类ApiResultpublic class ApiResult<T>{/// <summary&g…

linux之nm命令

1、nm命令介绍 nm命令很好记&#xff0c;当时看到大神在我的电脑面前在open ssl编译的.a文件里面过滤SHA函数&#xff0c;nm你就这样记&#xff0c;nm 尼玛, 哈哈。我们可以通过nm命令查看后缀out文件和后缀a文件里面的函数和部分属性。比如我们过滤SHA函数&#xff0c;命令如下…

.NET的两种部署模式,了解一下

前言以往部署程序一直是习惯性先安装运行时环境&#xff0c;然后再将发布打包好的程序运行起来&#xff1b;但当多个程序依赖不同版本框架平台时&#xff0c;如果部署在同一台机器上&#xff0c;那就需要在同一台机器上安装多个版本的运行时&#xff0c;总感觉有点不太方便&…

CSS3弹性伸缩布局(一)——box布局

CSS3弹性伸缩布局简介 2009年&#xff0c;W3C提出了一种崭新的方案----Flex布局&#xff08;即弹性伸缩布局&#xff09;&#xff0c;它可以简便、完整、响应式地实现各种页面布局&#xff0c;包括一直让人很头疼的垂直水平居中也变得很简单地就迎刃而解了。但是这个布局方式还…

Avalonia跨平台入门第十五篇之ListBox聊天窗口

在前面分享的几篇中咱已经玩耍了Popup、ListBox多选、Grid动态分、RadioButton模板、控件的拖放效果、控件的置顶和置底、控件的锁定、自定义Window样式、动画效果、Expander控件、ListBox折叠列表;今天趁着大周末的时间接着去摸索基于ListBox的聊天窗口的效果,最终实现的效果如…

《Unity着色器和屏幕特效开发秘笈(原书第2版)》一2.9 打包和混合纹理

本节书摘来自华章出版社《Unity着色器和屏幕特效开发秘笈&#xff08;原书第2版&#xff09;》一书中的第2章&#xff0c;第2.9节&#xff0c;作者 [英]艾伦朱科尼&#xff08;Alan Zucconi&#xff09; [美]肯尼斯拉默斯&#xff08;Kenneth Lammers&#xff09;&#xff0c;更…

云计算及应用课程知识整理

文章目录一、云计算云计算概念云计算的服务类型云计算技术体系结构的层次及其功能为什么云计算成本低&#xff1f;二、GFS分布式的文件系统设计需要考虑哪些问题&#xff1f;GFS架构GFS容错机制三、分布式数据处理MapReducemapReduce概念MapReduce适合什么类型数据&#xff1f;…

Android loading进度条使用简单总结

在这里&#xff0c;总结一下loading进度条的使用简单总结一下。 一、说起进度条&#xff0c;必须说说条形进度条&#xff0c;经常都会使用到嘛&#xff0c;特别是下载文件进度等等&#xff0c;还有像腾讯QQ安装进度条一样&#xff0c;有个进度总给人良好的用户体验。 先来找图看…

sublime php语法检查

安装sublimelinter 安装sublimelinter-php 设置sublimelinter 进入SublimeLinter文件夹改动 SublimeLinter.sublime-settings文件 设置php文件夹

lv13 环境搭建SD卡启动

一、制作SD卡启动盘 1.1 方法1&#xff1a;在Linux下制作 一、准备好烧录脚本 cd ~/fs4412 ​ unzip sdfuse_q.zip ​ cd sdfuse_q ​ chmod x *.sh 二、将SD卡插入USB读卡器&#xff0c;并连接到虚拟机 或者 一般识别的sd卡会在dev目录下显示sdb 三、烧录 cp ../u-boot-f…

如何使用c#编写单片机程序

因为个人喜爱想研究单片机&#xff0c;但是不太会c&#xff0c;然后再找资料研究有没有其他的方法发现国外的c# nanoframework 框架可以编写单片机程序&#xff0c;本文我将会用自己踩过的坑来总结一些c#编写单片机的一些经验&#xff0c;希望帮到热爱c#的xd 首先第一步我们需要…

机器学习与数据挖掘——第二章 数据与数据预处理

一、关于数据 什么是数据&#xff1f; 数据是数据对象的集合及其属性 属性的类型 标称标度 nominal scale 标称属性的值是一些符号或实物的名称&#xff0c;每个值代表某种类别、编码或状态&#xff0c;所以标称属性又被看做是分类型的属性&#xff08;categorical&#xff…

《 线性代数及其应用 (原书第4版)》——1.2 行化简与阶梯形矩阵

本节书摘来自华章出版社《 线性代数及其应用 &#xff08;原书第4版&#xff09;》一书中的第1章&#xff0c;第1.2节&#xff0c;作者:&#xff08;美&#xff09;戴维C. 雷&#xff08;David C. Lay&#xff09;马里兰大学帕克学院 著刘深泉 张万芹 陈玉珍 包乐娥 陆 博 译&a…

c#使用FluentFtp实现一行代码实现ftp上传下载等

一:简介FluentFTP 是一个完全托管的 .NET 和 .NET Standard 的 FTP 和 FTPS 库&#xff0c;针对速度进行了优化。它提供了广泛的 FTP 命令、文件上传/下载、SSL/TLS 连接、自动目录列表解析、文件哈希/校验和、文件权限/CHMOD、FTP 代理、FXP 传输、UTF-8 支持、异步/等待支持、…

软件体系结构知识点整理

包括软件体系结构风格、uml、软件质量属性、面向对象设计原则以及设计模式 pdf及goodnote版本

《T-SQL性能调优秘笈——基于SQL Server 2012 窗口函数》——1.2 使用窗口函数的解决方案简介...

本节书摘来自异步社区出版社《T-SQL性能调优秘笈——基于SQL Server 2012 窗口函数》一书中的第1章&#xff0c;第1.2节&#xff0c;作者&#xff1a; 【美】Itzik Ben-Gan&#xff0c;更多章节内容可以访问云栖社区“异步社区”公众号查看。 1.2 使用窗口函数的解决方案简介 …

ASP.NET Core(十)Configuration 配置优先级详解

ASP.NET Core 项目启动&#xff0c;默认执行顺序为&#xff1a;宿主 Host -> 读取配置 -> 日志设置 -> 注册服务&#xff08;DI&#xff09;-> 添加中间件 -> WebHost 监听 -> 后台 Work 启动。配置的加载和读取是在启动流程的最前面。微软关于 ASP.NET Core…

带中文索引的ListView 仿微信联系人列表

因为各种原因&#xff0c;项目经理和产品经理把我做的东西给否定了&#xff0c;所以决定分享出去。 主要功能&#xff1a; 1 、带中文索引的ListView 2、自己定义顶部搜索视图&#xff0c;能够对返回button&#xff0c;搜索button加入事件监听&#xff0c;带动画的咧&#xff0…

解决 ASP.NET Core 部署到 IIS,更新项目时文件夹正在使用错误

前言虽然 ASP.NET Core 应用程序是跨平台的&#xff0c;但我们还是经常将它部署到 Windows 的 IIS 下。当 ASP.NET Core 站点运行时&#xff0c;它会锁定正在使用的程序集&#xff0c;如果这时向站点目录下复制文件进行更新&#xff0c;会提示文件被占用的错误&#xff1a;这时…

软件配置管理(二)配置管理角色与过程

文章目录一、配置管理角色及职责项目经理&#xff08;PM&#xff09;配置控制委员会&#xff08;CCB&#xff09;配置管理员&#xff08;CMO&#xff09;系统集成员&#xff08;SIO&#xff09;开发人员&#xff08;DEV&#xff09;二、配置管理基本流程计划阶段开发和维护阶段…