Python 大数据分析 淘宝商品销量的关系

我们在上一篇的时候已经将淘宝数据爬取下来了,但是并没有做数据分析。所以今天这篇文章就是教大家如何去分析数据,得出一些有用的结论!

Python语言相比其他语言的优势在哪里?猪哥认为是数据分析和人工智能这两大块,而且这两个方向需求会慢慢增大,所以那些想学习Python却不知道要朝着哪个目标学习的同学可以考虑往这两个方向发展!

 

一、分析目标

数据分析之前我们需要清楚的知道自己想要分析什么东西,也就是先搞清楚我们的目标。在公司可能是公司财报、用户增量变化、产品受欢迎程度、一些报表等等。

那我们今天的目标有哪些呢?我们来看看:

  1. 分析避孕套标题高频关键字
  2. 分析避孕套标题高频关键字 与 商品数量关系
  3. 分析避孕套标题高频关键字 与 平均销量关系
  4. 分析避孕套标题高频关键字 与 平均售价关系
  5. 分析避孕套商品价格区间分布关系
  6. 分析避孕套商品销量区间分布关系
  7. 分析避孕套商品价格区间 与 平均销量关系
  8. 分析避孕套商家数量全国分布关系
  9. 分析避孕套商家全国平均销量关系

注意:以上数据分析全部基于上次爬取的2500款淘宝商品(默认排序),并不代表淘宝所有避孕套商品!

 

二、分析实现

有了明确的目标之后,我们就要开始技术选型。

首先数据处理的库这个很好确定,基本就是numpy和pandas这两个必备的库,所以大家首先确保已经安装了这两个库。

然后数据可视化库呢?这么多可视化库该怎么选?如果你不知道怎么选,那猪哥给你推荐:pyecharts 这个由中国人开发的可视化库,想要什么类型的图在下面文档里面找就行。

中文文档:https://pyecharts.org/#/zh-cn/intro 源码地址:https://github.com/pyecharts/pyecharts

最后技术选型完毕,我们就可以开始正式的敲代码分析了。(分析的标题将和上面的分析目标一一对应)

 

0.数据清洗

在我们数据分析之前,我们需要对数据进行清洗。因为从淘宝爬取下来的数据并不是标准的数据,比如:商品销量,爬取下来的数据是:2.5万+人付款,我们需要将它转为:25000(整型),这样才方面后面的处理!

我们先来看看从淘宝爬取的原始数据,看看那些数据需要清洗

 

根据使用库的经验猪哥认为有两列数据需要清洗:1、销量转成整型 2、地区转成只包含省份,具体如何清洗我们直接看代码吧!

 

大家可以看到最后猪哥又从新生成了一个excel文件,目的就是不去污染原始数据,因为原始数据非常重要,所以我们在以后的数据处理中要尽量保存好原始数据,多备份几个都不多余!

 

1.分析避孕套标题高频关键字

数据清洗完毕之后,我们就可以开始分析了。

分析标题高频关键字这都是老生常谈的一个流程,也就是使用jieba分词,然后统计词频,最后生成一个词云图,我相信经常看猪哥公众号的同学看都看腻了吧,这种小功能闭着眼睛都会了。

 

十几行代码就搞定了,我们来看看效果图吧

 

分析结论:

  1. 从整体看商家取名偏爱情趣二字
  2. 从材质看尿酸的最多
  3. 从功能看颗粒、螺纹的较多

ps:别问猪哥最中意哪个词,问就是延时。

 

2.分析避孕套标题高频关键字 与 商品数量关系

上面我们只看到大概哪些功能受欢迎,如果需要看具体的数据怎么办呢?

我们就来统计一下包含这些高频关键词的商品数据数量吧,代码讲解在图片下方,下同!

 

我们取最高频的20个关键字,然后遍历所有数据的标题中是否包含其中关键字,如果包含则该关键字的value就+1。来看看生成的柱状图效果吧!

 

分析结论:

  1. 包含情趣二字的商品有1150款,占到总数(2500款+)的46%。
  2. 前三甲是:情趣、尿酸、颗粒

ps:猪哥有个疑问想请教各位老司机:这个 免洗 是咋玩的?

 

3.分析避孕套标题高频关键字 与 平均销量关系

这个分析有意思了,就相当于用户更喜欢哪种功能或者材质的套套。

 

 

高频关键字与平均销量分析数据的实现方法是,同样遍历所有数据的标题,如果包含某个关键字,则把该项数据的销量放在关键字的value中(一个list),统计完后再对每个关键字的value进行求平均值,最后再根据平均销量排序。来看看效果吧!

 

分析结论:

  1. 螺纹功能平均销量最高,大家的最爱
  2. 功能平均销量前三分别是:螺纹、颗粒、狼牙
  3. 小号竟然上榜,哈哈

ps:有很多同学问:为什么不是超薄?超薄自己是爽了,可女朋友呢?

 

4.分析避孕套标题高频关键字 与 平均售价关系

分析完大家喜欢的功能,再来分析下这些功能的价格如何?哪些功能的避孕套比较贵呢?

 

 

高频关键字 与 平均售价关系分析原理与上面是相似的,使用的同一个方法,只不过是将原来的销量换成价格,来看看效果图吧!

 

分析结论:

  1. 可以看到前排几个基本都是关于材质的
  2. 凝胶、透明质、免洗这三项均价最贵,超过100大洋

ps:类似凝胶、透明质、免洗的哪位老司机用过,和一般的有啥区别?

 

5.分析避孕套商品价格区间分布关系

商品的标题和功能差不多分析完了,我们来分析下价格吧!

 

 

猪哥人为的对价格进行了划分,一共分为:’0-20’, ‘21-40’, ‘41-60’, ‘61-80’, ‘81-100’, ‘101-120’, ‘121-150’, ‘151-200’, ‘200以上’这9个区间,然后对数据切割、统计、排序,最后分别生成柱状图和饼图。

 

 

分析结论:

  1. 价格区间在21-40的商品最多为778款,大约占比31%。
  2. 价格在一百以内与超过一百的商品比大概为7:1

ps:没想到还有这么多超过100块的,我想问下200块价格的套套是啥感觉?

 

6.分析避孕套商品销量区间分布关系

分析完价格当然是分析销量区间了

 

 

销量区间分布分析实现原理:认为为销量分区,大概分为:’一千以内’, ‘一千到五千’, ‘五千到一万’, ‘一万到五万’, ‘五万到十万’, ‘十万以上’,这六个区间,然后同上方法进行统计、排序最后可视化。

 

 

分析结论:

  1. 销量在1000以内的最多,大概占比90%
  2. 销量过万的一共也才10款,说明爆款真的很少
  3. 有一款套套销量竟然超过10万

 

7.分析避孕套商品价格区间 与 平均销量关系

假如你是一个避孕套卖家,新推出一款避孕套,你想知道价格定为多少销量才会比较高呢?

这时候我们就可以通过分析价格与商品的销量关系,用实际的数据来定价,这也正是数据分析的价值之一。

商品价格区间 与 平均销量关系分析实现原理是:使用pandas自动分区将价格划分为12个分区,然后对销量数据分组、求平均值,来看看可视化之后的效果。

分析结论:

  1. 定价在31.9-39这个区间平均销量最高,为893
  2. 定价在10元以内的销量竟然高居第二

ps:谁用过10以内一盒的套套,出来走走

 

8.分析避孕套商家数量全国分布关系

标题、价格、销量都分析过了,最后我们还分析下商家位置的数据。

分析的目标是统计全国各省避孕套商家数量,然后做成热力图和柱状图。

统计商家数量还是比较简单,因为我们之前在数据清洗的时候已经只保留了省份数据,所以直接value_counts()就可以得到想要的数据,看看效果如何!

分析结论:

  1. 避孕套商家前三甲:广东、上海、浙江

ps:贵州四周都有卖套套的,为何就它没有?难道和地理有关?

 

9.分析避孕套商家全国平均销量关系

分析完商家数后,我们来看看各省的平均销量吧。

商家全国平均销量关系分析实现原理:我们新创建一个透视表并对销量求平均值,然后再排序,最后生成热力图和柱状图。

分析结论:

  1. 出乎意料的是山西39个商家平均销量竟然是第一为1535。

ps:为何山西平均销量是第一?原因是啥真想不通

 

三、总结

通过上面的数据分析,我们得到了一些有趣的结论:

  1. 用户偏爱螺纹、颗粒、狼牙等功能
  2. 凝胶、透明质、免洗这三项均价最贵,超过100大洋
  3. 价格区间在21-40的商品最多为778款,大约占比31%
  4. 销量在1000以内的最多,大概占比90%
  5. 定价在31.9-39这个区间平均销量最高,为893
  6. 避孕套商家数量前三甲:广东、上海、浙江
  7. 山西省平均销量最高为山西

通过上述分析结果,如果猪哥作为一个避孕套商家,想要推出一款产品,设置标题带螺纹、颗粒、狼牙,价格设置在31.9-39元,这样可能会更畅销一些。

数据分析作为一把利刃,能让你看见别人看不见的事物,如果使用得当完全可以作为你创业的一个重要支点!

最后猪哥再送你一句忠告:想学数据分析,一定要学好pandas!

项目源码:   https://cloud.tencent.com/developer/article/1515930

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/547222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM系列(一)--JVM运行时数据区

随着时间的推移,我觉得有必要将一些之前相对模糊但是对自身技术提高会有帮助的原理、概念、实现进行一下系统的整理,所以就从JVM系列开始吧。本系列主要参考《Java虚拟机规范(第二版)》、周志明先生写的《深入理解Java虚拟机》,具体虚拟机主要…

golang获取程序运行路径

golang获取程序运行路径: /*获取程序运行路径*/func getCurrentDirectory() string {dir, err : filepath.Abs(filepath.Dir(os.Args[0]))if err ! nil {beego.Debug(err)}return strings.Replace(dir, "\\", "/", -1)}

UBIFS - UBI File-System

参考:http://www.linux-mtd.infradead.org/doc/ubifs.html#L_raw_vs_ftl UBIFS - UBI File-System Table of contents Big red noteOverviewPower-cuts toleranceUBIFS and MLC NAND flashThe unstable bits issueSource codeMailing listUser-space toolsScalabili…

golang操作文件

1、读取文件信息: /*读取文件信息*/func readFile(path string) string {fi, err : os.Open(path)if err ! nil {panic(err)}defer fi.Close()fd, err : ioutil.ReadAll(fi)return string(fd)}2、读取文件夹下的所有文件: /*读取文件夹下的所有文件(不包…

ceph iscsi安装

ceph iscsi安装 2020-02-24 #安装包 下载包https://github.com/ceph/ceph-iscsi安装ceph-iscsi配置文件安装rbd-target-api所在的ceph-iscsi-cli包 3.1安装依赖python-configshell,网上 3.2安装包里的python-rtslib(先卸载老版本) 3.3安装…

golang 字符串操作实例

package mainimport s "strings"import "fmt"var p fmt.Printlnfunc main() {p("Contains: ", s.Contains("test", "es")) //是否包含 truep("Count: ", s.Count("test", "t")) //字符串出现…

http://www.easyui.info/archives/396.html

http://www.easyui.info/archives/396.html转载于:https://www.cnblogs.com/noert/p/3406183.html

Tensorflow C3D完成视频动作识别

本文是视频动作识别领域经典的C3D网络的简易实现&#xff0c;可以作为动作识别的入门。论文为<Learning Spatiotemporal Features with 3D Convolutional Networks>(ICCV 2015)。 框架&#xff1a;Tensorflow (1.6)python(2.7)slim 数据集&#xff1a;UCF101. Center f…

beego上传文件

html代码&#xff1a; <form id"fform" method"POST" enctype"multipart/form-data"> <input id"myfile" name"myfile" type"file" /> <input type"submit" value"保存" /&…

去除表中重复的数据

2019独角兽企业重金招聘Python工程师标准>>> 表数据如下&#xff1a; 查询表中重复的数据&#xff1a; SELECT * FROM t_class WHERE classname IN (SELECT classname FROM t_class GROUP BY classname HAVING COUNT(classname) > 1) 结果如下&#xff1a; 显示…

golang中的类和接口的使用

类使用&#xff1a;实现一个people中有一个sayhi的方法调用功能&#xff0c;代码如下&#xff1a; type People struct {//..}func (p *People) SayHi() {fmt.Println("************************* say hi !!")}func (this *LoginController) Get() {p : new(People)p…

基于动态骨骼的动作识别方法ST-GCN

解读&#xff1a;基于动态骨骼的动作识别方法ST-GCN&#xff08;时空图卷积网络模型&#xff09; 2018年04月09日 01:14:14 我是婉君的 阅读数 16076更多 分类专栏&#xff1a; 计算机视觉 论文 版权声明&#xff1a;本文为博主原创文章&#xff0c;遵循 CC 4.0 BY-SA 版权协…

winform中textbox属性Multiline=true时全选

1、文本框右键属性 > 添加KeyDown事件。 2、添加如下代码&#xff1a; private void txt_result_KeyDown(object sender, KeyEventArgs e){if (e.Control && e.KeyCode Keys.A){((TextBox)sender).SelectAll();}}

LVS性能调优小记

lvs调优主要是针对内核参数的调优一、调整内核参数CONFIG_IP_VS_TAB_BITS1.1 CONFIG_IP_VS_TAB_BITS说明IPVS connection hash table size&#xff0c;取值范围:[12,20]。该表用于记录每个进来的连接及路由去向的信息。连接的Hash表要容纳几百万个并发连接&#xff0c;任何一个…

pyTorch实现C3D模型的视频行为识别实践

1、3D卷积t简介 2、C3D模型原理与PyTorch实现 2.1、C3D模型结构 2.2、C3D视频动作识别&#xff08;附PyTorch代码&#xff09; 2.3、测试结果 参考 1、3D卷积的简介 在图像处理领域&#xff0c;被卷积的都是静态图像&#xff0c;所以使用2D卷积网络就足以。而在视频理解领域&…

nodejs与javascript中的aes加密

简介 1.aes加密简单来说&#xff0c;在密码学中又称Rijndael加密法&#xff0c;是美国联邦政府采用的一种区块加密标准。这个标准用来替代原先的DES&#xff0c;已经被多方分析且广为全世界所使用。高级加密标准已然成为对称密钥加密中最流行的算法之一。 2.AES的区块长度固定…

SQL事务控制语言(TCL)

1、什么是事务&#xff1f; 事务&#xff08;Transaction&#xff09;是由一系列相关的SQL语句组成的最小逻辑工作单元&#xff0c;在程序更新数据库时事务事关重要&#xff0c;因为必须维护数据的完整性。事务由数据操作语言完成&#xff0c;是对数据库所做的一个或多个修改。…

U811.1接口EAI系列之六--物料上传--VB语言

1. 业务系统同步U811.1存货档案通用方法. 2.具体代码处理如下&#xff1a; 作者&#xff1a;王春天 2013-11-06 地址&#xff1a;http://www.cnblogs.com/spring_wang/p/3409844.html 代码中调用的通用方法在: http://www.cnblogs.com/spring_wang/p/3393147.html 物料信息生成…

HyperLPR Python3车牌识别系统的入门使用

概要 HyperLRP是一个开源的、基于深度学习高性能中文车牌识别库&#xff0c;由北京智云视图科技有限公司开发&#xff0c;支持PHP、C/C、Python语言&#xff0c;Windows/Mac/Linux/Android/IOS 平台。 github地址&#xff1a; https://github.com/zeusees/HyperLPR TODO 支…

maven 基本命令

今天复习了一下maven命令的使用&#xff0c;这里总结一下&#xff0c;作为后续使用的参考&#xff1a;1. mvn clean清理命令&#xff0c;该命令用来清除原来编译生成的.class和.jar 等文件。maven的做法比较暴力&#xff0c;直接将放置这类文件的targer目录删除了&#xff01;2…