大数据分析了50万条拼多多商品数据, 得出了这样的结论

640?wx_fmt=gif


一、缘起


我在杭州有位朋友,提到有家做社交的电商很火,叫拼多多,我没有在意,直到有一天,我居然在电视上看到了它的广告,广告画面活蹦乱跳,余音绕梁,我惊呆了,想知道这是何方YL,不,何方神圣,网上搜了下,流传着各种版本,比如月GMV超过400亿,已经威胁到京东淘宝等。


辣么,怎么样才能知道拼多多的这些信息呢?比如,拼多多到底有多少在售商品,卖了多少钱?不单单是拼多多的投资人,也许淘宝京东,也想知道。


我有个简单的想法,不一定对,就是爬下拼多多的商品条目,这些条目至少有分类,价格,已出售数量等信息,做一个简单的加法,是不是就可以得到GMV了呢?


当然,缺点也很明显,就是由于第一次获取数据,只能得到这个时间点的切面信息,其他的信息, 比如每日每周每月的数据,要持续的获取才能得到。


当然,我们先走第一步,开个头。现在,我们就从一个切面来窥探下。


二、我们获取了多少商品条目?


49.78万,大约50万条。这些数据全不全,肯定不全,但是基本上覆盖了拼多多的绝大部分在售商品,再退一步,数据的量级应该是没错的(数据获取时间:2018-04-15)。


640?wx_fmt=jpeg


三、这些商品总共卖出了多少钱?


50万条商品,每件商品有不同的SKU,比如某个店家的芒果,下面有4个SKU,5斤的小的拼单价20元,5斤的大的30元, 8斤的小的40元,8斤的大的50元, 分别卖出了400份,300份,200份,100份,那么这个商品总销售额就是400*20 + 300*30+ 200*40+ 100*50 = 30000元。


如此,我们就可以计算出总计50万商品的销售额。


288亿。


我对电商是个外行,一般商品上面的“已卖出9527件”,问下各位电商业界人士,这个是当月的销售数量吗?如果是的话,那288亿就是月GMV,考虑到本月只过去一半,辣么,传言的“拼多多月GMV超过400亿”,或许,空穴不来风。

288亿是一个什么概念呢,我们搜索了京东财报的公开新闻:


京东2017年GMV接近1.3万亿,净利润50亿元。


可以估计去年京东的月均GMV大概是1100亿,电商的GMV同比可达50%+增长,胡乱估计京东2018月GMV大概1500亿,那么,拼多多的GMV大约为京东的三分之一。


这个, 还是有点吃惊的啊。


四、销售额前十的品类是哪些?


了解一个电商平台销售额前几位的品类,有助于判断它的竞争优势,比如电器数码等产品之于京东,服饰箱包之于淘宝,图书音像之于当当。


拼多多的主打品类是什么呢?


电商喜欢将商品分为三级品类,比如食品-水果-猕猴桃。 以下我们列出一级类目和三级类目排名前十的数据。


全部一级品类成交额:


640?wx_fmt=jpeg


一级类目销售额前10的品类:


640?wx_fmt=jpeg


前三名分别是食品,母婴,女装。成交额分别是40亿,31亿,27亿。厉害了。


来看看前三名的销售额占所有36个一级类目的成交额比例,足足三分之一强。


640?wx_fmt=jpeg


三级类目销售额前10的品类:


640?wx_fmt=jpeg


第一名是抽纸,卖了5个多亿!


我有点好奇,想知道是什么牌子的抽纸卖了这么多呢?同时也为了验证数据的准确性,从数据库中找到了(历史)销量最高的抽纸,销量508万。


根据名字,手动在拼多多APP找到了这款产品,它的名字也许你没有听过,是这样的:


640?wx_fmt=jpeg


嗯,数据是正确的(这2天又多了2万,手机传过来的,这图怎么这么大)。


作为对比, 看了京东销量最高的单品,维达是320多万,和拼多多排名第二的,一个名叫“初采”的抽纸销量(343万)差不多。


五、销售量前二十的商品是哪些?


商品的销售量代表了人气,当然,也许一个商品有人会买多份,无论如何,我们可以从中看出拼多多最多客户购买的产品是什么:


640?wx_fmt=jpeg


第一名还是抽纸,第二名不可描述,第三名伞(希望大家能够点击查看原图,否则压缩的看不清了啊)。后面还有几个也是抽纸,嗯,我就不懂了,为什么这么多抽纸,拼多多主要就是卖纸的?


销量前二十的商品,销售量都在200万以上。给我的感觉,有点类似于超市,更确切地说,有点像杂货铺,或者,类似于小时候村头的小卖部,以实用的生活用品为主,实在,方便,实惠。


六、商品一般都卖什么价格?

什么价格区间的商品销量最好?


那么下一个,你可能要问了,约50万的商品,大部分在什么价格区间呢,价格和销量有什么关系?


我们看看下面的商品数量-价格区间:


640?wx_fmt=jpeg


从商品数量来说, 超过一半(约57%)的商品价格介于0~50之间,大部分(约75%)的商品价格介于0~100元。


从统计数据可以发现,96.5%的商品价格介于1元到1000元之间,我们剔除这些商品(让图片没有那么尖锐难看),做出了如下价格-销量的点图:


640?wx_fmt=jpeg


横轴代表价格(单位:元),纵轴代表销量(单位:千)点越高,说明销量越大。还是很尖锐,看起来价格超过200就很平了啊,再看一个价格介于1~200的点图:


640?wx_fmt=jpeg


请点击查看原图,这样更清晰。我们从图中可以看到,销量过100万的商品,价格低于50。除了有2个零星的点,价格在100左右,销量也在100万上下。


需要说明的是,销量随着价格锐减,这是很正常的,京东淘宝做个点图估计也差不多。


七、再细化一点可以吗?


可以的。食品是销售额第一的品类,衣食住行,不意外,食品种类繁多,辣么,我们可能要问,从成交总额来说,排名前十的三级食品品类是哪些呢?分别占比多少?


640?wx_fmt=jpeg


第一名坚果炒货(成交额5亿),第二名白酒(2.8亿),第三名方便速食(2.5亿),前十名的三级类目成交额都过亿元。


坚果炒货销量前10的商品:


640?wx_fmt=jpeg


憨豆熊……厉害了。第二名是康梦,想起小时候吃过一款零食,康辉,不知道现在还在不在。


白酒呢,很好奇。


640?wx_fmt=jpeg


五粮液茅台?不过仔细一看不是茅台,是茅台镇的酒,所以。拼多多上面白酒卖的这么多,还是有点意外的。


八、什么水果在拼多多最受欢迎?


我注意到,水果生鲜是作为一个单独的一类品类存在的,生鲜水果是第二品类,辣么,三级目录中,哪一种水果最受欢迎呢?


芒果第一!请看图(芒果。那就给个黄色吧),第二名是苹果,第三名是奇异果(就是猕猴桃吧)


640?wx_fmt=jpeg


从销售量来说,芒果确实也是当之无愧的第一名,关键词“越南进口”非常显眼。如此看来,拼多多为跨境贸易也做了不少贡献。


640?wx_fmt=jpeg


九、多余的话


在这个万众创新,消费升级的年代,拼多多这样的社交电商的出现,在满足普通人民物美价廉需求方面,大获成功,让我有种错觉,难道这代表了我们的社会反而陷入了消费降级的陷阱吗?


因为拼多多的这些数据, 我想起几年前读过的一位名为三浦展的作者写的一本书:《下流社会》,这里的下流社会并不是贬义,只是探讨日本社会的社会消费,阶层团块。


“下流社会”这个术语一经在日本出现,立即引爆讨论。因为社会“向下流动”的趋势正在世界悄然成形,日美欧曾引以为傲的中产阶层正在消失,出现“上流”与“下流”的两极分化。


年轻一代源源不断加入的“下流社会”,其最大的特征并不仅仅是低收入,更在于沟通能力、生活能力、工作意愿、学习意愿、消费意愿等的全面下降,也可以说是“对全盘人生热情低下”。社会下沉的拉力愈来愈大,当全球社会纷纷向下流动,中国,能预防吗?


但是,拼多多的兴起也许是另外的情况,因为中国太大了,也许真的是消费升级,只是不是一二线城市居民的消费升级呢?


拼多多销量最好的单品是什么?抽纸。


这让我想起,小时候在农村,去洗手间方便,额说错了,是去茅房如厕,那时候哪里有什么清风维达和初采啊,就是用过的书本练习册什么的。现在大家生活水平提高了,开始用抽纸卷筒纸,看,这,算不算消费升级呢?


来源:吴一

https://zhuanlan.zhihu.com/p/35707735

版权归原作者所有,转载仅供学习使用,不用于任何商业用途,如有侵权请留言联系删除,感谢合作。


数据与算法之美

用数据解决不可能


640?wx_fmt=jpeg

长按扫码关注

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/303215.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CentOS 7 安装 Greenplum6 (附 dotNET Core 示例)

Mysql 在面对大数据量的时候,还是表现有些吃力,所以产品中需要扩展能支持海量数据的数据库,这里选择的数据库为 Greenplum6 ,Greenplum 底层使用的是开源数据库 PostgreSQL 。本文会介绍怎样在 CentOS 7 中安装 Greenplum6&#x…

linux系统故障实验,Linux常见系统故障排除

导读: 前言 运维人员经常会遇到各式各样的系统故障,如何根据故障特征锁定问题根源,需要的不仅仅是技巧,还有遇到故障时的思路,和对系统内部的理解,本文列出了一些常见的系统故障和处理方法,在那…

MIT正式发布编程语言Julia 1.0:Python、R、C++三合一

MIT 开发的 Julia 语言是全球热度上升最快的编程语言之一,下载量超过 200 万次,下载者包括谷歌、Facebook、FAA 和美国能源部等各个部门的开发者。近日,MIT CSAIL 实验室正式发布了 Julia 1.0,该语言期望结合 C 的速度、Matlab 的…

EFCore3.1+编写自定义的EF.Functions扩展方法

前言本文主要是讲解EF Core3.0 如何实现自定义的数据库扩展函数,虽然EF.Functions 提供了很多数据库函数,但是并不全面.比如加密解密..。这样的话 我们就需要自己扩展这些数据库函数 从而达到调用的目的.本文以达梦数据库为例(其他数据库都一样)..上篇文章推荐: EF …

WSUS2.0数据导入、导出(备份、还原)

以前我们做的WSUS实验都是让WSUS服务器通过互联网连接到微软网站去下 载更新补丁,但是现实的生活中有些网络是与互联网隔绝的,这种情况下可以采用导入导出WSUS数据的方法来解决WSUS的更新问题。先在一台能联网的 WSUS服务器上下载所需更新,然…

linux perl模块检测,Linux有问必答:如何用Perl检测Linux的发行版本

提问:我需要写一个Perl程序,它会包含Linux发行版相关的代码。为此,Perl程序需要能够自动检测运行中的Linux的发行版(如Ubuntu、CentOS、Debian、Fedora等等),以及它是什么版本号。如何用Perl检测Linux的发行版本?如果要用Perl脚本…

借助TensorFlow框架,到底能做什么?

谷歌在七月份正式推出了深度学习框架TensorFlow 1.9 版本,那么TensorFlow框架到底是什么?TensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。最初由Google大脑小组的研究员和工程师们开发…

在c语言中如何屏蔽一段程序,如何在用C语言关闭TCP程序中的Nagle算法

TCP为了防止在网络中过多的小分组会导致阻塞,因此提供了Nagle算法:要求一个TCP连接上最多只能有一个未被确认的未完成的小分组,在该分组的确认到达之前不能发送其他的小分组。相反,TCP收集这些少量的分组,并在确认到来…

CCNP课堂练习四:frame-relay traffic-shaping(帧中继流量×××)

帧中继(Frame Relay)是一种网络与数据终端设备(DTE)接口标准。它可以减少结点的处理时间,提高网络的吞吐量。帧中继提供的是数据链路层和物理层的协议规范,任何高层协议都独立于帧中继协议,因此,大大地简化了帧中继的实现。目前帧中继的主要应用之一是局域网互联,特别是在局域网…

百度内部培训PPT流出:数据分析的道与术

这是一份来自百度内部的数据分析学习PPT,非常经典的入门教材。主要内容1、什么是数据分析(道)1.1 数据分析是什么?1.2 什么是做好数据分析的关键?1.3 分析要思考业务,尤其是接地气1.4 分析要言之有物&#…

VS2010 C++下编译调试MongoDB“.NET研究”源码

考虑到mongodb使用了boost库源码,参考mongodb官方文档后,下载编译boost版本是1.42(时间为2010-2-2)或更新版本:boost版本1.42:http://sourceforge.net/projects/boost/files/boost/1.42.0/boost_1_42_0.zip/download 下载boost源码之后…

有了这15款编程游戏,谁都可以学编程!

1、Coding Games一边玩游戏,一边挑战编程难题。Coding games支持包括PHP、C、JavaScript在内的20多种编程语言。用户界面功能强大,可以定制。例如,你可以选择你的代码编辑器的风格: Emacs、Vim、Classic。如果你想提升编程技能&am…

毕业的那天,程序员师兄竟然让我去做这一行

给大家看一份最新的数据:(薪资表)2018年最新数据:python、大数据、人工智能从业者工资为什么人工智能行业的工资那么高?无论是科研院所,商业巨头还是初创企业,各行各业都在大力开发或者引进人工…

Python 分析《爱情公寓》电影,让我十年情怀一瞬间都喂了狗

深陷抄袭之名、诉讼纠纷的《爱情公寓》终于上映了。情怀粉们的力量不容小觑,截止到8月12,《爱情公寓》票房已经突破3.72亿大关,稳坐票房冠军的宝座,院线排片占比高达40.0%。和超高票房背道而驰的,是各大社交平台上一边…

银行背景下分库分表技术选型

业务持续增长带来的单表数据量过大,必然影响到数据库的读写性能,那到底要不要分库分表呢?阿里巴巴P3C规范给出一个推荐:【推荐】单表行数超过500万行或者单表容量超过2GB,才推荐进行分库分表。说明:如果预计…

单片机矩阵消抖延时c语言,单片机矩阵按键定时器消抖程序源码

芯片是采用的stc89c51单片机.下面是矩阵键盘的电路图,矩阵键盘是接在p2口的.下面是单片机部分的图,数码管显示等完整的原理图可以从http://www.51hei.com/f/ks51.pdf 这里下载本文引用地址:http://www.eepw.com.cn/article/201612/324612.htm下面是程序源…

资料分享 | R语言资料分享来袭

小编从大学开始,便开启资料收集功能。R作为一种统计分析软件,广泛应用于生物、医学、电商、新闻等数据相关行业,并已成为主流数据应用软件之一,经过近几年的积累和沉淀,再加上日常的深入研究,小编收集整理了…

google code for xbmc addons2

2019独角兽企业重金招聘Python工程师标准>>> http://code.google.com/p/xbmc-skin-convergence/downloads/list 转载于:https://my.oschina.net/u/174445/blog/33955

我们需要什么样的开源教育?

点击上方“开源社”关注我们| 作者:庄表伟| 编辑:沈于蓝| 设计:宋传琪‍文章缘起‍写这篇文章的原因,是和几个朋友的闲聊。再之前,是因为看到了几篇文章2020-12-18 《欢迎加入!开放原子大学首批开源讲师认证…

谷歌十年,我的认知被彻底颠覆

这个问题是提给自己的,算是对我 Google 十年的一个小结。强调“不装逼”,主要是提醒自己不要陷入下列俗套:离职后靠黑前雇主、八卦前雇主、揭秘前雇主搏出位(这条是恶行)满足大众猎奇心理吹嘘自己,贬低他人…