在文章开始前,先来一张图给大家热热身。这里是宅男们最喜欢的妹子中排名前200位的头像(实际193张图,部分不规则的图已被二胖过滤)。排名不分先后哈!快来看看有没有你们熟悉的面孔。
找到眼熟的人了吗?说不定你也在里面哦,找到了别忘记点赞哈,文末有福利!!!
二胖相信大家最关心以下两点:
1. 除了照片外还有什么信息?
——那必须呀,肯定还有干货。
2. 这些漂亮美眉是怎样被找出来的呢?
——二胖马上就给大家解答。
挖取策略
PS:不关心技术和流程的童鞋可以直接跳过这部分看后面的数据分析部分
首先给大家解释下,二胖是怎么找到这些漂亮美眉的。
先用一张流程图介绍一下整个流程:[左边的方框代表操作,右边的椭圆代表数据]
第一步
人工选择的初始群体很关键,但是并不难。
可以从关注某些问题的相关用户中抓取目标人群,如问题:女生腿长是什么感觉?或者抓取这些问题下活跃男性用户关注或点赞的女性。
二胖这里选择了部分问题和部分男性的关注动态和点赞动态,筛选出了第一批女性群体,也就是上图中的初始美眉群体(具体选择了哪些问题和男性用户二胖就不在这里公布了)。
她们由于某种特殊的关联或者用户行为被聚类在了一起,我们可以简称她们为相似性用户。这里二胖找到了2553人作为初始群体,下图为读取的redis中的记录数。
第二步
下面需要抓取所有美眉的男性粉丝的关注关系。
请注意:这里为什么要抓取关注关系,而不是男性粉丝的集合呢?——因为我们要找到“最佳宅男”。
举个例子:假设初始美眉群体有三个用户:小美、中美和大美,关注关系如下所示:
男性粉丝的集合是:{1,2,3,4,5}
而关注关系指的是:有几条线就有几个关注关系,这里有9个关注关系。
在这一步中,二胖共抓取了219165条关注关系。
第三步
下面需要找出上一步中关注初始女性群体中人数最多的男性粉丝。
这里很容易理解,比如在大美中美小美那张图里,关注初始女性群体人数最多的男性分别是3>2>=4>1>=5,“最佳宅男”就是3啦。
对上一步中的数据进行排序后,共计男性粉丝人数105379人。
二胖在这里截取了前2106名男性作为“宅男”群体。
悄悄给大家看看排行前10的“宅男们”,“宅男”第一名关注了2000多位初始女性美眉中的858人,快一半了,我只想说,老司机带带我。
当然,二胖肯定不能公布他们的信息啦。【下图中打码的部分是他们的url_token,即唯一身份标识;后面的数字是他们所关注的初始美眉群体中的美眉数量】
我只能说,排第一的哥们儿,你吓到我了,赔钱。
第四步
有了这2000多个“宅男”就好办了,接下来的步骤和上面类似。抓取这些“宅男”关注的女性用户,同样按关注关系排序,得到前2000名最受欢迎的美眉:
其中女性关注关系有:344849条。
女性用户集合中有:66869人。
同样,悄悄给大家看看排行前十的美眉被多少宅男关注了,二胖已经悄悄地看了这些美眉们的主页,确实很漂亮,她们的回答中也有特别多的照片