用python挖一挖知乎上宅男们最喜欢的1000个妹子

640?wx_fmt=gif


在文章开始前,先来一张图给大家热热身。这里是宅男们最喜欢的妹子中排名前200位的头像(实际193张图,部分不规则的图已被二胖过滤)。排名不分先后哈!快来看看有没有你们熟悉的面孔。

640?wx_fmt=jpeg

找到眼熟的人了吗?说不定你也在里面哦,找到了别忘记点赞哈,文末有福利!!!

二胖相信大家最关心以下两点:

1. 除了照片外还有什么信息?

——那必须呀,肯定还有干货。

2. 这些漂亮美眉是怎样被找出来的呢?

——二胖马上就给大家解答。


01

挖取策略

PS:不关心技术和流程的童鞋可以直接跳过这部分看后面的数据分析部分

首先给大家解释下,二胖是怎么找到这些漂亮美眉的。

先用一张流程图介绍一下整个流程:[左边的方框代表操作,右边的椭圆代表数据]

640?wx_fmt=jpeg


第一步

人工选择的初始群体很关键,但是并不难。

可以从关注某些问题的相关用户中抓取目标人群,如问题:女生腿长是什么感觉?或者抓取这些问题下活跃男性用户关注或点赞的女性。

二胖这里选择了部分问题和部分男性的关注动态和点赞动态,筛选出了第一批女性群体,也就是上图中的初始美眉群体(具体选择了哪些问题和男性用户二胖就不在这里公布了)。

她们由于某种特殊的关联或者用户行为被聚类在了一起,我们可以简称她们为相似性用户。这里二胖找到了2553人作为初始群体,下图为读取的redis中的记录数。

640?wx_fmt=jpeg

第二步

下面需要抓取所有美眉的男性粉丝的关注关系。

请注意:这里为什么要抓取关注关系,而不是男性粉丝的集合呢?——因为我们要找到“最佳宅男”。

举个例子:假设初始美眉群体有三个用户:小美、中美和大美,关注关系如下所示:

640?wx_fmt=jpeg

男性粉丝的集合是:{1,2,3,4,5}

而关注关系指的是:有几条线就有几个关注关系,这里有9个关注关系。

在这一步中,二胖共抓取了219165条关注关系。

640?wx_fmt=jpeg

第三步

下面需要找出上一步中关注初始女性群体中人数最多的男性粉丝。

这里很容易理解,比如在大美中美小美那张图里,关注初始女性群体人数最多的男性分别是3>2>=4>1>=5,“最佳宅男”就是3啦。

对上一步中的数据进行排序后,共计男性粉丝人数105379人。

640?wx_fmt=jpeg

二胖在这里截取了前2106名男性作为“宅男”群体。

悄悄给大家看看排行前10的“宅男们”,“宅男”第一名关注了2000多位初始女性美眉中的858人,快一半了,我只想说,老司机带带我。

当然,二胖肯定不能公布他们的信息啦。【下图中打码的部分是他们的url_token,即唯一身份标识;后面的数字是他们所关注的初始美眉群体中的美眉数量】

我只能说,排第一的哥们儿,你吓到我了,赔钱。

640?wx_fmt=jpeg

第四步

有了这2000多个“宅男”就好办了,接下来的步骤和上面类似。抓取这些“宅男”关注的女性用户,同样按关注关系排序,得到前2000名最受欢迎的美眉:

其中女性关注关系有:344849条。

女性用户集合中有:66869人。

640?wx_fmt=jpeg

同样,悄悄给大家看看排行前十的美眉被多少宅男关注了,二胖已经悄悄地看了这些美眉们的主页,确实很漂亮,她们的回答中也有特别多的照片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/303291.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在 .NET 6 Preview 3 ASP.NET Core 更新

.NET 6 Preview 3现在可用了,其中包括对ASP.NET Core的许多重大改进。这是此预览版本中的新增功能:更小的SignalR,Blazor Server和MessagePack scripts启用 Redis 分析会话HTTP/3 endpoint TLS配置初版的 .NET Hot Reload 支持Razor编译器不再…

matlab求滤波器的冲激响应,在TMS320C5410上用MATLAB实现有限冲激响应滤波器

在TMS320C5410上用MATLAB实现有限冲激响应滤波器许辉;许红【期刊名称】《计算机应用与软件》【年(卷),期】2003(020)007【摘要】介绍在TMS320C5410上尝试MATLAB语言编程实现FIR数字滤波器的方案,阐明其开发基本原理,并给出了具体程序实例.【总页数】3页(41-42,79)【关键词】数字…

单点登录在项目中的实现 转.

最近在做一个登录功能,纠结了好几天,一直在找一个能优雅的实现单点登录的功能。博客园有看到某人写了又臭又长的八股文式的文章,没看到有价值的东西。 其实单点登录最终要解决的是多个不同域名间共享cookie的问题。但是要在不同域名间共享coo…

趣图:程序员桌面对比,iOS vs 安卓

程序员桌面对比,iOS vs 安卓↓↓↓数据与算法之美用数据解决不可能长按扫码关注

如何在 ASP.Net Core 中使用 HTTP.sys WebServer ?

ASP.Net Core 是一个开源的,跨平台的,轻量级模块化框架,可用它来构建高性能的Web程序,大家都知道 Kestrel 是 ASP.Net Core 内置的跨平台web服务器,但是它有一定的局限性,比如不支持 端口共享 , WebSockets…

php图片上传 thinkphp5,thinkphp5图片上传接口

public function avatarUpload(){$file request()->file(‘file‘);$filePath ‘avatar‘;$width 200;$height 200;if($file){$filePaths ROOT_PATH . ‘public‘ . DS . ‘uploads‘ . DS .$filePath;if(!file_exists($filePaths)){mkdir($filePaths,0777,true);}$inf…

百度移动联盟(munion)-广告平台投放流程详细介绍 (绿色通道)

1. 百度平台官网介绍: http://hi.baidu.com/mobads/blog/ ... 1c7fc3bc3e1e2e.html2. AdView 官网介绍: 为开发者提供“AdView-百度” 绿色通道审核;提供除百度分成外额外AdView渠道分成;赚取更多,更稳定的广告费用&a…

linux命令查询邮件发送状态,Linux发邮件之mail命令详解

一、mail命令1.配置vim /etc/mail.rc文件尾增加以下内容set from1968089885qq.com smtp"smtp.qq.com"set smtp-auth-user"1968089885qq.com" smtp-auth-password"123456"set smtp-authlogin说明:from: 对方收到邮件时显示的发件人smt…

从一个骗局谈生活中的基础算法

曾经有一个著名的骗局:小明是一个赌马爱好者,最近他连续几次提前收到了预测赌马结果的邮件,从一开始由于不屑而错失良机,到渐渐深信不疑,直到最后给邮件发送方汇了巨款才发现上当。看过这个的人应该知道,骗…

用得最多的冒泡排序是不是少了个关键点?

前言冒泡排序应该是很多小伙伴的最爱,简单、直接、好理解;回顾以往参与和阅读的项目,凡是牵涉自定义排序的算法,很大一部分都在用冒泡,其中很多都忽略了一个关键点;来,咱们细细品…正文1. 冒泡排…

【POJ】【最小生成树】1789 Truck History

1 思路 题目链接。最小生成树&#xff08;MST&#xff09;问题。 2 代码 代码来自宇宙吾心博客。 #include <iostream> #include <limits> #include <cstring> using namespace std; const int N2001;char c[N][8]; // 保存字符串 int …

linux怎么搜索特定文件夹,linux如何在特定文件夹中查找特定文件

user188095724linuxfind这是我的文件夹结构:/site1/myFolder/otherFolder1/a.gif/site1/myFolder/otherFolder1/b.png/site1/myFolder/otherFolder1/c.php.../site2/myFolder/otherFolder2/d.gif/site2/myFolder/otherFolder2/e.png/site2/myFolder/otherFolder2/f.php.../site…

荐书 | 攻克世纪难题,拒绝领取菲尔兹奖的孤独数学天才的一生

今天小木给大家介绍五本数学科普文&#xff0c;了解了一些数学家研究数学、证明猜想的经历&#xff0c;他们的专研精神简直让小木五体投地&#xff01;这也验证了一句经典名言“念念不忘&#xff0c;必有回响”。希望我们都能把时间奉献给自己喜欢的事情上。下面&#xff0c;让…

C# 搭建自己的NuGet服务器,上传自定义NuGet包

第一步搭建NuGet服务器创建空Web项目安装Nuget服务&#xff0c;目前最新版本2.8.2安装完成&#xff0c;会自动生产服务&#xff0c;出现如下界面发布该网站&#xff0c;并部署至IIS将.nupkg文件发布至网站的Packages目录。在VS中修改NuGet引用路径注意把自定NuGet放在首位&…

在不同的ObjectContext中更新数据

第一个using中获取一些数据 User u; using (var db new Entities()) {u db.Users.First(); } 在using外改变 u.NickName "ABC"; 在第二个using中把改变更新到库 using (var db new Entities()) { …… db.SaveChanges(); } 在网上看了一些使用ApplyPropertyC…

5分钟理解一致性哈希算法

来自&#xff1a;cywosp链接&#xff1a;https://blog.csdn.net/cywosp/article/details/23397179一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希&#xff08;DHT&#xff09;实现算法&#xff0c;设计目标是为了解决因特网中的热点(Hot spot)问题&#xff0c;初衷…

linux 取消证书登录密码,SUSELinux 中为 SSH 访问设置不输入密码的证书认证登录方式...

SSH Client &#xff1a;linux-gxntSSH Server &#xff1a;xxzx-rdb目的&#xff1a; linux-gxnt 上的 nagios 用户以相同的用户(nagios)SSH 登录xxzx-rdb &#xff0c;不用输入密码。1.在 SSH Client 和 Server 上使用 yast 创建 nagios 用户和nagios 组&#xff0c;nagios 用…

Blazor 初探

Blazor 初探目录一、新建项目二、ASP.NET Core Blazor 项目结构三、结合代码讲解四、改造五、配置文件的使用六、发布到 Linux&#xff08;CentOS&#xff09;题外话&#xff0c;期间遇到个问题反向代理七、地址独立观察员 2021 年 4 月 11 日上个月发了篇文章《Blazor 中如何下…

Relaltek声卡在UBUNTU下没有声音的解决方法。

为什么80%的码农都做不了架构师&#xff1f;>>> The computer has an HDA Intel chip (Realtek ALC887) and I couldnt open alsamixer (this error was displayed: "load hw:0 error: Invalid argument"), although the sound seemed to be working in …

.Net项目模板进阶

友情提示&#xff1a;这篇有点长&#xff0c;有点绕&#xff0c;加油&#xff01;上一篇文章&#xff0c;简单的说明了一下.net项目模板的创建&#xff0c;主要是通过在项目文件*.csproj同目录下添加.template.config文件夹和里面的template.json&#xff0c;再用dotnet new -i…