python爬去朋友圈_利用Python爬取朋友圈数据,爬到你开始怀疑人生

人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子。

文:朱元禄(@数据分析-jacky)

哲学的两大问题:1、我是谁?2、我们从哪里来?

本文 jacky试图用Python,数据化、聚类化我们的人格标签,试图回答"我是谁?"这个哲学问题。

(一)确定数据源

自我认知,很难,必须它证。

物以类聚,人以群分。每个人的社交圈,家庭圈,朋友圈的属性,基本我们人格的特征属性。我们所处的阶级,在别人眼中的印象,在我们的朋友圈中都会得到印证。

朋友圈数据中最具人格属性的因素是个性签名,那么下面我们就把所有好友的个性签名作为我们的研究对象,以此出发爬取数据。

(二) 使用Python的itchat 包对好友的个性签名数据进行分析

这里我们用到Python一个比较冷门的库——itchat,它很好的兼容了wechat个人账号的API接口,让我们能更加便捷的爬取wechat数据,itchat的功能很强大,这里我们仅用它爬取wechat中我们每个好友的个性签名。

之后,我们要分析出自定义词云图中个性签名使用的高频词语是什么。

最后,生成可视化词云图,直观的给出洞察结果。

源代码如下:

# coding:utf-8

import itchat

import re

itchat.login()

friends = itchat.get_friends(update=True)[0:]

tList = []

for i in friends:

signature = i["Signature"].replace(" ", "").replace("span", "").replace("class", "").replace("emoji", "")

rep = re.compile("1f\d.+")

signature = rep.sub("", signature)

tList.append(signature)

# 拼接字符串

text = "".join(tList)

# jieba分词

import jieba

wordlist_jieba = jieba.cut(text, cut_all=True)

wl_space_split = " ".join(wordlist_jieba)

# wordcloud词云

import matplotlib.pyplot as plt

from wordcloud import WordCloud, ImageColorGenerator

import os import numpy as np

import PIL.Image as Image

d= os.path.dirname(os.path.abspath( __file__ ))

alice_coloring = np.array(Image.open(os.path.join(d, "wechat.jpg")))

my_wordcloud = WordCloud(background_color="white", max_words=2000,mask=alice_coloring,max_font_size=400, random_state=420,font_path='/Users/sebastian/Library/Fonts/Arial Unicode.ttf').generate(wl_space_split)

image_colors = ImageColorGenerator(alice_coloring)

plt.imshow(my_wordcloud.recolor(color_func=image_colors))

plt.imshow(my_wordcloud)

plt.axis("off")

plt.show()

下面对于代码的解析,仅跟初学 Python的朋友提示三点:

1)代码第24行,其他网络版本的代码为d= os.path.dirname(__file__),最好换成jacky这个版本的:

d=os.path.dirname(os.path.abspath(__file__)),具体原因jacky就不做过多解释了;

2)代码第25行,一定要提前在环境路径下创建wechat.jpg的图片,这样云图才能顺利生成,并生成你希望的形状。

3)提前在终端安装jieba,matplotlib,wordcloud,numpy包

注意以上三点,想不运行成功都难。

运行上面的代码,得到下面的云图:

(三)数据洞察

以jacky的朋友圈为例,在云图中,我们可以看见,高频词有:自己,创始人,电商,成功,努力,营销,互联网,数据,梦想,生活,咨询,我们,未来。

其实,这些词jacky还可以继续用机器学习算法搞一下,但到这就浅尝则止吧。

从这些具体的信息中,可以抽象出我的个人人格标签,具体解析:

自己,我们:说明我很自我,很自大,很自以为是;

努力,未来,梦想:说明我想通过努力来实现自己的价值;

创始人:说明我的社交圈还OK;

互联网,数据:说明我的能力属性;

营销,咨询:说明了我赖以生存的饭碗;

代理:这... ... 不好说了... ...

End

转载请注明出处

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

正面交锋!另类“竞赛”探索大脑的意识起源

图片来源:ZEPHYR/SCIENCE PHOTO LIBRARY/GETTY IMAGES来源:中国生物技术网在脑科学研究领域,科学家们可以观察到神经元的放电及其之间的通信,从而描绘出在产生感觉、进行决策和说话过程中大脑各区域是如何被“点亮”的。但他们无法…

(第七周)内容汇总

项目名:食物链教学工具 组名:奋斗吧兄弟 组长:黄兴 组员:谢孝淼、李俞寰、杜桥 1、团队贡献分 黄兴 5.1 谢孝淼 4.8 李俞寰 5.2 杜桥 4.9 2、alpha视频发布 平台:优酷 链接:http://v.youku.com/v_show/i…

tomcat java内存_[Tomcat]Java内存溢出详解Tomcat内存设置

Java内存溢出详解一、常见的Java内存溢出有以下三种:1.java.lang.OutOfMemoryError: Java heap space ----JVM Heap(堆)溢出JVM在启动的时候会自动设置JVM Heap的值,其初始空间(即-Xms)是物理内存的1/64,最大空间(-Xmx)不可超过物理内存。可以…

python与办公自动化专业就业方向_Python最好的几大就业方向与岗位技能要求【行业风向】...

关于Python的就业方向,如果你还在学习还没开始找工作,这篇文章绝对会对你有所帮助。目前信息化产业发展势头很好,互联网就成为了很多普通人想要涉及的行业,因为相比于传统行业,互联网行业涨薪幅度大,机会也…

深入探索边缘计算:物联网与5G时代的技术趋势

来源:世界物联网博览会边缘计算的诞生随着物联网规模的快速增长,集中式的数据存储、处理模式将面临难解的瓶颈和压力,此时在靠近数据产生的网络边缘提供数据处理的能力和服务,将是推动ICT产业发展的下一个重要驱动力。边缘计算&am…

BAPI_GOODSMVT_CREATE 移动类型311 CODE = '04' 代码

DATA: MAT_DOC LIKE BAPI2017_GM_HEAD_RET-MAT_DOC. "物料凭证编号 DATA: GMHEAD LIKE BAPI2017_GM_HEAD_01. DATA: BEGIN OF GMCODE. INCLUDE STRUCTURE BAPI2017_GM_CODE. DATA: END OF GMCODE. GMCODE-GM_CODE 04. ***********gmcode-gm_…

python交叉验证函数_python – 在sklearn中使用交叉验证和AUC-ROC作为逻辑回归模型...

我正在使用sklearn包来构建逻辑回归模型,然后对其进行评估.具体来说,我想使用交叉验证,但无法通过cross_val_score函数找出正确的方法.根据我看到的documentation和examples,我需要传递模型,特征,结果和评分方法的功能.然而,AUC不需要预测,它需要概率,因此它可以尝试不同的阈值…

无法消除恐惧?Nature发现肠道菌与大脑间更多的神秘联系...

来源:中国生物技术网肠道,也被称为“第二大脑”。研究人员对它研究得越多,就发现肠道微生物与大脑之间的联系越多。肠道细菌似乎会影响从抑郁症到自闭症的所有疾病。近日发表在《Nature》上一项有关小鼠如何克服恐惧的研究开始揭示出更多关于…

java poi excel 导入数据库_java POI 处理excel表格数据并导入数据库示例

java操作Excel最常用的开源组件有poi与jxl。jxl是韩国人开发的,发行较早,但是更新的很慢,目前似乎还不支持excel2007。 poi是apache下的一个子项目,poi应该是处理ms的office系列文档最好的组件了。poi3.7版本已经开始支持excel200…

Fly.Box天禾云盘2016双11超级钜惠,超低折扣!!!

Fly.Box企业网盘2016双十一超级钜惠,超低折扣,超多优惠 凡在2016年11月1日至2016年11月11日期间下单的客户,均可享受5折优惠,终身免费升级,免费服务。推荐即可获2折返现,老用户推荐更可享受8折的折上折优惠…

python组合数据类型实验_实验七 组合数据类型

安徽工程大学Python程序设计实验报告班级物流192 姓名 徐敏 学号 3190505232 成绩 _____日期 2020.5.28 指导老师 修宇实验七 组合数据类型【实验目的】熟悉通过序列索引迭代执行循环;掌握元组、列表与字典的系列操作函数及相关方法【实验条件】PC机或者远程编程…

wcf获取MySQL中午乱码,如何启用WCF日志记录,以便它写入数据库?

Id like to be able to log message information in a database, and Im trying to decide how best to do that. Is it possible to configure the WCF logging mechanisms to write to a database instead of a file? Thanks.解决方案You need to have two things:a proper …

mysql的limit、order by和group by的用法

程序执行会重复 用mysql很长时间,limit是分页的一个好工具, select * from table_a where num 4 limit 1,10, select * from table_a where num 4 limit 10,10, 今天突然发现有些数据怎么也不会出来 也就是说第一页的数据会重复…

挑战61年未被质疑的经典心理学理论—— 大脑识别图像并非“趣味导向”

来源:科技日报科技日报讯 (实习生张临谦 记者房琳琳)据物理学家组织网最新报道,加拿大约克大学的视觉研究者近日对多种视觉图像处理算法进行了测试,并经特定实验发现,人脑并不会优先处理图像中的有趣区域&a…

销售管理系统 java_用Java从零写一个B2C商城,看完不要再说自己没有实战经验了!...

一、B2C商城实战需要哪些技术点要想立足于互联网公司,且能在互联网浪潮中不被淹没,对于项目的开发实战演练是不必可少的技能,也是对自身能力的一个衡量,有多少的量对等于获得多少的回报。看似简单的一个项目需求图谱,其…

行业|又一家明星机器人公司倒掉:曾是全球机器人技术50强,主打性价比AI机械臂...

来源:机器人大讲堂 又一家曾经光芒四射的机器人公司,倒闭了。成立于2014年,仅2年就入选《机器人商业评论》年度权威榜单RBR50 2016,成为机器人技术的全球50强。当时一同上榜的多是巨头,有ABB、发那科、大疆&#xff0c…

java生成flash_针对 Flash 开发者的最新 Capuchin 计划资源

开发者世界 Capuchin 计划站点在经过改版后,拥有任何Flash™ 开发者所需要的一切,现在无需了解Java™ ME,就能构建引人入胜的 Capuchin 计划应用程序。在你能找到由 Capuchin 计划工具包支持的最新索尼爱立信 Service MXPs,以及针对 Flash 开发者的两份最…

js实现svg图形转存为图片下载

我们知道canvas画布可以很方便的js原生支持转为图片格式并下载,但是svg矢量图形则并没有这方面原生的支持。研究过HighChart的svg图形的图片下载机制,其实现原理大体是浏览器端收集SVG代码信息,并发送到到服务器端,由后端程序转换…

视图插入数据_用EXCEL作数据分析--招聘信息

前提数据分析职位在哪些城市最多?数据分析师的工资水平怎么样?做数据分析师对学历专业要求怎么样?一、字段信息城市职位名称职位类型公司名称公司规模学历要求所属领域薪资工作年限要求数据预览二、数据清洗首先插入表格,这样后续…

从全球最赚钱的20家公司,我们可以发现什么?

来源:资本实验室在商业的版图中,更少的公司贡献着更多的利润,这已经是一个不争的事实。而在目前,这种现象正在加剧:更多的利润越来越向更少的公司集中。例如,在1975年,美国上市公司共4819家&…