就国内某个程序员问答网站的简单的分析

为什么80%的码农都做不了架构师?>>>   hot3.png


一、数据抓取

  • 分析页面数据,设计数据表结构

    数据只要包含投票、回答数、问题状态、最后谁回答过、浏览数、问题标题、标签,数据样例如下:

    110109_YbUn_583625.jpg

  • 由于一开只打算爬问题标题,问题ID、问题详情也没有记录下来,最后谁回答过也不算很重要。

  • 最后使用python的urllib2抓取数据,BeautifulSoup对数据进行数据解析,mysql存取数据

  • 写好代码就开始跑,由于页面没有限制,几分钟就全部抓完,或许是问题比较少,2011至今总有3.8W问题,这个还是有点失望的。


二、数据分析

  数据只有那么几项,到底能分析出什么呢?

  Excel作图,下表为数据说明:

变量answersviewsquestion_countsolvedvotes
含义回答数浏览量问题数量解决投票量

1.问题投票分布

161124_go6G_583625.png

   不出意外的正太分布,似乎程序猿并不喜欢对问题进行投票,除非遇到自己特别认可或者特别厌恶的。比起stackoverflow上的情况似乎是要差点。

2.问题回答数量分布

161124_GwKh_583625.png

     从上图看以看出,回答数量集中在0-3个;而0-3个占总量的70%+。

3.问题浏览分布

161125_neNE_583625.png

    比较神奇的是0-1000浏览量的问题数非常少,问题的排列使用的是:提问时间+最后有人回答过(贴吧式),这样做,只要有人回答问题沉下去就会继续顶起来。那么部分经典问题就会不断被浏览到;而有少数问题质量比较差,马上就会沉下去,如图中X轴200左右处。比较好奇的是:从整体上看,0-1000内浏览量的问题数相当少,1000左右处出现一个陡坡。

4.回答数量与浏览数量关系

161125_zv1g_583625.png

    首先需要说明的是上图X轴每个点样例数不一样(不同回答数的问题数量不一样),Y轴为平均views数;从图中看出回答数量和浏览量整体是成正比(X>5的样例比较少

5.问题解决情况

161125_FLup_583625.jpg

6.大家都在关注什么

161311_lIwz_583625.jpg

最后使用jieba分词对问题进行简单的分析,上面标签云为部分英文单词,并不区分大小。发现一个结论是英文中PHP词频排第一。  额,好吧,我叶良辰也是服了。


三、最后

根据已有的数据,还可以挖掘一些数据,诸如:

什么样的问题容易有更多人回答?

你编程入门时候学的语言是什么?
求助大神帮忙推荐一款适合前端小白的编辑器?
【官方比赛】社区 1111 秀代码,让你来秀让你飞!
大家第一个阅读的开源代码是什么?
你最喜欢的开发工具是什么?
求推荐PHP框架,本人有一定PHP基础。
理解能力差、数学很差的人可以做程序员吗
百度面试题-汽水选择问题
说说你觉得最狂霸酷炫屌炸天的命令
程序员高强度编程后如何放松?

什么的问题容易被人厌恶?

如何根据一段 md5 得到原始的内容? 已关闭
使用贵公司的CDN服务,源网站需要改造吗? 已关闭
html5为什么不兼容低版本的浏览器?
对正则一直不想去背,请问php的@某人该怎么写 已关闭
基于0和1的时代什么时候能成为过去 已关闭
一家互联网公司的面试题,期待高手给出较据参考价值的分析
JavaScript 入门哪本书最好?
jQuery 怎么发送异步请求
谁能在50字以内解释下什么是大数据??谢谢
钩子的实现
html经常使用那些标签
有没有山东烟台可以做网站的小伙伴,求一起做个东西。 已关闭
PHP表单提交到数据库并查询 插入出错,
各位大牛,新手遇到个问题怎么解决啊

等等,不过还是想再吐槽一次,问题总数量实在太少了。

最后的最后,提一下我发现的一个BUG,就有几个问题的回答数量为0,但问题已经解决,我试点开某个BUG问题看看情况,结果如下:

115921_C4Rt_583625.jpg

逗我玩呢?!


转载于:https://my.oschina.net/toil/blog/521507

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/544030.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

树的结构 数据结构_段树| 数据结构

树的结构 数据结构What is a segment tree? 什么是段树? A segment tree is a full binary tree where each node represents an interval. A node may store one or more data members of an interval which can be queried later. 段树是完整的二叉树&#xff0…

iOS开发中 常用枚举和常用的一些运算符(易错总结)

1、色值的随机值:#define kColorValue arc4random_uniform(256)/255.0 // arc4random_uniform(256)/255.0; 求出0.0~1.0之间的数字view.backgroundColor [UIColor colorWithRed:kColorValue green: kColorValue blue: kColorValue alpha: 0.5]; 2、定时器的使用&…

明明加了唯一索引,为什么还是产生重复数据?

前段时间我踩过一个坑:在mysql8的一张innodb引擎的表中,加了唯一索引,但最后发现数据竟然还是重复了。到底怎么回事呢?本文通过一次踩坑经历,聊聊唯一索引,一些有意思的知识点。1.还原问题现场前段时间&…

python字符串 切片_用于切片字符串的Python程序

python字符串 切片Given a string and number of characters (N), we have to slice and print the starting N characters from the given string using python program. 给定一个字符串和字符数( N ),我们必须使用python程序从给定的字符串中切片并打印开始的N个字…

nmap入门之主机发现

2019独角兽企业重金招聘Python工程师标准>>> #主机发现(HOST DISCOVERY) ##仅列出IP,不扫描 nmap -sL 192.168.70.0/24 > nmap_result.txt 2>&1##仅ping扫描,不扫描端口 nmap -sn 192.168.70.0/24##不ping扫…

面试官:为什么ConcurrentHashMap要放弃分段锁?

今天我们来讨论一下一个比较经典的面试题就是 ConcurrentHashMap 为什么放弃使用了分段锁,这个面试题阿粉相信很多人肯定觉得有点头疼,因为很少有人在开发中去研究这块的内容,今天阿粉就来给大家讲一下这个 ConcurrentHashMap 为什么在 JDK8 …

ruby .each_Ruby中带有示例的Array.each方法

ruby .eachRuby Array.each方法 (Ruby Array.each method) Array.each method can be easily termed as a method which helps you to iterate over the Array. This method first processes the first element then goes on the second and the process keeps on going on unt…

面试突击72:输入URL之后会执行什么流程?

作者 | 磊哥来源 | Java面试真题解析(ID:aimianshi666)转载请联系授权(微信ID:GG_Stone)在浏览器中输入 URL 之后,它会执行以下几个流程:执行 DNS 域名解析;封装 HTTP 请…

二层交换网络_网络中的第2层交换

二层交换网络二层交换简介 (Introduction to Layer 2 Switching) As you know hubs are not intelligent devices. Whenever a hub receives a frame, it broadcasts the frame in all ports. Also, the hub represents a single collision domain i.e. when any 2 hosts send …

最小化托盘示例工程

http://files.cnblogs.com/files/kekec2/BuyTicket.rar.gif转载于:https://www.cnblogs.com/kekec2/p/4914572.html

面试必备:TCP 经典 15 连问!

TCP协议是大厂面试必问的知识点。整理了15道非常经典的TCP面试题,希望大家都找到理想的offer呀1. 讲下TCP三次握手流程开始客户端和服务器都处于CLOSED状态,然后服务端开始监听某个端口,进入LISTEN状态第一次握手(SYN1, seqx),发…

range函数python_range()函数以及Python中的示例

range函数pythonPython range()函数 (Python range() function) The range() is a built-in function in Python which returns the sequence of values. It is used where we need to perform a specific action for a limited number of times. In general, if we write rang…

ISP QoS Lab

ISP QoS Lab1-PQ优先级队列(PQ,Priority Queue)中,有高、中、普通、低优先级四个队列。数据包根据事先的定义放在不同的队列中,路由器按照高、中、普通、低顺序服务,只有高优先级的队列为空后才为中优先级的…

面渣逆袭:JVM经典五十问,这下面试稳了!

引言1.什么是JVM?JVM——Java虚拟机,它是Java实现平台无关性的基石。Java程序运行的时候,编译器将Java文件编译成平台无关的Java字节码文件(.class),接下来对应平台JVM对字节码文件进行解释,翻译成对应平台匹配的机器…

操作系统大内核和微内核_操作系统中的内核类型

操作系统大内核和微内核As we have already studied about the Kernels, we know that the Kernel is a program which is the main component of the Operating System. Now let us study about the types of Kernels. 正如我们已经研究了内核一样 ,我们知道内核是…

POJ 3268:Silver Cow Party 求单点的来回最短路径

Silver Cow PartyTime Limit: 2000MS Memory Limit: 65536KTotal Submissions: 15989 Accepted: 7303Description One cow from each of N farms (1 ≤ N ≤ 1000) conveniently numbered 1..N is going to attend the big cow party to be held at farm #X (1 ≤ X ≤ N). A t…

【论文解读】Learning based fast H.264 to H.265 transcoding

时间: 2015 年 级别:APSIPA 机构: 上海电力大学 摘要 新提出的视频编码标准HEVC (High Efficiency video coding)以其比H.264/AVC更好的编码效率,被工业界和学术界广泛接受和采用。在HEVC实现了约40%的编码效率提升的同时&#…

面试必备:聊聊sql优化的15个小技巧

sql优化是一个大家都比较关注的热门话题,无论你在面试,还是工作中,都很有可能会遇到。如果某天你负责的某个线上接口,出现了性能问题,需要做优化。那么你首先想到的很有可能是优化sql语句,因为它的改造成本…

Scala程序将字符串转换为整数

In Scala, there is a huge library to support different operations on a string. One such operation is to convert string to int in Scala. 在Scala中,有一个庞大的库来支持对字符串的不同操作。 一种这样的操作是在Scala中将字符串转换为int。 A string can…

面试突击73:IoC 和 DI 有什么区别?

作者 | 磊哥来源 | Java面试真题解析(ID:aimianshi666)转载请联系授权(微信ID:GG_Stone)IoC 和 DI 都是 Spring 框架中的重要概念,就像玫瑰花与爱情一样,IoC 和 DI 通常情况下也是成…