就国内某个程序员问答网站的简单的分析

为什么80%的码农都做不了架构师?>>>   hot3.png


一、数据抓取

  • 分析页面数据,设计数据表结构

    数据只要包含投票、回答数、问题状态、最后谁回答过、浏览数、问题标题、标签,数据样例如下:

    110109_YbUn_583625.jpg

  • 由于一开只打算爬问题标题,问题ID、问题详情也没有记录下来,最后谁回答过也不算很重要。

  • 最后使用python的urllib2抓取数据,BeautifulSoup对数据进行数据解析,mysql存取数据

  • 写好代码就开始跑,由于页面没有限制,几分钟就全部抓完,或许是问题比较少,2011至今总有3.8W问题,这个还是有点失望的。


二、数据分析

  数据只有那么几项,到底能分析出什么呢?

  Excel作图,下表为数据说明:

变量answersviewsquestion_countsolvedvotes
含义回答数浏览量问题数量解决投票量

1.问题投票分布

161124_go6G_583625.png

   不出意外的正太分布,似乎程序猿并不喜欢对问题进行投票,除非遇到自己特别认可或者特别厌恶的。比起stackoverflow上的情况似乎是要差点。

2.问题回答数量分布

161124_GwKh_583625.png

     从上图看以看出,回答数量集中在0-3个;而0-3个占总量的70%+。

3.问题浏览分布

161125_neNE_583625.png

    比较神奇的是0-1000浏览量的问题数非常少,问题的排列使用的是:提问时间+最后有人回答过(贴吧式),这样做,只要有人回答问题沉下去就会继续顶起来。那么部分经典问题就会不断被浏览到;而有少数问题质量比较差,马上就会沉下去,如图中X轴200左右处。比较好奇的是:从整体上看,0-1000内浏览量的问题数相当少,1000左右处出现一个陡坡。

4.回答数量与浏览数量关系

161125_zv1g_583625.png

    首先需要说明的是上图X轴每个点样例数不一样(不同回答数的问题数量不一样),Y轴为平均views数;从图中看出回答数量和浏览量整体是成正比(X>5的样例比较少

5.问题解决情况

161125_FLup_583625.jpg

6.大家都在关注什么

161311_lIwz_583625.jpg

最后使用jieba分词对问题进行简单的分析,上面标签云为部分英文单词,并不区分大小。发现一个结论是英文中PHP词频排第一。  额,好吧,我叶良辰也是服了。


三、最后

根据已有的数据,还可以挖掘一些数据,诸如:

什么样的问题容易有更多人回答?

你编程入门时候学的语言是什么?
求助大神帮忙推荐一款适合前端小白的编辑器?
【官方比赛】社区 1111 秀代码,让你来秀让你飞!
大家第一个阅读的开源代码是什么?
你最喜欢的开发工具是什么?
求推荐PHP框架,本人有一定PHP基础。
理解能力差、数学很差的人可以做程序员吗
百度面试题-汽水选择问题
说说你觉得最狂霸酷炫屌炸天的命令
程序员高强度编程后如何放松?

什么的问题容易被人厌恶?

如何根据一段 md5 得到原始的内容? 已关闭
使用贵公司的CDN服务,源网站需要改造吗? 已关闭
html5为什么不兼容低版本的浏览器?
对正则一直不想去背,请问php的@某人该怎么写 已关闭
基于0和1的时代什么时候能成为过去 已关闭
一家互联网公司的面试题,期待高手给出较据参考价值的分析
JavaScript 入门哪本书最好?
jQuery 怎么发送异步请求
谁能在50字以内解释下什么是大数据??谢谢
钩子的实现
html经常使用那些标签
有没有山东烟台可以做网站的小伙伴,求一起做个东西。 已关闭
PHP表单提交到数据库并查询 插入出错,
各位大牛,新手遇到个问题怎么解决啊

等等,不过还是想再吐槽一次,问题总数量实在太少了。

最后的最后,提一下我发现的一个BUG,就有几个问题的回答数量为0,但问题已经解决,我试点开某个BUG问题看看情况,结果如下:

115921_C4Rt_583625.jpg

逗我玩呢?!


转载于:https://my.oschina.net/toil/blog/521507

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/544030.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

iOS开发中 常用枚举和常用的一些运算符(易错总结)

1、色值的随机值:#define kColorValue arc4random_uniform(256)/255.0 // arc4random_uniform(256)/255.0; 求出0.0~1.0之间的数字view.backgroundColor [UIColor colorWithRed:kColorValue green: kColorValue blue: kColorValue alpha: 0.5]; 2、定时器的使用&…

明明加了唯一索引,为什么还是产生重复数据?

前段时间我踩过一个坑:在mysql8的一张innodb引擎的表中,加了唯一索引,但最后发现数据竟然还是重复了。到底怎么回事呢?本文通过一次踩坑经历,聊聊唯一索引,一些有意思的知识点。1.还原问题现场前段时间&…

nmap入门之主机发现

2019独角兽企业重金招聘Python工程师标准>>> #主机发现(HOST DISCOVERY) ##仅列出IP,不扫描 nmap -sL 192.168.70.0/24 > nmap_result.txt 2>&1##仅ping扫描,不扫描端口 nmap -sn 192.168.70.0/24##不ping扫…

面试官:为什么ConcurrentHashMap要放弃分段锁?

今天我们来讨论一下一个比较经典的面试题就是 ConcurrentHashMap 为什么放弃使用了分段锁,这个面试题阿粉相信很多人肯定觉得有点头疼,因为很少有人在开发中去研究这块的内容,今天阿粉就来给大家讲一下这个 ConcurrentHashMap 为什么在 JDK8 …

面试突击72:输入URL之后会执行什么流程?

作者 | 磊哥来源 | Java面试真题解析(ID:aimianshi666)转载请联系授权(微信ID:GG_Stone)在浏览器中输入 URL 之后,它会执行以下几个流程:执行 DNS 域名解析;封装 HTTP 请…

面试必备:TCP 经典 15 连问!

TCP协议是大厂面试必问的知识点。整理了15道非常经典的TCP面试题,希望大家都找到理想的offer呀1. 讲下TCP三次握手流程开始客户端和服务器都处于CLOSED状态,然后服务端开始监听某个端口,进入LISTEN状态第一次握手(SYN1, seqx),发…

ISP QoS Lab

ISP QoS Lab1-PQ优先级队列(PQ,Priority Queue)中,有高、中、普通、低优先级四个队列。数据包根据事先的定义放在不同的队列中,路由器按照高、中、普通、低顺序服务,只有高优先级的队列为空后才为中优先级的…

面渣逆袭:JVM经典五十问,这下面试稳了!

引言1.什么是JVM?JVM——Java虚拟机,它是Java实现平台无关性的基石。Java程序运行的时候,编译器将Java文件编译成平台无关的Java字节码文件(.class),接下来对应平台JVM对字节码文件进行解释,翻译成对应平台匹配的机器…

操作系统大内核和微内核_操作系统中的内核类型

操作系统大内核和微内核As we have already studied about the Kernels, we know that the Kernel is a program which is the main component of the Operating System. Now let us study about the types of Kernels. 正如我们已经研究了内核一样 ,我们知道内核是…

【论文解读】Learning based fast H.264 to H.265 transcoding

时间: 2015 年 级别:APSIPA 机构: 上海电力大学 摘要 新提出的视频编码标准HEVC (High Efficiency video coding)以其比H.264/AVC更好的编码效率,被工业界和学术界广泛接受和采用。在HEVC实现了约40%的编码效率提升的同时&#…

面试必备:聊聊sql优化的15个小技巧

sql优化是一个大家都比较关注的热门话题,无论你在面试,还是工作中,都很有可能会遇到。如果某天你负责的某个线上接口,出现了性能问题,需要做优化。那么你首先想到的很有可能是优化sql语句,因为它的改造成本…

面试突击73:IoC 和 DI 有什么区别?

作者 | 磊哥来源 | Java面试真题解析(ID:aimianshi666)转载请联系授权(微信ID:GG_Stone)IoC 和 DI 都是 Spring 框架中的重要概念,就像玫瑰花与爱情一样,IoC 和 DI 通常情况下也是成…

MyBatis整合Spring的实现(13)

2019独角兽企业重金招聘Python工程师标准>>> 本章中分析insert元素的解析。 1 配置文件 <insert id"insert" parameterType"cn.vansky.schedule.time.menu.bo.Menu"><!--WARNING - mbggeneratedThis element is automatically generat…

麻了,代码改成多线程,竟有9大问题

很多时候&#xff0c;我们为了提升接口的性能&#xff0c;会把之前单线程同步执行的代码&#xff0c;改成多线程异步执行。比如&#xff1a;查询用户信息接口&#xff0c;需要返回用户基本信息、积分信息、成长值信息&#xff0c;而用户、积分和成长值&#xff0c;需要调用不同…

浅聊一下线程池的10个坑

日常开发中&#xff0c;为了更好管理线程资源&#xff0c;减少创建线程和销毁线程的资源损耗&#xff0c;我们会使用线程池来执行一些异步任务。但是线程池使用不当&#xff0c;就可能会引发生产事故。今天跟大家聊聊线程池的10个坑。大家看完肯定会有帮助的~线程池默认使用无界…

Linux命令行上执行操作,不退回命令行的解决方法

问题描述&#xff1a; 如果你现在登录Centos执行了某个操作&#xff0c;但是操作一直占用命令行&#xff0c;命令行显示的也都是这个命令相关的操作&#xff0c;我想做其它事情 &#xff0c;该怎么办呢 &#xff1f; 解决方法&#xff1a; 根据《Linux命令行与Shell编程大全第2…

SpringBoot 读取配置文件的 5 种方法!

作者 | 磊哥来源 | Java面试真题解析&#xff08;ID&#xff1a;aimianshi666&#xff09;转载请联系授权&#xff08;微信ID&#xff1a;GG_Stone&#xff09;Spring Boot 中读取配置文件有以下 5 种方法&#xff1a;使用 Value 读取配置文件。使用 ConfigurationProperties 读…

使用阿里巴巴 Druid 轻松实现加密!

作者 | 磊哥来源 | Java中文社群&#xff08;ID&#xff1a;javacn666&#xff09;转载请联系授权&#xff08;微信ID&#xff1a;GG_Stone&#xff09;为什么要加密&#xff1f;现在的开发习惯&#xff0c;无论是公司的项目还是个人的项目&#xff0c;都会选择将源码上传到 Gi…

xml不显示css样式_如何使用CSS显示XML?

xml不显示css样式Introduction: 介绍&#xff1a; You must be aware of the term XML and must have dealt with these various XML files while developing a web page or website. This article focuses entirely on XML and how to display them using CSS. There are num…

c#组元(Tuple)的使用

组元(Tuple)是C# 4.0引入的一个新特性&#xff0c;可以在.NET Framework 4.0或更高版本中使用。组元使用泛型来简化类的定义&#xff0c;多用于方法的返回值。在函数需要返回多个类型的时候&#xff0c;就不必使用out , ref等关键字了&#xff0c;直接定义一个Tuple类型&#x…