Sep 15, 2015 ruochenxing qzone

爬取QQ空间说说分析发布时间

前几天看新闻说有个人用C#爬了3000万QQ好友信息做了个大数据分析,感觉挺有意思的,想着反正最近业余时间也闲得慌,要不也来试一下。于是在github上找到了一个开源的空间点赞器,用Python写的,在本地测试了下,完美运行,然后改一下应该就没什么问题。话不多说,松松手指,Let the Hacking Begin 。

我们首先要对访问别人说说时的请求进行抓包分析,于是随便访问一个好友的空间说说首页

1.png

我的QQ为种子,把我的说说全爬了出来,获取到了所有评论过我说说的好友信息,将其保存下来,然后再遍历QQ,把说说全爬出来,如此递归就可以睡觉去了。

第二天醒来看看结果,说说数量才70W左右,只能说这电脑太渣了,再加上没有开多线程去爬,于是做了点简单的优化,想着总得翻个两三倍吧,又爬了一个晚上,第二天起来一看,150W,我看了半天,总感觉这是电脑在嘲讽我。想着照这速度要爬3000W数据可能要爬到国庆节去了。而且数据到了这个级别,电脑查询起来明显的表现出了无能的状态。这样爬心好累。所以暂缓一下,等过段时间买了电脑,再重新搞一次。

说下数据量吧,爬了近万QQ号,命中(能正常访问的)四千不到,说说150W,好友关系42W,评论250W。下面把这些数据做了个简单的统计,挺有意思的。需要说明的是,这些数据大部分来自学生

首先看07年到15年的说说总数直方图 2.png

看得出来,07年到13年空间活跃度是一直在上升的,13年达到顶峰,然后开始下降,15年虽然还没有过完,但从数据增长率来看,不会超过二十万。据室友分析,11年社交网络(比如微博,空间什么的)开始火起来了,加上我们又刚从苦逼的高中来到了自由滴大学,网络对于大多数的我们来说,还是个新鲜的东西,再加上社交,这种上升的趋势势不可挡。拿折线图来看趋势更明显一点。

3.png

不过这数据肯定是不能说明QQ空间的活跃度在下降的,据腾讯官方数据,QQ空间的日活跃读在国内都是数一数二的,而且一直在上升,而之所以这里的数据会呈现下降的趋势,我想是因为………………..嗯,大家都老了。 接下来看月份分析图,抱歉图片需要扭着头看。

4.png

拿折线图会好一点

5.png

从图片上看,2月和11月大家都不太喜欢发说说,我个人的理解原因有两个,一是2月临近春节,家里都挺热闹的,二是二月刚开学,事比较多;这两种情况下都没空发说说,至于11月为什么大家不太喜欢发说说,这个还想不到。你觉得呢?其次,我们可以看到发说说最多的是6,7,8月。很明显,这三个月对于大学生来讲,都比较闲,所以说说发的也比较多。

这边还有两张年月(07年5月到15年9月)的分析图,你们可以感受一下。 6.png 7.png

然后是日分析图,没啥好说的,发说说总体跟今天几号没什么关系,但是从图看的出来,1号和31号还是有一定差距的,哦,因为月底没流量了,而1号流量满血复活,我会乱说?

8.png 好了,最后一张图,小时分布。这个是我觉得最有意思了。但是没什么好分析的,很符合常理,唯一要说的就是如果想要提高说说或者日志的浏览量和评论量,请在晚上21点到23点发布,因为这个时候的空间是最活跃的。

9.png

Share this post

Search widget

Timeline

Friendly Links