那不是大家关切的

没错,我准备用我高考60分的数学水平以及小学生都不如的表达水平加上只会HELLO
WORLD的编程水平来一次关于QQ空间动态的分析。

不久前新加坡看似有进行个如何布朗族的私房服装秀,很狼狈的榜样,不过小编还没时间看。不过新浪上业已吵翻了天,原因是


图片 1

一、概况

此次爬虫的目的为自个儿高校的一个“求亲墙”(以下简称墙墙)在二〇一七年发布的具有的说说。

好吧,那不是大家关怀的,作者的心迹只有学习

1.1 全部意况

第二先来看一下自己这一次抓了不怎么数量:

爬虫运维于前年7月2十四日 15:30

因故障为止于二〇一七年五月三日 23:30 – 二〇一八年0三月0二十四日 00:30
之间(原谅作者记不清在爬虫日志里充足岁月了,所以实际曾几何时停的本人也不明了)

最早一条数据是 二〇一六/1百分之十六 23:01:21 的一条说说

最晚数据是 2017/12/31 15:26:09 的一条回复

此次计算抓取了 17,229 条说说, 629,012 条点赞, 167,617 条回复

删去二零一六年的数目后,剩余 说说15,311条 ,回复163637条

可以见见,墙墙在2017年登出了 17,229 条说说,共吸纳 167,617
条回复,所刊载说说总共被点赞了 629,012 次,全数说说总共被浏览了 
30,907,875 次。

图片 2

1.2 单条数据

看完了完整的数量,上面就是单条说说的数目:

单条说说的最多与平均值

*单条说说浏览量最大值为 99六十七遍,嗯,比小编从玩qq初阶到现行的说说浏览量都大,不愧是大家高校的大V啊。

最有趣的是,平均每条说说浏览量为 2018 那似乎预示着什么样~

自个儿爱学习

② 、说说分析

Python 爬虫

本次爬取的是那条新浪

图片 3

那条新浪

和讯的移位版网页依旧相比好爬的,首先打开那条
博客园的页面
,然后按下 F12,打开开发者工具,接纳 network 面板
下一场鼠标滚轮向下滑,可以看出 network 面板发生新的呼吁,大家采用按 Type
排序,找到 xhr 类型

图片 4

追寻评论接口

能够观看出现了七个意外的呼吁,它们的尾部都跟着 page = *
,大家挑选其中1个双击,来到了一个新的页面

图片 5

评论的 json 数据

那就是评论的 json 格式数据,那样,大家就找到了今日头条评价的 API 接口。

接下去就是 python 爬虫代码,有了 API 接口,爬虫也就简单写了

scrap_ximengyao_weibo.py

import requests
import json
import re

# source_wei_wo_url = "https://m.weibo.cn/status/4176281144304232"


def get_comment(head_url, count):
    i = 1
    fp = open("奚梦瑶.txt", "a", encoding="utf8")
    while i <= count:
        try:
            url = head_url + str(i)
            resp = requests.get(url)
            resp.encoding = resp.apparent_encoding
            comment_json = json.loads(resp.text)
            comments_list = comment_json["data"]
            for commment_item in comments_list:
                username = commment_item["user"]["screen_name"]
                comment = commment_item["text"]
                label_filter = re.compile(r'</?\w+[^>]*>', re.S)
                comment = re.sub(label_filter, '', comment)
                fp.write(comment)
            print(i)
        except Exception as e:
            print(str(i) + "遇到异常")
            continue
        i += 1
    fp.close()


if __name__ == "__main__":
    head_url = "https://m.weibo.cn/api/comments/show?id=4176281144304232&page="
    get_comment(head_url, 40000)

理所当然每请求2回接口就会重临来 10 条评论,近期他博客园有 36 万评价,所以自身把
while 循环设为了请求 四千0
次,但是要全套爬完花的时间太长了,作者可没那闲工夫一贯等着它跑完。所以爬到
1 万数拾3回的时候作者就手动为止爬虫了

爬虫运营为止现在,大家在爬虫的同名目录下取得了一个“熊黛林.txt”,大致包蕴了10万条网友评论。有的小伙伴就要起来问了,既然大家得到了评随想本,以往是或不是就足以拓展分词了?

图片 6

Too Young!

是因为评论里富含了太多的 emoji
表情,间接分词的话会导致解码错误,所以我们还要再对评价举行一次过滤,过滤掉非汉语字符,准确的话,是过滤掉非
GBK 编码字符

2.1 内容

2.1.1 整体

对于墙墙二零一七年公布的 17,229
条说说都以何许内容,相信大家都很好奇。(注1)

别着急,作者也很好奇,所以自身对拥有的说说内容开展了咬合做了词频分析,得到了之类结果:

词频计算1

词频总括2

哦,可以见到作者做了七个分裂的词频分析,其中3个是国内公司提供的(图2,分词较好,但词组过少),此外多个是外国集团提供的(图1,分词较差,但多少比较赏心悦目)。

做成词云依旧蛮雅观的:

说说词云 (注2)

能够看看,说说内容超越二分之一是关于咨询难点、寻物、吐槽的。

求婚墙已经改为了“询问墙”。

2.1.2 标签

墙墙公布说说时相似都会带上标签,诸如 【墙友询问】、【墙友提亲】之类的。

于是乎我也对墙墙说说的TAG举办了统计,结果如下:

TAG统计

而外无标签的和一些数额极少的价签,得到的结果如图。

“墙友询问” 这一个“大佬”占了具有说说的五成,剩下的则被
“寻物”、“招领”、“吐槽”, 所瓜分。

而作为墙墙名字源于的“招亲”只可以屈居于第③人,前三名都没有挤进来。

就此说,提亲墙尽管名为表白实际上却是借着求亲的金字招牌为老百姓服务(#滑稽

评价过滤

过滤的法则非常的粗略,就是用 python
把“李静雯.txt”那一个文件读取进来,换个编码,然后再写入三个新文件“ximengyao.txt”

filter_ximengyao_weibo.py

fp = open("奚梦瑶.txt", encoding="utf-8", errors="ignore")
new_fp = open("ximengyao.txt", "w", encoding="gbk", errors="ignore")
try:
    all_text = fp.read()
    new_fp.write(all_text)
finally:
    fp.close()
    new_fp.close()

2.2 揭橥时间

2.2.1 每月

月揭橥说说

可以看看月发布说说起伏较大,可是结合实际来看的话就不难想象为何会那样了:

1-2 月正是放假的时候,所以那两月的说说发布量达到了一年中最低的时候。

而同一作为假日的7-十月却比1-十月说说多,我想是因为7-5月有诸多大一新生,相应的标题就会变得多,所以说说公布量对应的就多一点。

而相同是读书时期的3-五月与9-3月说说发布量差别这么之大,除了下八个月是大一新学期外,作者想示因为下八个月有话题性的回想日相比多,且濒临跨年,所以大家都相比较骚动,因而你懂的。

关于十一月缘何会达到巅峰,作者也想不了解…大概对六月的说说内容分析一下就清楚了吧,有趣味的可以团结分心一下,小编在此就不麻烦了。

日刊出说说

干什么三个月尾每天说说公布数量起伏这么大?恕小编直言,作者也不知底,但是足以鲜明的旁观标是,从每月月中到月尾整体的说说多少的倾向是呈下落趋势的。或然是因为不是各种月都有31天?

2.2.2 周与日

说说发布时段

周发布说说

周周发布的说说数目相对来说比较安静,可是在周末时会出现小幅度的大跌,至于何以不用说大家也了解。

而天天说说宣布的时日也是相比平静(除掉睡觉时间的话),然后,每回小高潮都是在下课时间(10:00、12:00、16:00、18:00)……原来我校学生上课很少玩手机啊。

关于 22:00
达到了一天中的最高潮,作者想是因为21点下课(自习)后回宿舍折腾一阵后就想发发牢骚吧。

分词

分词的缓解方案有为数不少,本来我是想一贯用
图悦
在线分词生成词云的,不过文本太多了,图悦已经奔溃,后来自家采用了
结巴分词
来手动分词

率先安装结巴分词
pip install jieba

我们的目标是采取评论中词频最高的 100
个词组,以降序将他们排列,然后做成词云。作者在简书找到了1位网友写的博客,正好满足我们的要求
用jieba分词提取关键词做可以的词云

实在接下去你就足以去看他的博客了,因为我写了也是重复,白白浪费了简书的服务器财富

那边贴一下自家的分词代码,终究自身是多少个持久的人

jieba_ximengyao_weibo.py

import jieba.analyse

path = 'ximengyao.txt'
file_in = open(path, 'r')
content = file_in.read()

try:
    # jieba.analyse.set_stop_words('你的停用词表路径')
    tags = jieba.analyse.extract_tags(content, topK=100, withWeight=True)
    for v, n in tags:
        #权重是小数,为了凑整,乘了一万
        print(v + '\t' + str(int(n * 10000)))

finally:
    file_in.close()

有几许亟需小心,这么些
词云制作
网站是不援救中文字体的,所以你须要从网上下载一款粤语字体,然后添加进去。

三、回复

生成词云图

图片 7

???

词频最高的词居然是“回复”

图片 8

自身那暴本性

不过那也是毫无意外,原创的评头品足有限,许多都是争吵,盖楼的。这里把大家把“回复”那几个词删掉,用剩下的词再一次创造二个词云

图片 9

删掉“回复”

末了结果

图片 10

词云图

慎重宣示:最终结果不意味着小编观点!

再见!

3.1 内容

和说说一样,作者也对全数的回复内容开展了咬合之后做了词频分析,结果就不放上来了(涉及到大气隐秘),直接上词云(其实本身词云都不想放的)!

复苏词云

是否被那个大大的 e400824
吓到了?猜猜那是何等?指示一下,那是四个emoji代码哦。

除开这么些emoji,最分明的就是满屏的哈哈哈哈哈哈哈哈哈哈哈哈哈哈了!

哈哈~看来咱学校都是爱笑的孩子啊(其实是分词的题材了)

好不不难在那一个图里看到了“喜欢”、“招亲”等字眼了,看来表白墙的初衷没被遗忘呀。

3.2 时间

恢复生机时间段

由此看来回复的时光趋势和公布说说的年华趋势非常相似啊。所不一致的是,回复大多是在晌午21点过后,也许是大伙白天都忙于学业无法自拔,只有晚上才有时间刷刷动态吧。

尤其要求指出的是,回复在0点还有不小的多少,1点后才逐步趋于无,而大家高校是23:30熄灯,相当于说,即使熄灯了大概有过四人选用玩手机而不是睡眠。

而一天中还原起来提升的时候是从6点开班的,约等于说咱高校的学童都喜爱早起,并且会在起来后刷刷空间醒醒瞌睡。

四、点赞

4.1 时间

月点赞数据

和说说公布的光阴趋势大概,点赞的高潮和低谷如故是个别在学期和沐日,由此在此就不多说了。

4.2 点赞用户

(注3)

4.2.1 性别

点赞性别

在剔除没有标明性其余人后,男女点赞比例约为 6.5:3.5
,那与自己在开学时对大家高校大一新生的男女比例做的计算大概,约等于说,点赞与性别没有太大的涉及。

4.2.2 星座

点赞者的星座

在剔除了没有标记星座的用户后,拿到了如上图的数目。

没悟出作者金牛座依然是尾数第四个。作者还以为唯有自己一人不希罕胡乱点赞呢,看来是天蝎座的毛病??

4.2.4 城市

点赞者地图

无差异于的,和本人开学时对大一新生做的地点分析情形大致,超过二分一点赞那是福建或附近都会的,南方的城池有量少但密集的分布,而北方正相反,量大而比较稀疏。

与自家开学时做的辨析相悖的是在东边甚至现身了洛阳、惠州、格勒诺布尔等都会的“点赞狂魔”,要精晓,那一个城市的学生并不是累累。

下边带大家来看一看点赞者城市名次:

点赞地址名次

不出意外,前三全是西藏省的。

而第④名的 Carlo ,作者查了须臾间,是爱尔兰的2个都市…

将它剔除后,前五都以广东的,哦不!前九都以新疆的…

而依照自家开学时的总结,大一新生中,来自湖南南充的最多,而从上图也反映出了那或多或少,果然依然人多力量大啊。

五、墙墙最TOP

宣示:该项只为娱乐,其中多少不大概确保准确性。

如有不当言论请联系本身删除。

1.“点赞是一种态度”

点赞,网络用语,表示“赞同”、“喜爱”。该网络语来源于网络社区的“赞”功用。送出和获取的赞的多少、赞的赋予偏好等,在某种程度能反映出您是怎么样的人以及处于何种情状。
–百度百科

是时候揪出真正的“点赞狂魔”了!

点赞狂魔

从图中可以看来,前年点赞最多的用户依旧在一年内点赞了 11,9四十九遍,平均每时辰点赞 1.36 次。那相对是墙墙真爱啊!

上面大家来探视点赞当先 5k 的用户有啥样:

点赞狂魔,5k上述

就此,荣获 “点赞是一种态度” 奖的是:

516939***  (N***-旗舰店)

小声嘀咕:原来是打广告的啊,怪不得点赞这么勤快

2.“作者不登出点意见就全身伤心”

评说,针对于事物举行无理或创立的本人影像讲演。评论易令人听到不便利团结的单向,由此评论的话语不难发生对方的逆反心理。但由于可以较快的表明友好的想法及感受,广为被民众所利用,实则是职责过瘾,听者闹心。

“作者不允许你的理念,但本身誓死捍卫你说话的职责”    
–伊夫琳·比Art丽斯·霍尔

为此,就让大家揪出最欣赏评论的大佬,捍卫它的义务吧!

过来数据,竖轴为QQ号,被当成数字处理了,所以是xxM

据此,最喜爱发布评论的人在二〇一七年计算评论了 1,1三十一遍,而二〇一七年参与墙墙说说的座谈的全数人平均只评价了 20.伍拾三遍。相当于说,这厮评说次数是平均值的57倍!

再看,评论了 500
次以上的人有1三个!看来作者高校果然人才辈出啊,看到什么都喜爱“批判一番”。

卷土重来数据(500以上)

为此,荣获 “我不发布点看法就浑身痛心” 奖的是:

75423**** (******表白墙)   

怪不得这么努力,原来是本尊啊……

3.“小编是最称职的墙墙”

实则,求亲墙是全校的一个地下协会所负担的,并不只是一人。

而她们一般都是以手机标志来区分不一样的分子的。

故此,就让大家找出最称职的墙墙吧!(此项数据存在较大的争议性,因为尽责与否应该是从多地点来考虑的,而本身只考虑了登载说说的数额。纵然发布说说的多少能从一定程度上呈现出不一致领导的值勤时间的尺寸,但并不可以客观反映是或不是称职)

手机标志数量计算

从地点的图中可以很鲜明的收看,有不少标志实际上是再度的,应该就是同1位,所以本身将疑似重复的数码统一后拿走下边的数码:

合并后的多寡计算

那下就清楚多了,第一名居然1个人就发了 2,550
条说说,是第3名的两倍多!实乃最负责之首啊!而平均每一个老板揭橥的说说多少是100条左右,按照逐个人有伍个标志来算的话,相当于说“墙墙”那个地下社团大致有三十三个官员,果然是三个庞大神秘协会,要清楚自身班也就大多30民用而已。

最终, “小编是最称职的墙墙” 奖是属于 梦幽吟风墙 的!

4.“作者是最受欢迎的”

说说是QQ空间包涵的一项及时公布情绪,言论效用,必须在可以一连Internet的动静下行使且有字数格式限制。 
–百度百科

至于怎么界定最受欢迎的说说,小编心想了很久(其实也就不到5s就草率的决定了)算是得出了自个儿的算法,至于怎么算的,先别急,大家先来看看一些数码。

说说top榜

如上数量中的这串“乱码”是说说id,前边数字是对应的数值。

约等于说,现在能够用来判断的参数有四个,分别是
转载、回复、浏览、点赞。而什么算最受欢迎的吧?我觉着应该归纳那多少个数据来判定,可是也不只怕不难的求和或求平均值。那么如何是好?

理所当然是按照重点来加权了!

安分守纪本身的想法,转发>回复>点赞>浏览。

ok,依照那样算后,得到如下数据:

最受欢迎的说说

因为前三项数据相比像样,所以作者说了算 “小编是最受欢迎的” 奖的受奖说说有七个:

1:14c1f42c041ac559be8c0000

第一名

2:14c1f42c398f25594fbf0900

第二名

3:14c1f42caf5e295a256a0e00

第三名


至此,本次分析截止!

注意:

1.因为墙墙发的说说基本上都以发的谈天截图,而文字只有大致的概要,所以说说内容的辨析并不精确,应该将截图经过OC索罗德后指出完整数据再分析,但是因为有个别原因作者并没有那样做。

2.此词云使用的是海外的网站提供的劳务,所以分词数据不太规范,可是那样看起来更为美丽,所以词云小编从未接纳更为可信的国内版,而是用的明日以此。

3.有关文中涉及的自家开学时做的新生多少解析,因为关乎到后来隐衷,所以自身并从未当面,只是在多少个好友中小范围传播过。说到那本身依然得批判一下学府,居然把新生多少就好像此公然到了网上!完全不顾我们学生的心事,一先河自小编还以为全数高校都是如此的,直到有一天作者准备爬爬基友所在母校的新生多少,作者才察觉他所在院校的新生多少并没有公开,而且查询任张静西也得登陆才能查,作者还觉得他们高校是个例,于是本身又看了基友B的该校…基友C的该校…小编去!原来自家的母校才是个例,居然唯有小编的学府公开了数码!

4.因为本人的技巧不够,且数学水平不够,所以可以分析的唯有那么些数据,越来越多高深的始末本身也不懂,也弄不出去,如若各位大佬有何好的提议愿意能不吝赐教~多的隐私了,为了折腾那么些本人早已弄了好几天了,下一周就考试了,而自作者还没起来预习…再不预习怕是高数要考拾壹分了~

词云&词频分析:https://timdream.org/wordcloud/ 

图形制作:Tableau、Excel

须要QQ空间说说爬虫的请至本身的Github获取:QQzone_crawler

equationl
制作,越多好玩小说请关怀小编哦~