澳门永利网上娱乐你们可能会好。

没错,我准备用我高考60分的数学水平以及小学生都不如的表达水平加上只会HELLO
WORLD的编程水平来一次关于QQ空间动态的分析。

经过一些特种渠道,我用到了2月26日-3月27日之2.2W条视频数据,清洗梳理后取得部分妙不可言的定论,你们可能会好:


抖音的中心用户群体“95后”们也格外养生,0点以后基本还睡觉了

归根结底年轻人,情感表达希望十分引人注目,“喜欢”是无与伦比轻用底歌词

11:00-22:00凡发布视频高峰时段,上午且以睡眠觉么?

夜幕9点不用发视频,你见面失望的

一、概况

本次爬虫的对象啊我学的一个“表白墙”(以下简称墙墙)在2017年发表的有的说说。

丨毕竟年轻人,爱表达友好,更易于表达爱慕

针对2.2W漫长数据的视频讲述做分词词反复统计,排除了类似“一个”、“这样”、“怎么”等无效词后,得到下面的乐章云图:

澳门永利网上娱乐 1

喜欢”一词累计出现246差,出现频率最高,可见抖音上之子弟完全不吝啬自己之情感表达;

自己”一词出现了222赖,出现频率第二,看来95继孩子们好“喜欢”“自己”;

真的”和“可以”分别出现了203和202蹩脚,大家肯定想到了“抖音爸爸并未骗我,XXX真的得怎么怎样”的视频。不得不承认,抖音的带货能力好强!

教程”出现了143次,“发型”出现了91次,“思域”出现91次,“化妆”出现了83次,“西安”出现72次,“北极星”出现68次……

故大家应该知道发啊能火了咔嚓?

1.1 整体状况

首先先来拘禁一下己这次办案了有点数量:

爬虫启动为2017年12月31日 15:30

坐故障已给2017年12月31日 23:30 – 2018年01月01日 00:30
之间(原谅我遗忘在爬虫日志里增长岁月了,所以实际什么时候停止的本人为非知道)

不过早同久数是 2016/11/6 23:01:21 的同样长长的说说

极致晚数是 2017/12/31 15:26:09 的一致漫漫回复

本次总计抓取了 17,229 久说说, 629,012 长达点许, 167,617 长条回复

删去2016年的多寡后,剩余 说说15,311条 ,回复163637修

足见见,墙墙在2017年登载了 17,229 长条说说,共接 167,617
长回复,所上说说总共为触发许了 629,012 次,所有说说总共为浏览了 
30,907,875 次。

丨95后小伙子为无那受,中毒的应都是“中年人”

将视频的发布时以时为单位统计,发现这么个规律:

澳门永利网上娱乐 2

抖音主要用户的喘气都于规律,视频发布集中在上午10:00交晚00:00,0点以后视频发表数据很显著的出现下跌。

微哥哥小姐姐们都睡觉了,这帮助人还于那边“中毒”(2点下那些视频是无是你们作之?)

1.2 单条数据

圈罢了一体化的数据,下面就是是单条说说之数:

单条说说之无比多跟平均值

*单条说说浏览量最酷价值也 9970
次,嗯,比自己自玩qq开始至如今之说说浏览量都充分,不愧是我们学的大V啊。

太有意思的凡,平均每条说说浏览量为 2018 这不啻预示着啊~

丨黄金时段不黄金,不要以九点发视频

结地方的视频公布时间数额,我们管视频的点赞数据增长,统计每个小时的点赞总和,得到下面这么一个贪图:

澳门永利网上娱乐 3

为了便于于,我把平均点赞数也在到图备受(红色线条),我们得以生知地收看,下午13:00与夜晚18:00凡是点赞的山上,平均点赞量除了早5:00坐陈赫宣布了平修视频造成明显差距外,上午10:00同11:00,晚上20:00与21:00季单时间点的点赞数据与视频发表数量显然不成比例,尤其是夜间21:00,是浑下午及夜晚时光段被之最低点,好好的黄金时段,怎么就“黄”了啊?

另外,图表也生亮的报我们,中午饭后(13:00)和下班时间(18:00)是粉丝们最为爱点赞的时刻。

所以各位想火的伴儿,别以夜幕9点发视频是明智之选料。

仲、说说分析

丨强者越强,弱者扎堆

每日刷抖音,看到底几都是几千上万赞视频,让咱们以为每一样长达抖音都能够火。其实虽然不然,统计2.2W长数的触及赞数,得到下面这么一个曲线图:

澳门永利网上娱乐 4

在当下2.2W长达数里,像咱视底那些上万叫好的视频其实很少,绝大部分之视频点赞都在700以下。或许是为抖音的引进算法,那些可以的视频会事先推荐给咱们,导致该更加生气,而那些平常的几百赞视频,则偷偷的扎堆在一起,被系统遗弃。

2.1 内容

2.1.1 整体

于墙墙2017年披露之 17,229
条说说还是呀内容,相信大家还深好奇。(注1)

浮动着急,我为大怪,所以自己本着持有的说说内容进行了做做了词频分析,得到了之类结果:

词频统计1

词频统计2

啊,可以看看本人做了一定量只不同之词频分析,其中一个是国内公司资的(图2,分词较好,但词组过少),另外一个是国外公司资的(图1,分词较差,但数目比较为难)。

做成词云还是那个好看的:

说说词云 (注2)

得视,说说内容大部分是有关咨询问题、寻物、吐槽的。

发明白墙已经变为了“询问墙”。

2.1.2 标签

墙墙发表说说时一般都见面带动齐签,诸如 【墙友询问】、【墙友表白】之类的。

于是乎我呢对墙墙说说之TAG进行了统计,结果如下:

TAG统计

除此之外无标签的与组成部分数码最为少之签,得到的结果一旦图。

“墙友询问” 这个“大佬”占了具备说说的一半,剩下的尽管受
“寻物”、“招领”、“吐槽”, 所瓜分。

要作墙墙名字来之“表白”只能屈居于第4员,前三称为都不曾挤进来。

据此说,表白墙虽然名为也表白实际上也是借着表白的金字招牌为人民服务(#滑稽

丨平均100涂鸦广播才能够博得一个小心心,被推荐不自然会火

习惯了今天条长长的的推荐算法,我们可能会当,视频被引进了定就可知火。实际上,通过数量我们发现,即便你的视频给系统推荐了,小哥哥小姐姐们为并不一定买账。

澳门永利网上娱乐 5

故而播放数/点赞数,得到比值代表了略微坏广播可以赢得一致次于接触许。通过上面的数额我们发现,播放点赞比主要汇集在20-150期间,也就是说大部分视频需要为推荐给100民用观看后才会得一个小心心。

当然为发生苦逼的,作者“挽风”的同样长长的视频,被广播4万不行,但是单独取得了,emmmm,4单赞……

2.2 发表时

2.2.1 每月

月上说说

可以视月上说说起伏比较充分,但是结合实际来拘禁之口舌虽不难想象为甚会这样了:

1-2 月正是放假之上,所以马上简单月份之说说发表量达到了同样年遭受最低的时节。

假若同作为假期的7-8月却比1-2月说说基本上,我怀念是坐7-8月发成百上千颇一初杀,相应的题材即使见面变换得差不多,所以说说发表量对应之尽管差不多一些。

若平是学习期间的3-6月与9-12月说说发表量差距这么之大,除了下半年凡大一初学期外,我想示因为下半年生话题性的节比较多,且守跨年,所以大家都于乱,因此而知道的。

有关11月干什么会达到顶峰,我为想不明白…也许对11月之游说说内容分析一下虽知道了咔嚓,有趣味之可以协调分心一下,我当这便未劳了。

日上说说

为什么一个月吃每天说说上数量起伏这么大?恕我直言,我啊未清楚,但是足以明显的看到底凡,从每月月初至月底整体的游说说数目的矛头是上降低趋势的。也许是坐无是每个月还有31上?

2.2.2 周与日

说发表时

圆发表说说

每周发表之说说多少相对来说比较安静,但是以星期时时见面起极大的降,至于为甚不用说大家为领略。

万一每天说说上的辰为是于平稳(除掉睡觉时间的讲话),然后,每次小高潮还是当下课时间(10:00、12:00、16:00、18:00)……原来我校学生上课很少玩手机啊。

关于 22:00
达到了平等龙吃之参天潮,我眷恋是盖21触及下课(自习)后转宿舍折腾一阵晚虽想发发牢骚吧。

丨抖音的粉大忠诚,女明星圈了会哭泣

统计播放量大于1万,播放评论比(和播放点赞比类似)小于50底视频讲述词频,我们发现明星相关的视频容易吸引评论,主要是阴明星……

澳门永利网上娱乐 6

热巴、杨颖(Angelbaby)、关晓彤、赵丽颖等女性明星们荣登词云图,你们的粉大易君,每50不善广播就会见呢你们评论一蹩脚,是匪是震撼地哭出来了?

本来,会哭的子女吗生奶喝,求“评论”的视频小哥哥和小姐姐们也基本还满足你们了。让“你们”“打出/输入”XXX看看能下“什么”“答案”的玩法,小哥哥以及小姐姐们也异常买账。

以上,希望各位小哥哥小姐姐喜欢。

说到底,感谢 @森淼大神不辞辛劳的集数据,才产生矣当下篇稿子。想使来数据的,可以关注自己的公众号爱新(noyanjiu),回复“抖音数据”获取。

三、回复

3.1 内容

与说说一样,我吧针对具有的回复内容开展了整合后召开了词频分析,结果就是无放开上来了(涉及到大方心事),直接上词云(其实自己词云都无思量放之)!

回复词云

大凡匪是于此大大的 e400824
吓到了?猜猜这是呀?提示一下,这是一个emoji代码哦。

除开这个emoji,最显著的就算是满屏的哈哈哈哈哈哈哈哈哈哈哈哈哈哈了!

哈哈~看来咱学校都是爱笑的孩子啊(其实是分词的题材了)

竟当这图里见到了“喜欢”、“表白”等字了,看来表白墙的初衷并未被遗忘呀。

3.2 时间

平复时间段

看来回复的日子趋势以及上说说的时光趋势很相像啊。所例外的凡,回复大多是以夜21触及以后,也许是大伙白天都忙于学业无法自拔,只有晚上才有时间刷刷动态吧。

专门要指出的是,回复在0点还有好挺之多少,1点晚才逐步趋向无,而我辈学是23:30熄灭灯,也就是说,即使熄灯了或生好多人摘取游戏手机若非是睡觉。

如果平上遭受平复起来升高之时是自6点起之,也就是说咱学校的学童还欢喜早于,并且会在起来后刷刷空间醒醒瞌睡。

四、点赞

4.1 时间

月点赞数据

同游说说上的光阴趋势差不多,点赞的高潮和低谷依然是独家于学期和假,因此当斯即非多说了。

4.2 点赞用户

(注3)

4.2.1 性别

点赞性别

以去没有标明性别之人后,男女点赞比例大约为 6.5:3.5
,这同我当开学时对咱学很一新老的男女比例做的统计差不多,也就是说,点赞与性别从不最好可怜之涉嫌。

4.2.2 星座

点赞者的星座

在剔除除了没有标记星座的用户后,得到了如上图的数量。

没悟出我巨蟹幢还是是倒数第二单。我还看只有自身一个丁无喜胡乱点赞呢,看来是巨蟹座的毛病??

4.2.4 城市

点赞者地图

一致的,和自我开学时对大一新生做的地点分析气象差不多,大多数接触赞就是山西还是邻近都之,南方的城有量少但密集的遍布,而北正相反,量十分而比较稀疏。

同自己开学时做的剖析相悖的凡以南部还出现了柳州、贵阳、昆明相当市之“点赞狂魔”,要明,这些都会之学习者并无是成千上万。

下面带大家来拘禁无异看点赞者城市排名:

点赞地址排名

不出意外,前三清一色是山西省的。

一旦第五称呼的 卡洛 ,我查了一晃,是爱尔兰之一个都…

以它去后,前五且是山西底,哦不!前九都是山西之…

假定据悉我开学时的统计,大一初大吃,来自山西运城之最为多,而起上图也体现出了立即或多或少,果然还是人多力量大什么。

五、墙墙最TOP

扬言:该项只吧打,其中多少无法保证准确性。

苟发不当言论请联系自己去。

1.“点赞是平等种态度”

点赞,网络用语,表示“赞同”、“喜爱”。该网络语来源于网络社区的“赞”功能。送出和获得的赞的多少、赞之给偏好等,在某种程度能反映出而是哪些的总人口跟处于何种状态。
–百度百科

举凡时刻揪出真的“点赞狂魔”了!

接触许狂魔

打图被可以看出,2017年点赞最多之用户甚至以同年内接触赞了 11,936
次,平均每小时点赞 1.36 次。这绝是墙墙真好啊!

下我们来探点赞超过 5k 的用户产生安:

点赞狂魔,5k之上

故而,荣获 “点赞是同种态度” 奖的是:

516939***  (N***-旗舰店)

小声嘀咕:原来是打广告的啊,怪不得点赞这么勤快

2.“我不发表点意见就浑身难给”

评,针对为事物进行无理或成立的自印象阐述。评论易被人口听到不便宜团结的一端,因此评论的说话容易出对方的逆反心理。但鉴于足比较快的发表自己之想法及感受,广为被公众所利用,实则是行使过瘾,听者闹心。

“我无允许你的意,但自我誓死捍卫你道的权利”    
–伊夫林·比阿特丽斯·霍尔

故,就被咱揪出极欢喜评论的大佬,捍卫它的权吧!

平复数,竖轴为QQ号,被算数字处理了,所以是xxM

因此,最欣赏上评论的人以2017年一共评论了 1,130
次,而2017年涉企墙墙说说的座谈的拥有人平均只评价了 20.53
次。也就是说,这个人品头论足次数是平均值的57加倍!

重新看,评论了 500
次以上的食指有13个!看来我们学校果然人才辈出啊,看到底都喜爱“批判一番”。

恢复数(500之上)

于是,荣获 “我不登点看法就浑身难让” 奖的凡:

75423**** (******表白墙)   

可怜不得这么努力,原来是本尊啊……

3.“我是最为尽职的墙墙”

骨子里,表白墙是全校的一个潜在组织所担负的,并无特是一个人数。

一经她们一般还是因手机标志来区别不同的分子的。

因而,就为我们寻找有极尽职的墙墙吧!(此桩数据是比较充分的争议性,因为尽职与否应该是从多点来考虑的,而己只是考虑了上说说之数额。虽然上说说之多少会自定程度上体现出不同领导的值班时间的长,但并无能够合理反映是否尽职)

手机标志数量统计

自打点的图备受可知非常显然的看,有广大标明实际上是再的,应该就跟一个口,所以自己以疑似再的多少统一后获下面的数据:

统一后的数量统计

立刻生就是理解多了,第一叫作居然一个口就是作了 2,550
长长的说说,是亚曰的片倍增多!实乃最当的首啊!而平均每个领导发表的游说说多少是100久左右,按照每个人来5只标志来算的话,也就是说“墙墙”这个神秘组织大约有30单主管,果然是一个宏大神秘组织,要明了自己班为就差不多30私房而已。

末了, “我是不过尽职的墙墙” 奖是属 梦幽吟风墙 的!

4.“我是无与伦比让欢迎之”

说是QQ空间包含的同项就登心情,言论功能,必须于得连续不断Internet的气象下以还发生字数格式限制。 
–百度百科

至于怎么界定最被欢迎的游说说,我构思了非常遥远(其实也就不到5s就草率的决定了)归根到底得出了我的算法,至于怎么竟的,先变更着急,我们先行来看望有数目。

说说top榜

以上数量中的那么错“乱码”是说说id,后面数字是相应的数值。

也就是说,现在能用来判断的参数有4个,分别是
转发、回复、浏览、点赞。而什么算尽给欢迎的吧?我道当归结这5单数据来判定,但是也无可知简单的呼吁与要请求平均值。那么怎么处置?

当是按重点来加权了!

随自的想法,转发>回复>点赞>浏览。

ok,按照这样到底后,得到如下数据:

顶让欢迎的游说说

坐前面三项数据较像样,所以自己操 “我是极其受欢迎的” 奖的受奖说说生三独:

1:14c1f42c041ac559be8c0000

第一名

2:14c1f42c398f25594fbf0900

第二名

3:14c1f42caf5e295a256a0e00

第三名


迄今为止,本次分析了!

注意:

1.为墙墙发的游说说基本上都是作的闲话截图,而文只有约的大意,所以说说内容之分析并无精确,应该用截图经过OCR后提出完整数据更分析,但是因为一些原因我连无这么做。

2.是词云使用的是海外的网站提供的劳动,所以分词数据未极端可靠,但是如此看起更美观,所以词云我莫选用更为规范之境内版,而是用的本这。

3.有关文中提到的自家开学时开的初杀多少解析,因为涉及到新兴隐私,所以我连无当面,只是以几个好友中小范围传播了。说交马上本身或者得批判一下学校,居然将新杀数就是如此公开及了网上!完全不顾我们学生的苦,一开始自还觉得有学校都是这么的,直到来雷同天我准备爬爬基友所于母校的新大多少,我才发现他四处院校的初杀多少并没当面,而且查询任何东西呢得登陆才能够查,我还看他们学校是单章,于是我以看了基友B的学府…基友C的学府…我去!原来自家之院校才是独章程,居然只有自身之校公开了数码!

4.因自之技术不够,且数学水平不够,所以能分析的只有这些数据,更多大深的内容我耶非知底,也整治不出去,如果各位老佬有啊好的建议愿意能够不吝赐教~多的不说了,为了折腾是自己一度打出了一点天了,下周就算试了,而我还未曾开始预习…再未预习怕是高数要考试10细分了~

词云&词频分析:https://timdream.org/wordcloud/ 

图制作:Tableau、Excel

亟待QQ空间说说爬虫的请到自己的Github获取:QQzone_crawler

equationl
制作,更多有意思文章要关注自我哦~