抖音数据统计_26万条抖音数据背后的推荐逻辑以及严重失调的男女比例

3458a1075940f2dc3100df0fabc8e18d.png
本文作者:喜哥(张佳)易灵微课《数据分析-认知与实践》讲师
新榜数据分析师
人人都是产品经理、华尔街见闻专栏作家
简书科技类优秀作者本文首发自公众号喜新(noyanjiu),如需转载请注明出处

这次是26W条数据,应该可以说明更多问题。

和往常一样,先给出分析结论,希望你能引起你的兴趣:

  1. 首次推荐分水岭应该在5000人,点赞不过百基本凉了;
  2. 抖音红利似乎在消失,用户越来越不喜欢点赞了;
  3. 15s不一定是最好的,可以试试10s;
  4. 男女比例严重失调,小哥哥的视频更受喜爱;
  5. “生活化”是抖音内容的主体,年轻人乐于表达爱和喜欢;
  6. 90后是抖音的主力军,94年小哥哥小姐姐最多;
  7. 一些小技巧,比如把抖音视频分享到微信和朋友圈;
  8. 一个很棒的广告

下面是正文

数据介绍

数据区间是2018年2月1日—5月10日,历时两个月,累计260968条。采集过程中,对作者做了去重处理,也就是说每个作者只取了TA的一条视频数据。这也代表着我们拥有26W个作者的数据。

数据包含视频描述、发布时间、播放数、点赞数、评论数、转发数、尺寸、清晰度、时长、是否包含商品广告、是否包含水印,以及视频作者的昵称、性别、生日、账号创建时间、是否认证、认证类型等数据。

另外,数据均为前端可见数据,未使用任何违规操作。

首次推荐分水岭是5000,请把赞“刷”到100+

做过今日头条自媒体账号的人应该了解,头条的推荐算法是先把文章做小范围推荐,查看文章在该部分人中的阅读数据,如果阅读数据良好,则会扩大文章的推荐范围。数据越好,推荐范围则越大。

既然抖音是头条系产品,那肯定采用了同样的推荐逻辑。从用户的方便程度来看,点赞>评论>转发,那么点赞作为推荐算法的指标权重应该会大于其他两个。从头条的推荐算法推测,视频应该会先被推荐给一部分用户,如果点赞数达到某个水平,则会将视频推荐给更多的人;如果没有,那么视频大概率会凉了。

经过不断分段统计视频各播放量与点赞之间的关系,得到了下面这张表格:

ab1d35ecc62e3cbaeaa6185f26e0a4ff.png

由于采集机制的原因,我们很难采集到没有被推荐的视频,但就现有的1907条播放量在5000以下的视频我们可以清晰地看到,这些视频的点赞量100以下的占到了94%。那么反过来可以推断,想要你的视频被更多的人看到(也就是进入系统推荐的二阶段),那么你视频的点赞量至少应该增加到100以上。

我做了几个视频进行了测试,发布后分享出去让好友帮忙点赞(下文会给出方法),那些在1小时内点赞量突破一百的,播放量在几小时内很快破万;而那些点赞量低的,则不再被人问津。

d9274d57960a713f10ab4ea776433b30.png

即便这个结果在测试中得到了验证,但是我却不能给出实锤结论。

首先,目前采集到的低于5000播放量的数据,大都在5月以后发布,传播时间不够长,或许这恰好是点赞量低的原因;其次,与整体的样本量相比,这部分数据只占不到1%,没有达到统计分析的样本数要求。

无论如何,视频的点赞量肯定会作为推荐权重的依据,点赞越高自然是越好的。

看似红红火火,但瓶颈似乎已经到来

作者数据包含了账号的注册时间,我把作者的注册时间按照月份统计,发现抖音用户的增长似乎在放缓:

1ffe68c35da8b1402088cdd6edb448d4.png

从上面的用户注册时间分布来看,抖音用户在2018年1月份达到顶峰,随后开始逐月递减,4月份已经只有3月份的一半!

实际上,这个数据仍然存在一些漏洞。毕竟存在一种可能,就是新注册的用户不喜欢发布视频,而是在注册一段时间后才开始发布。或者,新注册用户的视频因为还未得到系统的推荐,被我们采集到的概率也随之降低。

如果账号的创建时间不能说明问题,我们来看另一组数据。

把视频的发布时间与其相对应的播放量和点赞量结合,我得到了各月发布视频的平均点赞量。为了去除数据传播时长的影响,我去掉了5月以后发布的视频,得到各月平均点赞量分布图:

ed80eed598ed6d331c584e2518775d21.png

数据显示,各月视频的平均点赞数在逐月降低,4月份食品平均点赞量甚至不足3月份的一半。或许是因为视频越来越堵,用户已经麻木,但无论如何,早期的红利在逐渐降低,想上车的要赶紧了。

拍满15s不是最好的,10s更受用户欢迎

目前抖音未公布获得视频超过15s时长权限的机制,但至少我们知道“优质”是选拔的重要条件,所以在分析视频时长时,我去掉了时长超过15s的视频。对15s以内视频的平均点赞情况作了分析,得到以下分布图:

cf83233baffbe4d14df36774663a3626.png

数据并不支持我们把视频拍满15s,10s是最好的,13s也不错,甚至11s都优于15s。

由于超过15s的视频数量仅6866条,在样本中占比太少,我就不再给出分析。在相同数量级下(均少于100条),39s、42s、50s和58s看上去效果不错。

男女比例严重失调,小哥哥的视频更受欢迎

统计26W个作者的性别,我发现抖音用户中女性用户数量接近男性的3倍!显然是严重失调。

392a34e7603e0dbb401d4e2239a26808.png
(注:“无”代表用户没有填写性别信息)

从用户组成来看,就很容易理解为什么抖音的带货能力这么强了。从购物能力来看,女性购买力更强,毕竟大部分钱都掌握在女性的手里。

把作者性别和其发布视频的平均点赞量结合,我神奇的发现,小哥哥们的视频竟然更受欢迎!

67685bffcf69815638a20073bd8a4549.png

难不成是因为女性用户多于男性,异性相吸?注:没有性别信息的用户有多个视频点赞量超过百万(比如用户@安德罗妮、的一个视频点赞量达到600W),造成了该类别用户的平均点赞量过高,不排除这部分用户均为女性的可能性。

生活化的内容是抖音的主流,年轻人愿意表达爱与喜欢

使用新浪微舆情(http://wyq.sina.com)的文本分析功能,把视频的描述文字做了词性和情感方面的分析,发现生活化的内容是抖音的主体。

5ab4a4b839ab147284fec334c460bcc9.png

对视频描述文本的词性分析,动词方面除了“喜欢”和“爱”以外,生活化的“想”、“拍”、“吃”是出现频率最高的词;形容词方面“快乐”、“开心”、“好看”和“可爱”是抖音用户最喜欢表达的感情;名词上“小哥哥”和“小姐姐”显然已经成为发抖音的固定搭配。

89aaf2b222ac42fd0375aab2d1cec011.png

整体词频方面,除了“小哥哥”、“小姐姐”以及“抖音小助手”以外,具备强烈生活色彩的“爸爸”、“我妈”、“弟弟”、“老公”、“我家”这些词同样被高频率使用。

抖音是90后的天下,94年是主力军

对作者的出生年龄进行统计,排除掉建国以前出生和至今未出生的用户,得到如下年龄人数分布图像:

c87ca1d649460f1a846102e21edb83ab.png
(点击图片放大查看)

图像已经很清楚的告诉我们,抖音的已经是90后的天下,94年是这其中的核心。不过算算也对,94年出生的人现在已经24岁了(我还以为14),正是最青春、最喜欢新鲜事物的年华。

所以,主打年轻人的品牌可以入驻或者把广告投放搞起来了。

福利:一些抖音小技巧

1.把视频分享到微信,不被屏蔽甚至可以直接跳转到抖音

由于“互联网短视频整治期间,平台将统一暂停直接播放”,我们分享到抖音的视频会变成一长串链接,这大大降低了我们视频的曝光度。但这些阻挡不了聪明的互联网人(也就是我了)致力于传播的热情,我使用一些黑科技手段为大家开发了一个小工具,可以帮助你们把抖音视频分享到微信,点击后直接跳转到抖音APP播放,像下图这样:

1f48628e9b5dc01aae32b955946141eb.gif

生成链接打开后的应用宝页面也是可以分享出去的,点击后同样可以直达你的抖音视频。具体制作方法我就不透露了……(可以加作者公众号阅读原文获取

2.精细化运营,一些小细节很重要

我们来看下面两个视频截图,你发现什么差别了么?

aefd4f9fba7086114d2ed697a0b4e024.png

7ccedd58c090e0eb0e910314e18febf8.png

如果两个视频都需要视频描述来完善视频的内容,那么后一个视频的效果会更好,因为相比于白色视频背景,纯黑色可以非常清晰的把底部的视频描述凸显出来。

除此以外,视频内容和质量相似的情况下,竖向的视频比横向的视频更容易被点赞,不信你横过手机点赞一下试试……

3.能不能绕过机器筛选直接被推荐到更大的流量池?

随着监管制度的完善,纯机器算法筛选和推荐已经不能满足用户对高质量内容的需求,于是今日头条引入了大量人工审核团队。这些人工除了审核内容是否违规外,还承担发现优质内容、使其提前进入推荐队列的职责(我猜的)。如果我猜对了,那么,如果视频能跨过机器的迭代推荐,直达人工,岂不是会更快速的火起来?

我有一个冒风险的办法,并且测试成功了一次(只测试了一次,200粉丝半小时飙升到1W2播放量),你们如果胆大也可以试一试:在视频描述里加入一些机器识别不准确的敏感词,像这样:

b00015d14a232ab0936242f167be49c1.png

易灵微课运营小姐姐说:

如果你对数据分析感兴趣,欢迎到张佳老师在易灵微课开的新课《数据分析-实战与认知》来共同探讨数据分析。

关于课程难度:

张佳老师表示课程不会太深,尽量做到人人都能听懂,所以如果你已经是数据分析大神,就可能不太能满足你的需求啦!

适合谁来听:

品牌PR

新媒体运营

对数据方向产品感兴趣的人

任何想要通过数据优化工作、生活的你

如果你对数据分析有兴趣,或者想系统的了解数据分析思路,张佳老师的数据分析课可以了解一下↓↓↓↓↓

课程传送门:

在「易灵微课」公众号后台回复「数据分析实战」即可进入课程。

e25543150e76dd8e4cae24e50441d88f.png
回复「数据分析实战」进入课程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/353173.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL SERVER 数据库主键和外键的思考

SQL SERVER 数据库主键和外键的思考 什么是主键: 主键是指表中一个列或者列的组合,其值能够唯一的标识表中的每一个行。这样的一列或者多列成为表的主键,通过它可以强制表的实体完整性。当创建或者更改表时可以通过定义PRIMARY KEY约束来创建…

2018/7/31 -zznu-oj -问题 C: 磨刀- 【扩展欧几里得算法的基本应用】

问题 C: 磨刀 时间限制: 1 Sec 内存限制: 128 MB提交: 190 解决: 39[提交] [状态] [讨论版] [命题人:admin]题目描述 磨刀是一个讲究的工作,只能在n℃下进行,所以我们首先要做的就是把刀的表面温度提升到n℃。处理刀身温度有两种方式:1.淬火…

统计各个函数的耗时_分享一次CMS GC耗时狠高优化过程全记录

1. 背景多个业务线的应用出现LongGC告警最近一段时间,经常收到CAT报出来的Long GC告警(配置为大于3秒的为Longgc)。2. 知识回顾2.1 JVM堆内存划分新生代(Young Generation)新生代内被划分为三个区:Eden,from survivor,to survivor…

string类有可以调换方向的函数吗_深度剖析C++中的inline函数

点蓝色字关注“CurryCoder”微信公众号:CurryCoder的程序人生 怕什么真理无穷,进一寸有一寸的欢喜1.inline函数的爱恨两难内联函数比宏优点好很多,详细原因请参见尽量以const、enum、inline替换#define 。调用内联函数不需要承受函数调用所导…

javafx基础教程_JavaFX教程–基础

javafx基础教程JavaFX似乎正在RIA领域获得发展。 有了正确的工具和开发支持,它肯定会成为下一个最佳技术“物”的代价。 我没有在这里写任何JavaFX评论,因为有很多技术评论可能对它进行了广泛的评论,但是,我将编写一个简单的教程&…

什么是Spring Boot以及为什么它是用于创建微服务的首选框架

为什么要使用Spring Boot创建微服务? Spring Boot是Java领域众所周知的首选框架,用于创建Micro Services。 使用Spring引导框架,可以非常轻松地创建Java应用程序。 现在,我们将看到Spring启动框架的一些功能,这使其成为…

嵌入式开发有年龄限制吗_什么?!考教资有年龄限制了?2020年我还能考吗?...

近几年教师资格证越来越火爆越来越多的人都想报考,却又担心年龄问题,那么考教师资格证有年龄限制吗?下面小编就给大家解答一下这个问题:报考教师资格证是没有年龄限制的,只有学历限制。报考幼师教师资格证的考生必须是…

Python3的bytes/str之别

Python 3最重要的新特性大概要算是对文本和二进制数据作了更为清晰的区分。文本总是Unicode,由str类型表示,二进制数据则由bytes类型表示。Python 3不会以任意隐式的方式混用str和bytes,正是这使得两者的区分特别清晰。你不能拼接字符串和字节…

jframe透明_使JFrame透明

jframe透明首先创建一个带有滑块的框架,该滑块将用于设置透明度量。 import javax.swing.JFrame; import javax.swing.JSlider;public class TransparentFrame extends JFrame {public TransparentFrame() {setTitle(Transparent Frame);setSize(400,400);setDefaul…

Python关于Threading暂停恢复解决办法

我们都知道python中可以是threading模块实现多线程, 但是模块并没有提供暂停, 恢复和停止线程的方法, 一旦线程对象调用start方法后, 只能等到对应的方法函数运行完毕. 也就是说一旦start后, 线程就属于失控状态. 不过, 我们可以自己实现这些. 一般的方法就是循环地判断一个标志…

NetBeans Java EE技巧9:从数据库创建JSF应用程序

您需要非常快速地创建数据库前端吗? NetBeans IDE允许人们以极少的编码就非常快速地为一组数据库表开发JSF应用程序前端。 现在,本教程既是老歌,又是老歌……对于那些不了解它的人来说,值得再次提及。 首先,创建您的应…

[模板]树链剖分

用途 我想把一个本来是线性的东西放到树上做,维护路径或者是子树的各种性质,那就用树剖呗 它可以套线段树、树状数组、ST表(以及其他我不知道的) 做法 我们考虑把树分成一条条链,然后对每条链维护我们的数据结构&#…

python tab和空格混用_我的 Python 编码规范

python 文件的组成为了便于描述,先上一个 demo#!/usr/bin/env python# -*- coding: utf-8 -*-"""通常这里是关于本文档的说明(docstring),须以半角的句号、 问号或惊叹号结尾!本行之前应当空一行,继续完成关于本文档的说明如果…

Twitter创始人Jack Dorsey的每日必做和不做清单

Twitter创始人Jack Dorsey显然是这段时间以来技术界的中心人物,不仅发表了一系列的文章,而且一本反映Twitter早期岁月的书也即将出版。今天,他又在Y Combinator的Startup School上发表了讲话,不过在谈话中Dorsey回避了一切不必要及…

JSR-308和Checker框架为jOOQ 3.9添加了更多类型安全性

Java 8引入了JSR-308,它为Java语言添加了新的注释功能。 最重要的是:键入注释。 现在可以像下面这样设计怪物了: 比注解更疯狂的是类型注解。 在数组上。 谁认为这是有效的Java代码? pic.twitter.com/M9fSRRerAD — Lukas Eder&…

oem是代工还是贴牌_食用油OEM贴牌代工业务要注意哪些问题?

近年来食用油OEM业务逐渐增加,OEM是英文 Original Equipment Manufacturer的缩写,被译为代工生产或贴牌生产,通常是指品牌商委托有生产能力且品质有保证的油脂加工厂来生产食用油产品,对自己及对方的品牌不会有冲突,且…

java 简化判断_简化Java内存分析

java 简化判断作为一名典型的Java开发人员,除了遵循关闭连接,流等典型的最佳实践外,我从未监视过应用程序的内存使用情况。最近,我们在JBoss服务器中遇到了一些问题,不得不深入研究内存管理Java中最好的事情之一是&…

DRF的序列化组件

rest rest下的url url唯一代表资源,http请求方式来区分用户行为 url的设计规范 GET: 127.0.0.1:9001/books/       # 获取所有数据 GET: 127.0.0.1:9001/books/{id}      # 获取单条数据 POST: 127.0.0.1:9001/books/      # 增…