搭建推荐系统所需要的材料
- 人力物力
- 推荐系统的原材料
- 物品
- 流量
- 最后
人力物力
在上一小节中《推荐系统的必要性》里已经讨论过一个推荐业务团队需要哪些人员储备,需要什么核心技术等。这里在重点说下物力,即机器资源设备。
往往从头开始搭建这样一个团队,的确是比较花时间,金钱,人工的。
第一,人员的招聘是一个很难的工作,从JD的发出,简历的筛选,电话沟通,预约面试,一面,二面,终面,约定入职时间等等。这都是需要很多人花费很多时间去完成,但是即使这样做了,也不一定招到合适的人员;其次,合适的面试者不一定会接受offer。尤其是算法工程师、高级java开发、大数据的确是比较难招的岗位,有时候,一天要面试4、5个候选人,还要对其面试表现做书面的评价,这在初期会占用几乎所有的工作时间。
第二,招到了合适的核心技术人员之后,就可以做初期的业务评估,需求整理,进而进行设备的评估与购买。要想自建推荐系统(那么你的流量一定不小),大数据平台一定少不了。最重要的硬件设备是服务器、办公电脑、甚至GPU都是需要花费大量金钱的。
有些公司自建整套系统,也就是从无到有,往往转变不了思想观念。认为花钱买那么多的机器设备,不一定能为公司赚回成本,以致于在硬件设备采购上把握很严格。那么一个直接的影响就是,你每天都要为工程师团队付出薪水,而不舍得一次性付出硬件成本,一个小时可以跑完的任务,要等5、6小时。人工成本无形地在损耗,一定要想明白这件事,不要在硬件上节省,人工成本最贵!
人工成本 >> 其他花费
推荐系统的原材料
在有了推荐团队、硬件设备后,就是推荐团队负责人要发挥重要作用的时候了。要明确自己将要做的推荐业务是什么,目标是什么?提升收入?提高点击率?增加用户停留时长?进而考虑推荐系统中的两个关键点:推荐的物品、流量!
物品
对于新闻资讯业务来说,推荐的物品就是新闻内容。比如今日头条信息流推荐,它要推荐的就是新闻资讯。
对于广告来业务网说,推荐的物品就是广告。比如今日头条广告推荐
其他推荐就不一一举例了。
明确了要推荐的物品以及形式是怎样的,关注一下物品的数量,也就是之前提到的是否有足够多的物品让系统去推荐?还是只要运营人员手工即可完成推荐?
流量
一定要清楚目前业务的流量情况是怎样的?
流量大小
流量分布
人群特征
明确了流量大小、分布以及物品数量,也就知道了推荐系统大致能建立多少链接。人群特征是需要做数据分析和用户画像的(这块后续详细讲到)。
明确流量大小和分布有助于安排算法任务的运行时间和算法的选择,计算框架的选择。有些需要集群计算,有些单节点服务器就可以完成。还有助于清楚地知道大致需要多少应用服务器等。
其实,互联网行业的一句话说明了流量的重要价值:流量为王。有了流量,你就有机会盈利,有机会将业务做大。但是,现今互联网行业的流量已经被各大应用分的所剩无几了,现在毫不夸张的说是流量稀缺时代!
最后
最后放一张广告推荐的过程图: