一、笔试
1、insert ignore:在插入数据时忽略主键冲突或其他唯一性约束冲突。
如果插入的记录会导致主键冲突(如 actor_id
已存在),该语句不会报错,而是直接忽略插入操作
语法:
INSERT IGNORE INTO table_name (column1, column2, ...)
VALUES (value1, value2, ...);
拓展:
INSERT INTO
是最基本的插入语句,用于向表中插入新数据。如果插入的数据违反了主键或唯一约束,INSERT INTO
会报错并中断操作。
INSERT INTO table_name (column1, column2, ...)
VALUES (value1, value2, ...);
REPLACE
是 MySQL 中的一个扩展语句,用于插入数据。如果插入的数据违反了主键或唯一约束,REPLACE
会先删除旧记录,然后插入新记录。
REPLACE INTO table_name (column1, column2, ...)
VALUES (value1, value2, ...);
特性/行为 INSERT INTO、
REPLACE
、INSERT IGNORE
2、FORCE INDEX 语句进行强制索引查询
SELECT ... FROM table_name FORCE INDEX (index_name) WHERE ...;
3、修改表结构
ALTER TABLE
是用于修改表结构的 SQL 语句,常见的操作包括:
- 添加列:
ADD COLUMN
- 删除列:
DROP COLUMN
- 修改列:
MODIFY COLUMN
- 重命名列:
CHANGE COLUMN
列位置(AFTER
和 FIRST
):在 MySQL 中,可以通过 AFTER
或 FIRST
指定新列的位置。
4、创建触发器:create trigger trigger_name
CREATE TRIGGER trigger_name
BEFORE/AFTER {INSERT/UPDATE/DELETE} ON table_name
FOR EACH ROW
BEGIN-- SQL 语句
END;
5、修改表名:rename to
ALTER TABLE old_table_name RENAME TO new_table_name;
6、substr:提取字符串
SUBSTR(expression, start, length)
/*expression:要提取子字符串的原始字符串。
start:提取子字符串的起始位置(从 1 开始计数)。
length:要提取的子字符串的长度。
SUBSTR(first_name,-2,2)从倒数第2个字符开始,提取长度为2的子字符串
*/
7、group_concat:对分组后的结果进行字符串的拼接操作
GROUP_CONCAT(column [SEPARATOR 'separator']) FROM table_name
/*GROUP BY grouping_column;
column:需要连接的字符串列。
separator:(可选)指定连接字符串时使用的分隔符。
grouping_column:用于分组的列。
*/
二、面试
1、短视频业务需要哪些指标,哪三个指标最重要?
- 短视频本身的数据,比如短视频发布时间、视频时长、发布渠道。这个都是视频发布后即有的固定属性。
- 短视频消费侧相关的数据,比如累计播放量、点赞率、完播率。
- 短视频供给侧相关数据,投稿用户数、连续投稿用户数、优质投稿人涨粉率等。
我认为最重要的三个指标有:播放量、点赞量和收藏量。这三个指标可以反映出短视频消费的健康情况。也是我认为最应该关注的指标。
答案解析:先说明自己了解短视频生态的构成,再举出三个重要指标即可。
2、业务指标有哪些,怎么衡量你所在的业务部门的贡献?
业务指标分为:
- 用户数据指标,例如新增用户数、活跃用户数、留存率等;
- 行为数据指标,例如PV、UV、K因子(一个用来衡量产品或服务的传播能力或病毒式增长潜力的指标);
- 产品数据指标,例如GMV,ARPU,付费率;
- 付费推广指标,例如CPC、CPA、ROI等。
可以采用ab-test来衡量策略落地的效果,通过假设检验来衡量策略的显著与否。
答案解析:引导面试官去询问ab实验的具体步骤,面试前需要准备好ab实验的细节
3、因为异常订单,消费者与商家两者纠纷处理?
1) 第一时间向用户和商家了解情况,要求提供关键证据
2) 根据制度尽最大可能满足用户的诉求
3) 用户诉求合理则损失由商家承担,否则拒绝
4、淘宝想发展短视频业务,请你对行业进行分析,并分析淘宝短视频的竞争力等
淘宝短视频竞争力:淘宝本身自带大型流量,为短视频业务提供了重要的基础;当前字节跳动快手主要以音乐、情景剧、段子等内容为主,淘宝若想入局,就要找到突破口,打造与快抖不同的产品。由于淘宝用户都是有电商心智的用户,因此可以把产品营销、产品功能使用介绍等内容作为视频内容主攻口,在短视频中进行品牌宣传,实现引流变现。
5、介绍一个和卡中心业务比较相关的项目(深挖:难点、负责板块、项目论文成果等)
以信用评分卡模型为例,参与的流程有数据获取、数据预处理、探索性数据分析、变量选择、模型开发、模型评估、信用评分和系统建立。
(1)用到的数据主要包括以下几个方面: 基本属性:包括了借款人当时的年龄。 偿债能力:包括了借款人的月收入、负债比率。 信用往来:两年内35-59天逾期次数、两年内60-89天逾期次数、两年内90天以上逾期次数。 财产状况:包括了开放式信贷和贷款数量、不动产贷款或额度数量。 贷款属性:商业贷款、公积金贷款。 其他因素:包括了借款人的家属数量(不包括本人在内)。 时间窗口:自变量的观察窗口为过去两年,因变量表现窗口为未来两年。
(2)变量选择阶段,通过WOE分析方法来确定指标是否符合经济意义,通过相关性分析和IV筛选确定所需变量。
(3)模型建立阶段使用python中的statsmodels包实现逻辑回归,在各变量通过显著性检验后验证了模型的预测能力,使用在建模开始阶段预留的test数据进行检验。通过ROC曲线和AUC来评估模型的拟合能力,结果显示AUC值为0.85,说明模型的预测效果还是不错的。
(4)在信用评分阶段将Logistic模型转换为标准评分卡的形式,选取基础分值、 PDO(比率翻倍的分值)和好坏比基本参数,个人总评分为基础分加各部分得分。整合模型及代码,建立自动评分系统,并用滚动数据进行模型迭代。
5、对拼多多业务的理解
拼多多作为平台为商户提供商品的展示、向消费者提供个性化推荐服务,并从中收取商品销售佣金。而“拼购”模式是指:一个顾客发现某商品,发现一起买更便宜,于是找到自己的亲朋好友进行拼单,达到一单购买的人数后拼单成功,拼单的每个用户都可以拼单价购买(通常价格能比原价便宜10%~20%),而如果24小时内没有足够的人数,则拼单失败。由于拼购价格更低,很多时候甚至出现了1元包邮,2元包邮的情况出现;再加上早期微信流量扶持,因此拼多多起步阶段确实达到拼购链接漫天飞的效果。
6、更倾向于业务方向还是技术方向
业务是根本,技术是工具,技术主要为业务服务。
基于此,数据分析最需要的能力是:问题拆解能力、业务理解能力、数据敏感性与洞察力,将业务问题抽象为数据问题的能力,将数据信息转换为业务改进方向的能力。
对于技术,向下需要掌握数据库、数据仓库、SQL等基本知识,向上有各种算法、模型,但只有适合业务的、可理解的方法和模型才是最好的。
7、如何做一个能出圈的业务。如果做出这样一个业务,怎么验证出圈与否?
每个公司都会有自己的主营业务,在业务快速发展多年以后也会进入红海,陷入存量竞争的时代,此刻就应该考虑扩展业务,做一个能出圈的业务。
在设想出圈的业务时应首先思考与主营业务相关的业务有哪些,并从中进行筛选受众面广的业务,并且考虑其中能够与主营业务形成互补的业务,然后选择进行尝试。
那么如何验证出圈与否呢,不仅可以从获客渠道出发,通过新业务的获客渠道是否突破原有业务的边界。而且可以从客群维度予以区分,出圈的业务面向客群应与主营业务不同,与主营业务能形成互补,拥有大量潜在的客群可扩展。
8、你做的分析报告有问题,业务方不满意怎么办
首先看问题出在什么地方,是双方由于沟通导致数据口径、结果呈现方式、分析方向有问题,还是由于自身在树立框架的时候方向出错,导致没有得到业务方想得到的数据结果和结论的问题。
- 如果是前者的问题,就需要再和业务方进行详细沟通,将每一个维度、每一个指标的口径和呈现方式都聊清楚;
- 如果是后者的问题,那么可能需要请教一些比较资深的同事来帮你重新梳理一下需求,重新找到正确的方向
9、如何衡量一个活动的ROI(投资回报率)
解决了什么问题:活动的目标&背景是什么,可以对应到哪些核心指标,可以具体细拆到哪些指标 这个活动有哪些难点,它的受众有哪些特性,流程具体是怎样设计的 ,活动是否可以长期进行
最终测算的指标需要结合活动的类型以及活动最终的目的来决定:
- 活动属于拉新下载类型的,需要考虑的是活动带来的新用户数、下载量以及活动的收益成本比,ROI的计算公式是:收益/成本
- 活动属于品牌宣传类的,可以看活动页面的浏览量、文章的阅读量、评论数、点赞数和分享数等
- 活动属于促销类的,那么gmv就是重要的指标活动属于提升用户粘性的,可能留存率、平均使用时长等都是结果指标
10、你在分析的时候有没有和业务的人沟通?去发现一些问题风险?
与业务进行沟通是数据分析师的必备技能,许多业务现状需要与业务人员确认。同时,在大环境不断变化的情况下,对于不同的业务场景,数据分析师需要不断与业务人员讨论迭代策略方案。真理越辩越明,道理越讲越清,在与业务人员沟通过程中许多现存的风险点就会不自然地暴露出来。这时结合数据和业务的力量就能保证项目持续稳定的向前推进。
11、如何给多多买菜这个业务建立一些指标。
- 在“用户”层面,需要监控的指标包括“总用户数”、“活跃用户数”、“用户留存率”、“用户付费转化率”等。这些指标能较为明显地反映平台中的用户的参与情况。当这些指标处于一个高位时,说明平台业务做的比较好。
- 在“产品”层面,需要监控的指标包括“品类覆盖率”、“销量类指标”、“库存类指标”等,重点研究当前的产品(货物)是否有足够的覆盖面和销量,同时不会积压过多额库存(生鲜类产品保存期较短)。
- 在“平台”层面,需要监控的指标包括“GMV”、“ROI”、“市场占有率”等,主要是看当前平台的规模如何,投资回报率是否在可以接受的范围(是在烧钱阶段还是已经获得盈利),平台被用户所接触并使用的范围有多大。