如何将dataset中的值赋值给datatable_金融行业实战项目:如何理解业务?

aa631d544388465da4c25b148b943c79.png

【面试题

下表是某金融App的数据,请结合Excel数据集中的数据完成下列问题(某金融公司面试题,文末有数据下载 )

原始数据如下所示:

76d8c47e043ef9f92092631a0b88e5e2.png

为方便后期分析,我们对数据进行分类。数据通常分为3类:用户数据、行为数据、产品数据。

用户数据指用户基本情况,行为数据指用户做过什么,产品数据是指平台卖的东西。

原始数据中年龄、性别、手机省份、手机城市、注册时间、用户注册终端、用户注册渠道、会员级别等信息为用户数据,其余数据为行为数据,无产品数据。

dba267ca4b8f6e0afe2cf2dadb6bae60.png

因为行为数据过多不利于分析,我们把行为数据中与最近一次登陆相关的信息提取出来,列为最近登录数据。

c0cff2cb23317ef0cfb570e08d4a0b9f.png

把是否...7天内...类的问题提取出来,作为活跃数据。

0f196af00ab62d5f037b6ab469f17222.png

行为数据如下:

42b1f816555a86f2da39cac76cfab936.png

问题:

1.理解数据

如果将该数据建立一个数据库,有哪些表,各表之间的关系是什么?

2.数据整理

假设该Excel数据是一个数据表(Datatable),请用SQL写出:

(1)最近一次登录城市各有多少用户在表中?

(2)“用户ID”之间的可能关系?(比如家庭成员,情侣等)

(3)请找出数据表中的异常值,并以此阐述你如何控制数据质量并以本数据为例设计数据质量报表。

【解题思路】

1.理解数据

如果将该数据建立一个数据,有哪些表,各表之间的关系是什么?

和面试官沟通该金融App后,了解了该产品的业务流程,画出下图:

470076adf40c86084e72276034f6dc2d.png

拆分为4个表(也就是Excel对应的各个sheet表):

(1)“用户信息”表中包含用户id,年龄,性别等基本信息。

其中用户id已进行加密,手机省份和手机城市是注册所在地,用户注册终端是注册时的终端(电脑端web、苹果手机、安卓手机),用户注册渠道展示的是渠道ID。

02901e97d2907d31820ff676668e2606.png

(2)“最近登录”表中是最近一次登陆ip,展示的是已加密的ip。

028ee09e43947db460147aee6af7fe1d.png

(3)“行为数据”表中,投资金额经过等比例放大。

1f2259781836db95084e3d202ea4f85e.png

表中字段含义,首投距今时间(天)是固收(含债转)_首次投资时间距今天的时间。

最近一次投资距今时间(天)是固收(含债转)_最近一次投资时间 距今天的时间。


首投距注册时长(天)是首次投资距离注册时间,以天为单位。

用户浏览产品期限倾向是指固收含转让区(产品期限:1-3,4-6,7-12,12以上(PC+H5+APP))。

用户浏览产品利率倾向是指固收含转让区(利率:(0,4%],(4%,5.5%],(5.5%,6%],(6%,7.5%],7.5%以上(PC+H5+APP))。

(4)“活跃数据”表中,本月是否有大额回款指本月回款额度1万及以上。

cffa2989c5805504f55e4a4234cf188d.png

表中字段含义,

是否访问7天内未注册:首次访问到注册时间>7天,或有访问已超过7天但未注册。


是否注册7天内未充值:注册到首次充值时间>7天,或有注册已超过7天但未充值。

是否注册7天内未投资:注册到首次投资时间>7天,或有注册已超过7天但未投资。

是否托管7天内未充值:托管到首次充值时间>7天,或有托管已超过7天但未充值。

是否托管7天内未投资:托管到首次投资时间>7天,或有托管已超过7天但未投资。

是否充值7天内未投资:最近一次充值到最近一次投资时间>7天,或最近一次充值已超过7天但未投资。

根据上面的业务分析,建立数据库,建立4个表有用户数据、行为数据、最近登录数据、活跃数据表,各表之间以用户id为主键联结,关系如下图。

c599753f7f347c2dded98427cb761c19.png

2.数据整理

(1)最近一次登录城市各有多少用户在表中?

“最近一次登录”在“最近登陆数据“表中。

292ecfe991a0f59fcd77f9cf26cfadbd.png

“各有”,翻译过来就是“每个城市”。涉及到“每个”到业务问题,要想到《猴子 从零学会SQL》里讲过的用“分组汇总”来实现。

这里分组按用户id,汇总使用count函数进行计数。

select 最近一次登录城市,count(用户id) as 人数from 最近登陆数据group by 最近一次登录城市;

输出结果(数据过多仅展示前8行数据):

47de8f9a23312f77cd1cb29d7e222965.png

(2)“用户ID”之间的可能关系?(比如家庭成员,情侣等)

使用多维度拆解分析方法来拆解问题:当最近登录ip相同时,用户之间可能会存在关系。因此,分两步解决该业务问题。

(1)找出ip重复的数据;

(2)找出重复ip对应的用户信息。也就是输出用户id、性别、年龄,最近一次登陆ip等信息,并对最近一次登陆ip进行升序排列。

第1步:找出ip重复的数据

“最近一次登录ip”在“最近登陆数据表“中。

2dae7d3d603bc4654e51d347a5c50447.png

该问题是“找重复数据”类问题,按“最近一次登陆ip”分组(group by),然后使用having来筛选出每组里面次数>1次的就是重复数据。

select 最近一次登陆ipfrom 最近登陆数据group by 最近一次登陆iphaving count(最近一次登陆ip)>1;

第2步:找出重复ip对应的用户信息

输出用户id、性别,年龄,最近一次登陆ip等信息。

select 用户id,最近一次登陆ipFROM 最近登陆数据where 最近一次登陆ip in(select 最近一次登陆ipfrom 最近登陆数据group by 最近一次登陆iphaving count(最近一次登陆ip)>1);

第3步:联结用户数据表,输出信息

把用户数据作为临时表a,第二步得出的结果作为临时表b,并对所有数据进行升序排列。

select a.用户id,a.性别,a.年龄,b.最近一次登陆ipfrom 用户数据 as a right join(select 用户id,最近一次登陆ipfrom 最近登陆数据where 最近一次登陆ip in(select 最近一次登陆ipfrom 最近登陆数据group by 最近一次登陆iphaving count(最近一次登陆ip)>1)) as bon a.用户id=b.用户idorder by b.最近一次登陆ip asc;

查询结果:

418c29136f0851c0ddf989913e926400.png

可以看出用户id(1、2)具有相同ip地址,都为女性,年龄相差20岁,可以推测是母女关系。

用户id(3、4)具有相同ip地址,性别一男一女,年龄相差6岁,可以推测是夫妻关系。

用户id(5、6)具有相同ip地址,性别一男一女,年龄相差8岁,可以推测是夫妻关系。

用户id(7、8)具有相同ip地址,性别一男一女,年龄相差3岁,可以推测是夫妻关系。

(3)请找出数据表中的异常值,并以此阐述你如何控制数据质量并以本数据为例设计数据质量报表。

根据《描述统计分析》里讲过的异常值方法,我们可以使用Tukey's test方法找出宜昌至的范围。

48526a7567a59433b591bcfbc510ab75.png

我们以该案例中的“年龄”为例,展示如何找出异常值。

ce29a70187a89c25e5ba3ea87feede5b.png

第一步:计算出上四分位数

首先我们增加一列行号,使用“@”自定义“行号”这一变量,并用赋值运算符::=对“@行号”赋值为0。

79e37605e126d0cbf03c15e719a92497.png

select @行号 := 0;

结果如下:

fea3ed103e2264ba7766c4d9f3193655.png

然后,我们使用内联结把原表格和新增的一列联结在一起,形成新的表格,记为临时表r。

select 年龄,@行号 := 0from 用户数据inner join ( select @行号 := 0 ) as c;

结果如下:

934dc835e69c0447c95f52818e7967f6.png

然后,用赋值运算符“:=”赋值行号为“@行号:=@行号+1”,并该列名为行号,进行升序排列,把该表结果记为临时表t。

select 年龄,@行号 := @行号 + 1 as 行号 from 用户数据inner join ( select @行号 := 0 ) as corder by 年龄 asc;

最后,使用sql的floor函数来计算下四分位数,floor函数:向下舍入为指定小数位数。

select avg(年龄) as 下四分位数from(select 年龄,@行号 := @行号 + 1 as 行号 from 用户数据inner join ( select @行号 := 0 ) as corder by 年龄 asc ) as dwhere 行号 = floor(( @行号+1) /4 );

同理,使用3*(n+1)/4可以用来计算上四分位数。查询结果如下:

9b9ff2b54f49e421638bc524a30c9b8e.png

第二步,用Tukey's test方法中k=1.5来找出中度异常值。

可以使用where函数找出异常值——在最大估算值和最小估算值之外的数据。

select 年龄,count(*) as 人数,count(*)/5000 as 人数占比from 用户数据 where 年龄>(48+1.5*(48-32)) or 年龄32group by 年龄;

查询结果如下:

ebf46253f01f76f7507e96e9eea0c23d.png

用同样的方法我们可以计算出投资金额的异常值。结果如下(因数据较多只选取部分数据呈现):

de67b5f65d479a9033c4768dc4824f4d.png

第三步:制作数据质量报表,以年龄数据为例。

把第二步中得到的结果作为临时表e,用sum函数计算出年龄异常值的总人数与总人数占比。

select 年龄,sum(人数) as 总人数,sum(人数)/5000 as 总人数占比from 临时表e ;

结果如下:

ac8d8f11f31fee8c1e636876fec6f9b1.png

按照上述步骤可得投资金额异常值的总人数与总人数占比,结果如下:

78038ec89ecbc477a42584cd1387f4a5.png

数据质量报表如下:

5fc5278d63c46f22baa03d09e60d77ef.png

异常值的发生原因可以分为两类:人为异常值和自然异常值。

自然异常值不是由于错误产生的,无需避免。

人为异常值可能由于数据输入错误,故意填写错误,数据处理错误等原因产生,这些情况是可以尽量避免的,这就要求我们做到以下几点:

  1. 认真细心。避免数据输入错误。

  2. 做好用户宣传,尽量填写真实信息。

  3. 提高提取数据的正确率,确保数据来源准确。

【本题考点】

1.考察对业务的理解能力,拿到数据以后,不是立马开始分析,而是要先理解数据,对数据分类。

2.“每个问题”要想到用分组汇总来实现。

3.查找出重复数据。对数据项进行分组,找出数量大于2的数据即为重复值。

4.利用sql计算四分位数,找出异常值。增加一列行号并升序排列,利用公式取出上四分位数和下四分位数,找出最小和最大估计值,在此范围外的即为异常值。

5.excel观察数据特征:平均数、中位数、众数。

6.掌握常用的分析方法解决问题的能力。

0e086e17d5143bc9fd879670b89eb85d.png

推荐:人工智能时代的必学技能

69548da08c74361622336396cae21f4a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/504957.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

css练习题4,复习webpack4之CSS文件代码分割

之前学习过webpack3的知识,但是webpack4升级后还是有很多变动的,所以这次重新整理一下webpack4的知识点,方便以后复习。这次学习webpack4不仅仅要会配置,记住核心API,最好还要理解一下webpack更深层次的知识&#xff0…

minhash算法检索相似文本_基于向量的深层语义相似文本召回?你需要bert和faiss...

在文章大话知识图谱--聊聊智能客服中,我介绍了智能客服系统利用FAQ问答库做自动问答,也就是基于信息检索的自动问答系统。它的一般做法流程是:构建一个大型的FAQ问答库,形式是(question,answer)…

vuex的命名空间有哪些_Python3 命名空间和作用域

命名空间先看看官方文档的一段话:A namespace is a mapping from names to objects.Most namespaces are currently implemented as Python dictionaries。命名空间(Namespace)是从名称到对象的映射,大部分的命名空间都是通过 Python 字典来实现的。命名…

ajax实现翻书效果,jQuery实现手机版页面翻页效果的简单实例

var page 1;var size 6;var mark 0;var url "{pigcms{:U(Order/index, array(page>d%))}";var commentTpl \去评价\;var template \""))}">\\{store_name}\\\\""))}">\\ \\{create_time}\总价:¥…

抽象类可以生成自己的对象吗_大理石可以自己抛光吗?大理石自己抛光方法解答...

大理石可以自己抛光吗?大理石自己抛光方法解答。大理石只有经过抛光后,表面才会有更好的光泽和质感。具体抛光可以要求大理石抛光团队施工,也可以自己做。那么大理石自己抛光方法是什么呢?下面石大夫为您解答。大理石自己抛光方法…

服务器可以装2个系统吗,云服务器可以装多个系统吗

云服务器可以装多个系统吗 内容精选换一换共享云硬盘是一种支持多个云服务器并发读写访问的数据块级存储设备,具备多挂载点、高并发性、高性能、高可靠性等特点。主要应用于需要支持集群、HA(High Available,指高可用集群)能力的关键企业应用场景&#x…

关卡 动画 蓝图 运行_UE4无缝过场动画

最近有个哥们给我看他们最近在做的一个游戏,其中有这样一段镜头https://www.zhihu.com/video/1171378736917364736运用到了一个很常用的过场方式,就是平时我们所说的无缝过场。过场动画不通过黑屏转换,而是通过运镜来代入。这是一种比较容易实…

个推的appid是指什么_推箱子软件介绍→安卓下最专业的推箱子软件(推箱快手)...

俗语说:工欲善其事必先利其器目前各安卓系统下的应用市场有很多很多推箱子软件,除了soko推箱子软件比较好以外,其余没有任何一款软件是推箱子好手想去使用的,为什么呢?先说说soko这款软件好在哪儿?点推式推…

list转字符串_剑指offer 38——字符串的排列

本题主要在于对回溯的理解,优化时可以结合 java 特性,以及排列的一些知识。原题输入一个字符串,打印出该字符串中字符的所有排列。你可以以任意顺序返回这个字符串数组,但里面不能有重复元素。示例:输入:s "abc&…

v5系列服务器后面板不存在以下哪款指示,群晖RS10613xs+ NAS服务器后面板简介

群晖RS10613xs NAS服务器后面板简介群晖RS10613xs NAS服务器后面板简介:NAS服务器的后面板往往承担着数据的输入、输出,电影的输入,网络的传输,容量的扩展,电能的支持以及产品的散热等重要功能,看似简单的后面板往往是…

怎么判断冠词用a还是an_【语法微课堂】英语冠词的用法,学会这4点,轻松玩转a、an、the...

点击上方??蓝色字,轻松关注!Well begun is half done.良好的开端是成功的一半。准备了一下午,终于可以给大家更新了,给大家分享了冠词讲解的视频、音频和文字版,自行取用吧!?冠词讲解视频版(小提示&…

pb自定义控件 事件_Android WebView与下拉刷新控件滑动冲突的解决方法

使用WebView时一般会在外层使用下拉刷新控件如(SwipeRefreshLayout)。但是测试时会发现网页无法上拉,往上滑动就会触发下拉刷新控件的refresh事件。所以这里记录一下解决该问题的办法。1、通过webView.getScrollY() 的值来判断是否滚动到顶部private SwipeRefreshLa…

双路服务器cpu必须型号相同,双路主板存在使用不同型号的cpu之说吗?还是必须使用一模一样相同的cpu型号?...

双路主板不存在使用不同型号的cpu一说, 可以使用不同型号的cpu, 不过参数差别不能过大(例如处理器的架构差别)多路主板就是一种主从结构, 处理器之间是协同工作,由中间的高速总线实现两个处理器的配合,不存在处理器必须…

打开多个界面_如何创建用户界面

CANBusKit,是一款集成汽车总线开发、测试、分析的专业软件工具。本章内容主要介绍如何使用CBK_OpenPanel工具为CANBUSKIT 工程创建用户界面,本工具目前支持Vector的xvp格式的面板文件导入。首先是启动软件(试用版软件只能从CANBusKit软件界面中启动该软件…

汤姆克兰西全境封锁服务器维护时间,汤姆克兰西全境封锁无法登录怎么解决 无法登录解决方法攻略...

《汤姆克兰西:全境封锁》是款大型射击游戏,这款游戏的画面十分的精致,在这款游戏中会有各种不同的任务,玩家要带着武器来进行射击。在游戏的时候很多玩家们都反映无法登录怎么解决?那么下面小编就为玩家们详细解说下关…

需要的依赖_三十而已:夫妻关系中需要的是坦诚和依赖

最近三十而已大热播,开始时很多人都看好顾佳和许幻山这一对,顾佳有才有颜,上得厅堂下得厨房,处理事情干净利索,是难得的贤内助。许幻山温柔帅气还有才,关键是还对老婆好,他们的组合可以说是很让…

语言建立一个学生籍贯管理簿_编写一个Excel自定义函数,身份证信息提取如探囊取物...

观看视频更直观我们建立信息表时不仅要输入性别、生日和年龄等信息,往往也需要输入身份证号码,而身份证号码中包含有籍贯、性别、生日和年龄等信息,从身份证号码中提取上述信息可以减少输入工作量,提高工作效率。利用Excel中的内置…

原码一位乘法器设计_数字IC校招基础知识点复习(七)——超前进位加法器、Wallace树、Booth乘法器...

1.超前进位加法器看了一些面经,提到会让你用基础的门搭加法器,因此首先得熟悉半加器,全加器等最基础的加法器才能理解之后的超前进位加法器,树型加法器等复杂的加法器。半加器的输入为a,b,输出为结果s和进位…

保存点云数据_3D点云配准(二多幅点云配准)

本文首发于微信公众号「3D视觉工坊」:3D点云配准(二多幅点云配准) 在上一篇文章 点云配准(一 两两配准)中我们介绍了两两点云之间的配准原理。本篇文章,我们主要介绍一下PCL中对于多幅点云连续配…

url存在宽字节跨站漏洞_5分钟速览丨常见的Web安全漏洞及测试方法

中秋小长假“余额”就剩半天了尽管心里有太多不舍也要调整自己毕竟假期都是短暂的工作才是职场人生的常态为了尽快消除“假日综合症”e小安贴心送上小文一篇小伙伴们赶紧“脉动”回来吧各类web应用充斥在我们的网络生活中,但是因为开发者安全意识不强而导致的安全问…