在银行日常经营中,每个部门、分支行随时随地都需要进行数据统计和分析,才能对银行当前业务状况及时了解,以进行后续经营策略、营销活动、风险策略的调整和决策。那在平时进行数据分析时除了各数据应用系统(如各类监管报表系统、财务系统、营销系统等)进行专门的数据加工和操作,主要还有报表和自助分析2种方式来分析数据,支持业务运行。
1、统计报表
统计报表是最常用的数据分析方式,按业务需求中确定的维度和属性进行数据加工并展示。报表周期最常见的是按天、月、年来统计,也有部分按周、季、半年来统计。所以日期或周期是每个报表中都有的维度。另外在大部分银行中还有一个重要的维度是支行,因为支行是最底层的经营机构,许多分析都会支行级别。但在互联网银行没有网点,所以更多的是按地区来统计,因为各地区的政策、环境有所不同,也需要重点关注业务在各地区的发展和问题。
那报表平台重点需要考虑的功能有:
(1)报表的图形化展示:现在许多报表工具除了常规的柱状图、饼图、折线图等,也提供很多展示方式和非常酷炫的界面设计,如热力图、地图、轨迹图等。可以让数据分析结果更一目了然。
(2)明细数据快速查询:报表平台汇总数据的报表较多,但随着交易系统的功能优化,越来越多的明细数据查询也转移到报表系统中,如柜面交易明细、大额支付系统交易明细等,因此报表平台也需要支持大批量数据快速查询的需求,在工具选择或优化中需要考虑到该功能。
(3)移动端报表:移动端报表目前也是趋势之一,但手机屏幕较小,展示信息有限,目前只展示及时性高但比较简单的汇总的数据。移动端可以在APP实现,也可以在微信通过公众号或企业号来实现。
(4)邮件报表:邮件系统每家银行都在使用,而且都有看邮件的习惯,因此从使用者的角度来看非常方便,因此许多经营日报是直接通过邮件发出,所以需要将展示的报表通过截图或HTML方式嵌入到邮件中主动发送给用户。
(5)电子报表:电子报表主要是指按一定格式导出到文件并压缩,各网点业务人员需要自己下载进行分析或直接上报给当地的监管机构。电子报表一般是明细数据,可能含有敏感的客户信息,因此这个数据需要行内安全进行审核。
(6)管理驾驶仓:管理驾驶仓指将反映全行或全公司业绩的主要的指标进行汇总展示,它不仅仅限于单个部门,而是涉及公司所有的经营业务条线。因此它也经常是报表系统进入后的首页面,或者是公司大屏展示的界面。
(7)电子报告,这个功能是将结果数据进行自动转化为的分析报告,这个主要通过模板进行填充,目前只能展示基本信息和简单分析,更多的分析还是需要人工补充。目前使用还比较少,但随着AI技术的发展,后续也可能会越来越智能。
(8)自助查询:自助查询是指提供一个宽表多维度的数据,由业务人员可以通过系统直接进行筛选、钻取或者可写sql进行查询统计。钻取是改变维的层次,变换分析的粒度。它包括向上钻取和向下钻取。向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数。如从分析上海的客户贷款上钻到所有网点城市;而向下钻取则相反,它从汇总数据深入到细节数据进行观察或增加新的维度。例如,分析“各支行、存款情况”时,可以对某一个支行的存款余额细分为各个存款产品(活期、1年定期、3年定期等)进行分析。通过钻取的功能,使用户能更灵活进行数据分析。
那自助查询首先需要加工好多维度的宽表,也称为CUBE。如果维度太多且数据量太大则加工效率会比较高,如果是实时根据条件筛选则需要依赖数据平台的处理能力。因此需要根据数据量进行平台和服务器资源的选择。
第2节系统架构中也提到了几个常见的商用及开源报表软件,在报表软件选型部署和架构设计时还需要重点关注:
(1)作为一个公共服务提供给全行使用:可以连接任何的数据库或大数据平台,同时可以将展现的报表无缝嵌入到数据应用系统或交易系统中。
(2)技术选型中尽量统一平台,减少运维成本和软件成本,部署可以根据报表数量及数据量按部门分为多套也可以集中在一套环境中。
(3)报表平台建设时需要进行需求管理并重点监控报表的使用率,一个银行或公司并不是报表越多越好,更重要在于使用和分析效果,因此对于各部门的报表需求需要统一管理,对于重复或相似的需求尽量复用报表,减少工作量投入。对于一些不使用的报表进行下线,以便释放计算资源和存储资源。由于业务部门人员变化和产品变化,一些报表不再使用但业务人员往往会疏忽下线流程。因此定期出使用率的报告可以及时暂停不使用的报表。
2、数据自助分析平台/数据实验室
报表是各个银行部门最常使用的方式,但随着互联网的加快融合,数据分析越来越复杂,分析工具和算法也越来越丰富,而且业务人员的分析技能也提升很大,那传统的报表已经不能满足数据分析的需要,因此许多银行都为业务人员提供了自助的数据分析平台,有的银行也称为数据实验室。那在建设数据分析平台时需要关注:
(1)由于分析的数据量大且有敏感信息,拿到测试环境进行分析不仅耗时长且存在数据脱敏不足导致敏感数据泄露的风险,因此数据分析平台都是在生产环境搭建;
(2)数据分析平台的数据源为数据仓库,为了不影响数据仓库生产环境批处理,因此需要在物理上将数据分析平台和数据仓库进行隔离。同时数据仓库与数据分析平台需要建立快速的数据通道,以便每天更新数据分析平台数据;
(3)不同的业务部门为了集约资源,减少重复数据的存储,可以统一在一个物理平台进行数据分析,但必须通过用户以及权限进行数据隔离。由于分析经常会使用明细数据以及数据仓库加工后的数据,因此数据量比较大,一般也会使用MPP数据库或大数据平台进行数据分析。
(4)数据分析工具:业务人员一般会需要使用到SAS、PYTHON、R等分析工具,现在也有很多AI厂商或数据分析工具厂商提供的自助分析工具,这些工具需要安装好给业务人员使用。同时也要统一管理这些工具的版本以及license。
(5)数据脱敏工具:由于敏感信息不能直接给到业务人员进行数据分析,如内部员工工资、客户联系方式等,因此对于每个敏感字段需要配置脱敏规则(可以在元数据管理平台实现),并在从数据仓库导出时自动调用脱敏工具进行脱敏。
(6)数据获取管理工具:分析平台从数据仓库导出到分析平台时,一般会有数据审核,因为不同部门之间数据是各自管理,需要系统和数据的主管部门知晓并同意。可以基于元数据管理平台增加数据订单的功能,由业务部门使用人员选取需要分析的数据表、更新周期等信息,然后提交申请,审批后自动进行调用脱敏和数据传输工具传输数据。
(7)数据分层:数据分析平台一般分为基础数据层和分析层,基础数据层是从数据仓库导入的基础数据,数据不能修改,业务人员只能通过申请权限后才能访问。分析层是给每位业务用户进行自助分析的空间,保留分析过程中和结果数据。对于分析层中的空间也需要进行空间控制和定期监控,以免存储不足导致业务不能分析。
(8)数据导出,业务分析结果一般需要导出到办公环境,因此也需要有扫描工具或审批,以免敏感数据未经允许从生产导出。
版权声明:本文为acumen_leo博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/acumen_leo/article/details/98309483