四川省税务局CDH国产化替代实践

“传统数据仓库对于数据处理时效较低,且无法处理实时增量数据及数据变更,同时,在面对海量税务数据大规模进行查询分析等方面存在一些挑战。我们希望尽快寻找到一款能够替代CDH,并且具备灵活扩展能力的大数据解决方案,以应对复杂多元的税务数据处理场景。”

——四川省税务局大数据风险管理局技术专家 肖斌

从线下窗口办理到“非接触式”办税、从领取纸质发票到扫码开具电子发票……税务系统作为数字经济发展的重要支撑,正不断向智慧税务转型。在四川省,相关税务部门也一直在开展税务数字化的积极探索和有益实践。

为了应对日益增长的纳税主体数量和多元化的涉税经营活动,四川省税务局于2022年3月正式启动税务大数据平台建设项目,以优刻得私有化大数据产品USDP作为技术支撑,构建了符合信创要求的智能大数据平台,加速“以数治税”,实现税费全业务、全流程、全数据的“云化”打通。

一、以数治税,数据处理时效提升100%

优刻得携手四川省税务局,为当地建设了税务大数据中心,通过部署大数据平台和分析工具集,形成安全可靠、运行高效、数据完备、运行稳定的大数据支撑平台,满足了四川省各地市税务风险管理人员的数据分析和治理诉求,更为其湖仓一体平台的全面建设奠定了坚实基础。

USDP是优刻得自主研发的智能化、轻量级的大数据基础服务平台,提供一站式大数据集群管理和运维能力,能够帮四川省税务局快速构建起大数据的分析处理能力,并大大简化其对大数据基础平台原生且复杂的维护控制工作,使得税务部门能够聚焦于数据分析及价值挖掘中,为业务赋能。

图片

自四川省税务局USDP大数据平台项目上线以来,完善了对多源异构数据采集与统一存储能力,实现了税务数据全生命周期的统一管理,数据处理时效提升100%;而USDP的自动化运维管理功能,则帮助四川税务局平台维护性工作减少了70%

二、CDH国产化替代的理想选择

税务工作开展的每一步都离不开数据。2020年,四川省税务局大数据风险管理局成立,成为国家税务总局主管组织指导全国税收大数据和风险管理相关工作的机构。其成立之后,便是基于Hadoop架构下的CDH构建大数据平台,实现数据的统一汇聚,并对税务数据进行高效管理。但跟随税务业务数据爆发式增长,单一发票业务表就已累计120亿条数据,对大数据平台的稳定性和扩展性提出了更高要求。

优刻得USDP智能大数据平台,全面兼容基于CDH构建传统大数据处理业务架构,且满足国产化要求,并将大数据集群部署时间从数天缩短至数分钟,真正实现现有生产环境的平滑迁移;同时,USDP支持Hadoop、Hive、HBase、Spark、Flink、Hudi、Iceberg、Atlas等关键大数据组件,可一站式服务多端数据采集、入湖及治理工作,为税务系统数据的综合分析和智能化应用提供有力支撑。

值得一提的是,USDP还具备丰富的大数据生态技术,使得平台具备良好的存算扩展能力,可靠支撑四川省税务局从数据仓库架构向湖仓一体架构演进。当下,通过对四川省税务局现有数据进行精细化分析,优刻得助力税局完善了各类数据模型和数据关系设计文档,实现了数据模型、数据关系对业务的完整准确建模与描述,并基于USDP构建了全新的数据资产管理与数据治理平台,以此充分应用到后续的税务业务中。

图片

由于税务系统掌握着纳税主体的大量敏感数据,对数据风险管控和合规也有着特殊的要求。而USDP完全自主可控,全面适配信创生态,经国家权威机构检测,代码自主率高达95%以上;结合Kerberos、LDAP等系列安全组件,以及通过 Ranger细粒度权限控制,基于USDP在客户本地构建私有化数据湖仓,持续提升大数据服务的安全性保障能力。平台全面支持集群级监控,运维人员可实时获取事件告警和异常定位等,做到对整个平台的可视化、自动化监控,在减轻运维负担的同时,保障平台的健康稳定运行。

四川省税务局对优刻得的产品和服务给予了高度评价:“优刻得的专业技术和快速响应服务确保了大数据平台的稳定运行。特别是在税务人员智税大赛期间,USDP平台展现的强大数据处理和分析能力,为大赛的顺利进行提供了有力保障。”

目前,在智能大数据平台合作的基础上,四川省税务局正与优刻得积极探索AI和大模型技术在税务领域的应用,以期实现更深层次的数字化转型,通过充分运用税收大数据,实现税费优惠政策与适用对象的精准智能匹配,并进行个性化办税引导,加速智慧税务发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/17009.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

有限元法之有限元空间的构造

目录 一、区域Ω的剖分 二、三角形一次元 三、一次元的基函数与面积坐标 四、三角形二次元及其基函数 前两节我们介绍了有限元基本概念和变分理论的推导,本节我们继续探讨有限元空间的构造。 一、区域Ω的剖分 对矩形区域进行三角剖分,其中x方向剖…

类 和 对象(二)

构造方法 接上篇,若每次都想下面的setDate方法给对象初始化,未免比较麻烦,那有什么方法可以让初始化更加简便呢? public void setDate(int year, int month, int day){this.year year;this.month month;this.day day;}答&#…

文献分享《Microbiome and cancer》

人类微生物群构成了一个复杂的多王国群落,与宿主在多个身体部位共生相互作用。宿主-微生物群的相互作用影响多 种生理过程和各种多因素的疾病条件。在过去的十年中,微生物群落被认为会影响多种癌症类型的发展、进展、转移 形成和治疗反应。虽然微生物对癌…

2024年短视频评论区批量爬取采集软件

一、背景说明 前言 评论区引流,顾名思义,是通过在视频下方进行留言评论、回复评论,吸引用户的注意,从而和你的账号产生互动、交易。比如,在一个关于健身的视频下方,留言分享自己的健身经验或者提出问题。…

使用 SwanLab 进行可视化 MNIST 手写体识别训练

使用 SwanLab 进行可视化 MNIST 手写体识别训练 在线演示demo 本案例主要: 使用pytorch进行CNN(卷积神经网络)的构建、模型训练与评估使用swanlab跟踪超参数、记录指标和可视化监控整个训练周期 一、相关简介 SwanLab SwanLab是一款开源…

Linux中ftp配置

一、ftp协议 1、端口 ftp默认使用20、21端口 20端口用于建立数据连接 21端口用于建立控制连接 2、ftp数据连接模式 主动模式:服务器主动发起数据连接 被动模式:服务器被动等待数据连接 二、ftp安装 yum install -y vsftpd #---下…

使用httpx异步获取高校招生信息:一步到位的代理配置教程

概述 随着2024年中国高考的临近,考生和家长对高校招生信息的需求日益增加。了解各高校的专业、课程设置和录取标准对于高考志愿填报至关重要。通过爬虫技术,可以高效地从各高校官网获取这些关键信息。然而,面对大量的请求和反爬机制的挑战&a…

蓝桥杯物联网竞赛_STM32L071KBU6_字符串处理

前言: 个人感觉国赛相较于省赛难度上升的点在于对于接收的字符串的处理,例如串口发送的字符串一般包含字母字符串 数字字符串,亦或者更复杂,对于LORA也是如此,传递的字符串如#9#1亦或者#1a#90,#1#12,如何…

剖析【C++】——类与对象(上)超详解——小白篇

目录 1.面向过程和面向对象的初步认识 1.面向过程(Procedural Programming) 2.面向对象(Object-Oriented Programming) 概念: 特点: 总结 2.C 类的引入 1.从 C 语言的结构体到 C 的类 2.C 中的结构…

调用萨姆索诺夫函数:深入探索函数的参数与返回值

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、萨姆索诺夫函数的引入与调用 二、如何获取函数的返回值 三、无参数与无返回值的函数调…

帝国CMS验证码不显示怎么回事呢?

帝国CMS验证码有时候会不显示或打叉,总结自己的解决方法。 1、检查服务器是否开启GD库 测试GD库是否开启的方法:浏览器访问:/e/showkey/index.php,如果出现一堆乱码或报错,证明GD库没有开启,开启即可。 2…

[随笔] 在CSDN的6周年纪念日随笔

纪念 转眼已过6年,大一的时候学习编程,潜水 CSDN 学习各类博文,才学浅薄就没有主动写博文记录自己的学习历程。 过了段时间刚刚到了大二,很喜欢 Todolist,意气风发的写下《一份清爽的编程计划》,哈哈。 …

数据结构-队列(带图详解)

目录 队列的概念 画图理解队列 代码图理解 代码展示(注意这个队列是单链表的结构实现) Queue.h(队列结构) Queue.c(函数/API实现) main.c(测试文件) 队列的概念 队列(Queue)是一种基础的数据结构,它遵循先进先出(First In …

二十八、openlayers官网示例Data Tiles解析——自定义绘制DataTile源数据

官网demo地址: https://openlayers.org/en/latest/examples/data-tiles.html 这篇示例讲解的是自定义加载DataTile源格式的数据。 先来看一下什么是DataTile,这个源是一个数组,与我们之前XYZ切片源有所不同。DataTile主要适用于需要动态生成…

算法简单笔记2

5月26号,之前学了两天算法烦了,去学了几天鸿蒙,今天又回来看一下算法,距离6月1日国赛还有6天,哈哈真是等死咯...... 一、蓝桥杯第13届国赛第1题填空题:重合次数 (半难不难,写编程难…

探索演进:了解IPv4和IPv6之间的区别

探索演进:了解IPv4和IPv6之间的区别 在广阔的互联网领域中,设备之间的通信依赖于一组独特的协议来促进连接。前景协议中,IPv4(Internet 协议版本 4)和 IPv6(Internet 协议版本 6)是数字基础设施…

内存泄漏案例分享3-view的内存泄漏

案例3——view内存泄漏 前文提到,profile#Leaks视图无法展示非Activity、非Fragment的内存泄漏,换言之,除了Activity、Fragment的内存泄漏外,其他类的内存问题我们只能自己检索hprof文件查询了。 下面有一个极佳的view内存泄漏例子…

OrangePi AIpro开箱测评

OrangePi AIpro(8T) 香橙派联合华为精心打造,建设人工智能新生态 章节一:引言 1.1 背景 香橙派(OrangePi)是深圳市迅龙软件有限公司旗下开源产品品牌,迅龙软件成立于2005年,是全球领先的开源硬件和开源软…

初识C语言——第二十九天

数组 本章重点 1.一维数组的创建和初始化 数组的创建 注意事项: 1.一维由低数组在内存中是连续存放的! 2.随着数组下标的增长,地址是由低到高变化的 2.二维数组的创建和初始化 注意事项: 1.二维数组在内存中也是连续存放的&am…