【金猿人物展】数元灵科技CEO朱亚东:何以数智化


dbd5c1f0d42cdf66d3a0e102695c7833.png

朱亚东

本文由数元灵科技CEO朱亚东撰写并投递参与“数据猿年度金猿策划活动——2023大数据产业年度趋势人物榜单及奖项”评选。

d56aef66dd15f1b455552eb980da3501.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


在大数据经济的高速发展下,数据已经成为第5生产要素。打造以数据驱动为中心的标准化pipeline,包括从数据源头开始的数据流批一体实时同步管理、中间层的数据计算处理、数据价值的释放落地(BI、AI应用等),将成为大数据经济事实上的新基建,并有效推动国家的数字化经济的发展。

湖仓一体作为新一代大数据技术架构,将逐渐取代单一数据湖和数仓架构,成为大数据架构的演进方向。从传统数据库到数仓再到数据湖,数据架构一直伴随着业务需求的驱动不断迭代,使数据应用场景向复杂化、多元化转变,从最初的交易场景,到分析场景,再到混合场景、复杂分析场景,最后到如今的实时混合场景,大数据架构也在不断演进。在数据架构演进中,不同的架构方案也存在着缺陷:

1、传统数仓。传统数据仓库作为一个中心化的数据源,仍然沿用了数据库的架构,即计算存储耦合在一起,不方便扩展,成本较高。并且中心数据仓库通常需要专门团队来开发维护,面对纷繁的业务需求往往存在响应不及时等问题。

2、Hadoop数仓。目前有大量的企业使用 Hadoop + Hive 的方式搭建数据仓库。然而由于 Hive 无法支持实时、流式的场景,需要通过 Lambda 架构维护实时、批量两套数据处理逻辑,带来重复开发、数据口径不一致、架构复杂等问题。

3、数据湖。数据湖使用云上的对象存储,能够解决存储扩展性问题。然而数据湖原先是为存储任意类型的数据所设计,缺乏对元数据的组织管理,容易形成数据沼泽,难以发挥数据的价值。

4、湖仓一体。湖仓一体作为新一代架构,仍然需要解决 Hadoop/Lambda 架构的固有缺陷,即实时、批量无法统一。甚至由于对象存储的一些问题,实时计算的存储变得更加困难,性能也难以满足新兴的业务需求;各类 SQL、AI 的计算框架与对象存储的适配也不完善。

d3e366aa3bc42e536f255f41e7954422.png

截至目前,整个大数据技术的发展呈现了几个典型的特点:

(1)开源协同;技术的发展和点滴推动,需要整个技术同行的共同努力推进,例如目前世界一些著名的技术软件平台都是国外的开源技术平台,例如Linux,Hadoop,Spark,Flink,PyTorch、Tensorflow等。所以我们要尤其注意推动国产开源大数据软件的发展,切实推动履行国家的“全流程自主可控”的战略;数元灵科技开源的国产唯一的湖仓框架LakeSoul,在开源之初就获得国内外众多的技术从业者的关注和支持,开源不到两年,GitHub star达2.2k,fork使用400+,通过工信部信创认证、国产生态认证等,并切实推动解决了多个大型国企多源异构数据的实时统一管理难题,也充分证明了国产开源软件的力量;进一步地,也更加需要全社会层面的开源协同,打造我国大数据软件的新基建。

我们也可以看到,目前国内各方对国产生态发展的促进,如海光产业生态合作组织(以下简称“光合组织”)等都积极推出了国产适配及信创认证等共同促进国产生态繁荣。近期,数元灵科技与光合组织携手合作,成功实现了LakeSoul与国产硬件平台的深度适配,为国内企业提供了高质量的技术选项,有效减少了对国外技术的依赖,提升了国产技术的自主性。有理由相信,随着国产软件与硬件的持续进步与发展,国家“全流程自主可控”的战略将得到更加有力的落实。

(2)云原生;基于社会分工的发展,无论是大型国企,还是中小企业,都会选择企业上云(公有云或私有云);那么在云原生的背景下,大数据相关技术的发展范式就有了新的特点,比如针对云原生的:资源动态伸缩,存算分离,服务API标准化等发生了新一轮的技术升级和探索。

(3)湖仓一体;随着大数据应用的越来越广泛和深入,整个大数据技术的发展出现了新的挑战。其中最典型的就是,大数据的源头呈现多渠道、大数据的结构呈现多模态、大数据的更新呈现多频次。那么如何针对多源异构多模态大数据的统一实时管理,就成为了一个新的挑战性问题。尤其是在数据作为新的生产要素背景下,有效解决这一挑战的意义更加重大,同时这也是目前多个社会基础行业面临的首要问题。湖仓一体的技术理念在这样的背景下呼之欲出,并获得了快速发展——在“数据湖/数据海洋”之上实现传统数据仓库的管理功能,进一步,在“湖仓一体”的大数据架构基础上,同时利用数据湖的灵活性和便捷性,实现下游的商业分析、人工智能应用的一体化。

(4)BI&AI一体化;传统的BI架构和AI落地通常是两套不同的技术架构,成本高昂,运维复杂,但本质上他们都属于大数据价值的释放。基于同一份原始大数据,下游生态既希望能看到商业策略维度的报表智能,也希望获得AI深挖的生态红利;相应的,作为基础“数据中台”,如何同时以一套服务同时支持BI和AI的落地,已然成为需要思考的新得技术方向。

(5)一站式;当前大数据和人工智能的技术红利,主要被头部的互联网公司所享用,大型国企和中小企业在相关领域的技术落地和推广都有所欠缺。这背后本质的原因是,国内尚未形成一套标准的一站式新基建技术平台,技术组件之间割裂严重,所以如何打造一个通用的一站式大数据智能平台,让更多的行业和技术从业者享受到更加普惠、便捷的大数据人工智能技术红利,会是我国未来数字化经济升级和发展的重中之重。

e7df0193c5e9117cf8b36d9e5342c4fa.png

今天随着大语言模型的蓬勃发展,对背后的大数据技术体系也形成新的技术挑战。大模型的应用对数据能力的要求有如下特点:

1、规模大:数据集的规模呈指数级增长;

2、质量高:需要对数据进行大量的采集、清洗、标注工作;

3、迭代快:需要数据-模型-数据的快速反馈迭代。

这些特点都对传统的大数据体系形成新的挑战,需要我们重新思考设计下一代的大数据体系。

2da4a60aa640c9d8258e1017a3bbc04d.png

最后,随着海量数据的日益迸发,各行各业都面临着全新商业范式的挑战;从基础的大数据体系建设,到上层应用生态的搭建,都需要新的思考。而这一切背后的本质就是促进数据生产要素的快速流动,带动社会经济的快速发展;构建前沿完善的数智化基建体系,数字经济才得以夯实、落地、迸发新的时代力量。

·关于朱亚东:

朱亚东,博士毕业于中科院计算所,之后就职于阿里巴巴,先后担任手淘首页猜你喜欢、交易链路、天猫个性化推荐的算法负责人;并先后荣获集团优秀算法、阿里巴巴集团 CEO 特别贡献奖;2016 年双 11 基于强化学习的电商个性化推荐工作入选世界 MIT Technology 2017 世界十大技术创新之一;2017年加入汇量科技,担任集团副总裁,负责集团 AI + Bigdata 相关的中台基础架构研发,以及各个前台业务线的算法策略落地;2021年创立北京数元灵科技,担任创始人兼 CEO,公司专注于一站式的湖仓智能新基建。

fe92baf2c0c161bebcb2bded21bdf329.jpeg

f161983f2288f77d483791c80ea7a58f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/606775.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

腾讯云免费服务器申请1个月攻略,亲测可行教程

腾讯云免费服务器申请入口 https://curl.qcloud.com/FJhqoVDP 免费服务器可选轻量应用服务器和云服务器CVM,轻量配置可选2核2G3M、2核8G7M和4核8G12M,CVM云服务器可选2核2G3M和2核4G3M配置,腾讯云服务器网txyfwq.com分享2024年最新腾讯云免费…

NUXT3学习笔记

1.邂逅SPA、SSR 1.1 单页面应用程序 单页应用程序 (SPA) 全称是:Single-page application,SPA应用是在客户端呈现的(术语称:CSR(Client Side Render)) SPA的优点 只需加载一次 SPA应用程序只需…

(二)Explain使用与详解

explain中的列 sql语句: EXPLAIN SELECT * from user WHERE userId=1340; 执行结果: 1. id列 id列的编号是 select 的序列号,有几个 select 就有几个id,并且id的顺序是按 select 出现的顺序增长的。 id列越大执行优先级越高,id相同则从上往下执行,id为NULL最后执行…

Chrome您的连接不是私密连接或专用连接

方法一: 在当前页面用键盘输入 thisisunsafe ,不是在地址栏输入,就直接敲键盘就行了因为Chrome不信任这些自签名ssl证书,为了安全起见,直接禁止访问了,thisisunsafe 这个命令,说明你已经了解并…

富文本编辑器

富文本:带样式,多格式的文本,在前端一般使用标签配合内联样式实现 富文本编辑器(Rich Text Editor,简称 RTE)是一种用户可以使用来创建格式化的文本内容的界面组件。它通常可以嵌入到网页或应用程序中&…

Stm32cube keil5配置串口printf 蓝牙打印不出来

1.检查cube里面波特率是否与AT蓝牙设置一致 2.keil里面设置是否打开Use MicroLIB 3、stm32cube是否开启串口中断 4.检测线路是否接触不良,读写线插反等。

IO流-文件复制

IO流 概述:IO流,输入输出流(Input Output)流:一种抽象的概念,对数据传输的总称。(数据在设备之间的传输称为流)常见的功能 文件复制文件上传文件下载 学习流,我们要搞懂…

拓数派加入 OpenCloudOS 操作系统开源社区,作为成员单位参与社区共建

近日,拓数派签署 CLA(Contributor License Agreement 贡献者许可协议),正式加入 OpenCloudOS 操作系统开源社区。 拓数派(英文名称“OpenPie”)是国内基础数据计算领域的高科技创新企业。作为国内云上数据库和数据计算领域的引领者…

云渲染适合什么场景下使用?

云渲染作为影视动画主流的渲染方案,通常云渲染服务商拥有专属的渲染农场,通过渲染农场庞大的高新能数量机器,可协助你在短时间内完成渲染任务。 云渲染使用场景有哪些? 1、硬件限制: 如果你的个人或公司电脑硬件不足…

大模型第三节课程笔记

大模型开发范式 优点:具有强大语言理解,指令跟随,和语言生成的能力,具有强大的知识储备和一定的逻辑推理能力,进而能作为基座模型,支持多元应用。 不足:大模型的知识时效性受限,大模…

【系统高级-环境变量】path配置一整行,而不是列表

这是列表编辑方便。但是不知道为什么变成一行,非常的令人抓狂,经过研究发现,第一个环境变量必须为C:\Windows\system32 开头才可以 文章如下 修改环境变量中的一行变成列表形式_环境变量编辑不是列表-CSDN博客

DDIM学习笔记

写在前面: (1)建议看这篇论文之前,可先看我写的前一篇论文: DDPM推导笔记-大白话推导 主要学习和参考了以下文章: (1)一文带你看懂DDPM和DDIM (2)关于 DDIM …

音频文件元数据:批量修改技巧,视频剪辑高效修改元数据的方法

随着数字媒体技术的快速发展,音频文件已成为日常生活中的重要组成部分。无论是音乐、语音还是其他音频内容,元数据都是描述这些文件的重要信息。下面来看下云炫AI智剪如何批量修改音频文件元数据,在视频剪辑中高效修改元数据的方法。 下面来看…

Java常用类---包装类

包装类 包装类简介 Java语言是典型的面向对象编程语言,但是其中的8种基本数据类型并不支持面向对象编程,基本类型数据不具备"对象"的特性,即:没有携带属性以及没有方法可以调用。 为了解决上述问题,java为…

strtok函数的介绍

_str指被分解的字符串 delim指分隔符字符串 返回类型是指针 strtok()用来将字符串分割成一个个片段。参数s指向欲分割的字符串,参数delim则为分割字符串中包含的所有字符。当strtok()在参数s的字符串中发现参数delim中包含的分割字符时,则会将该字符改为\0 字符…

【论文阅读笔记】Dichotomous Image Segmentation with Frequency Priors

1. 论文介绍 Dichotomous Image Segmentation with Frequency Priors 基于频率先验的二分图像分割 2023年发表在IJCAI Paper Code 2. 摘要 二分图像分割(DIS)具有广泛的实际应用,近年来得到了越来越多的研究关注。本文提出了解决DIS与信息…

vue项目 Network: unavailable的解决办法

vue项目npm run serve 后,只有localhost访问,network不能访。 看到网上说有三种情况: 多个网卡原因:打开网络共享中心,把多余的网络禁用掉,只留一个 在中配置host及public 系统环境变量问题…

Redis高并发高可用(主从复制、哨兵)

复制 在分布式系统中为了解决单点问题,通常会把数据复制多个副本部署到其他机器,满足故障恢复和负载均衡等需求。Redis也是如此,它为我们提供了复制功能,实现了相同数据的多个Redis 副本。复制功能是高可用Redis的基础,哨兵和集群都是在复制的基础上实现高可用的。 默认…

实战:使用docker容器化服务与文件挂载-2

接着上文,演示Elasticsearch 和 Kibana 的安装,并讲解文件挂载 Elasticsearch of Docker (Kibana) 1、Elasticsearch 安装 ElasticSearch 使用 Docker 安装:https://www.yuque.com/zhangshuaiyin/guli-mall/dwrp5b 1.…

php实现支付宝商户转账

目录 一:背景介绍 一:准备工作 三:代码实现 一:背景介绍 最近工作中,要用到支付宝的商家转账功能,用php代码实现,网上找的内容,有些是老版本的实现,有些是调用sdk&am…