2024 年伊始,Kyligence 联合创始人兼 CEO 韩卿(Luke)分享了对 AI 与数据行业的一些战略思考,以及对中美企业服务市场的见解,引发业界同仁的广泛共鸣。正值 Kyligence 成立 8 周年,恰逢 AI 技术应用风起云涌之际,我们特此公开 Luke 在去年的一封全员信,一起回顾 Kyligence 在 AI 浪潮中的关键思考与决策:
-
在 AI 领域蓬勃发展的背景下,Kyligence 将如何布局发展战略?
-
面对已经深度使用的众多客户,如何依托 AI 技术创造更大的价值?
-
深耕多年的大数据 OLAP 技术,如何在 AI 时代持续发挥优势?
我们非常欢迎行业内的朋友们进一步交流和探讨。我们期待各位在评论区留下您的见解和体会!
初心:聪明的神兽
2016 年,我们创立了 Kyligence,名字来自 Kylin 和 Intelligence,我们希望让神兽变得更加聪明。在当年 Strata 北京大数据峰会上,Intel 和 Kyligence 一起成了“Intelligence”组合,那时候经常开玩笑说,Intel 抢了“智能”的前半个单词,我们抢了后半个单词,一起成就智能世界。
之所以要让神兽变得更加聪明,是因为 Apache Kylin 最初在 eBay 内部诞生时,我们就希望这个项目能够让数据分析师、业务人员等更加简单、方便、高效地使用数据。当年 eBay 内部分析师想要分析 Hadoop 上的数据要经历非常痛苦和冗长的过程,而 Apache Kylin 的出现使得分析师能够轻松且快速地访问 PB 级别的数据。
当时,数据仓库依然是主流,而 Hadoop 为核心的数据湖生态,缺乏标准、好用、高性能的 SQL 引擎,更无法和 BI 系统进行方便快速的交互。在打败了内部其他 6 个相关项目(当时 eBay 内部发起了 Fast Analytics Program,同时验证 7 种技术方向)后,Kylin 成为 Extreme OLAP on Hadoop,为分析师提供了方便快速的 SQL 交互能力,并在2014年开源并贡献给Apache 软件基金会,随后在2015年成功毕业,成为中国团队主导贡献到 Apache 软件基金会(ASF)的第一个顶级开源项目,获得了全世界大量用户的认可。因此,我们创业后的第一个 slogan 就是“释放大数据生产力”,希望能够借助 Kylin 打下的开源社区基础,在企业级市场,通过提供提升效率让客户充分释放大数据的潜力。
随着 Kyligence 的成立,我们一直在提升性能、交互能力以及易用性等方面不断进行投入,使得我们的商业版产品越来越好用。性能方面,开源的 Kylin 已经在各大互联网厂商的大规模数据上得以验证。而在走向商业客户,尤其是金融客户的过程中,我们更深刻理解了“生产力”的重要性。在传统的数据仓库方法论中,需要大量的 ETL 和建模工作来搭建数据基础架构,而 Kyligence 大大改变了这里的工艺流程,使得用户只需关心数据模型,而无需再建立各层 Summary Table 等,整个跑批、调整的过程可以通过配置方便进行,无需大量的开发、测试、上线等复杂流程。
2018年,在美国市场的实践让我们意识到,我们需要在“自动化”方面进行更多的投入。原因是我们发现在和美国的客户进行交流、POC 和上线的过程中,我们依然需要大量的人工来完成底层模型的调优,这在美国这个人力成本极高的市场显然不合适。同时我们也发现服务国内客户上线的过程中,太多重复性的工作其实可以通过自动化来完成。经过艰苦卓绝的几轮迭代(多次推倒重来,创新是建立在不断的假设验证改进的过程上),在2019年,我们发布了 AI 增强引擎,应该也是行业首个通过底层机器学习能力进行自动化建模和推荐的 OLAP 系统。
2019年 Kyligence 用户大会 Luke 演讲图
正如右图所示,Kyligence 后续几年持续在自动化、智能化方面的不断探索:解决指数级增长的数据和应用,与极其短缺的产业工人(数据分析师)之间的矛盾。我们深知,依靠诞生于70年代的传统数据仓库方法论已经无法适应支持每个人用好数据,必须依靠创新,才能进一步帮助我们的客户完成数智化转型。
从不断迭代底层技术平台,从 Hadoop 技术栈到 Spark 技术栈,再到云计算和全面容器化,我们同时也在不断强化 AI 增强引擎方面的能力。随着越来越多客户使用该能力改善模型建设、系统调优和平台运维等后,我们一直在思考,如何能够更上一层楼,如何从后台系统往前走一步,如何通过引入新技术、新方法,来改变人类使用数据的习惯。
2021年 Kyligence 用户大会演讲图
浪潮:AI,AI,AI
2022 年底,随着 ChatGPT 的横空出世,通用化 AI 突然展现了巨大的能力,短短几个月使得全世界为之疯狂,大部分技术型创业公司如果没有和大模型相关的产品和战略,可能就得开始担忧自己是否会 AI 淘汰了。2023 年初,我和管理层分享过一个我的思考:It's not our game, but we have to be part of the game, and we need to build our own game. 我们身处技术发展的漩涡,大模型并非我们的战场,但 AI 最有可能帮助我们突出重围。
| It's not our game
这句话说的是基础大模型,这不是我们的 Game。工业级的大模型,需要三样能力:算法、数据和算力。算法其实不难,很多开源的大模型早就存在,近一年我们看到更多开源框架跑分也越来越好。那么壁垒主要就在数据和算力了。
微软的布局,使得 OpenAI(尤其是微软版本)能够访问过去互联网所有公开数据,以及微软多年积累的独特且私有的数据集,例如 MSDN、MSN、Office、LinkedIn、Github 等。在世界范围内几乎也是独一无二了,即使是 Google、Facebook 等企业也都不算是企业级数据集。这使得 OpenAI 能够学习的知识是独一无二的,这是一个几乎不可逾越的壁垒,除了微软,没有哪个公司拥有更多的互联网级别的企业级数据集了。
而算力,实实在在的“钞能力”,则是另一个无法逾越的壁垒。尤其是 OpenAI 使用 Azure 平台,不仅使得 ChatGPT 能够如此惊艳,Azure 平台也能够更好地提供大模型的云能力,再加上难搞到的 GPU,这里的壁垒高不可攀。
而这些,不是我们的领域。
| Be part of the game
革命性技术出现的时候,需要一些定力,没看清楚就冲上去,容易成为先烈。而我们其实从未停止 AI 这方面的思索和试验,从各个团队到非正式的兴趣小组,一直不断探索。我们也深知 Kyligence 必须参与这场革命,但在没有找到可以和 Kyligence 产品现有积累与优势有机结合的触点之前,我们选择待时而动,即使当时已经完成了 ZEN 对 OpenAI 的集成。有不少创业公司甚至一夜之间变成了“AI 公司”,但却讲不清楚 AI 与其产品的故事,这当然不是我们的选择。
那么,到底如何结合 Kyligence 产品优势与大模型的强大能力?如何规划一条别人难以复制的产品路线图?我们过去多年积累的,一方面是 OLAP 技术的深度,在性能、并发、自动化、安全、高可用等企业级能力方面,我们一直处于行业领先位置;另一方面,我们的客户群体,是中国最具商业价值的客群,以大型银行、保险公司、跨国公司、头部制造业、药企等为主,付费能力、付费意愿和合规性等都很高。我们的信心在于 Kyligence 有坚实的技术和用户基础。基于我们的优势,积极将 AI 能力引入以提升我们的产品和能力,用我们的方式参与这个 Game。
而如何将大模型能力结合进来,将是我们的 Game。
| Our game
Copilot in Kyligence Zen,是我们的答案。
Kyligence 从 2021 年开始战略转型,一直在往指标平台方向演进,以充分发挥我们在 OLAP 领域的积累。通过指标平台,我们向上支持用户直接充分使用到 Kyligence 的底层能力;向下延伸有强大的向量化计算底座作为支撑。随着 Zen 路线图的日益清晰,我们在指标平台这个领域取得了相当不错的进展,从客户项目的落地,到 Gartner 等权威报告等,都可以看到我们正引领着这个赛道。
同时,随着基于 OpenAI 的原型推出,统一的指标平台将是支撑 AI 在企业级数据和分析领域落地的基础。在和大量行业先锋客户交流后,他们一致的反馈是:Copilot 这一形式正是他们想要的、甚至急迫看到落地的 AI 在数据和分析领域的应用。
2023年 Kyligence Zen 预览版产品截图
Copilot 是人机交互新方式,其使得普通人能够以自然语言的方式,来指挥计算机系统完成复杂、专业的工作。以前必须依赖专业团队(例如数据分析师、数据工程师等)完成的工作,现在完全可以由普通人+Copilot 来完成,大大降低了人类使用数据的门槛,也将改变人类使用数据的习惯。而指数级增长的用量和数据积累,则要求底层平台能够拥有强大的能力,同时以自动化、最低的成本来运行,而这些正好都是 Kyligence 长期积累的优势。
而此前朝着指标平台的及时转型,也为我们今天快速构建满足市场需求的 Copilot 奠定了基础。在既定的战略方向上,我们大大缩短了从早期市场进入主流市场的时间,加速跨越鸿沟。举个例子,假如说 OLAP 到指标平台是从 1 到 10 的改变,从普通汽车换成了跑车;而叠加了 Copilot 能力,则是增加了氮气加速器,直接从 10 拉到了 1000,已经是另一个数量级的变革。
使命:释放数智生产力
数智化转型的关键,是赋能每个人使用数据进行运营和决策。
当前经济形势严峻,全球企业尤其是中国企业,都在降本增效,都要求更精细化的运营,希望数据赋能到一线业务,每个人都能用数据来加速日常的业务流程和决策。帮助客户通过指标平台和 Copilot 赋能每一个员工,释放数智生产力,是我们一直以来的使命。数据与人工智能,必然能够大大提升生产效率,甚至进一步改善生产关系。
| 人机交互新模式
首先,Copilot 带来了人机交互模式的突破,自然语言能被理解、机器能够推理,从而达到了人和机器之间的和谐,这是 OpenAI 等大模型带来的颠覆式创新。
回到企业的日常作业或业务决策,往往需要获取来自多个系统的不同数据和指标。传统的报表和仪表盘模式,是难以让普通员工快速、简单使用的。在实践中,我们往往会听到业务的抱怨,为了获得 3 - 5 个指标,不得不在各个系统间切换,一级一级找到某个报表,摘出某个指标,然后再在另一个平台重复再重复,而业务使用数据的终点,永远都是在 Excel。
在过去的 3 年里,Kyligence 一直致力于构建统一的指标平台,而今天,通过 Kyligence Zen,无论大型企业还是中小型企业,普通员工都可以方便、快速地检索和使用指标,用户无需关心背后具体的系统、项目、报表,如果说 Cube 是对底层数据的索引,那 Zen 则是对业务指标的索引。
而基于 AI 的 Copilot,更使得这个能力有了指数级的提升。近一年里,我们看到 AI 已经可以完成各种语言理解、内容生成、自动转化等,几乎无需专业人员的参与,就能实现以往各种复杂的任务,这是人机交互的革命。
在数据分析领域,以往需要将需求描述给分析师,分析师再解释给数据工程师,再由数据工程师完成复杂的数据处理,这个模式已经被颠覆。通过自然语言,将需求描述给 Copilot,AI 能够准确理解意图,并转换为系统调用,基于系统结果,再进一步完成解释。以往需要几天、几周以及多个角色的复杂工作,在今天,只需要几句话,在几分钟甚至几秒钟内即可完成,这个改变非常的惊人。
而对于客户而言,他们正期待这样的交互能力,能够早日赋能到业务一线,让员工充分利用好数据,从而在激烈竞争的市场上,建立新的竞争壁垒。面对同样的问题,一个公司用 Copilot 即可快速利用数据完成决策、采取行动,而另一个公司可能还在提需求、拉数据、做报表,那结果不言而喻。
回到 Kyligence 的产品架构,Kyligence Enterprise 提供企业级 OLAP 能力,Kyligence Zen 构建统一指标平台,而 Kyligence Copilot 将提供基于大模型的 AI 能力,在 Copilot 里,企业可以充分调用指标推荐、分析、转换、归因等各种能力,同时还可内部使用和对外提供数据产品。
| 统一指标平台
基于 OpenAI(或者其他大模型能力)构建 Copilot 从技术上来讲并不难。然而,让 AI 能够在企业级客户落地,统一的指标平台是重要的先决条件。对于企业级用户,如果没有统一定义和标准的指标,如果指标不能被追溯和治理,容易产生“幻觉”的 AI 是无法被信任的。Kyligence Zen 提供的企业级指标平台能力,从指标目录,到指标定义、展现、归因、标签等,都是赋能 Copilot 的基础。
通过指标平台构建企业共同的数据语言(Common Data Language),再由 Copilot 完成普通用户的触达和赋能,让他们能够方便地和系统交互,一方面大大增加了业务用户使用指标的意愿,满足他们个性化的数据需求,同时也能大大减少数据分析师、BI 工程师、数据分析师等的投入。
| ZenML - 指标定义语言
Zen Metrics Language(ZenML)是 Zen 指标的定义语言,也将是指标定义的标准。
在大部分企业内,已经现存一批业务或者管理的指标,沉淀了多年积攒的业务逻辑、分析思路以及管理思想等。这些数字资产广泛存在于 BI、报表以及其他各种不同的系统中。如何更好地管理、复用和释放这里的潜力,是大部分组织面临的挑战,也是很多组织不愿意迁移的顾虑。而 ZenML 通过统一的语言和自动化的工具,能够帮助客户快速将已有数据资产迁移到指标平台,进一步释放数据的潜力。
ZenML 详细定义了指标的相关信息,基于 YAML 文件格式,得以在各个系统之间用同一种格式对数据和指标进行交互,并能够使用版本管理工具进行版本管理,解决指标定义历史的难题。将复杂的指标定义通过文件形式交互,这相比完全基于数据库定义指标的系统,带来了更开放的能力,使得用户可以非常方便的从其他系统中抽取并转义成 ZenML,也能支撑企业通过导出、导入功能和指标模版能力,在企业内外部复用或者迁移相关业务逻辑和数字资产,大大加速系统的上线时间。
| 高性能 & 高并发 OLAP
高性能是指标平台的刚性需求。瞬息万变的世界,用户不愿意花长时间去等待 AI “loading”,只有为业务用户提供快速的数据获取和分析能力,才能让组织在激烈的竞争中构建业务敏捷性以应对各种变化和挑战。
高并发是满足支持大规模/全量员工使用数据的基础。大量的业务用户涌入,将对系统的并发度有非常高的要求,一个国内企业,几万乃至几十万员工是正常的规模,为如此多的用户提供指标分析能力,高性能和高并发 OLAP 基座几乎是唯一的选择。传统的数据仓库架构一方面无法应对可能产生的高成本 SQL(比如笛卡尔积),从而影响整个系统的性能甚至宕机;另一方面,大规模的并发访问一向也是其弱点,在多个节点之间交换大量数据更容易导致系统崩溃。而高性能+高并发却一直是 Kyligence OLAP 的领先优势,通过分布式架构,在高性能和高并发场景上见长,在 AI 场景下,可以预见我们架构的优势也将进一步拉大。
Kyligence 多年来不断积累、打磨企业级 OLAP 引擎,经历了国内外各种规模、各种苛刻场景的考验,是当前行业内领先的系统。基于此推出的智能一站式指标平台 Kyligence Zen 和 AI 数智助理 Copilot 更实现了新的人和数据交互模式,也是我们脱颖而出的竞争壁垒和巨大优势。
沉潜蓄势,厚积而薄发,不鸣则已,一鸣则惊人!
| 数据产品 - 构建生态
Kyligence Copilot 将直接能够帮助用户创建各种数据产品,可视化、报表、仪表盘、Excel、看板等,都是 Kyligence Zen 中数据产品的能力,数据产品以更开放的形态,将指标和工作流、应用等结合起来,完成特定的业务逻辑或管理需求。同时,可插拔的架构也支持引入第三方,为客户提供各种基于数据和指标的能力,来不断丰富我们的生态和边界。
系统可自动创建 Dashboard
借助 AI 的能力,用户只需和 Copilot 进行对话,就能几秒创建一个仪表盘,这将大大提升数据和分析的效率,把大量的重复劳动转为 AI 去实现,真正提升生产力。
| 成本、成本、成本
赋能普通用户大规模使用数据最后的挑战一定是成本,组织需要在赋能更多人使用和相应成本之间衡量 ROI。随着数据湖、云计算等技术的迭代,今天使用大数据、数据仓库的成本已经越来越低。而我们所代表的 MOLAP 流派,一直以空间换时间的方式,为客户提供成本最优的解。考虑到 AWS S3 1TB 的费用不过几十美元一年,可以看到我们产品和架构,在大规模使用场景下的成本优势。
同时,我们的不断创新,我们的向量化 Spark 能力已经能够提升至少一倍的性能,也就是说在同样场景下,能够节省一半的资源,这对于绝大部分客户来说,都是一笔非常可观的费用节省。成本优化也将是我们长期的研究方向。
方法论:边使用边治理
数据仓库是一个专业且复杂的工程,没有合适的方法论,是无法顺利帮助客户实现价值的。
在过去,传统的数据仓库方法论,强调为决策层提供决策支持的能力(DSS,决策支持系统),其假设是决策只需要由管理层或少部分决策者进行,但数据必须精准(传统制造业确实只需要中高层完成决策即可)。同样因为技术的限制,即使是昂贵的硬件,也无法满足广泛的数据需求。从而在过去几十年,数据仓库领域一直遵循的是“先治理后使用”的方法论。组织建设数据仓库等系统是为了更好地利用数据进行决策,通常都会先找咨询公司等先把数据治理咨询做好,定义规范,最后再开始建立系统,周期往往需要6-9个月,甚至用年计算。
比如谈到指标,先要起个咨询项目来规划指标体系,明确每个指标的加工口径,然后才是考虑引入 IT 系统进行落地。但这种方式通常有几个问题:
-
咨询费时费力反且不讨好,管理层长时间看不到效果;
-
IT 很难牵头负责,业务部门配合困难,过程涉及数据主权、管理归属等,而业务部门没有动力去做牵头做这样的系统;
-
咨询项目的结果通常以固定的文档呈现,而指标定义和系统则是不断变化和发展的,遇到新的业务发展形态,还是会出现口径不一致的指标,所谓的治理永远是跟在业务后面“擦屁股”,费力且不讨好。
而现在,新的商业、经济模式、企业形态不断涌现,传统的数据仓库理论已经无法满足当前日益增长的人人用数需求。如 2021 年 Kyligence 用户大会提到:
-
数据已经无法全部集中化,必须通过连接的方式来访问全部内外部数据 ;
-
使用数据的人群从少数据决策者和分析师,转变成了一线人员、人人都需要使用数据;
-
从 Known 到 Unknown,大部分人是不知道组织有什么指标可以使用,也不知道如何使用,需要系统告诉他们发生了什么,如何解决等。
在和全球诸多大型客户多年的合作后,我们发现必须对数据仓库方法论进行创新和突破,新的技术和能力,也使得新的方法论成为可能。“边使用边治理”是我们的方法论,Kyligence 的 AI 增强引擎,则使得这种方法论得以实现。
将混乱转变为有序,即是治理。以往,治理需要专家,以及消耗非常多的资源和时间来完成,另一方面,以往的数据仓库极其昂贵,无法忍受混乱带来的冗余和浪费。而今天,以对象存储为核心的云计算模式,存储已经极其低廉,能够接受非常大程度的冗余,大大增加了个性化服务的可能性。而得益于技术的发展,尤其是 Kyligence 的 AI 增强引擎,能够自动化地从 SQL 历史和使用记录中,推荐出相关模型,从而自动化完成治理,大大降低了“治理”的难度。
通过“边使用边治理”模式,我们已经帮助各行各业的客户,在支持业务灵活性和系统良好治理之间,实现动态平衡。
结语:世界级软件公司
通过 Kyligence Copilot 带来的人机交互新模式,将使用数据的门槛降到了最低,数据和分析行业正在迎来巨大的变革。通过统一指标平台,使得基于 AI 的人和数据之间的交互得以轻松实现;通过高性能、高并发 OLAP 引擎和其他技术,使得能够支撑大规模的数据使用,实现人人用数,帮助我们的客户释放数智生产力,这是我们的使命。
成为一家世界级软件公司(👈点击查看原文),一直是我们的愿景。从创业伊始,我们就相信来自中国的技术,一定可以改变世界,一定可以被全世界的客户认可。在过去几年,我们已经赢得了大量的国际客户和国内客户,验证了我们的产品和技术。随着 Kyligence ZEN 和 Copilot 的推出,我们正实现“把简单留给用户,把复杂交给 AI”,更有信心进一步引领数据和分析行业。道阻且长,但充满了各种可能和荣耀,希望和各位同学一起,我们齐心协力,积跬步,智千里!
CEO Luke
2023-06-05
关于 Kyligence
跬智信息(Kyligence)由 Apache Kylin 创始团队于 2016 年创办,是领先的大数据分析和指标平台供应商,提供企业级 OLAP(多维分析)产品 Kyligence Enterprise 和智能一站式指标平台 Kyligence Zen,为用户提供企业级的经营分析能力、决策支持系统及各种基于数据驱动的行业解决方案。
Kyligence 已服务中国、美国、欧洲及亚太的多个银行、证券、保险、制造、零售、医疗等行业客户,包括建设银行、平安银行、浦发银行、北京银行、宁波银行、太平洋保险、中国银联、上汽、长安汽车、星巴克、安踏、李宁、阿斯利康、UBS、MetLife 等全球知名企业,并和微软、亚马逊云科技、华为、安永、德勤等达成全球合作伙伴关系。Kyligence 获得来自红点、宽带资本、顺为资本、斯道资本、Coatue、浦银国际、中金资本、歌斐资产、国方资本等机构多次投资。