大数据产业创新服务媒体
——聚焦数据 · 改变商业
金庸有一本著作叫做《侠客行》,这部武侠小说的主角叫做石破天,他从小的时候便跟随少林弟子习武。长大后,随着自己获得的感悟越来越多,最终选择开宗立派,独创一门武功行走江湖,最终成长为一代大侠。
枫清科技Fabarta的故事跟《侠客行》有些相似,创始人兼CEO高雪峰在IBM工作了14年,也曾效命于阿里云,最后也是选择开宗立派,这才有了现在的枫清科技。
枫清科技Fabarta于2021年成立,高雪峰给这家公司的定义是“AI数据基础设施公司”。所谓基础设施,圈内黑话叫做infra,指的就是服务器和办公软件这类开办公司必须要具备的事物。在高雪峰眼里,枫清科技的解决方案,今后也将成为企业的infra。
通过这些年与客户打交道,高雪峰越来越明白一个道理,企业越使用大模型,就需要大模型透明且可解释性更强。高雪峰直言到:“大模型的幻觉、可解释性,推理能力和效果,这些事情会把企业逼疯。”于是枫清科技的业务核心,就是如何高效且实际地解决为客户这些难题。
枫清科技的产品矩阵叫做“一体两翼”。“一体”指的是面向AI的数据基础设施,实现对数据、算力以及模型运行时的管理,从基础层面实现AI就绪的基础设施,融合了图与向量计算的多模态智能引擎,既可以实现模型推理过程中的长效记忆, 也可以优化模型的推理框架,使其具备更好的逻辑推理能力。也正是因为有了多模态能力,才能满足现如今企业的各类智能化需求。
自研引擎这个事在To B圈里并不算常见,行业内普遍存在这么一个认知:能用开源不用自研,能用老的不用新的。毕竟稳定和低成本,是客户普遍的选择。但高雪峰不一样,他偏要走自研这条路线。他的核心目的是,避免依赖开源引擎,让产品拥有更强的可控性和可扩展性。
其实这件事对于高雪峰也很无奈,因为没有既满足分布式计算,又能支持多模态能力的开源引擎,完全不能满足枫清科技针对未来智能化时代数据基础设施的底层数据存储与计算的需求,想要抓紧AI这道浪潮,就只能自研。
“两翼”分别指数据和AI,其中数据侧提供了完善的多模态数据管理功能,有效帮助企业治理并盘点数据资产。这些数据可以存储在“一体”中作为企业的私有数据,为AI提供高质量数据,将企业的数据编织为知识,从数据侧实现为AI就绪的数据( Data Ready for AI);AI侧打通了模型工厂和企业私有知识,并采用低代码化方式,构建深入行业的智能体,帮助企业快速使用包括大模型在内的不同种类的算法,基于微调或者提示工程结合企业私有知识进行AI应用的落地(AI Ready for Apps)。
首先建立企业知识体系,通过数据编织,把企业结构化数据与非结构化的数据连接起来。高雪峰提到:“你把数据全扔到向量数据库里,不叫知识化,很多信息被丢掉了,尤其是数据与数据之间复杂的逻辑关系。”他接着说:“我们真正做到的是将客户数据组织起来,将其转化为知识。这个知识一定能够面向客户特定的应用场景。”
以往,当行业内探讨大模型知识的时候,常常会提起RAG技术,也就是检索增强。这项技术的优势在于,通过检索外部知识,RAG可以减少大模型生成的幻觉,提高回复的准确性和可靠性。还能提供检索到的信息作为支持,提高回复的可解释性。
高雪峰并不完全认同。他是这么说的,“数据与数据之间的关系非常复杂、直接或者潜在的关系,这些才会构成知识。”基于关键字、向量、图等各种RAG的技术,更适合实验室或者简单的知识检索场景,在复杂的商业逻辑场景下会遇到很大的挑战。高雪峰认为,知识并非是面向特定应用的,知识实际上来源于企业的数据沉淀。“我们采用智能化方式将这些数据编织到我们的知识引擎中,它将成为企业沉积下来的知识。”
为了更好的沉淀知识,枫清科技同样也追求低代码技术。事实上,企业的知识来源,往往是业务人员、工程人员这些不具备开发能力,但是有着很深垂直经验的员工,低代码则是专门针对这类人群,快速将他们的业务逻辑变成代码,进而反馈到枫清科技的平台产品中去。
纵览枫清科技的业务构成,发现他们的每个业务之间都有很强的衔接。枫清科技的所有业务都是基于同一个出发点:帮助企业快速构建大模型时代的AI应用。为了实现它,就需要构建解决问题所使用的平台,即“两翼”。为了同时驱动两个平台,就需要一个底层引擎,连接并驱动这“两翼”,即“一体”。
非主流创始人
高雪峰的所有做法对于To B来说都是“反直觉”的。第一点就是自研引擎,前文也提到了,行业普遍的做法是采用开源引擎,然后再根据客户需求进行调整。开源引擎能够大幅降低整体成本,而且经过无数开发者的迭代后也非常稳定。
“当时,我们投入了大量人力和研发能力,邀请了阿里、百度、腾讯等原有的技术专家加入我们来进行这项工作,就是为了能造出自研引擎!”高雪峰回忆到。不过高雪峰不是为了“自研”才去“自研”,他的目标只有两个:第一,解决客户的智能化问题。第二,处理客户多模态数据。高雪峰也强调,他在开发任何产品的时候,始终遵循这两个原则。
高雪峰另一个很“反直觉”的地方在于,他是用平台来解决客户需求的。以往To B行业,由于不同客户之间需求差异化极大,并不会把解决方案进行平台化,更多的是“看人下菜碟”。
这是一个自相矛盾的问题,高雪峰直言道:“即使是在同一个行业,如果说有完全通用的标准产品或平台,我认为那可能是个伪命题。但我们仍然需要坚持做一个平台驱动的公司。”要想行得通,还要从客户开始讲起。起初,高雪峰的目标是瞄准那些大型企业,但相反的是,为大型企业提供解决方案,并不是给自己做平台,而是给客户搭建平台。
大型企业的数据量更大、数据种类更多、数据之间的关系更复杂,因此对于归纳梳理“知识”的这一过程来说,平台化是最简单高效的处理方式。通过这种形式的合作,为枫清科技增加更强的平台构建能力。等到了服务中小型企业时,就可以从自身的平台上调用成熟的解决方案,进而事半功倍。“70%是围绕核心基础产品,30%都是基于定制化或者行业属性的沉淀。”这就是高雪峰独特的产品哲学。
高雪峰补充说到,枫清科技还是要“两条腿”走路,无论大企业还是小企业,只要是客户就要牢牢抓住。在高雪峰眼里,如果一个行业想要真正繁荣起来,带动经济,仅靠龙头企业是远远不够的。
除了做企业,高雪峰在其他地方也是十分的独特。在采访的过程中,他没有拐弯抹角,直爽地告诉数据猿“他压根没有看采访提纲”。他认为如果提前做准备了,反而会影响回答的质量,倒不如直接不看采访提纲,等到采访的时候有什么答什么。“不知道就说不知道,没啥可丢人的。”高雪峰笑着说。
大局观
众多老牌软件行业龙头,在2024年都出现了“疲软”的迹象。虽然国家号召企业数智化升级,是对软件产业的利好,但是就局势来看,多数软件企业仍然处于“受困”的局面。
高雪峰在面对这样的窘境时也毫不避讳,他坚信这样一个道理,国家如果要发展壮大,To B行业一定会是非常发达的。高雪峰判断的依据,世界上诸如美国这样的发达国家,市值排行靠前的企业,永远是To B的科技企业,比如微软、英伟达。因此,按照中国未来的发展规划,To B软件行业目前是在经历短暂的下沉和积累,最终会走向勃发。
他觉得如果没有心理预期,听到信息就认为未来没有前途,那就没有必要继续深入这个行业。但高雪峰也会反过来思考,如果所有人都认为这个行业非常好,非常有前途,那说明也有问题。他对于这个乱象批评到:“你的投入少,也没有技术门槛,钱还哗哗地来。那就说明这笔钱不是你应该赚取的钱!我从不相信天上掉馅饼的事情。天上掉馅饼我也不接!”
IBM可以说是To B软件行业的代表,这家企业距今已有100余年的历史了。行业内流传着这样一句话“没有一个采购会因为买了IBM的产品而被开除”,变相说明了IBM在行业内的地位,以及行业对IBM产品质量、技术的认可。
在IBM工作了14年的高雪峰深知IBM的运行逻辑,所以他对树立品牌这件事有非常独到的看法。高雪峰以OpenAI为例,在OpenAI创立之初,他们并没有什么品牌形象,而当ChatGPT火遍全网的时候,公众逐渐开始认知这样一家企业。
高雪峰的原话是“树立自己的品牌非常难,不是一年、两年、三年就能做到的。品牌不是靠自己讲出来的,是靠产品价值做出来的。你看IBM,到今天100年了,它的品牌树立得非常好,可仍在不断变化。”高雪峰不在乎当下的品牌是怎样的,他更在乎的是企业的长期价值,因此短期的品牌效应对他没有意义。
“办企业,我认为要有一个很Open的心态,否则你可能无法走下去。或许你能取得点小成绩,但是对我来说,这些没有啥值得在乎的,因为毕竟,我还是想办个大企业。”——枫清科技Fabarta创始人高雪峰。
近期在人工智能的圈子里也有个引起广泛关注的消息,就是OpenAI对RockSet的收购,让业界的关注点开始转移到人工智能所依赖的Data Infra和AI Infra的交叉领域,通过在这个领域的不断探索、研究、尝试和产品化,来为B端客户实现可解释的智能,这正是枫清科技Fabarta从成立之初就一直坚持在做的难而正确的事。
文:火焰翼人 / 数据猿
责编:凝视深空 / 数据猿