枫清科技创始人高雪峰:不取侥幸之利,做难而正确的事!丨数据猿专访

7520e48e1f77c16f318f3b08c0853442.png

409eff0c493ee76b119c24e79fd3abda.jpeg

9c4d520d06c727372481c5eea92fe595.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


金庸有一本著作叫做《侠客行》,这部武侠小说的主角叫做石破天,他从小的时候便跟随少林弟子习武。长大后,随着自己获得的感悟越来越多,最终选择开宗立派,独创一门武功行走江湖,最终成长为一代大侠。

枫清科技Fabarta的故事跟《侠客行》有些相似,创始人兼CEO高雪峰在IBM工作了14年,也曾效命于阿里云,最后也是选择开宗立派,这才有了现在的枫清科技。

枫清科技Fabarta于2021年成立,高雪峰给这家公司的定义是“AI数据基础设施公司”。所谓基础设施,圈内黑话叫做infra,指的就是服务器和办公软件这类开办公司必须要具备的事物。在高雪峰眼里,枫清科技的解决方案,今后也将成为企业的infra。

通过这些年与客户打交道,高雪峰越来越明白一个道理,企业越使用大模型,就需要大模型透明且可解释性更强。高雪峰直言到:“大模型的幻觉、可解释性,推理能力和效果,这些事情会把企业逼疯。”于是枫清科技的业务核心,就是如何高效且实际地解决为客户这些难题。

枫清科技的产品矩阵叫做“一体两翼”。“一体”指的是面向AI的数据基础设施,实现对数据、算力以及模型运行时的管理,从基础层面实现AI就绪的基础设施,融合了图与向量计算的多模态智能引擎,既可以实现模型推理过程中的长效记忆, 也可以优化模型的推理框架,使其具备更好的逻辑推理能力。也正是因为有了多模态能力,才能满足现如今企业的各类智能化需求。

自研引擎这个事在To B圈里并不算常见,行业内普遍存在这么一个认知:能用开源不用自研,能用老的不用新的。毕竟稳定和低成本,是客户普遍的选择。但高雪峰不一样,他偏要走自研这条路线。他的核心目的是,避免依赖开源引擎,让产品拥有更强的可控性和可扩展性。

其实这件事对于高雪峰也很无奈,因为没有既满足分布式计算,又能支持多模态能力的开源引擎,完全不能满足枫清科技针对未来智能化时代数据基础设施的底层数据存储与计算的需求,想要抓紧AI这道浪潮,就只能自研。

“两翼”分别指数据和AI,其中数据侧提供了完善的多模态数据管理功能,有效帮助企业治理并盘点数据资产。这些数据可以存储在“一体”中作为企业的私有数据,为AI提供高质量数据,将企业的数据编织为知识,从数据侧实现为AI就绪的数据( Data Ready for AI);AI侧打通了模型工厂和企业私有知识,并采用低代码化方式,构建深入行业的智能体,帮助企业快速使用包括大模型在内的不同种类的算法,基于微调或者提示工程结合企业私有知识进行AI应用的落地(AI Ready for Apps)。

首先建立企业知识体系,通过数据编织,把企业结构化数据与非结构化的数据连接起来。高雪峰提到:“你把数据全扔到向量数据库里,不叫知识化,很多信息被丢掉了,尤其是数据与数据之间复杂的逻辑关系。”他接着说:“我们真正做到的是将客户数据组织起来,将其转化为知识。这个知识一定能够面向客户特定的应用场景。”

以往,当行业内探讨大模型知识的时候,常常会提起RAG技术,也就是检索增强。这项技术的优势在于,通过检索外部知识,RAG可以减少大模型生成的幻觉,提高回复的准确性和可靠性。还能提供检索到的信息作为支持,提高回复的可解释性。

高雪峰并不完全认同。他是这么说的,“数据与数据之间的关系非常复杂、直接或者潜在的关系,这些才会构成知识。”基于关键字、向量、图等各种RAG的技术,更适合实验室或者简单的知识检索场景,在复杂的商业逻辑场景下会遇到很大的挑战。高雪峰认为,知识并非是面向特定应用的,知识实际上来源于企业的数据沉淀。“我们采用智能化方式将这些数据编织到我们的知识引擎中,它将成为企业沉积下来的知识。”

为了更好的沉淀知识,枫清科技同样也追求低代码技术。事实上,企业的知识来源,往往是业务人员、工程人员这些不具备开发能力,但是有着很深垂直经验的员工,低代码则是专门针对这类人群,快速将他们的业务逻辑变成代码,进而反馈到枫清科技的平台产品中去。

纵览枫清科技的业务构成,发现他们的每个业务之间都有很强的衔接。枫清科技的所有业务都是基于同一个出发点:帮助企业快速构建大模型时代的AI应用。为了实现它,就需要构建解决问题所使用的平台,即“两翼”。为了同时驱动两个平台,就需要一个底层引擎,连接并驱动这“两翼”,即“一体”。

非主流创始人

高雪峰的所有做法对于To B来说都是“反直觉”的。第一点就是自研引擎,前文也提到了,行业普遍的做法是采用开源引擎,然后再根据客户需求进行调整。开源引擎能够大幅降低整体成本,而且经过无数开发者的迭代后也非常稳定。

“当时,我们投入了大量人力和研发能力,邀请了阿里、百度、腾讯等原有的技术专家加入我们来进行这项工作,就是为了能造出自研引擎!”高雪峰回忆到。不过高雪峰不是为了“自研”才去“自研”,他的目标只有两个:第一,解决客户的智能化问题。第二,处理客户多模态数据。高雪峰也强调,他在开发任何产品的时候,始终遵循这两个原则。

高雪峰另一个很“反直觉”的地方在于,他是用平台来解决客户需求的。以往To B行业,由于不同客户之间需求差异化极大,并不会把解决方案进行平台化,更多的是“看人下菜碟”。

这是一个自相矛盾的问题,高雪峰直言道:“即使是在同一个行业,如果说有完全通用的标准产品或平台,我认为那可能是个伪命题。但我们仍然需要坚持做一个平台驱动的公司。”要想行得通,还要从客户开始讲起。起初,高雪峰的目标是瞄准那些大型企业,但相反的是,为大型企业提供解决方案,并不是给自己做平台,而是给客户搭建平台。

大型企业的数据量更大、数据种类更多、数据之间的关系更复杂,因此对于归纳梳理“知识”的这一过程来说,平台化是最简单高效的处理方式。通过这种形式的合作,为枫清科技增加更强的平台构建能力。等到了服务中小型企业时,就可以从自身的平台上调用成熟的解决方案,进而事半功倍。“70%是围绕核心基础产品,30%都是基于定制化或者行业属性的沉淀。”这就是高雪峰独特的产品哲学。

高雪峰补充说到,枫清科技还是要“两条腿”走路,无论大企业还是小企业,只要是客户就要牢牢抓住。在高雪峰眼里,如果一个行业想要真正繁荣起来,带动经济,仅靠龙头企业是远远不够的。

除了做企业,高雪峰在其他地方也是十分的独特。在采访的过程中,他没有拐弯抹角,直爽地告诉数据猿“他压根没有看采访提纲”。他认为如果提前做准备了,反而会影响回答的质量,倒不如直接不看采访提纲,等到采访的时候有什么答什么。“不知道就说不知道,没啥可丢人的。”高雪峰笑着说。

大局观

众多老牌软件行业龙头,在2024年都出现了“疲软”的迹象。虽然国家号召企业数智化升级,是对软件产业的利好,但是就局势来看,多数软件企业仍然处于“受困”的局面。

高雪峰在面对这样的窘境时也毫不避讳,他坚信这样一个道理,国家如果要发展壮大,To B行业一定会是非常发达的。高雪峰判断的依据,世界上诸如美国这样的发达国家,市值排行靠前的企业,永远是To B的科技企业,比如微软、英伟达。因此,按照中国未来的发展规划,To B软件行业目前是在经历短暂的下沉和积累,最终会走向勃发。

他觉得如果没有心理预期,听到信息就认为未来没有前途,那就没有必要继续深入这个行业。但高雪峰也会反过来思考,如果所有人都认为这个行业非常好,非常有前途,那说明也有问题。他对于这个乱象批评到:“你的投入少,也没有技术门槛,钱还哗哗地来。那就说明这笔钱不是你应该赚取的钱!我从不相信天上掉馅饼的事情。天上掉馅饼我也不接!”

IBM可以说是To B软件行业的代表,这家企业距今已有100余年的历史了。行业内流传着这样一句话“没有一个采购会因为买了IBM的产品而被开除”,变相说明了IBM在行业内的地位,以及行业对IBM产品质量、技术的认可。

在IBM工作了14年的高雪峰深知IBM的运行逻辑,所以他对树立品牌这件事有非常独到的看法。高雪峰以OpenAI为例,在OpenAI创立之初,他们并没有什么品牌形象,而当ChatGPT火遍全网的时候,公众逐渐开始认知这样一家企业。

高雪峰的原话是“树立自己的品牌非常难,不是一年、两年、三年就能做到的。品牌不是靠自己讲出来的,是靠产品价值做出来的。你看IBM,到今天100年了,它的品牌树立得非常好,可仍在不断变化。”高雪峰不在乎当下的品牌是怎样的,他更在乎的是企业的长期价值,因此短期的品牌效应对他没有意义。

“办企业,我认为要有一个很Open的心态,否则你可能无法走下去。或许你能取得点小成绩,但是对我来说,这些没有啥值得在乎的,因为毕竟,我还是想办个大企业。”——枫清科技Fabarta创始人高雪峰。

近期在人工智能的圈子里也有个引起广泛关注的消息,就是OpenAI对RockSet的收购,让业界的关注点开始转移到人工智能所依赖的Data Infra和AI Infra的交叉领域,通过在这个领域的不断探索、研究、尝试和产品化,来为B端客户实现可解释的智能,这正是枫清科技Fabarta从成立之初就一直坚持在做的难而正确的事。

文:火焰翼人 / 数据猿
责编:凝视深空 / 数据猿

cd4338a762c3d4c941df32bc837f15e3.jpeg

ada0a935bc02920cb76deab911f5978e.png

d61f59b47c5e0fae5f2691465ed183c9.png

6ee88616a02dc5b01897806f38bd0d2b.jpeg

2c11197f2954a5ecc67094073d04d46c.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/35660.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

碧海威L7云路由无线运营版 confirm.php/jumper.php 命令注入漏洞复现(XVE-2024-15716)

0x01 产品简介 碧海威L7网络设备是 北京智慧云巅科技有限公司下的产品,基于国产化ARM硬件平台,采用软硬一体协同设计方案,释放出产品最大效能,具有高性能,高扩展,产品性能强劲,具备万兆吞吐能力,支持上万用户同时在线等高性能。其采用简单清晰的可视化WEB管理界面,支持…

【ONLYOFFICE 8.1】的安装与使用——功能全面的 PDF 编辑器、幻灯片版式、优化电子表格的协作

🔥 个人主页:空白诗 文章目录 一、引言二、ONLYOFFICE 简介三、安装1. Windows/Mac 安装2. 文档开发者版安装安装前准备使用 Docker 安装使用 Linux 发行版安装配置 ONLYOFFICE 文档开发者版集成和开发 四、使用1. 功能全面的 PDF 编辑器PDF 查看和导航P…

交易例子----qmt实盘分钟交易例子,提供交易源代码

今天给大家一个利用qmt_trader交易策略,我现在实盘使用的系统是自己开发的,只需要把qmt_trader当中第三方库使用就可以,源代码开源开源直接下载 量化系统--开源强大的qmt交易系统,提供源代码 参考教程使用,下载当第三…

ONLYOFFICE桌面编辑器8.1版:个性化编辑和功能强化的全面升级

ONLYOFFICE是一款全面的办公套件,由Ascensio System SIA开发。该软件提供了一系列与微软Office系列产品相似的办公工具,包括处理文档(ONLYOFFICE Document Editor)、电子表格(ONLYOFFICE Spreadsheet Editor&#xff0…

Ubuntu Nvidia GPU驱动安装和故障排除

去官网 菜单列表下载,或者直接下载驱动 wget https://cn.download.nvidia.com/XFree86/Linux-x86_64/550.54.14/NVIDIA-Linux-x86_64-550.54.14.run 安装驱动 /data/install/NVIDIA-Linux-x86_64-550.54.14.run 执行命令,显示GPU情况 出错处理&…

【深度学习】tensorboard的使用

目前正在写一个训练框架,需要有以下几个功能: 1.保存模型 2.断点继续训练 3.加载模型 4.tensorboard 查询训练记录的功能 命令: tensorboard --logdirruns --host192.168.112.5 效果: import torch import torch.nn as nn impor…

视频网站系统

摘 要 随着互联网的快速发展和人们对视频内容的需求增加,视频网站成为了人们获取信息和娱乐的重要平台。本论文基于SpringBoot框架,设计与实现了一个视频网站系统。首先,通过对国内外视频网站发展现状的调研,分析了视频网站的背景…

一站式uniapp优质源码项目模版交易平台的崛起与影响

一、引言 随着信息技术的飞速发展,软件源码已成为推动行业进步的重要力量。源码的获取、交易和流通,对于开发者、企业以及项目团队而言,具有极其重要的意义。为满足市场对高质量源码资源的迫切需求,一站式uniapp优质源码项目模版…

激光雷达数据处理

激光雷达技术以其高精度、高效率的特点,已经成为地表特征获取、地形建模、环境监测等领域的重要工具。掌握激光雷达数据处理技能,不仅可以提升工作效率,还能够有效提高数据的质量和准确性,为决策提供可靠的数据支持。 第一章、激…

Spring自带的持久层模板类:JdbcTemplate+Spring框架声明式事务管理实战

模板技术 Spring框架中提供了很多模板类来简化编程,使用模板类编写程序会变的简单 持久层模板JdbcTemplate JdbcTemplate是什么 JDBCTemplate是Spring Framework中的一个核心类,用于简化JDBC(Java数据库连接)代码的编写。它提供…

SQLite、MySQL、PostgreSQL 3个关系数据库之间优缺点对比

引言 关系数据模型以行和列的表格形式组织数据,在数据库管理工具中占主导地位。今天还有其他数据模型,包括NoSQL和NewSQL,但是关系数据库管理系统(RDBMS)仍然占主导地位用于存储和管理全球数据。 本文比较了三种实现最…

mac菜单栏应用管理软件:Bartender 4 for Mac 中文激活版

Bartender 4 是一款由Bearded Men Games开发的适用于Mac操作系统的应用程序,它被设计用来优化和美化Mac菜单栏的功能。自从macOS Big Sur开始,Mac的菜单栏可以自定义,用户可以添加和移除各种图标。Bartender 4就是在这个背景下应运而生&#…

Redis高可用(主从复制、哨兵模式)详解

Redis高可用(主从复制、哨兵模式)详解 Redis是一种高性能的键值存储系统,能够通过多种机制来实现高可用性,这些机制主要包括主从复制(Replication)和哨兵模式(Sentinel)。 Redis 主…

js,uni 自定义 时间选择器 vue2

<template><view class"reserve-time-box"><view class"title">选择时间</view><view class"date-box"><view class"date-scroll-box" :style"{ width : ${dataTimeWidth}rpx }"><v…

Node.js下载及安装详细教程

目录 Node.js安装详细教程 下载安装环境变量配置文件结构配置npm在安装全局模块时的路径和缓存cache的路径测试常见命令 Node.js安装详细教程 &#x1f441;官网下载地址:Download | Node.js (nodejs.org) 下载速度慢的话 可以使用网盘下载&#xff1a; https://pan.quark.…

自然语言处理基本知识(1)

一 分词基础 NLP:搭建了计算机语言和人类语言之间的转换 1 精确分词&#xff0c;试图将句子最精确的分开&#xff0c;适合文本分析 >>> import jieba >>> content "工信处女干事每月经过下属科室" >>> jieba.cut(content,cut_all …

TCP、UDP详解

目录 1.区别 1.1 概括 1.2 详解 2.TCP 2.1 内容 2.2 可靠传输 2.2.1 确认应答 2.2.2 超时重传 2.2.3 连接管理 三次握手 四次挥手 2.2.4 滑动窗口 2.2.5 流量控制 2.2.6 拥塞控制 2.2.7 延时应答 2.2.8 捎带应答 2.2.9 面向字节流 2.2.10 异常情况的处理 1.…

通达信短线抄底主升浪幅图指标公式源码

通达信短线抄底主升浪幅图指标公式源码&#xff1a; A1:REF(C,1); A2:SMA(MAX(C-A1,0),5,1)/SMA(ABS(C-A1),5,1)*1000; A3:BARSLAST(REF(CROSS("RSI.RSI1"(6,12,24),"RSI.RSI2"(6,12,24)),1)); A4:A2-LLV(A2,10); A5:(MA(A4,2)*3A4*13)/16; A6:IF(A5>1…

最新!AI大模型的研究热点!

引言 在人工智能的浪潮中&#xff0c;大模型研究如日中天&#xff0c;涵盖诸多研究方向&#xff0c;每个方向均承载着独特的研究焦点与挑战。 以下&#xff0c;我们将逐一探讨数个备受瞩目的研究方向&#xff0c;包括检索增强生成RAG、大模型Agent、Mamba、MoE、LoRA等&#…

Linux高并发服务器开发(四)进程间通信

文章目录 1 前言2 无名管道3 有名管道4 管道读写特点5 设置管道为非阻塞6 使用有名管道实现简单版本聊天7 共享存储映射7.1 mmap 存储映射函数7.2 共享映射实现父子进程通信7.3 共享映射实现无亲缘关系进程通信7.4 匿名映射实现父子进程通信 8 信号8.1 概念和特点8.2 信号的编号…