和鲸科技执行总裁殷自强:面向空间数据协同分析场景的模型生命周期管理方法

导读:

由 ACM SIGSPATIAL 中国分会主办的第五届空间数据智能学术会议(SpatialDI 2024)于 2024 年 4 月 25 日- 27 日在南京圆满召开,主题为“ AGI 时代下的空间数据智能”,旨在深入推动空间数据智能研究的理论进步与应用创新,以便相关领域的专家学者共同探讨新理论、新问题与新方法,共同推动该领域的持续发展。

会议期间,和鲸科技联合创始人,现任公司执行总裁兼首席产品官殷自强受邀在应急减灾与可持续发展专题论坛发表主题报告,题目为《面向空间数据协同分析场景的模型生命周期管理方法》

本文内容已做精简,如需获取完整版课件,请联系我们

分享嘉宾 | 殷自强

和鲸科技联合创始人,现任公司执行总裁兼首席产品官,统筹公司产品战略与客户战略,专注于数据驱动研究与 AI for Science 场景的数据科学平台产品设计与方法创新,主导了 ModelWhale 数据科学协同平台在气象、地质、遥感、空间科学等众多空间数据智能领域的落地,参与了多项国家级研究专项的平台基础设施攻关,对数据智能场景的多角色协同研究流程有独到的见解与丰富的经验积累。

01

企业视角下的空间数据智能分析与应用减灾场景

本次报告旨在以企业的角度探讨如何站在模型生命周期管理的视角,审视空间数据智能分析以及其在各应用减灾场景下的应用。殷自强介绍道,作为一家专注于“数据科学协同平台”的数据智能科技公司和平台服务商,和鲸科技已在气象、地质、地震、遥感、空间科学等领域参与了诸多应急减灾领域的模型落地,对其相关研究方法的快速发展深有体会。

和鲸发现,空间数据智能场景相关的数据积累呈现出爆炸性的增长,涵盖了众多维度。这些数据不仅包括空间站和卫星数据,还涉及地面雷达站点等多种观点数据,使数据变得日益多元化。

其次,我们发现这些数据在各个应用场景中不断进行渗透。无论是地质调查、社会科学、城市空间还是海洋科学等领域,数据都在发挥着重要作用。在这个过程中,数据与应用场景之间呈现出不断的关联、耦合和协同。例如,在气象场景中,我们需要整合卫星、雷达、格点和站点等多种数据来进行气象预报。

此外,许多应用场景也存在多耦合的特点。在完成预测动作后,我们需要立即评估相关的风险。例如,极端天气所带来的风险可能涉及地质灾害以及对城市空间的影响等多个方面。因此,在应用场景上,我们亟需进行相应的耦合处理。

02

企业视角下的空间数据智能分析与应用减灾场景

整个空间数据智能场景中,面对海量的数据,不同组织和研究场景之间的协同变得困难。然而,通过高维压缩形成模型,我们能够实现数据的共享和传递。数据的内在信息与价值正日益以更为丰富和高维的形式融入模型中,对数据的生命周期管理已逐渐演进为对模型生命周期的全面掌控,在此基础上,我们需要进一步审视并协调数据生命周期与模型生命周期之间的动态关系(From DataOps to ModelOps)。当前,针对空间数据智能分析场景的模型生命周期管理流程,和鲸通过自身实践,总结出以下 3 种 AI for Science 的ModelOps 方法论。

SAOps:以知识驱动、以数据验证的科学分析流程形成的专业模型

SAOps 是一个不断提出假设、检验假设的过程,涉及设计实验、分析数据等多个环节。在此过程中,模型的可解释性尤为重要,我们强调解释性优先,旨在解决模型与解释之间的关键问题。为此,我们需要对模型管理进行两项重要工作:一是保留探索模型及结果的过程,采用使用效果不好的方法,其结论和对比结果也能推进模型的发展;二是将模型与计算过程的报告相结合,共同构成成果。

MLOps:以数据驱动、以知识解释的 AI 模型

MLOps 是一个深入研究的流程。这类模型具有多个特点,如依赖数据和算力进行训练,例如,模型的代码和框架可以保持不变,但不同的训练数据会直接影响模型结构。此外,调用的算力资源也会影响模型训练的结果。因此,模型设计不仅取决于设计者,还依赖于数据资源和算力资源。最后,这类模型是全生命周期的,需要不断迭代,以适应数据的不断增长。我们需要进行数据探索、模型训练、模型评估、模型部署、模型监控和优化,以确保模型处于最佳状态。

讨论模型版本时,我们面临的挑战与以往不同。从模型全生命周期的角度看,版本管理变得更为复杂,不再仅限于模型文件本身。现在,我们需综合考虑数据要素、算力代码及训练环境等关键因素。此外,模型需持续评估,仅凭增加数据量并不能保证性能提升,倘若引入脏数据,可能会影响模型表现。因此,需建立持续化评估体系,确保模型始终最佳。

LLMOps:串联数据模型与领域知识的 LLM 智能体

大语言模型不仅在于其语言处理能力,更在于其作为 Agent 智能体基础设施所带来的变革。大模型可以参与 Agent智能体的计划(planning)、工具(tools)、记忆(memory)和行动(action)等过程,加速科学实验设计、阶段性成果学习以及与其他模型的融合。在未来,我们有望将研究流程、模型、科研工具等函数化,供大模型调用,从而加速模型生命周期的研究。

03

企业视角下的空间数据智能分析与应用减灾场景

接下来,我们将通过一个具体案例来深入探讨模型生命周期管理在实际应用中的落地实践。这个案例是和鲸与中国自然资源航空物探遥感中心遥感应用技术研究所合作的项目。在合作过程中,我们对上述模型生命周期管理流程进行了总结,并发现了一些关键特点和要素。

首先,和鲸高度重视模型生命周期管理的完善,因此,确立清晰的研究基本范式显得尤为重要。以遥感研究为例,遥感数据具有许多特殊性,虽然与图像数据相似,但无法直接使用计算机视觉模型进行研究。因此,我们需要将专家知识融合到模型设计过程中,形成“AI+遥感”的研究范式。这种范式强调从数据与知识的联合驱动出发,形成了对整个模型过程的研究管理。

在这个过程中,领域专家和AI模型相关专家之间的协作至关重要。他们需要在平台上共同工作,利用智能解译等相关技术,使模型能够学习并形成相应的流程。这个过程需要从数据驱动逐渐转向数据与知识的联合驱动,进而形成具体的研究范式。随后,和鲸可以基于这些范式开发具体的应用,形成“1+N”的服务模式,即在一个平台上结合多个应用终端,同时满足科研和生产的其他需求。

04

企业视角下的空间数据智能分析与应用减灾场景

特点一:跨角色协同扮演重要角色

首先,专家的知识与数据驱动化知识的结合是这一过程的关键。在讨论整个模型生命周期管理时,我们发现跨角色的协同扮演着重要角色。这主要体现在两个方面:一是领域专家对已有科研数据形成科研分析工具链的过程;二是AI算法模型的不断迭代过程。这两个过程并不是孤立的,而是需要相互协同,共同推动模型的发展。例如,当从遥感数据中提取信息后,我们利用智能解工具生成结果,并进一步开展深入研究。这些研究过程中的成果需要能够被AI解读,以便更好地辅助数据分析。

特点二:时间尺度的不断发展对可复现性的重要性

此外,由于空间数据科学中的数据量随时间呈爆炸性增长,相关模型的持续迭代十分必要。在这个过程中,模型的可复现性至关重要。这意味着无论是内部单位还是其他人,都需要能够基于我们的数据和模型进行下一步的迭代。因此,我们需要讨论如何确保模型能够被有效复现,包括基础设施的建设和对模型理解性的提升。

特点三:社区化承载模型成果对领域发展的重要性

会上的其他专家也多次提及协同的重要性。站在数据智能研究的角度,组织的边界是模糊的,它并不局限于独立的研究机构内,社区化是承载模型成果、推动领域发展的重要方式。不同的组织需要设计相应的模型成果接口,以便与外部组织进行交流和调用。例如,我们设计的和鲸社区,将不同垂直领域,例如气象科学数据分析的模型和成果以开放的形式在平台上共享。

数据科学平台的选型和落地过程极为复杂,充满风险,因此客户在选择产品时极为审慎。随着企业对成本效益和可持续性的日益关注,服务商需提供成本更低、迭代更快、效率更高的方案来满足客户需求。和鲸科技凭借其成熟的竞赛和社区平台,实现了多垂直领域数据分析流程、代码、结果的在线运行与端到端复现,使其他用户能够轻松运行、修改并分享社区内的模板。这不仅为和鲸吸引了大量专业用户,也为数据科学协同平台 ModelWhale 的发展提供了强大的支持。

本文内容已做精简,如需获取完整版课件,请联系我们

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/28196.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

模型实战(23)之 yolov10 使用总结及训练自己的数据集

yolov10 使用总结及训练自己的数据集 0. yolov10 原理分析 此处参考:https://blog.csdn.net/CVHub/article/details/139204248论文:https://arxiv.org/pdf/2405.14458源码:https://github.com/THU-MIG/yolov10 论文原理分析: 创新: 双标签分配策略 众所周知,标签分配策略…

【嵌入式DIY实例】-Nokia 5110显示DS3231 RTC数据

Nokia 5110显示DS3231 RTC数据 文章目录 Nokia 5110显示DS3231 RTC数据1、硬件准备与接线2、代码实现本文将介绍如何使用 ESP8266 NodeMCU 板和 DS3231 RTC 模块制作一个简单的数字实时时钟,其中可以使用连接到 NodeMCU 的两个按钮设置时间和日期,并将它们打印在诺基亚 5110 …

STM32学习 BKP

BKP就是备份寄存器的意思,听名字就知道它的作用就是用来备份数据的。下面是手册当中的描述。备份寄存器是42个16位的寄存器,可用来存储84个字节的用户应用程序数据。他们处在备份域 里,当VDD电源被切断,他们仍然由VBAT维持供电。当…

【JavaEE精炼宝库】多线程(6)线程池

目录 一、线程池的概念及优势 1.1 线程池的概念: 1.2 线程池的优势: 二、工厂模式 三、标准库中的线程池 3.1 标准库线程池参数解释: 3.1.1 corePoolSize | maximumPoolSize: 3.1.2 keepAliveTime | unit: 3.1…

记一次全设备通杀未授权RCE的挖掘经历

想来上一次挖洞还在一年前的大一下,然后就一直在忙活写论文,感觉挺枯燥的(可能是自己不太适合弄学术吧QAQ),所以年初1~2月的时候,有空的时候就又会挖一挖国内外各大知名厂商的设备,拿了几份思科…

【日常记录】【vue】vite-plugin-inspect 插件的使用

文章目录 1、vite-plugin-inspect2、安装3、使用4、链接 1、vite-plugin-inspect vite-plugin-inspect 可以让开发者在浏览器端就可以看到vue文件编译后的代码、vue文件的相互依赖关系 2、安装 npm i -D vite-plugin-inspect// vite.config.ts import Inspect from vite-plugi…

SpringBootWeb 篇-入门了解 Spring Cache 、Spring Task 与 WebSocket 框架

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 Spring Cache 概述 1.1 Spring Cache 具体使用 1.1.1 引入依赖 1.1.2 Spring Cache 相关注解的介绍 2.0 Spring Task 概述 2.1 cron 表达式 2.2 Spring Task 使用…

基于微信公众号开发h5的前端流程

1.首先公众号进行配置,必须要https域名 还有个txt文件,有弹框提示需要下载放在服务器上 前端处理code的代码封装 // 微信公众号授权 export function wxAuthorize(calback) {// 非静默授权,第一次有弹框 这里的回调页面就是放在服务器上微信…

MFC工控项目实例之五CFile类读写系统参数

承接专栏《MFC工控项目实例之四在调试目录下创建指定文件夹》 实时保存输入的iPlotX坐标轴最小值、最大值到CFG.PAR文件,打开界面从CFG.PAR文件中实时读取保存的最小值、最大值在编辑框中显示。 1、SEAL_PRESSURE.h中添加代码 class CSEAL_PRESSUREApp : public CW…

我主编的电子技术实验手册(07)——串联电路

本专栏是笔者主编教材(图0所示)的电子版,依托简易的元器件和仪表安排了30多个实验,主要面向经费不太充足的中高职院校。每个实验都安排了必不可少的【预习知识】,精心设计的【实验步骤】,全面丰富的【思考习…

大屏幕互动系统PHP源码 附动态背景图和配乐素材 含搭建教程

最新大屏幕互动系统PHP源码 附动态背景图和配乐素材 含搭建教程 测试环境:apachePHP7.3MySQL5.7 源码免费下载地址抄笔记 (chaobiji.cn)

C++前期概念(重)

目录 命名空间 命名空间定义 1. 正常的命名空间定义 2. 命名空间可以嵌套 3.头文件中的合并 命名空间使用 命名空间的使用有三种方式: 1:加命名空间名称及作用域限定符(::) 2:用using将命名空间中某个成员引入 3:使用using namespa…

代码随想录算法训练营第六十二天 | 739.每日温度、496.下一个更大元素 I、503.下一个更大元素II

739.每日温度 文字讲解:代码随想录 视频讲解:单调栈,你该了解的,这里都讲了!LeetCode:739.每日温度_哔哩哔哩_bilibili 解题思路 思路一:暴力双循环 O(n^2) 思路二:单…

ICML24麻省理工提出使用更少的条件独立性测试来发现因果关系新方法

【摘要】众多科学领域的核心问题围绕着理解因果关系这一基本问题。然而,大多数基于约束的因果发现算法,包括广受欢迎的PC算法,通常会进行指数级数量的条件独立性(CI)测试,在各种应用中造成局限。为解决这一问题,我们的工作重点是表征在减少CI测试数量的情况下,可以了解潜在因果…

Explain Python Machine Learning Models with SHAP Library

Explain Python Machine Learning Models with SHAP Library – Minimatech (能翻墙直接看原文) Explain Python Machine Learning Models with SHAP Library 11 September 2021Muhammad FawiMachine Learning Using SHapley Additive exPlainations …

用户管理相关命令(修改sudoer文件添加用户权限)visudo: /etc/sudoers: 权限不够

1.useradd <用户名>&#xff1a;用来新建一个用户&#xff08;-m&#xff1a;创建用户的家目录 -s&#xff1a;指定/bin/bash&#xff09; 2.userdel <用户名>&#xff1a;删除一个用户&#xff0c;还会存在家目录&#xff08;-r&#xff1a;删除用户的同时&…

jeecg在线表单开发模式保存表时报The jdbcUrl is Null, Cannot read database type

报错信息如图 原因分析 使用jeecg框架 数据库使用的是DM数据库&#xff0c;在JeecgSystemApplication中&#xff0c;使用了注解过滤DruidDataSourceAutoConfigure&#xff0c;配置文件使用的是多数据源的方式 会出现这种情况 源码分析 getOnlineDataBaseConfig方法的dataBa…

Gson的常见用法

一引入依赖 <!-- json解析的工具包 --> <dependency><groupId>com.google.code.gson</groupId><artifactId>gson</artifactId><version>2.8.6</version> </dependency> <!-- 主要为了代码简洁和日志打印 --> <…

怎么找抖音视频素材?在哪里找爆款热门的素材呢?

在短视频时代&#xff0c;拍摄和分享短视频已经成为一种潮流。但是&#xff0c;许多人都会面临一个问题&#xff0c;那就是——视频素材从哪里来&#xff1f;今天&#xff0c;我将为大家介绍几个优质的网站&#xff0c;让你的视频素材不再愁。 蛙学府&#xff1a;https://www.…

STM32项目分享:智慧农业(机智云)系统

目录 一、前言 二、项目简介 1.功能详解 2.主要器件 三、原理图设计 四、PCB硬件设计 1.PCB图 2.PCB板打样焊接图 五、程序设计 六、实验效果 七、资料内容 项目分享 一、前言 项目成品图片&#xff1a; 哔哩哔哩视频链接&#xff1a; https://www.bilibili.c…