AI+智慧海洋数据集

需要的同学私信联系,推荐关注上面图片 右下角订阅号平台 自取下载。

AI+智慧海洋数据可以促进海洋科技领域人工智能新技术产、学、研、用协作,引领行业技术创新,助力AI智慧海洋高质量发展,进一步推广人工智能与海洋科技的融合创新应用。在这里整理了一份AI+智慧海洋数据集,共包含6+细分场景数据集,助力AI+智慧海洋领域的研究与创新。

1. 海洋漂流轨迹预测数据集

2. 海洋船舶智能检测数据集

3. 海洋水下垃圾检测数据集

4. 船舶航行轨迹预测数据集

5. 海洋鱼类图像识别数据集

6. 冰川卫星图像检测数据集

01 — 海洋漂流轨迹预测数据集

图片

【数据背景】随着海洋经济不断发展,海上运输、海洋渔业等海上活动日益增多,导致海上事故频发,造成落水人员、受损船只等海上目标在海面风浪、海流等环境要素的共同作用下自由漂移,增加了海上搜寻工作的困难。目前,我国的海上搜救指挥协调工作主要依靠搜救指挥人员的经验和判断,尚不能根据海上失事地点水文气象状况等快速高效地预报落水人员的漂移轨迹,这在很大程度上影响了指挥与协调工作的快速性和准确性。

【数据任务】如何利用落水人员漂流轨迹预测以及互联网技术来进行海上落水人员的联合搜救是极具现实价值的研究课题。基于此建立落水人员漂移预测模型,尽可能准确的预测落水人员的漂流轨迹,可以最大程度减小搜寻区域的大小,减少搜救力量的投入,提高海上搜救的成功率,有效保障海上生产活动的安全。

【数据说明】数据包括两部分,第1部分是将仿真人体模型在指定位置抛放,通过仿真人体模型上的GPS/北斗定位模块进行实时定位,记录仿真人体模型的实际漂移轨迹;

Train.csv文件包含仿真人体在海上漂移的轨迹路径。文件格式如下:

图片

Test.csv为人员落水的起始坐标点,文件格式同Train.csv。要求按照提供的起始点坐标进行预测,预测未来48小时内漂移轨迹,且每半小时预测一个点。具体提交内容可以参考submit_example.csv文件,提交文件参考格式为:

图片

第2部分是辅助数据,提供部分NC格式的洋流数据跟气象数据。NetCDF(network Common Data Form)网络通用数据格式是一种面向数组型并适于网络共享的数据的描述和编码标准。目前,NetCDF广泛应用于大气科学、水文、海洋学、环境模拟、地球物理等诸多领域。用户可以借助多种方式方便地管理和操作NetCDF数据集。可自行从公开互联网站点上获取气象以及海洋洋流数据,例如:实时及历史风浪流数据https://earth.nullschool.net;当前及预报的风浪流数据https://www.windy.com。

【参考方案】算法方案主要分为以下4个部分:

I、利用训练集中的轨迹信息,从外部数据中查找到对应位置的风速和水流速度。具体的,风速用该时刻距离最近的三圈方形网格上的36点做线性插值,水流用该时刻距离被测点空间上最近的36个点来做线性插值,生成训练用的中间文件,在实际训练的时候会用周围15分钟的数据做平滑处理;

II、靠近海岸的点查不到current数据,其轨迹一般是“原地打转”模式,故在训练的时候把靠近海岸的7个点移除出训练集,不参与训练。同理,在预测的时候直接把在陆地上的3个点,还有靠近海岸的22个点设置为不动点;

III、用lightgbm分别训练一个经度模型和一个纬度模型,用风和水流的东向分量来预测轨迹在经度方向上的变化,用风和水流的北向分量来预测轨迹在纬度方向上的变化,把每个点30分钟后经度和纬度的位置差作为预测标签。因为不同纬度上同样的风速和流速带来的经度变化不一致(高纬度大,低纬度小),需要额外做补偿处理;

IV、预测时,每隔30分钟预测一次,累加并迭代95次之后形成最终的轨迹。

【代码说明】项目源码在ocean-tracking-code文件夹中,主要包括以下5个脚本:combine_dataset.py、main.sh、make_dataset.py、model.py和util.py。

02 — 海洋船舶智能检测数据集

图片

【数据背景】海上船舶目标检测对于领海安全、渔业资源管理和海上运输与救援具有重要意义,但在天气和海浪等不可控的自然因素影响下,依靠派遣海警船或基于可见光数据进行船舶目标监测等手段往往难以有效开展。卫星合成孔径雷达(SAR)是一种全天时、全天候、多维度获取信息的主动式微波成像雷达,为海洋上多尺度的船舶检测提供了强有力的数据保障和技术支持。由于SAR的成像原理与光学相机存在很大的差别,如何利用SAR数据特性设计出一套具有针对性的船舶检测方法是一大难点。

【数据任务】快速精准的检测出船舶的垂直边框是船舶智能检测的基本需求。以训练数据集中船舶和相应垂直边框信息为学习依据,要求对测试数据集中的船舶进行检测,输出船舶对应垂直边框。需要考虑SAR图像和船舶目标的特性,如背景强散射杂波的不均匀性,目标的不完整性、十字旁瓣模糊和临近目标干扰等,设计科学适用的算法模型进行船舶的智能检测。

【数据简介】源数据为中国资源卫星应用中心提供的102景GF-3卫星数据及欧空局提供的108景哨兵1号卫星数据。标注数据由中国科学院空天信息创新研究院王超研究员团队制作和提供,通过对源数据进行幅度值生成,位深量化和灰度拉伸处理后,将原始16位复数数据加工为8位数字图像。通过裁剪和筛选,形成像素尺寸为256x256的船舶切片,并通过Labelme目标标注软件,为每一张船舶切片生成对应的船舶标注框信息文本。

数据说明】训练数据集中包括2类数据文件,第1类是.jpg格式的SAR影像文件,第2类是txt格式的船舶标注信息文本文件,两者通过相同的名称进行关联,名称命名规则可忽略。船舶标注信息文本文件字段说明如下表所示:

图片

示例说明:txt中第一位数字0代表船舶,第二位数字计算公式为LA/L=0.67578125,第三位数字计算公式为DA/D=0.2890625,第四位为l/L=0.1484375,第五位为d/D=0.1015625,数据集中L和D均为256。将所有模型检测结果放入一个csv文件中,命名为submission.csv,文件内容格式为:每一行为一个待检测影像的信息和结果,其中第一列存储待检测的影像名称(不包含后缀名),第二列存储检测的垂直边框信息,如果有多个垂直边框,用英文的“;”将边框信息进行分离。

【参考方案】海上船舶智能检测第3名解决方案概括如下:

I、预处理:形态学闭操作处理图片:增强小目标船只

II、数据增强:Mosaic,MixUp (只在YOLOX中work);GridMask,Flip,Translate;

III、模型架构:ConvNext;SWin-Transformer;YoloX;

IV、模型融合:WBF融合多次结果。

【代码说明】项目源码在SAR-ship-detection文件夹中,核心脚本存放在/SAR-ship-detection/data/code,包含mmdet、utils和yolox三个脚本文件夹。

03 — 海洋水下垃圾检测数据集

图片

【数据背景】海洋保护是全球性的环境保护问题之一,它涉及到海洋生态系统的保护、渔业资源的可持续利用、海洋塑料垃圾污染的控制以及海洋生物多样性的保护等多方面的问题。随着人类对海洋资源的依赖增加,海洋保护的重要性也不断被认识到。图像识别是一种基于深度学习的计算机视觉技术,它可以帮助我们识别海洋塑料垃圾污染的图像,并进行定位和统计。

【数据描述】数据来自海洋垃圾的J-EDI数据集,构成该数据集的视频在质量、深度、场景中的对象和使用的相机方面差异很大。它们包含许多不同类型的海洋垃圾图像,这些图像是从现实世界环境中捕获的,提供了处于不同腐烂、遮挡和过度生长状态的各种物体。此外,水的清晰度和光的质量因视频而异,对这些视频进行处理以提取图像样张。

【应用领域】AI+海洋水下垃圾检测

【文件目录】以下3个数据文件夹:

/train:训练集

/valid:验证集

/test:测试集

【数据说明】共包含从视频中提取的7300+海洋水下图像样张,对每个图像进行以下预处理,统一调整大小为480x360。其中所有图像都标有垃圾、植物和动物等生物对象标签以及ROV实例的边界框,目标是开发适用于海底机器人部署的高效、准确的垃圾检测方法。所有图像样张均包含xml标注,/train包含5390+图像样张及其对应的txt和xml标注,/valid包含820+图像样张及其对应的txt和xml标注,/test包含1144+图像样张及其对应的xml标注,使用时也可以自行划分训练集、验证集和测试集。

04 — 船舶航行轨迹预测数据集

图片

【数据背景】随着海上交通量的迅猛增长,水域承载负荷增大,航道拥挤。这种情况下船舶本身的缺陷和人为操作失误使得海上事故增多,造成了巨大的经济损失,其中的一个关键问题就是实现船舶航迹预测。目前,大多数船舶轨迹预测模型还停留在基于特定运动学方程的模型上,这种模型受限程度较高,已经很难应对当今繁杂的海上交通情形。利用机器学习相关技术可以挖掘船舶历史轨迹数据中潜在的船舶运动模式,建立高精度的船舶航行轨迹预测模型,提高船舶海上风险应对能力。

数据任务】依据真实船舶历史航行轨迹数据,利用机器学习相关技术,建立船舶轨迹预测模型,预测船舶下一时间段的航行轨迹。

【应用领域】AI+船舶轨迹预测

【文件目录】以下3个数据文件:

train.csv:训练集

test.csv:测试集

submission.csv:结果示例

【数据说明】整理自东海船舶AIS设备传回的轨迹数据(已脱敏),为海上真实的船舶历史轨迹数据,数据集涵盖多个维度的信息,每1条轨迹数据包括船舶ID、经度、纬度、速度、方向、时间等信息,该类数据集广泛应用于船舶航行状态评估、船舶碰撞概率检测等场景。以下是具体的字段信息:

mmsi:string类型,船舶唯一标识符;

lon:Double类型,经度;

lat:Double类型,纬度;

Sog:Double类型,航速;

Cog:Double类型,航向;

timestamp:String类型,时间戳

05 — 海洋鱼类图像识别数据集

图片

【数据背景】利用AI技术对海洋鱼类进行识别,不仅能很好地开发利用和保护鱼类资源,也为发展海洋渔业生产发挥了积极的作用,具有重大的学术研究和经济价值。

【数据简介】台湾电力公司、台湾海洋研究所和垦丁国家公园在2010年10月1日至2013年9月30日期间,在台湾南湾海峡、兰屿岛和胡比湖的水下观景台收集的鱼类图像用于鱼类识别研究,该数据集包括23类鱼种,共27370张鱼的图像。

【应用领域】AI+海洋鱼类识别

【数据说明】23类鱼种对应的图像样张数据分别存放在以鱼种类型命名的文件夹当中,未对每个图像进行预处理,图像大小未进行统一调整。以下是具体的鱼类类别信息及其对应的图像样张数量:

Dascyllus reticulatus:网纹宅泥鱼(12110)

Plectroglyphidodon dickii:迪克氏固曲齿鲷(2681)

Chromis chrysura:长棘光鳃鱼(3591)

Amphiprion clarkia:双带小丑鱼(4047)

Chaetodon lunulatus:弓月蝴蝶鱼(2532)

Chaetodon trifascialis:川纹蝴蝶鱼(188)

Myripristis kuntee:康德锯鳞鱼(448)

Acanthurus nigrofuscus:双斑刺尾鱼(216)

Hemigymnus fasciatus:横带粗唇鱼(239)

Neoniphon samara:莎姆金鳞鱼(297)

Abudefduf vaigiensis:五带豆娘鱼(96)

Canthigaster valentine:黑马鞍鲀鱼(145)

Pomacentrus moluccensis:摩鹿加雀鲷(179)

Zebrasoma scopas:黑三角倒吊鱼(88)

Hemigymnus melapterus:黑鳍粗唇鱼(40)

Lutjanus fulvus:黄足笛鲷(204)

Scolopsis bilineata:双线眶棘鲈(47)

Scaridae:鹦嘴鱼(54)

Pempheris vanicolensis:黑缘单鳍鱼(27)

Zanclus cornutus:镰鱼(19)

Ncoglyphidodon nigroris:黑嘴雀鱼(14)

Balistapus undulates:黄纹炮弹鱼(39)

Siganus fuscescens:褐蓝子鱼(23)

【参考方案】参考算法解决方案为:选取23种鱼类数据随机抽取数据进行迁移学习训练。由于个别样品数量大,使微调时长变长,微调也不需要这么多样本,因此对超过200个的样品进行随机抽样,抽样200个,然后和样品数量少于200的样品合并,组成新的数据集,然后在新的数据集里随机抽样形成训练集、测试集、验证集,数据无重复,使用pandas进行数据处理,过程优雅大方,最后Finetune训练及预测结果的输出,整体基于paddlex的图片分类(ResNet50)和语义分割模块(FastSCNN)对输入的海洋鱼类图片进行名称识别和边界预测并输出。

【代码说明】项目源码在fish-recognition-main文件夹中,包含fish_fontbone和fish_backbone两个关键脚本文件夹,可以使用前后端分离架构部署(VUE+Flask)。

06 — 冰川卫星图像检测数据集

图片

【数据背景】在极地沿海地区经常会有漂流的冰山,对航行在该海域的船舶造成了很大的威胁。一些公司使用卫星合成孔径雷达 (SAR) 监测冰川和海上浮冰,SAR非常适合执行该任务,因为它既能在白天和夜晚拍摄大片海洋的图像,又能克服云、雾和其他不利的气象条件。发布该数据集的目的是希望利用机器学习的技术,更准确地及早发现和识别出威胁船舶航行的冰山。

【应用领域】AI+冰山目标检测

【文件目录】以下2个数据文件:

train.json:训练集

test.json:测试集

【数据说明】数据以json格式保存,json文件由图像列表组成,对于每个图像,均包含以下字段:

id:图像样张对应的id;

band_1,band_2:拉平的图像数据。每个band在列表中都有75x75个像素值,因此列表中有5625个元素。请注意,这些值不是图像文件中的正常非负整数,因为它们具有物理意义——这些值是以dB为单位的浮点数。band1和band2是以特定入射角的不同极化产生的雷达反向散射为特征的信号。极化对应于HH(水平发送/接收)和HV(水平发送和垂直接收)。更多的卫星图像数据背景可以参考这里:https://www.kaggle.com/c/statoil-iceberg-classifier-challenge#Background;

inc_angle:拍摄图像的入射角。请注意,该字段有标记为“na”的缺失数据,并且那些具有“na”入射角的图像都在训练数据中,以防止泄漏;

is_iceberg:目标变量,如果是冰山则设置为1,如果是船只则设置为0。此字段仅存在于train.json中。

07 — 结束语

以上就是AI+智慧海洋数据集的所有内容了,更多数据集下载请关注文章顶部图片右下角平台即可获取。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/64129.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Pandas】pandas eval

Top-level evaluation 方法描述eval(expr[, parser, engine, local_dict, …])用于在传入的字符串形式的表达式上进行高效计算的函数 pandas.eval() pandas.eval() 是 Pandas 库中用于高效计算表达式的函数。它利用 NumExpr 库(如果已安装)来加速算术…

56.合并区间

以数组 intervals 表示若干个区间的集合,其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间 。 示例 1: 输入:intervals [[1,3]…

域名信息收集(小迪网络安全笔记~

附:完整笔记目录~ ps:本人小白,笔记均在个人理解基础上整理,若有错误欢迎指正! 2.1 域名信息收集 引子:上一章介绍了服务器的信息收集。本篇则介绍在面对存在Web资产企业时,其域名信息该如何收…

怎样使用Eclipse创建Maven的Java WEB 项目

文章目录 1、第一种方式(选择 archetype 方式) 1.1、第一步:创建项目1.2、第二步:配置jre1.3、第三步:配置tomcat1.4、第四步:设置为WEB3.11.5、第五步:配置Maven的编译级别 1.5.1、第一种方法…

细说STM32F407单片机SPI基础知识

目录 一、 SPI接口和通信协议 1、 SPI硬件接口 (1)MOSI(Master Output Slave Input) (2)MISO(Master Input Slave Output) (3)SCK 2、SPI传输协议 (1)CPHA0时的数据传输时序 …

C# OpenCvSharp DNN 实现百度网盘AI大赛-表格检测第2名方案第三部分-表格方向识别

目录 说明 效果 模型 项目 ​编辑 代码 参考 下载 其他 说明 百度网盘AI大赛-表格检测的第2名方案。 该算法包含表格边界框检测、表格分割和表格方向识别三个部分,首先,ppyoloe-plus-x 对边界框进行预测,并对置信度较高的表格边界…

go语言结构体实现数据结构队列(先进先出)存储数据(逐行注释)

正在学习go语言中,欢迎提出宝贵意见 import ("fmt""sync" )// 数据队列以链表的形式存储数据,每个节点存储一个任意类型的数据, // 创建数据队列、添加数据、删除数据、获取队列长度,每个数据存储在一个节点…

Excel + Notepad + CMD 命令行批量修改文件名

注意:该方式为直接修改原文件的文件名,不会生成新文件 新建Excel文件 A列:固定为 renB列:原文件名称C列:修改后保存的名称B列、C列,需要带文件后缀,为txt文件就是.txt结尾,为png图片…

数据结构-排序(来自于王道)

排序的基本概念 插入排序 在这个算法中,除了输入的数组本身,没有使用额外的数据结构来存储数据,所有的操作都是在原数组上进行的。因此,无论输入数组的大小 n 是多少,算法执行过程中所占用的额外空间是固定的&#xff…

MySQL中DELETE、DROP和TRUNCATE的区别是什么?

MySQL中,DELETE、DROP和TRUNCATE是用于数据管理的三个重要命令,但它们之间存在显著的区别。以下是它们的主要差异: 一、用法不同 DROP 用途:用于删除整个表及其结构。语法:DROP TABLE 表名;特点:在执行DRO…

算力介绍与解析

算力(Computing Power)是指计算机系统在单位时间内处理数据和执行计算任务的能力。算力是衡量计算机性能的重要指标,直接影响计算任务的速度和效率。 算力的分类和单位 a. 基础算力:以CPU的计算能力为主。适用于各个领域的计算。…

SVN(Subversion)教程

SVN(Subversion)教程:版本控制入门 什么是 SVN? SVN(Subversion)是一个集中式版本控制系统,用于管理代码、文档等文件的版本历史。它帮助团队协作开发,提供版本跟踪、文件还原和冲…

vite搭建前端工程

vite简介 vite预构建 将非 ESM 规范的代码转换为符合 ESM 规范的代码,另外就是将第三方依赖内部的多个文件合并为一个,减少 http 请求数量 简单来说,vite在一开始将应用中的模块区分为依赖和源码两类 「依赖部分」更多指的是代码中使用到的第三方模块,比如 vue、lodash、r…

【编译器】传统编译器和AI/ML编译器总结

前言 本文总结了传统编译器和AI/ML编译器,可作为学习、研究、研发的参考资料。 1.编译器-GC Clang Clang是一个C、C、Objective-C和Objective-C编程语言的编译器前端。它采用了LLVM作为其后端,由LLVM2.6开始,一起发布新版本。它的目标是提供一…

使用阿里云Certbot-DNS-Aliyun插件自动获取并更新免费SSL泛域名(通配符)证书

进入nginx docker,一般是Alpine Linux系统 1. 依次执行命令: sudo docker-compose exec nginx bashapk updateapk add certbot apk add --no-cache python3 python3-dev build-baseapk add python3 py3-pippip3 install --upgrade pippip3 install certbot-dns-ali…

IMUX6LL嵌入式-Linux开发中的头文件汇总介绍

sys/mman.h 详见 https://blog.csdn.net/wenhao_ir/article/details/144487608 sys/types.h 详见 https://blog.csdn.net/wenhao_ir/article/details/144487608 sys/stat.h 详见 https://blog.csdn.net/wenhao_ir/article/details/144487608 unistd.h 详见 https://blog…

spring boot框架优劣势分析

优势(Advantages): 1. 快速开发(Rapid Development): • Spring Boot通过提供大量的默认配置和自动配置功能,极大地减少了开发过程中的配置工作量,从而加快了开发速度。 2. 简化部署&#xff08…

【设计模式】如何用C++实现观察者模式【发布订阅机制】

【设计模式】如何用C实现观察者模式【发布订阅机制】 一、问题背景 代码质量影响生活质量。最近工作中频繁接触各种设计模式,深刻体会到优秀的设计模式不仅能显著降低后续维护的压力,还能提升开发效率。观察者模式作为一种降低耦合度、提高扩展性的利器…

企业架构划分探讨:业务架构与IT架构的利与弊

在企业架构(EA)的江湖里,大家一直致力于如何把企业的复杂性简化成有条有理的架构蓝图。有人选择把企业架构分成业务架构和IT架构,而IT架构又进一步细分为应用架构、数据架构和技术架构。但一提到这种划分方式,总有人跳…

QT:在线安装与离线安装

QT 学习系列 QT:在线安装与离线安装 QT 学习系列一、安装(一)离线安装windows系统Linux 系统Mac 系统 (二)在线安装 二、 环境变量配置三、验证总结 一、安装 (一)离线安装 windows系统 获取…