NeurIPS - Ariel Data Challenge 2024

1比赛概述

Ariel数据挑战2024 邀请参赛者开发机器学习模型,解决天文学领域中的一项重大挑战——从即将到来的欧洲航天局(ESAAriel任务的模拟观测中提取微弱的系外行星信号。Ariel任务计划于2029年启动,旨在对银河系邻近的约1,000颗系外行星进行首次全面研究,这将为我们提供前所未有的关于这些遥远世界的详细信息。

2背景

  • 系外行星发现:自1995年首次发现系外行星以来,这一领域的研究已经取得了巨大进展。目前,科学家们已经确认了超过5,600颗系外行星,这些发现不仅扩展了我们对宇宙的认识,还挑战了地球在宇宙中的独特性以及生命可能存在的其他地点。检测这些行星只是第一步,更关键的是理解它们的性质,特别是通过研究其大气层来揭示更多细节。
  • 技术难题:观察系外行星的大气层是当代天文学中最复杂的数据分析问题之一。当系外行星在其主星前方经过时,一小部分星光会穿过行星大气并与之相互作用。这些微弱的信号通常只有50200个百万分之一(ppm),并且经常受到仪器噪声的干扰。主要的噪声源之一是抖动噪声,这是由于航天器在太空中难以保持精确指向而产生的振动。这种振动类似于在拍摄长时间曝光照片时手部的抖动,会对数据质量产生严重影响。特别是对于类似地球和超级地球的小型行星,这种噪声的影响尤为显著,因为它们的信号强度通常只有50ppm左右。

3任务目标

  • 提取大气光谱:参赛者的任务是从每个观测中提取大气光谱,并估计其不确定性水平。这一步骤对于后续的科学分析至关重要,因为只有在去除噪声和系统误差后,才能准确地解读光谱信息。
  • 去趋势处理:为了获得大气光谱,参赛者需要对数小时连续拍摄的2D光谱焦平面图像进行去趋势处理。具体来说,需要处理一系列时间序列图像,这些图像记录了系外行星在其主星前方经过时的变化。通过去趋势处理,可以消除由抖动噪声和其他因素引起的背景波动,从而提取出纯净的行星信号。

4可能的方法

  • 方法1:直接在完整的3D数据立方体上训练模型并提取相应的光谱。这种方法利用了丰富的信息内容,但需要大量的计算资源。3D数据立方体包含了时间、空间和光谱三个维度的信息,因此能够提供更全面的上下文。然而,这也意味着模型需要处理大量的数据,对计算能力提出了更高的要求。
  • 方法2:通过沿像素y轴求和每个波长的通量,将数据压缩为2D图像(维度为(N_times, N_wavelengths)),并转换图像以增强不同波长之间的过境深度变化。这种方法可以减少数据的维度,降低计算复杂度,但可能会损失一些空间信息。尽管如此,对于某些特定的任务,这种方法仍然非常有效。(外面比赛方案实际采用)

5评估指标

  • 高斯对数似然(GLL)函数:用于评估预测光谱(μ_user)及其不确定性(σ_user)与地面真实光谱(y)之间的差异。GLL函数的公式如下:

  • 其中,𝑦y 是地面真实光谱,𝜇userμuser​ 是预测光谱,𝜎userσuser​ 是预测的不确定性。
  • 评分公式:最终得分范围在[0, 1]之间,分数越高表示模型性能越好。具体的评分公式为:

    

  • 其中,L 是所有波长和所有测试样本的GLL值之和,Lideal​ 是理想情况下的GLL值(即提交结果完全匹配地面真实值,且不确定性为0.0001),Lref​ 是使用训练数据集的均值和方差作为预测的GLL值。
  1. 数据集描述
  • 数据来源:基于ARIEL任务的模拟数据,包含大约800颗系外行星的隐藏测试集。这些数据模拟了ARIEL任务中实际观测到的光谱信息,但由于是模拟数据,可以提供详细的地面真实标签,便于评估模型性能。
  • 元数据文件
    • [train/test]_adc_info.csv:包含恢复数据原始动态范围所需的模数转换参数(增益和偏移)以及恒星信息。这些参数对于正确处理和解释原始数据至关重要。
    • train_labels.csv:地面真实光谱,提供了每个训练样本的正确答案。
    • axis_info.parquet:两台仪器的轴信息,包括时间和波长的详细描述。
    • wavelength.csv:数据集中每个地面真实光谱的波长网格,用于确定每个波长点的位置。

信号文件

仪器

    • FGS1:可见光谱段(0.600.80 µm),主要用于高精度光度测量。FGS1的观测数据可以帮助研究人员了解恒星的亮度变化,从而更好地分离行星信号。
    • AIRS-CH0:红外光谱仪(1.953.90 µm),分辨率为R=100AIRS-CH0的观测数据可以提供关于行星大气成分的详细信息,特别是在红外波段,这些信息对于研究大气化学和物理特性非常重要。

数据格式

    • AIRS-CH0_signal.parquet:包含11,250行图像,每张32 x 356的图像被展平为11392列。这些图像记录了系外行星在其主星前方经过时的光谱变化。要恢复图像的原始格式,可以使用 numpy.reshape(11250, 32, 356) 进行重塑。此外,还需要根据 [train/test]_adc_info.csv 中的增益和偏移值恢复数据的动态范围。
    • FGS1_signal.parquet:包含135,000行图像,每张32 x 32的图像被展平为1024列。这些图像记录了恒星的亮度变化,时间步长为0.1秒。同样,要恢复图像的原始格式,可以使用 numpy.reshape(135000, 32, 32) 进行重塑,并根据 [train/test]_adc_info.csv 中的增益和偏移值恢复数据的动态范围。

校准文件

  • dark.parquet:暗帧,用于捕捉传感器的热噪声和偏置水平。这些帧是在关闭快门的情况下拍摄的,可以用来校正科学图像中的暗电流噪声。
  • dead.parquet:识别传感器上的死像素或热像素。这些文件记录了传感器的电子特性,有助于在图像后处理中提高信噪比。

  1. 总结
  • Ariel数据挑战2024是一个多模态监督学习任务,要求参赛者从模拟的ARIEL任务数据中提取系外行星的大气光谱,并估计其不确定性。比赛提供了一个复杂的多模态数据集,包括来自两个不同仪器的时间序列图像和校准数据。参赛者需要设计有效的去趋势和降噪方法,以提高光谱提取的准确性。这不仅需要深厚的天文学知识,还需要强大的机器学习和数据处理技能。通过参加这项挑战,参赛者将有机会为未来的系外行星研究做出重要贡献,推动天文学领域的前沿发展。

代码可见:NeurIPS-Ariel-Data-Challenge-2024/ at main · feixiangkong/NeurIPS-Ariel-Data-Challenge-2024 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/57848.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Javaweb 实验4 xml

我发现了有些人喜欢静静看博客不聊天呐, 但是ta会点赞。 这样的人呢帅气低调有内涵, 美丽大方很优雅。 说的就是你, 不用再怀疑哦 实验四 XML 目的: 安装和使用XML的开发环境认识XML的不同类型掌握XML文档的基本语法了解D…

CRON组件一个复杂的一个简单的

CRON组件一个复杂的一个简单的 一个是复杂点的一个是简单点。 1.以简单的为例使用&#xff1a; 父组件 import CronSimple from "/views/xxx/components/cron-simple/index.vue";components: {CronSimple}<el-dialog title"调度CRON"v-if"cronV…

乒乓球烧拍日记之三蝴蝶蓝芳碳

朋友给了我个蝴蝶成品拍&#xff0c;要更换胶皮&#xff0c;底板是蓝芳碳磕碰很严重&#xff0c;木材都没了&#xff0c;没法补。淋巴面材&#xff0c;成品拍胶水很牢固非常难去除 把蓝芳碳纤维去除下毛边&#xff0c;然后用乳胶胶水填补缺失部分。(https://img-blog.csdnimg.…

高德地图如何标注店铺名称和位置信息?

在当今数字化和信息化的市场环境中&#xff0c;商家不仅需要提供优质的商品和服务&#xff0c;还需要通过多种方式来提升店铺的线上可见度和顾客体验。其中&#xff0c;在地图上准确标注店铺名称和位置信息已成为商家不可忽视的重要环节。而高德地图作为国内领先的导航和位置服…

构建品牌影响力:知识库工具在市场营销中的创新应用

在当今这个信息爆炸的时代&#xff0c;品牌影响力成为了企业市场竞争力的核心要素。为了有效提升品牌影响力&#xff0c;企业不仅需要精准的市场定位和优质的产品服务&#xff0c;还需要借助高效、智能的知识库工具来优化其市场营销策略。本文将探讨知识库工具在市场营销中的创…

HTML 文档规范与解析模式:DOCTYPE、<html> 标签以及结构化页面

文章目录 `<!DOCTYPE html>` 文档类型声明标准模式与怪异模式HTML5 的简化声明`<html>` 标签`<head>` 标签`<body>` 标签小结<!DOCTYPE html> 文档类型声明 在 HTML 文档中,<!DOCTYPE html> 是一个重要的文档类型声明,主要用于告知浏览…

YOLOv5之Common.py

文章目录 1.学习目的2.网络模型![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/67b8dbd00c9b4034ba370fc8b8a6031a.jpeg)3.common.py分析 1.学习目的 YOLOv5中最关键一个模型类 2.网络模型 3.common.py分析 # Ultralytics YOLOv5 &#x1f680;, AGPL-3.0 license…

【设计模式】如何用C++实现依赖倒置

【设计模式】如何用C实现依赖倒置 一、什么是依赖倒置&#xff1f; 依赖倒置原则&#xff08;Dependency Inversion Principle&#xff0c;DIP&#xff09;是SOLID面向对象设计原则中的一项。它的核心思想是&#xff1a; 高层模块不应该依赖于低层模块&#xff0c;两者都应该…

2、liunx网络基础

一、TCP/IP协议概述 Linux服务器默认网卡配置文件在/etc/sysconfig/network-scripts/下&#xff0c;命名的名称一般为:ifcfg-eth0 ifcfg-eth1 &#xff0c;eth0表示第一块网卡&#xff0c;eth1表示第二块网卡&#xff0c;依次类推。一般DELL R720标配有4块千兆网卡。 TCP/IP&a…

MySQL的SQL语句之触发器的创建和应用

触发器 Trigger 一.触发器 作用&#xff1a;当检测到某种数据表发生数据变化时&#xff0c;自动执行操作&#xff0c;保证数据的完整性&#xff0c;保证数据的一致性。 1.创建一个触发器 如上图所示&#xff0c;查看这个create的帮助信息的时候&#xff0c;这个create trig…

2016年ATom-1活动期间航班的每10秒一次的碳 monoxide (CO) 观测数据

目录 简介 摘要 代码 引用 网址推荐 知识星球 机器学习 ATom: Observed and GEOS-5 Simulated CO Concentrations with Tagged Tracers for ATom-1 简介 该数据集包含2016年ATom-1活动期间航班的每10秒一次的碳 monoxide (CO) 观测数据&#xff0c;以及来自戈达德地球观…

Ambari里面添加hive组件

1.创建hive数据库 在添加hive组件之前需要做的事情&#xff0c;先在master这个虚拟机里面创建好hive 先进入虚拟机里面进入mysql 然后输入这个命令看看有没有自己创建的hive数据库 show databases;有的话会显示下面这个样子 没有的同学使用以下命令可以在MySQL中创建hive数…

Java 集合一口气讲完!(上)||o(*°▽°*)o|Ю [有人吗?]

Java 集合遍历 Java集合教程 - Java集合遍历 在Java Collections Framework中&#xff0c;不同类型的集合使用不同类型的数据结构以不同的方式存储它们的元素。 一些集合对它们的元素有排序&#xff0c;有些没有。集合框架提供了遍历集合的以下方法&#xff1a; 使用迭代器使…

Oracle视频基础1.1.3练习

1.1.3 需求&#xff1a; 完整格式查看所有用户进程里的oracle后台进程 查看物理网卡&#xff0c;虚拟网卡的ip地址 ps -ef | grep oracle /sbin/ifconfig要以完整格式查看所有用户进程中的 Oracle 后台进程&#xff0c;并查看物理和虚拟网卡的 IP 地址&#xff0c;可以使用以下…

akshare股票涨跌板与资金流向相关分析

## akshare文档涨跌板 https://akshare.akfamily.xyz/data/stock/stock.html#id374资金流向 https://akshare.akfamily.xyz/data/stock/stock.html#id154涨跌板&#xff1a;https://quote.eastmoney.com/ztb/detail#typeztgc 资金流向&#xff1a;https://data.eastmoney.com/…

11 P4995 跳跳!

题目&#xff1a; 核心&#xff1a; 贪心策略&#xff1a;每次都跳距离自己最远的石头 收获&#xff1a;双指针&#xff08;下标&#xff09;的使用 代码&#xff1a; #include<iostream> using namespace std; # define M 100 #include<algorithm> #include<ma…

热点聚焦:AI在医疗保健领域的深度渗透与变革

内容概要 随着人工智能技术的不断进步&#xff0c;我们正在见证一个充满奇迹的转变&#xff0c;尤其是在医疗保健领域。这种转变不仅仅涉及到提高效率&#xff0c;更在于重新定义我们对疾病诊断和治疗方案的理解。通过智能算法&#xff0c;AI能够在早期识别潜在的健康问题&…

计算机网络八股文个人总结

1.TCP/IP模型和OSI模型的区别 在计算机网络中&#xff0c;TCP/IP 模型和 OSI 模型是两个重要的网络协议模型。它们帮助我们理解计算机通信的工作原理。以下是它们的主要区别&#xff0c;以通俗易懂的方式进行解释&#xff1a; 1. 模型层数 OSI 模型&#xff1a;有 7 层&#…

使用onnxruntime-web 运行yolov8-nano推理

ONNX&#xff08;Open Neural Network Exchange&#xff09;模型具有以下两个特点促成了我们可以使用onnxruntime-web 直接在web端上运行推理模型&#xff0c;为了让这个推理更直观&#xff0c;我选择了试验下yolov8 识别预览图片&#xff1a; 1. 跨平台兼容性 ONNX 是一种开…

Qt 练习做一个登录界面

练习做一个登录界面 效果 UI图 UI代码 <?xml version"1.0" encoding"UTF-8"?> <ui version"4.0"><class>Dialog</class><widget class"QDialog" name"Dialog"><property name"ge…