【生物信息】如何使用 h5py 读取 HDF5 格式文件中的数据并将其转换为 NumPy 数组

data_mat = h5py.File(args.data_file)

x1 = np.array(data_mat['X1'])

x2 = np.array(data_mat['X2'])

if not args.no_labels:

    y = np.array(data_mat['Y'])

data_mat.close()

这段代码展示了如何使用 h5py 读取 HDF5 格式文件中的数据并将其转换为 NumPy 数组。以下是代码的详细解释:


代码解析

  1. data_mat = h5py.File(args.data_file)
    打开 HDF5 文件:

    • args.data_file 是存储 HDF5 文件路径的变量(通常通过命令行参数传递)。
    • h5py.File() 打开文件以便访问其内容。默认模式是只读 'r'
    • 返回的 data_mat 是一个类似字典的对象,包含 HDF5 文件中的所有数据。
  2. x1 = np.array(data_mat['X1'])
    从 HDF5 文件中读取数据:

    • 访问键 'X1' 对应的数据集,将其转换为 NumPy 数组。
    • 读取后的数据可以用于后续计算或模型训练。
  3. x2 = np.array(data_mat['X2'])
    同样读取键 'X2' 对应的数据集,并转换为 NumPy 数组。

  4. if not args.no_labels:
    检查是否需要读取标签:

    • args.no_labels 是一个布尔参数,通常从命令行传递,用来指示是否存在标签数据。
    • 如果没有 no_labels 参数(即值为 False),执行读取标签的代码。
  5. y = np.array(data_mat['Y'])
    如果需要标签数据,读取键 'Y' 对应的数据集,并转换为 NumPy 数组。

  6. data_mat.close()
    关闭 HDF5 文件:

    • 文件使用完毕后应关闭,释放系统资源。
    • 如果使用 with h5py.File(...) 语句,可以自动管理文件关闭。

假设文件内容

假设 HDF5 文件 的内容如下:

data_file.h5
├── X1 (数据集)
├── X2 (数据集)
└── Y  (标签,数据集)

示例输入文件和命令

HDF5 文件生成
import h5py
import numpy as npwith h5py.File('data_file.h5', 'w') as f:f.create_dataset('X1', data=np.random.rand(100, 10))  # 100x10 的随机数据f.create_dataset('X2', data=np.random.rand(100, 20))  # 100x20 的随机数据f.create_dataset('Y', data=np.random.randint(0, 2, size=(100,)))  # 0 或 1 的随机标签
命令行参数示例
python script.py --data_file data_file.h5 --no_labels False

注意事项

  1. 错误处理

    • 如果文件路径无效或数据集名称不存在,会抛出异常。可以通过 try-except 块处理。
  2. 文件关闭

    • 建议使用 with h5py.File(...) 语句管理文件资源,确保即使发生异常也能正确关闭文件。
  3. 数据集类型

    • 如果数据集不是标准的数值数组,需检查数据类型并进行适当处理。

最近在看单细胞多组学数据,可以用这种方法进行简单的数据读取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/892186.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络 (23)IP层转发分组的过程

一、IP层的基本功能 IP层(Internet Protocol Layer)是网络通信模型中的关键层,属于OSI模型的第三层,即网络层。它负责在不同网络之间传输数据包,实现网络间的互联。IP层的主要功能包括寻址、路由、分段和重组、错误检测…

【W800】UART 的使用与问题

1.开发环境 OS: Windows 11开发板:海凌科 HLK-W800-KIT-PROSDK: W80X_SDK_v1.00.10IDE: CSKY Development Kit 2.UART 使用 在 SDK 中创建文件 uart_test.h 和 uart_test.c,然后在 CDK 项目中添加这两个文件,CDK 会自动 include 头文件。 …

万界星空科技质量管理QMS系统具体功能介绍

一、什么是QMS系统,有什么价值? 1、QMS 系统即质量管理系统(Quality Management System)。 它是一套用于管理和控制企业产品或服务质量的集成化体系。 2、QMS 系统的价值主要体现在以下几个方面: 确保产品质量一致性…

【C++】B2099 矩阵交换行

博客主页: [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 💯前言💯题目描述题目描述输入格式输出格式输入输出样例输入 #1输出 #1 💯题目分析💯不同解法分析我的做法实现步骤:优点:不足&#…

Tableau数据可视化与仪表盘搭建-数据连接

目录 连接本地文件 课程操作 连接方式(实时/数据提取) 保存工作簿 筛选器 数据处理 连接数据有三种类型 第一种,连接到本地文件,例如Excel,csv,JSON等 第二种,连接到数据库,例…

Linux(Centos 7.6)命令详解:cd

1.命令作用 改变当前工作目录(change directory) 2.命令语法 Usage: cd [-L|[-P [-e]]] [dir] 3.参数详解 -L‌,当目标路径是符号链接时,强制使用符号链接,这是一个默认选项。-P‌,使用物理路径代替符号链接。-e‌&#xff0…

创建型模式-生成器模式

生成器模式是创建型模式的一种,生成器模式主要是解决在大类创建对象初始化的复杂的问题。将一个复杂类的创建拆分成几个部分,再根据具体需求创建初始对象,而不必每次都创建所有的部分。在需要创建包含有不同内容的对象的时候,可以…

系统日志优化---自定义springboot-starter日志组件供各个服务使用

在优化项目时发现各个微服务都有各自的接口调用日志逻辑,比如每个服务都定义一个aop类拦截,十分冗余,其实是可以做成starter被各个服务引用使用,前提要先了解一下springboot自动装配原理 创建springboot工程,如果是jdk…

Android V QCOM GPS | APN for LocationService

问题 在高通平台上验证 GPS 功能流程时候,block 在 APN 数据库的查询。经查,发现高通有内部实现的 LocationService(aosp源码和mtk都没有的类) 包含查询 TelephonyProvider 数据库的逻辑,直接原因是查询到 APN Protocol 不符合预期,直接fail。 关于 Android APN 数据列的…

计算机网络之---有线网络的传输介质

1. 双绞线(Twisted Pair Cable) 定义:双绞线是一种由两根绝缘铜线按一定螺旋方式绞合在一起的传输介质。常见的类型包括非屏蔽双绞线(UTP)和屏蔽双绞线(STP)。特点: UTP&#xff1a…

字玩FontPlayer开发笔记9 Tauri2打包应用

字玩FontPlayer开发笔记9 Tauri2打包应用 字玩FontPlayer是笔者开源的一款字体设计工具,使用Vue3 ElementUI开发,源代码:github | gitee 笔记 字玩目前是用Electron进行桌面端应用打包,但是性能体验不太好,一直想替…

spring mvc源码学习笔记之十

前面的文章介绍了用 WebApplicationInitializer 或者 AbstractAnnotationConfigDispatcherServletInitializer 来代替 web.xml 。 我们学 java web 的时候就知道,servlet 容器会自动加载 web.xml。 那么,疑问就来了,WebApplicationInitialize…

基于 Apache Commons Pool 实现的 gRPC 连接池管理类 GrpcChannelPool 性能分析与优化

基于 Apache Commons Pool 实现的 gRPC 连接池管理类 GrpcChannelPool 性能分析与优化 1. 输出关键信息的代码示例 日志记录方法 使用以下代码记录连接池的关键信息,帮助分析连接池的状态和性能瓶颈: import org.apache.commons.pool2.impl.GenericO…

小程序开发-页面事件之上拉触底实战案例

🎥 作者简介: CSDN\阿里云\腾讯云\华为云开发社区优质创作者,专注分享大数据、Python、数据库、人工智能等领域的优质内容 🌸个人主页: 长风清留杨的博客 🍃形式准则: 无论成就大小,…

STM32-笔记38-I2C-oled实验

一、什么是I2C? I2C总线,全称Inter-Integrated Circuit(互连集成电路),是一种由Philips(现NXP半导体)公司在1980年代初开发的同步 串行 半双工通信总线。 二、有了串口通信为什么要使用I2C&…

《C++11》右值引用深度解析:性能优化的秘密武器

C11引入了一个新的概念——右值引用,这是一个相当深奥且重要的概念。为了理解右值引用,我们需要先理解左值和右值的概念,然后再理解左值引用和右值引用。本文将详细解析这些概念,并通过实例进行说明,以揭示右值引用如何…

libevent定时器的性能测试(与rte_timer对比)

前言 接着上篇文章,rte_timer的性能测试https://blog.csdn.net/jacicson1987/article/details/144997298 进行常用的libevent的定时器测试,看看有什么区别,测试方法还是一样,代码放在下面。 测试方法 100万个定时器&#xff0…

ios越狱脚本巨魔商店安装教程

使用爱思助手安装 安装爱思助手:在电脑上安装 iTunes 和爱思助手,并使用 Apple ID 登录2。 IPA 签名:打开爱思助手,选择工具箱中的 IPA 签名。点击添加 IPA 文件,选择下载的 TrollInstallerX.ipa 文件。选择使用 Apple…

MySQL Windows 11 的 MySQL 配置文件 (my.ini) 路径查找指南

✅ Windows 11 的 MySQL 配置文件 (my.ini) 路径查找指南 在 Windows 11 上,MySQL 的 ini 配置文件(通常是 my.ini 或 my.cnf)的位置取决于 MySQL 的安装方式。下面是一些常见的路径和方法来找到这个配置文件。 🔍 方法 1&#…

C# 事件

目录 1、事件模型的5个组成部分2、使用内置委托类型声明事件2.1 EventHandler2.1.1 &#xff1f;2.1.2 this2.1.3 使用匿名函数和lamda表达式2.1.3.1 匿名函数2.1.3.2 lamda表达式 2.1.4 异常处理 2.2 EventHandler<TEventArgs> 3、使用自定义委托类型声明事件3.1 事件的…