Spark 中dtypes函数

前言

在Spark SQL中，dtypes函数用于获取DataFrame或Dataset中各列的数据类型信息。它返回一个由列名和数据类型组成的元组列表，其中每个元组表示一列的名称和相应的数据类型。

在Spark SQL中使用dtypes函数的示例代码：

# 导入必要的库
from pyspark.sql import SparkSession# 创建SparkSession
spark = SparkSession.builder.getOrCreate()# 创建示例DataFrame
data = [("Alice", 25, 165.5), ("Bob", 30, 180.0), ("Charlie", 35, 175.2)]
df = spark.createDataFrame(data, ["name", "age", "height"])# 使用dtypes函数获取数据类型信息
column_types = df.dtypes# 打印列名和数据类型
for column_name, data_type in column_types:print(f"Column '{column_name}' has data type '{data_type}'")

运行以上代码将输出：

Column 'name' has data type 'string'
Column 'age' has data type 'bigint'
Column 'height' has data type 'double'

上述示例中，首先创建了一个包含姓名、年龄和身高的DataFrame。然后，使用dtypes函数获取了DataFrame中每列的数据类型信息，并将结果存储在column_types变量中。最后，通过遍历column_types列表，打印了每列的名称和数据类型。

需要注意的是，dtypes函数返回的数据类型是基于Spark SQL的内部数据类型系统，而不是Python的原生数据类型。常见的Spark SQL数据类型包括字符串（string）、整数（integer或int）、长整数（bigint）、浮点数（double）、布尔值（boolean）等。

通过使用dtypes函数，您可以方便地获取DataFrame或Dataset中各列的数据类型信息，从而更好地了解和处理数据。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/22704.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！