Sklearn的datasets模块与自带数据集介绍

datasets 模块

用 dir() 函数查看 datasets 模块的所有属性和函数

import sklearn.datasets as datasets# 列出 sklearn.datasets 模块中的所有属性和函数
print(dir(datasets))

datasets 模块下的数据集有三种类型:

(1)load系列的经典数据集,均为小型数据集,安装sklearn库时自带

(2)fetch系列下载数据集,较大的数据集,需要额外下载

(3)make系列生成数据集,可以生成各种形态分布的随机数据集

load系列经典数据集

一共有9个数据集,用 load_xxx() 形式的函数加载。


from sklearn.datasets import load_xxx
data = load_xxx()

load_xxx() 返回的数据类型是<class 'sklearn.utils.Bunch'> ,这是scikit-learn 中的一种数据结构,称为 Bunch 对象。它类似于 Python 的字典,存储键值对,可以通过键来访问相应的值,例如:data['key'];还可以通过属性方式访问存储的数据,例如: data.key。

数据集名称

调用函数

适用算法

数据规模(行×列)

波士顿房价数据集

load_boston()

回归

506×13

乳腺癌数据集

load_breast_cancer()

分类

569×30

糖尿病数据集

load_diabetes()

回归

442×10

手写数字数据集

load_digits()

分类

1797×64

鸢尾花数据集

load_iris()

分类

150×4

健身数据集

load_linnerud()

回归

20×3 (输入) + 20×3 (输出)

示例图像数据集

load_sample_image()

图像处理

单个图像

示例图像集合数据集

load_sample_images()

图像处理

2个图像

红酒数据集

load_wine()

分类

178×13

fetch系列下载数据集

数据集名称

调用函数

适用算法

数据规模(行×列)

说明

新闻分类数据集

fetch_20newsgroups()

分类

18,846×自由文本(训练:11,314,测试:7,532)

文本分类任务,返回原始文本

新闻分类向量化数据集

fetch_20newsgroups_vectorized()

分类

同上,已向量化为稀疏矩阵

文本分类任务,返回已向量化的稀疏矩阵

加州房价数据集

fetch_california_housing()

回归

20,640×8

预测房价中位数

树木类型数据集

fetch_covtype()

分类

581,012×54

森林覆盖类型的分类

KDD Cup 99 数据集

fetch_kddcup99()

分类/异常检测

4,898,431×41(训练集)

用于网络入侵检测和异常检测

LFW 人脸匹配数据集

fetch_lfw_pairs()

分类

2,200 对×自由文本(配对)

人脸验证任务

LFW 人脸识别数据集

fetch_lfw_people()

分类

13,233×2919(图像大小:62×47 像素)

人脸识别任务

Olivetti 面孔数据集

fetch_olivetti_faces()

分类/聚类

400×4096(图像大小:64×64 像素)

聚类和面部识别

OpenML 数据集

fetch_openml()

多种算法

依赖于指定的数据集

从 OpenML 平台下载各种类型的数据集

RCV1 数据集

fetch_rcv1()

分类

804,414×47,236(稀疏矩阵)

文本分类任务

物种分布数据集

fetch_species_distributions()

分类/回归

16,199×10

物种分布建模的回归或分类

make系列生成数据集

调用函数

生成数据形态

说明

make_biclusters()

双聚类数据

生成带有重叠或不重叠块结构的矩阵数据

make_blobs()

多簇数据

生成多个聚类的二维数据点

make_checkerboard()

棋盘格数据

生成具有棋盘格结构的矩阵数据

make_circles()

同心圆数据

生成二维同心圆形状的二元分类数据集

make_classification()

分类数据

生成用于分类问题的随机数据集

make_friedman1()

回归数据(非线性)

生成非线性回归模型数据(Friedman #1)

make_friedman2()

回归数据(非线性)

生成非线性回归模型数据(Friedman #2)

make_friedman3()

回归数据(非线性)

生成非线性回归模型数据(Friedman #3)

make_gaussian_quantiles()

高斯分位数数据

生成服从高斯分布的分类数据

make_hastie_10_2()

二分类数据

生成 Hastie 的二元分类数据集

make_low_rank_matrix()

低秩矩阵数据

生成指定秩的低秩矩阵

make_moons()

月亮形数据

生成二维的月亮形状二元分类数据集

make_multilabel_classification()

多标签分类数据

生成随机多标签分类数据集

make_regression()

回归数据

生成用于回归问题的随机数据集

make_s_curve()

S 曲线数据

生成 3D 的 S 形数据集

make_sparse_coded_signal()

稀疏编码信号数据

生成用于稀疏表示的信号数据

make_sparse_spd_matrix()

稀疏对称正定矩阵数据

生成稀疏对称正定矩阵

make_sparse_uncorrelated()

稀疏无关数据

生成稀疏的无相关特征数据集

make_spd_matrix()

对称正定矩阵数据

生成对称正定矩阵

make_swiss_roll()

瑞士卷数据

生成 3D 的瑞士卷形状数据集

经典数据集

鸢尾花数据集(三分类)

1、数据集内容

load_iris() 返回的是一个字典,字典中元素介绍如下:

键值

含义

数据类型

数据大小

元素类型

说明示例

data

特征数据

array

4 * 150

float 

[4.9, 3. , 1.4, 0.2]

target

类别

array

1 * 150

int

0, 1, 2

feature_names

特征名称

list

4

str

'sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'

萼片长度、萼片宽度、花瓣长度、花瓣宽度

target_names

类别标签

array

3

str

'setosa', 'versicolor', 'virginica'

鸢尾花的三个类别

frame

None

filename

文件名

str

iris.csv

data_module

str

sklearn.datasets.data

DESCR

描述

str

对数据的描述

2、特征说明

特征

含义

sepal length (cm)

萼片长度(厘米)

sepal width (cm)

萼片宽度(厘米)

petal length (cm)

花瓣长度(厘米)

petal width (cm)

花瓣宽度(厘米)

3、读取鸢尾花数据的完整代码

# 导入鸢尾花数据集
from sklearn.datasets import load_iris# 读取鸢尾花数据集
data = load_iris()
# 原始数据集是一个字典
# print(data)# for i in data.keys():
#     print(i)# 读取特征数据 4*150
feature_data = data['data']
# print(feature_data)
# 读取鸢尾花分类数据 1*150
target_data = data['target']
# print(target_data)
# 读取特征名称,4个特征
feature_name = data['feature_names']
# print(feature_name)
# 读取类别标签,3种类型
target_label = data['target_names']
# print(target_label)
 

波士顿房价数据集(回归)

1、数据集内容

load_boston() 返回的是一个字典,字典中的元素:

键值

含义

数据类型

数据大小

元素类型

说明示例

data

特征数据

array

13 * 506

float

 [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02, 7.8800e+00]

target

房价

array

1 * 506

float

21.6, 34.7

feature_names

特征名称

array

13

str

['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT']

filename

文件名

str

boston_house_prices.csv

data_module

str

sklearn.datasets.data

DESCR

描述

str

对数据的描述

2、特征说明

自变量

特征

英文释义

含义

CRIM

per capita crime rate by town

城镇人均犯罪率

ZN

proportion of residential land zoned for lots over 25,000 sq.ft.

占地面积超过 25,000 平方英尺的住宅用地比例

INDUS

proportion of non-retail business acres per town

每个城镇非零售商业用地比例

CHAS

Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)

查尔斯河虚拟变量(1 = 区域靠近河流,0 = 其他)

NOX

nitric oxides concentration (parts per 10 million)

一氧化氮浓度(每千万份之一)

RM

average number of rooms per dwelling

每户平均房间数

AGE

proportion of owner-occupied units built prior to 1940

1940 年前建成的自住房比例

DIS

weighted distances to five Boston employment centres

到五个波士顿就业中心的加权距离

RAD

index of accessibility to radial highways

高速公路可达性指数

TAX

full-value property-tax rate per $10,000

每 $10,000 的全额财产税率

PTRATIO

pupil-teacher ratio by town

城市的学生与教师比例

B

1000(Bk - 0.63)^2 where Bk is the proportion of black people by town

城市中黑人比例

LSTAT

% lower status of the population

较低社会地位人口的百分比

因变量

因变量

英文释义

含义

MEDV

Median value of owner-occupied homes in $1000's

自住房屋的中位数价格(以 $1000 为单位)

3、读取波士顿数据的完整代码

# 导入波士顿数据集
from sklearn.datasets import load_boston# 读取波士顿数据集
data = load_boston()
# 原始数据集是一个字典
# print(data)# for i in data.keys():
#     print(i)# 读取特征数据 13*506
feature_data = data['data']
# print(feature_data)
# print(feature_data.shape)
# 读取房价 1*506
target_data = data['target']
# print(target_data)
# 读取特征名称,13个特征
feature_name = data['feature_names']
# print(feature_name)

糖尿病数据集(回归)

1、数据集内容

load_diabetes() 返回的是一个字典,字典中的元素:

键值

含义

数据类型

数据大小

元素类型

说明示例

data

特征数据

array

10 * 442

float

[-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,

        -0.00421986,  0.00306441]

target

房价

array

1 * 442

float

179., 185., 118.,

feature_names

特征名称

list

10

str

['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6'] 

data_filename

特征数据文件名

str

diabetes_data.csv.gz

target_filename

因变量数据文件名

str

diabetes_target.csv.gz

frame

None

data_module

str

sklearn.datasets.data

DESCR

描述

str

对数据的描述

2、特征说明

自变量

特征

英文释义

含义

age

age in years

年龄(以年为单位)

sex

sex

性别

bmi

body mass index

身体质量指数

bp

average blood pressure

平均血压

s1

tc, total serum cholesterol

总血清胆固醇

s2

ldl, low-density lipoproteins

低密度脂蛋白

s3

hdl, high-density lipoproteins

高密度脂蛋白

s4

tch, total cholesterol / HDL

总胆固醇与 HDL 的比值

s5

ltg, possibly log of serum triglycerides level

血清甘油三酯水平的对数

s6

glu, blood sugar level

血糖水平

因变量

英文释义

含义

a quantitative measure of disease progression one year after baseline

一年后的疾病进展的定量衡量

3、读取糖尿病数据的完整代码

# 导入糖尿病数据集
from sklearn.datasets import load_diabetes# 读取糖尿病数据集
data = load_diabetes()
# 原始数据集是一个字典
# print(data)for i in data.keys():print(i)# 读取特征数据 10*442
feature_data = data['data']
# print(feature_data)
# print(feature_data.shape)
# 读取因变量 1*442
target_data = data['target']
# print(target_data)
# 读取特征名称,10个特征
feature_name = data['feature_names']
# print(feature_name)

乳腺癌数据集(二分类)

1、数据集内容

load_breast_cancer()返回的是一个字典,字典中的元素:

键值

含义

数据类型

数据大小

元素类型

说明示例

data

特征数据

array

30 * 569

float

[1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,

        8.758e-02]

target

类别

array

1 * 150

int

0, 1

feature_names

特征名称

array

30

str

['mean radius', 'mean texture', 'mean perimeter', 'mean area',

       'mean smoothness', 'mean compactness', 'mean concavity',

       'mean concave points', 'mean symmetry', 'mean fractal dimension',

       'radius error', 'texture error', 'perimeter error', 'area error',

       'smoothness error', 'compactness error', 'concavity error',

       'concave points error', 'symmetry error',

       'fractal dimension error', 'worst radius', 'worst texture',

       'worst perimeter', 'worst area', 'worst smoothness',

       'worst compactness', 'worst concavity', 'worst concave points',

       'worst symmetry', 'worst fractal dimension']

target_names

类别标签

array

2

str

['malignant', 'benign']

frame

None

filename

文件名

str

breast_cancer.csv

data_module

str

sklearn.datasets.data

DESCR

描述

str

对数据的描述

2、特征说明

以下原始特征的均值(mean)、标准误差(standard error)、以及“最差”或最大值(三个最差/最大值的均值)被计算为新的特征,最终得出 30 个特征。

原始特征

英文释义

含义

radius

mean of distances from center to points on the perimeter

半径(从中心到周长上的点的平均距离)

texture

standard deviation of gray-scale values

纹理(灰度值的标准差)

perimeter

perimeter

周长

area

area

面积

smoothness

local variation in radius lengths

平滑度(半径长度的局部变化)

compactness

perimeter^2 / area - 1.0

紧致度(周长的平方除以面积减去1)

concavity

severity of concave portions of the contour

凹陷度(轮廓凹陷部分的严重程度)

concave points

number of concave portions of the contour

凹陷点数(轮廓凹陷部分的数量)

symmetry

symmetry

对称性

fractal dimension

"coastline approximation" - 1

分形维度(“海岸线逼近”)- 1

3、读取乳腺癌数据的完整代码

# 导入乳腺癌数据集
from sklearn.datasets import load_breast_cancer# 读取乳腺癌数据集
data = load_breast_cancer()
# 原始数据集是一个字典
# print(data)# for i in data.keys():
#     print(i)# 读取特征数据 30*569
feature_data = data['data']
# print(feature_data)
# 读取乳腺癌分类数据 1*569
target_data = data['target']
# print(target_data)
# 读取特征名称,30个特征
feature_name = data['feature_names']
# print(feature_name)
# 读取类别标签,2种类型
target_label = data['target_names']
# print(target_label)

红酒数据集(三分类)

1、数据集内容

load_wine()返回的是一个字典,字典中的元素:

键值

含义

数据类型

数据大小

元素类型

说明示例

data

特征数据

array

13 * 178

float

[1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,

        1.185e+03]

target

类别

array

1 * 178

int

0, 1, 2

feature_names

特征名称

list

13

str

['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']

target_names

类别标签

array

3

str

['class_0', 'class_1', 'class_2']

frame

None

DESCR

描述

str

对数据的描述

2、特征说明

特征

含义

Alcohol

酒精含量

Malic acid

苹果酸含量

Ash

灰分

Alcalinity of ash

灰分的碱度

Magnesium

镁含量

Total phenols

总酚含量

Flavanoids

黄酮类化合物含量

Nonflavanoid phenols

非黄酮类酚含量

Proanthocyanins

原花青素含量

Color intensity

颜色强度

Hue

色调

OD280/OD315 of diluted wines

稀释葡萄酒在280nm和315nm处的吸光度比值

Proline

脯氨酸含量

3、读取红酒数据的完整代码

# 导入红酒数据集
from sklearn.datasets import load_wine# 读取红酒数据集
data = load_wine()
# 原始数据集是一个字典
# print(data)# for i in data.keys():
#     print(i)# 读取特征数据 13*178
feature_data = data['data']
# print(feature_data)
# 读取红酒分类数据 1*178
target_data = data['target']
# print(target_data)
# 读取特征名称,13个特征
feature_name = data['feature_names']
# print(feature_name)
# 读取类别标签,3种类型
target_label = data['target_names']
# print(target_label)

健身数据集

1、数据集内容

load_linnerud()返回的是一个字典,字典中的元素:

键值

含义

数据类型

数据大小

元素类型

说明示例

data

特征数据

array

3 * 20

float

[ 17., 251., 250.]

target

target数据

array

3 * 20

float

[189.,  37.,  52.]

feature_names

特征名称

list

3

str

['Chins', 'Situps', 'Jumps']

target_names

target名称

list

3

str

['Weight', 'Waist', 'Pulse']

frame

None

data_filename

自变量数据文件名

str

linnerud_exercise.csv

target_filename

因变量数据文件名

linnerud_physiological.csv

data_module

str

sklearn.datasets.data

DESCR

描述

str

对数据的描述

2、特征说明

特征

含义

Chins

引体向上次数

Situps

仰卧起坐次数

Jumps

跳跃次数

Weight

体重

Waist

腰围

Pulse

脉搏率(心率)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/53568.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Sqoop 数据迁移

Sqoop 数据迁移 一、Sqoop 概述二、Sqoop 优势三、Sqoop 的架构与工作机制四、Sqoop Import 流程五、Sqoop Export 流程六、Sqoop 安装部署6.1 下载解压6.2 修改 Sqoop 配置文件6.3 配置 Sqoop 环境变量6.4 添加 MySQL 驱动包6.5 测试运行 Sqoop6.5.1 查看Sqoop命令语法6.5.2 测…

Vue 中 计算属性与侦听属性的使用与介绍

Vue 中 计算属性与侦听属性的使用与介绍 计算属性 - computed 计算属性是一种特殊的属性&#xff0c;它依赖于其他属性&#xff0c;并返回一个新的值。当依赖的属性发生变化时&#xff0c;计算属性会重新求值。 计算属性的语法如下&#xff1a; computed: {// 计算属性名: …

【数学建模】2024数学建模国赛经验分享

文章目录 一、关于我二、我的数模历程三、经验总结&#xff1a; 一、关于我 我的CSDN主页&#xff1a;https://gxdxyl.blog.csdn.net/ 2020年7月&#xff08;大二结束的暑假&#xff09;开始在CSDN写作&#xff1a; 阿里云博客专家&#xff1a; 接触的领域挺多的&#xff…

摩尔投票算法--169. 多数元素

169. 多数元素 普通方法-借助map计数 class Solution { public:int majorityElement(vector<int>& nums) {map<int,int> mp;for(int num :nums){mp[num];}for(auto &a :mp){if(a.second>nums.size()/2){return a.first;}}return 0;} }; 进阶&#xff…

【Linux】常用指令(中)(附带基础指令的详细讲解、Linux的一些附加知识)

文章目录 前言1. Linux基础常用指令1.1 通配符 "*"1.2 man指令&#xff08;重要&#xff09;1.2.1 man指令的语法 1.3 何为"指令"&#xff1f;(附带知识)1.4 echo指令1.5 cat指令1.6 Linux下一切皆文件&#xff01;1.6.1 ">" 输出重定向1.6.2…

【基础知识复习 - 随机练习题】

问题 1&#xff1a;在软件生命周期模型中&#xff0c;哪一个模型强调了开发过程的迭代性和反馈&#xff1f; A. 瀑布模型 B. V模型 C. 敏捷模型 D. 原型模型 答案&#xff1a;C. 敏捷模型 解析&#xff1a;敏捷模型强调迭代开发和反馈&#xff0c;允许在每个迭代周期中进行调…

浅谈C#之线程锁

一、基本介绍 锁是一种同步机制&#xff0c;用于控制多个线程对共享资源的访问。当一个线程获得了锁时&#xff0c;其他线程将被阻塞&#xff0c;直到该线程释放了锁。 在并发编程中&#xff0c;多个线程同时访问共享资源可能导致数据竞争和不确定的行为。锁可以确保在任意时刻…

springboot提升-多数据源配置

文章目录 1. 添加依赖2. 配置数据源示例配置&#xff1a; 3. 创建数据源 Bean4. 创建动态数据源5. 配置 MyBatis SqlSessionFactory6. 在业务代码中使用注意事项 在 Spring Boot 中配置 MyBatis 以支持多数据源涉及几个关键步骤&#xff0c;包括配置数据源、集成 MyBatis 以及动…

Qt篇——Qt使用C++获取Windows电脑上所有外接设备的名称、物理端口位置等信息

我之前有发过一篇文章《Qt篇——获取Windows系统上插入的串口设备的物理序号》&#xff0c;文章中主要获取的是插入的USB串口设备的物理序号&#xff1b;而本篇文章则进行拓展&#xff0c;可以获取所有外接设备的相关信息&#xff08;比如USB摄像头、USB蓝牙、USB网卡、其它一些…

Android 蓝牙三方和动态权限三方

记录一下最近用到的简单的框架 蓝牙 FastBle&#xff1a;Android BLE通信库的介绍与高级用法 - 简书 https://github.com/Jasonchenlijian/FastBle 动态权限: GitHub - googlesamples/easypermissions: Simplify Android M system permissions 位置权限举例,arrayOf中多…

Spring 源码解读:使用FactoryBean创建复杂对象的实现

引言 在Spring框架中&#xff0c;FactoryBean是一个特殊的Bean&#xff0c;它允许开发者通过实现FactoryBean接口来控制Bean的创建过程&#xff0c;特别适用于创建复杂对象。FactoryBean可以将复杂对象的创建逻辑与业务逻辑分离&#xff0c;提供更高的灵活性和可扩展性。在本篇…

分布式技术概览

文章目录 分布式技术1. 分布式数据库&#xff08;Distributed Databases&#xff09;2. 分布式文件系统&#xff08;Distributed File Systems&#xff09;3. 分布式哈希表&#xff08;Distributed Hash Tables, DHTs&#xff09;4. 分布式缓存&#xff08;Distributed Caching…

代码随想录打卡Day28

今天的题目还是感觉有难度&#xff0c;前三道题都想不出来思路&#xff0c;直接看讲解去了。。。贪心的难题真的好难想出来。 122.买卖股票的最佳时机II 这道题用贪心解很巧妙。涉及到一个数学技巧&#xff0c;从第i天买入&#xff0c;第j天卖出&#xff0c;所获得的利润为pr…

面试必问:Java 类加载过程

java 类加载过程主要分为加载、链接和初始化三个阶段&#xff0c;六个关键步骤&#xff1a;加载、验证、准备、解析、初始化。 加载阶段&#xff08;Loading&#xff09; 加载时类加载的第一个过程&#xff0c;在这个阶段&#xff0c;将完成以下三件事情&#xff1a; 1&#…

基于Springboot的鲜花销售网站的设计与实现

项目描述 这是一款基于Springboot的鲜花销售网站的系统 模块描述 鲜花销售系统 1、用户 登录 在线注册 浏览商品 鲜花搜索 订购商品 查询商品详情 水果分类查看 水果加购物车 下单结算 填写收货地址 2、管理员 登录 用户管理 商品管理 订单管理 账户管理 截图

项目经理应该学习pmp还是cspm?

职场竞争激烈&#xff0c;项目管理专业人才在各个行业中的作用越来越凸显出来。在23年之前&#xff0c;我国关于通用项目管理人才的培养更多依赖于国外的PMP认证&#xff0c;缺少自主的认证评价标准和体系。 为了弥补这一空缺&#xff0c;基于国内的项目管理发展需求&#xff…

西门子博途零基础学PLC必会的100个指令

#西门子##PLC##自动化##工业自动化##编程##电工##西门子PLC##工业##制造业##数字化##电气##工程师# 工控人加入PLC工业自动化精英社群 工控人加入PLC工业自动化精英社群

OpenMV——色块追踪

Python知识&#xff1a; 1.给Python的列表赋值&#xff1a; 定义一个元组时就是 元组a (1,2,…) 元组中可以只有一个元素&#xff0c;但是就必须要加一个 “ , ” 如 a (2,) 而列表的定义和元组类似&#xff0c;只是把()换成[]: #那么下面的colour_1 ~ 3属于元组&#xf…

(计算机网络)运输层

一.运输层的作用 运输层&#xff1a;负责将数据统一的交给网络层 实质&#xff1a;进程在通信 TCP&#xff08;有反馈&#xff09;UDP&#xff08;无反馈&#xff09; 二.复用和分用 三. TCP和UDP的特点和区别 进程号--不是固定的 端口号固定--mysql--3306 端口--通信的终点 …

苹果的“AI茅”之路只走了一半

今年苹果发布会最大的亮点&#xff0c;也许是和华为“撞档”&#xff0c;又或者是替腾讯“发布”新手游&#xff0c;但肯定不是iPhone 16。 9月10日&#xff0c;苹果秋季新品发布会与华为见非凡品牌盛典相继举行&#xff0c;iPhone 16系列也与HUAWEI Mate XT同日发布。 不过&…