【机器学习】数据分析特征

参考来源:https://www.bilibili.com/video/BV1nt411r7tj

1.数据质量分析

缺失值

异常值:箱线图

一致值(多数据源不一致)

2.图像可视化

占比:饼图、气泡图(2-5维)

波动图:折线图

门槛效应和边际递减:分析营销费用和流量价格

3.常见标签

1.性别分布:男女其它

2.地区分布:省份北上广深

3.年龄分布:80900010

4.数据特征

数值:数量、平均数、极差、标准差、方差、极值

分布规律:均匀分布、正太分布、长尾分布

可视化方法:柱状图、条形图、散点图、饼状图

5.pandas操作

读取数据

order_products = pd.read_csv("./instacart/order_products__prior.csv")

连表查询

tab1 = pd.merge(aisles, products, on=["aisle_id", "aisle_id"])

建立交叉表

table = pd.crosstab(tab3["user_id"], tab3["aisle"])

pca降维sk-learn

datanew=sklearn.decomposition.PCA(n_components=0.95).fit_transform(data)

6.数据预处理

6.1归一化

将数据压缩到0-1.让计算容易处理有不损失数据间大小占比

    # 1、获取数据data = pd.read_csv("dating.txt")data = data.iloc[:, :3]print("data:\n", data)# 2、实例化一个转换器类 压缩到2-3transfer = MinMaxScaler(feature_range=(2, 3))# 3、调用fit_transformdata_new = transfer.fit_transform(data)print("data_new:\n", data_new)

6.2标准化(转换器)

(x-mean)/var。将数据转换到均值为0均差为1.减少异常值对整体数据产生差异少的特点。让数据易用于训练

fit:计算mean、var。transform:计算(x-mean)/var

    # 1、获取数据data = pd.read_csv("dating.txt")data = data.iloc[:, :3]print("data:\n", data)# 2、实例化一个转换器类transfer = StandardScaler()# 3、调用fit_transformdata_new = transfer.fit_transform(data)print("data_new:\n", data_new)

6.3 方差降维

方差低的数据标签舍弃

def variance_demo():"""过滤低方差特征:return:"""# 1、获取数据data = pd.read_csv("factor_returns.csv")data = data.iloc[:, 1:-2]print("data:\n", data)# 2、实例化一个转换器类transfer = VarianceThreshold(threshold=10)# 3、调用fit_transformdata_new = transfer.fit_transform(data)print("data_new:\n", data_new, data_new.shape)# 计算某两个变量之间的相关系数r1 = pearsonr(data["pe_ratio"], data["pb_ratio"])print("相关系数:\n", r1)r2 = pearsonr(data['revenue'], data['total_expense'])print("revenue与total_expense之间的相关性:\n", r2)

6.4 数据直接排除

data = data.query("x < 2.5 & x > 2 & y < 1.5 & y > 1.0")

6.5 时间戳转化日期、星期、小时

time_value = pd.to_datetime(data["time"], unit="s")
date = pd.DatetimeIndex(time_value)
data["day"] = date.day
data["weekday"] = date.weekday
data["hour"] = date.hour

6.6数据聚合

place_count = data.groupby("place_id").count()["row_id"]
data_final = data[data["place_id"].isin(place_count[place_count > 3].index.values)]

6.7缺失值处理

# 2、缺失值处理
# 1)替换-》np.nan
data = data.replace(to_replace="?", value=np.nan)
# 2)删除缺失样本
data.dropna(inplace=True)
#%%
data.isnull().any() # 不存在缺失值

7.数据建模(预估器)

7.1 knn:小数据<1000

交叉验证:将训练集分为n组,进行n次训练,每次选择其中一组用来验证结果,其它组用于训练。

网格搜索:让数据自己从给定的超参数中,选择出最好的超参数。比如k临近中,让算法自己找出最合适的k

    """用KNN算法对鸢尾花进行分类,添加网格搜索和交叉验证:return:"""# 1)获取数据iris = load_iris()# 2)划分数据集x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)# 3)特征工程:标准化transfer = StandardScaler()x_train = transfer.fit_transform(x_train)x_test = transfer.transform(x_test)# 4)KNN算法预估器estimator = KNeighborsClassifier()# 加入网格搜索与交叉验证# 参数准备param_dict = {"n_neighbors": [1, 3, 5, 7, 9, 11]}estimator = GridSearchCV(estimator, param_grid=param_dict, cv=10)estimator.fit(x_train, y_train)# 5)模型评估# 方法1:直接比对真实值和预测值y_predict = estimator.predict(x_test)print("y_predict:\n", y_predict)print("直接比对真实值和预测值:\n", y_test == y_predict)# 方法2:计算准确率score = estimator.score(x_test, y_test)print("准确率为:\n", score)# 最佳参数:best_params_print("最佳参数:\n", estimator.best_params_)# 最佳结果:best_score_print("最佳结果:\n", estimator.best_score_)# 最佳估计器:best_estimator_print("最佳估计器:\n", estimator.best_estimator_)# 交叉验证结果:cv_results_print("交叉验证结果:\n", estimator.cv_results_)

7.2 决策树(可视化)易理解

https://blog.csdn.net/liu_1314521/article/details/115638429
    """用决策树对鸢尾花进行分类:return:"""# 1)获取数据集iris = load_iris()# 2)划分数据集x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22)# 3)决策树预估器estimator = DecisionTreeClassifier(criterion="entropy")estimator.fit(x_train, y_train)# 4)模型评估# 方法1:直接比对真实值和预测值y_predict = estimator.predict(x_test)print("y_predict:\n", y_predict)print("直接比对真实值和预测值:\n", y_test == y_predict)# 方法2:计算准确率score = estimator.score(x_test, y_test)print("准确率为:\n", score)# 可视化决策树export_graphviz(estimator, out_file="iris_tree.dot", feature_names=iris.feature_names)

朴素贝叶斯:特征相互独立+贝叶斯公式。给定条件下求的目标的概率值分布。应用文本分布

    """用朴素贝叶斯算法对新闻进行分类:return:"""# 1)获取数据news = fetch_20newsgroups(subset="all")# 2)划分数据集x_train, x_test, y_train, y_test = train_test_split(news.data, news.target)# 3)特征工程:文本特征抽取-tfidftransfer = TfidfVectorizer()x_train = transfer.fit_transform(x_train)x_test = transfer.transform(x_test)# 4)朴素贝叶斯算法预估器流程estimator = MultinomialNB()estimator.fit(x_train, y_train)# 5)模型评估# 方法1:直接比对真实值和预测值y_predict = estimator.predict(x_test)print("y_predict:\n", y_predict)print("直接比对真实值和预测值:\n", y_test == y_predict)# 方法2:计算准确率score = estimator.score(x_test, y_test)print("准确率为:\n", score)return None

7.3 随机森林(多模型决策)

使用多个随机维度进行决策树建模,将多个预测结果求总数

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
#%%
estimator = RandomForestClassifier()
# 加入网格搜索与交叉验证
# 参数准备
param_dict = {"n_estimators": [120,200,300,500,800,1200], "max_depth": [5,8,15,25,30]}
estimator = GridSearchCV(estimator, param_grid=param_dict, cv=3)
estimator.fit(x_train, y_train)# 5)模型评估
# 方法1:直接比对真实值和预测值
y_predict = estimator.predict(x_test)
print("y_predict:\n", y_predict)
print("直接比对真实值和预测值:\n", y_test == y_predict)# 方法2:计算准确率
score = estimator.score(x_test, y_test)
print("准确率为:\n", score)# 最佳参数:best_params_
print("最佳参数:\n", estimator.best_params_)
# 最佳结果:best_score_
print("最佳结果:\n", estimator.best_score_)
# 最佳估计器:best_estimator_
print("最佳估计器:\n", estimator.best_estimator_)
# 交叉验证结果:cv_results_
print("交叉验证结果:\n", estimator.cv_results_)

7.4 线性回归

使用梯度下降寻找最小值。实际不会那么简单,这里主要用于理解原理

    # 1)获取数据boston = load_boston()print("特征数量:\n", boston.data.shape)# 2)划分数据集x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, random_state=22)# 3)标准化transfer = StandardScaler()x_train = transfer.fit_transform(x_train)x_test = transfer.transform(x_test)# 4)预估器estimator = SGDRegressor(learning_rate="constant", eta0=0.01, max_iter=10000, penalty="l1")estimator.fit(x_train, y_train)# 5)得出模型print("梯度下降-权重系数为:\n", estimator.coef_)print("梯度下降-偏置为:\n", estimator.intercept_)# 6)模型评估y_predict = estimator.predict(x_test)print("预测房价:\n", y_predict)error = mean_squared_error(y_test, y_predict)print("梯度下降-均方误差为:\n", error)

随机梯度下降(sag)解决直接梯度下降迭代慢,和随机梯度下降不准确的确定。使用随机数的平均值来在两者取平均。

7.4.2过拟合解决(岭回归)

欠拟合:特征数量不够,或数据集不够

过拟合:特征数量过多,数据集不够。解决:正则化,将高阶项进行惩罚。

岭回归:线性回归+L2正则

   """岭回归对波士顿房价进行预测:return:"""# 1)获取数据boston = load_boston()print("特征数量:\n", boston.data.shape)# 2)划分数据集x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, random_state=22)# 3)标准化transfer = StandardScaler()x_train = transfer.fit_transform(x_train)x_test = transfer.transform(x_test)# 4)预估器# estimator = Ridge(alpha=0.5, max_iter=10000)# estimator.fit(x_train, y_train)# 保存模型# joblib.dump(estimator, "my_ridge.pkl")# 加载模型estimator = joblib.load("my_ridge.pkl")# 5)得出模型print("岭回归-权重系数为:\n", estimator.coef_)print("岭回归-偏置为:\n", estimator.intercept_)# 6)模型评估y_predict = estimator.predict(x_test)print("预测房价:\n", y_predict)error = mean_squared_error(y_test, y_predict)print("岭回归-均方误差为:\n", error)

7.4.3逻辑回归

逻辑回归:线性回归的输入+sigmo压缩到01,将0.5作为二分类的分界线

损失函数:对数似然函数,将接近1的数损失越少,接近0损失越大。

7.5自动聚类

没有目标值,单单纯想先分类,在对数据进行预测训练

# 预估器流程
from sklearn.cluster import KMeans
#%%
estimator = KMeans(n_clusters=3)
estimator.fit(data_new)
#%%
y_predict = estimator.predict(data_new)
#%%
y_predict[:300]
#%%
# 模型评估-轮廓系数
from sklearn.metrics import silhouette_score
#%%
silhouette_score(data_new, y_predict)

8.模型评估

精确率:查的准不准

召回率:查的全不全

# 查看精确率、召回率、F1-score
from sklearn.metrics import classification_report
report = classification_report(y_test, y_predict, labels=[2, 4], target_names=["良性", "恶性"])
print(report)

roc: 随机:召回率=漏放率=0.5 准确:召回率=1

from sklearn.metrics import roc_auc_score
roc_auc_score(y_true, y_predict)

模型保存和加载

# 保存模型# joblib.dump(estimator, "my_ridge.pkl")
# 加载模型estimator = joblib.load("my_ridge.pkl")

附录

1.jupyter学习

conda create -n mylab python=3.11
conda activate mylab
python -m pip install --upgrade pip
pip install jupyterlab
jupyter lab .

快捷键

创建下一行: Alt+Enter

删除当前行 esc dd 清空当前行ctrl d

2.安装代码提示

pip3 install jupyter-lsp
pip install python-language-server[all]

插件搜索lsp

设置中搜索 completion开启两个自动补全

3.使用vscode 进行开发

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/11166.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows Docker 使用 httpd 部署静态 Web 站点

一、简介 httpd 是 Apache超文本传输协议&#xff08;HTTP&#xff09;服务器的主程序&#xff0c;是一个独立运行的后台进程&#xff0c;专门负责处理 HTTP 请求。它通过建立子进程或线程的池来高效管理请求&#xff0c;确保服务器能够迅速响应客户端的需求。httpd 因其高效率…

MySQL查询篇-聚合函数-窗口函数

文章目录 distinct 关键字聚合函数常见的聚合函数group by和having 分组过滤 窗口函数with as窗口聚合函数排名窗口函数值窗口函数 distinct 关键字 distinct 去重数据&#xff0c;ps:null值也会查出来 select distinct column from table;聚合函数 常见的聚合函数 select …

[AutoSar]BSW_Diagnostic_002 DCM模块介绍

目录 关键词平台说明背景一、DCM所处架构位置二、DCM 与其他模块的交互三、DCM 的功能四、DCM的内部子模块4.1 Diagnostic Session Layer (DSL)4.1 DSL 与其他模块的交互 4.2 Diagnostic Service Dispatcher (DSD)4.3 Diagnostic Service Processing (DSP)4.4 小结 关键词 嵌入…

linux程序分析命令(二)

linux程序分析命令(二) **ldd&#xff1a;**用于打印共享库依赖。这个命令会显示出一个可执行文件所依赖的所有共享库&#xff08;动态链接库&#xff09;&#xff0c;这对于解决运行时库依赖问题非常有用。**nm&#xff1a;**用于列出对象文件的符号表。这个命令可以显示出定…

Python元类:深入解析及其在框架开发中的应用

Python元类&#xff1a;深入解析及其在框架开发中的应用 一、引言 在Python中&#xff0c;元类&#xff08;Metaclass&#xff09;是一个高级特性&#xff0c;它允许我们控制类的创建过程。虽然在日常编程中&#xff0c;元类的使用可能并不频繁&#xff0c;但在框架开发、ORM…

莆田市C++专项选拔第二轮题4

题4&#xff1a;变换阵型 【题目描述】 盛隆同学刚学完C的二维数组和函数部分&#xff0c;于是他自己写了2个函数对二维数组进行练习。两个函数如下&#xff1a; int n, a[1005][1005]; // 注意&#xff0c;这里的n和数组a是全局变量 void f1() {for (int i 1; i < n; i)…

Python实现网页保持登录状态的技术方案及实际需求案例

文章目录 1. 使用Cookies直接管理2. 使用Web自动化工具3. 利用API Tokens4. 利用OAuth和其他认证机制5.Python实际需求案例5.1 方法一:多线程实现实现策略示例代码注意事项5.2 方法二:单例实现使用单例模式单例展示配合需求使用单例Python代码实现单例模式的优缺点5.3 方法一…

react 类组件 和 函数组件 声明周期 对比

React 的类组件和函数组件在生命周期方面存在一些差异。以下是它们之间的对比&#xff1a; 类组件的生命周期 React 类组件的生命周期可以分为三个阶段&#xff1a;挂载、更新和卸载。 1、挂载阶段&#xff1a; constructor()&#xff1a;组件实例化时调用&#xff0c;用于…

CNOCR和PaddleOCR提取pdf中文字-个人记录

目录 一、PyMuPDF 二、CNOCR 三、PaddleOCR 四、Tesseract&#xff08;没试&#xff09; 一、PyMuPDF 1.安装PyMuPDF pip install pymupdf 2.pdf转txt样例 import os import datetime import fitz # fitz就是pip install PyMuPDFdef pyMuPDF_fitz(pdfPath):startTime_p…

47岁古天乐唯一承认女友约「御用阿妈」过母亲节

日前关宝慧在IG晒出一张聚会照&#xff0c;并写道&#xff1a;「预祝各位#母亲节快乐&#x1f339;#dinner #happy #friends #好味」相中所见&#xff0c;前TVB金牌监制潘嘉德、卢宛茵、黄&#x28948;莹、黎萨达姆都有出席饭局。 当中黄&#x28948;莹身穿卡其色西装褛&…

blender 为世界环境添加纹理图像

1、打开世界环境配置项 2、点击颜色右侧的黄色小圆&#xff0c;选择环境纹理 3、打开一张天空图像 4、可以通过调整强度/力度&#xff0c;调整世界环境的亮度

《工具分享-整合功能网页》标星5.3k⭐开发人员的在线工具集:it-tools

IT Tools - 为方便开发人员提供的在线工具 部署自己的it-tools: 有两个版本&#xff0c;目前有中文支持。 直接部署使用docker指令获取出来的是英文的&#xff1a; 英文版&#xff1a; docker run -d --name it-tools --restart unless-stopped -p 8080:80 corentinth/it-…

TCP服务器实现将客服端发送的信息广播发送(使用内核链表管理客户端信息)

目录 1.服务器端实现思路 2.服务器端代码 3.客户端代码 4.内核链表代码 5.运行格式 一、服务器端 二、客户端 6.效果 1.服务器端实现思路 Tcp广播服务初始化 等待客户端连接 广播发送 2.服务器端代码 #include "list.h" #include <signal.h> #def…

基于数据挖掘与机器学习揭秘脱发主因

&#x1f31f;欢迎来到 我的博客 —— 探索技术的无限可能&#xff01; &#x1f31f;博客的简介&#xff08;文章目录&#xff09; 基于数据挖掘与机器学习揭秘脱发主因 目录 一、绪论背景描述数据说明内容大概 二、导入包以及数据读取三、数据预览四、探究导致脱发的因素4.1…

连续因子要点和难点具体应用和代码实例

连续因子是指在实验设计或数据分析中,表示可以在一定范围内连续变化的自变量或因素。与离散因子不同,连续因子的取值是无限的,并且可以是任意精度的实数值。在实验设计和统计分析中,连续因子通常用于探索变量之间的关系、预测结果或优化系统性能。 要点和难点: 要点: …

yh-hw

1 为什么选择各项指标的加权值 因为训练样本分布不均&#xff0c;2700的数据行中&#xff0c;1700左右的样本是neutral&#xff0c;而加权平均考虑了每个类别的样本数量&#xff0c;将每个类别的指标与其样本数量相乘&#xff0c;然后求和后除以总样本数。这种方法使得样本量大…

2.3. 连续时间鞅-平方可积的连续鞅

平方可积的连续鞅 平方可积的连续鞅1. 随机区间和简单过程2. 简单过程随机积分的平方变差3. 连续鞅的平方变差过程3.1. 连续鞅与有限变差过程3.2. 连续鞅平方的分解3.3. 连续鞅的交互变差过程平方可积的连续鞅 1. 随机区间和简单过程 数学分析及实变函数论中, 在处理一般函数…

设计模式:迭代器模式(Iterator)

设计模式&#xff1a;迭代器模式&#xff08;Iterator&#xff09; 设计模式&#xff1a;迭代器模式&#xff08;Iterator&#xff09;模式动机模式定义模式结构时序图模式实现在单线程环境下的测试在多线程环境下的测试模式分析优缺点适用场景应用场景参考 设计模式&#xff1…

python爬虫(四)之九章智算汽车文章爬虫

python爬虫&#xff08;四&#xff09;之九章智算汽车文章爬虫 闲来没事就写一条爬虫抓取网页上的数据&#xff0c;现在数据已经抓完&#xff0c;将九章智算汽车文章的爬虫代码分享出来。当前代码采用python编写&#xff0c;可抓取所有文章&#xff0c;攻大家参考。 import r…

STL中的优先级队列

目录 1.引言 2.简介 3.基本操作 4.实现原理 5.自定义优先级比较 6.相关题目 7.能特点 8.总结 1.引言 在C标准库中&#xff0c;优先级队列是一种非常有用的数据结构&#xff0c;它允许我们根据元素的优先级来对其进行排序和访问。这种数据结构在多种应用场景中都发挥着重…