【python】在【机器学习】与【数据挖掘】中的应用:从基础到【AI大模型】

目录

💗一、Python在数据挖掘中的应用💕

💖1.1 数据预处理💞

💖1.2 特征工程💕

💗二、Python在机器学习中的应用💕

💖2.1 监督学习💞

💖2.2 非监督学习💞

💗三、Python在深度学习中的应用💕

💖3.1 深度学习框架💞

💗四、Python在AI大模型中的应用💕

💖4.1 大模型简介💞

💖4.2 GPT-4o实例💞

💗五、实例验证💕

💖5.1 数据集介绍💞

💖5.2 模型构建与训练💞

💖5.3 模型优化💞

💗六、总结💕


在大数据时代,数据挖掘与机器学习成为了各行各业的核心技术。Python作为一种高效、简洁且功能强大的编程语言,得到了广泛的应用。

💗一、Python在数据挖掘中的应用💕

cb120410bbd14d46a1b702c6484653ae.png

💖1.1 数据预处理💞

数据预处理是数据挖掘中不可或缺的一步。它包括数据清洗、数据变换、数据归一化等步骤。Python的pandas库提供了强大的数据处理功能。

import pandas as pd
from sklearn.preprocessing import StandardScaler# 读取数据
data = pd.read_csv('data.csv')# 数据清洗
data = data.dropna()  # 去除缺失值
data = data.drop_duplicates()  # 去除重复值# 数据变换
data['date'] = pd.to_datetime(data['date'])  # 日期格式转换# 数据归一化
scaler = StandardScaler()
data[['feature1', 'feature2']] = scaler.fit_transform(data[['feature1', 'feature2']])

读取了一个CSV文件,然后使用pandas库进行数据清洗,包括去除缺失值和重复值。接着,我们将日期列转换为日期格式,并对两个特征列进行归一化处理,使其符合标准正态分布。

💖1.2 特征工程💕

特征工程是提升模型性能的重要手段。Python提供了多种工具来实现特征选择和特征提取。

from sklearn.feature_selection import SelectKBest, f_classif# 特征选择
X = data.drop('target', axis=1)
y = data['target']
selector = SelectKBest(score_func=f_classif, k=5)
X_new = selector.fit_transform(X, y)# 特征提取
from sklearn.decomposition import PCApca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

首先进行了特征选择,使用了SelectKBest选择评分最高的5个特征。通过主成分分析(PCA)进行特征提取,将特征降维到两个维度。

💗二、Python在机器学习中的应用💕

c6c67eee5ae6409d966e123e84509cf0.png

💖2.1 监督学习💞

监督学习是机器学习的主要方法之一,包括分类和回归。Scikit-learn是Python中常用的机器学习库,提供了丰富的模型和工具。

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 构建随机森林分类器
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)# 预测
y_pred = clf.predict(X_test)# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

使用随机森林分类器进行分类任务。首先,将数据集划分为训练集和测试集,然后构建随机森林分类器并进行训练,最后在测试集上进行预测并计算准确率。

💖2.2 非监督学习💞

非监督学习主要用于聚类和降维。KMeans和DBSCAN是常用的聚类算法。

from sklearn.cluster import KMeans
import matplotlib.pyplot as plt# 构建KMeans模型
kmeans = KMeans(n_clusters=3, random_state=42)
data['cluster'] = kmeans.fit_predict(data)# 可视化聚类结果
plt.scatter(data['feature1'], data['feature2'], c=data['cluster'])
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('KMeans Clustering')
plt.show()

使用KMeans算法进行聚类,并将结果可视化。首先,构建KMeans模型并进行聚类,然后使用matplotlib库绘制聚类结果的散点图。

💗三、Python在深度学习中的应用💕

340f9e14f9244ceb9dface78149c2139.png

💖3.1 深度学习框架💞

TensorFlow和PyTorch是Python中最常用的深度学习框架。它们提供了构建和训练神经网络的丰富工具。

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense# 构建神经网络模型
model = Sequential([Dense(128, activation='relu', input_shape=(X_train.shape[1],)),Dense(64, activation='relu'),Dense(1, activation='sigmoid')
])# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])# 训练模型
model.fit(X_train, y_train, epochs=10, batch_size=32, validation_split=0.2)# 评估模型
loss, accuracy = model.evaluate(X_test, y_test)
print(f'Accuracy: {accuracy:.2f}')

使用TensorFlow构建了一个简单的全连接神经网络。模型包括两个隐藏层和一个输出层。我们使用Adam优化器和二元交叉熵损失函数,并在训练集上进行训练,最终在测试集上进行评估。

💗四、Python在AI大模型中的应用💕

💖4.1 大模型简介💞

AI大模型如GPT-4o和BERT已经在自然语言处理、图像识别等领域取得了突破性进展。构建和训练这些大模型需要强大的计算资源和先进的算法。

💖4.2 GPT-4o实例💞

OpenAI的GPT-4o是目前最先进的自然语言处理模型之一。使用GPT-4o可以进行文本生成、翻译、摘要等任务。

import openai# 设置API密钥
openai.api_key = 'YOUR_API_KEY'# 使用GPT-4o生成文本
response = openai.Completion.create(engine="gpt-4",prompt="Once upon a time in a land far, far away",max_tokens=50
)print(response.choices[0].text.strip())

使用OpenAI的GPT-4o模型进行文本生成。通过设置API密钥并调用GPT-4o的文本生成接口,我们可以生成连续的文本。

💗五、实例验证💕

💖5.1 数据集介绍💞

使用UCI机器学习库中的Iris数据集来进行分类任务的实例验证。

from sklearn.datasets import load_iris
import pandas as pd# 加载Iris数据集
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = pd.Series(iris.target, name='target')# 显示数据集信息
print(X.head())
print(y.head())

Iris数据集是一个经典的数据集,包含三种鸢尾花的特征和类别信息。我们首先加载数据集并将其转换为pandas的DataFrame和Series格式,方便后续处理。

💖5.2 模型构建与训练💞

构建一个决策树模型来分类Iris数据集。

from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 构建决策树模型
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)# 预测
y_pred = clf.predict(X_test)# 评估
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

使用决策树分类器进行分类任务。首先,将数据集划分为训练集和测试集,然后构建决策树模型并进行训练,最后在测试集上进行预测并计算准确率。

💖5.3 模型优化💞

通过调整模型参数和使用交叉验证来优化模型性能。

from sklearn.model_selection import GridSearchCV# 定义参数网格
param_grid = {'max_depth': [3, 5, 7, None],'min_samples_split': [2, 5, 10],'min_samples_leaf': [1, 2, 4]
}# 网格搜索
grid_search = GridSearchCV(estimator=clf, param_grid=param_grid, cv=5, n_jobs=-1, verbose=2)
grid_search.fit(X_train, y_train)# 最优参数和模型
best_params = grid_search.best_params_
best_clf = grid_search.best_estimator_# 评估最优模型
y_pred = best_clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f'Optimized Accuracy: {accuracy:.2f}')
print(f'Best Parameters: {best_params}')

使用网格搜索来优化决策树模型的参数。通过定义参数网格并进行交叉验证,找出最优参数组合并训练最优模型,最终在测试集上进行评估。

💗六、总结💕

Python在数据挖掘和机器学习中的应用,涵盖了数据预处理、特征工程、监督学习、非监督学习和深度学习。Python凭借其强大的库和工具,成为了数据科学家和机器学习工程师的首选语言,不仅提供了丰富的功能,还拥有广泛的社区支持和不断更新的生态系统,使其在快速发展的AI领域中始终处于领先地位。ef673d7407724f32881917b7330d75a2.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/25808.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MySQL】(基础篇七) —— 通配符和正则表达式

通配符和正则表达式 本章介绍什么是通配符、如何使用通配符以及怎样使用LIKE操作符进行通配搜索,以便对数据进行复杂过滤;如何使用正则表达式来更好地控制数据过滤。 目录 通配符和正则表达式LIKE操作符百分号(%)通配符下划线(_)通配符 通配符使用技巧正…

深入理解 C++ 智能指针

文章目录 一、引言二、 原始指针的问题1、原始指针的问题2、智能指针如何解决这些问题 三、智能指针的类型四、std::shared_ptr1、shared_ptr使用2、shared_ptr的使用注意事项3、定制删除器4、shared_ptr的优缺点5、shared_ptr的模拟实现 五、std::unique_ptr1、unique_ptr的使…

SpringSecurity入门(三)

12、密码加密 12.1、不指定具体加密方式,通过DelegatingPasswordEncoder,根据前缀自动选择 PasswordEncoder passwordEncoder PasswordEncoderFactories.createDelegatingPasswordEncoder();12.2、指定具体加密方式 // Create an encoder with streng…

【iOS】UI学习——登陆界面案例、照片墙案例

文章目录 登陆界面案例照片墙案例 登陆界面案例 这里通过一个登陆界面来复习一下前面学习的内容。 先在接口部分定义两个UILabel、两个UITextField、两个UIButton按键&#xff1a; #import <UIKit/UIKit.h>interface ViewController : UIViewController {UILabel* _lb…

2024050501-重学 Java 设计模式《实战命令模式》

重学 Java 设计模式&#xff1a;实战命令模式「模拟高档餐厅八大菜系&#xff0c;小二点单厨师烹饪场景」 一、前言 持之以恒的重要性 初学编程往往都很懵&#xff0c;几乎在学习的过程中会遇到各种各样的问题&#xff0c;哪怕别人那运行好好的代码&#xff0c;但你照着写完…

Python数据分析与机器学习在电子商务推荐系统中的应用

文章目录 &#x1f4d1;引言一、推荐系统的类型二、数据收集与预处理2.1 数据收集2.2 数据预处理 三、基于内容的推荐3.1 特征提取3.2 计算相似度3.3 推荐物品 四、协同过滤推荐4.1 基于用户的协同过滤4.2 基于物品的协同过滤 五、混合推荐与评估推荐系统5.1 结合推荐结果5.2 评…

Qwen2本地部署的实战教程

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

网络安全技术实验一 信息收集和漏洞扫描

一、实验目的和要求 了解信息搜集和漏洞扫描的一般步骤&#xff0c;利用Nmap等工具进行信息搜集并进行综合分析&#xff1b;掌握TCP全连接扫描、TCP SYN扫描的原理,利用Scapy编写网络应用程序&#xff0c;开发端口扫描功能模块&#xff1b;使用漏洞扫描工具发现漏洞并进行渗透测…

8款高效电脑维护与多媒体工具合集!

AI视频生成&#xff1a;小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频https://h5.cxyhub.com/?invitationhmeEo7 1. 系统安装利器——WinNTSetup 系统安装利器&#xff0c;目前最好用的系统安装器&#xff0c;Windows系统安装部署工具。支持所…

跟我学,数据结构和组原真不难

我个人认为408中计算机组成原理和数据结构最难 难度排行是计算机组成原理>数据结构>操作系统>计算机网络。 计算机组成原理比较难的原因是&#xff0c;他涉及的硬件的知识比较多&#xff0c;这对于大家来说难度就很高了&#xff0c;特别是对于跨考的同学来说&#x…

ABB机械人模型下载

可以下载不同格式的 https://new.abb.com/products/robotics/zh/robots/articulated-robots/irb-6700 step的打开各部件是分开的&#xff0c;没有装配在一起&#xff0c;打开看单个零件时&#xff0c;我们会发现其各零件是有装配的定位关系的。 新建一个装配环境&#xff0c;点…

【qt】MDI多文档界面开发

MDI多文档界面开发 一.应用场景二.界面设计三.界面类设计四.实现功能1.新建文档2.打开文件3.关闭所有4.编辑功能5.MDI页模式6.瀑布展开模式7.平铺模式 五.总结 一.应用场景 类似于vs的界面功能,工具栏的功能可以对每个文档使用! 二.界面设计 老规矩,边做项目边学! 目标图: 需…

【JMeter接口测试工具】第二节.JMeter项目实战(上)【实战篇】

文章目录 前言项目实战零、接口测试流程一、测试数据准备二、接口功能测试三、掌握测试用例编写四、自动化脚本架构搭建总结 前言 零、接口测试流程 1、制定测试计划,分配任务 2、从 API 文档中提取接口清单&#xff1a;对 API 文档简化,提高测试效率,接口清单就是对 API 文档…

【研发日记】Matlab/Simulink软件优化(三)——利用NaNFlag为数据处理算法降阶

文章目录 前言 背景介绍 初始算法 优化算法 分析和应用 总结 前言 见《【研发日记】Matlab/Simulink软件优化(一)——动态内存负荷压缩》 见《【研发日记】Matlab/Simulink软件优化(二)——通信负载柔性均衡算法》 背景介绍 在一个嵌入式软件开发项目中&#xff0c;需要开…

OpenAI与核聚变公司寻求合作,白宫拨款1.8亿美元用于核聚变商业化研究

在当下&#xff0c;由 AI 引发的新一轮能源危机已经不再是一个小概率的「黑天鹅」事件&#xff0c;而是一头正在向我们猛冲而来的「灰犀牛」。 Helion Energy&#xff0c;是一家总部位于美国华盛顿州埃弗雷特的能源创业公司。 3.5研究测试&#xff1a;hujiaoai.cn 4研究测试&am…

Mysql的底层实现逻辑

Mysql5.x和Mysql8性能的差异 整体性能有所提高&#xff0c; 在非高并发场景下&#xff0c;他们2这使用区别不大&#xff0c;性能没有明显的区别。 只有高并发时&#xff0c;mysql8才体现他的优势。 2. Mysql数据存储结构Innodb逻辑结构 数据选用B树结构存储数据&#xff0…

如何画系统架构图学习

原文链接:https://learn.lianglianglee.com/%E4%B8%93%E6%A0%8F/%E4%BB%8E%200%20%E5%BC%80%E5%A7%8B%E5%AD%A6%E6%9E%B6%E6%9E%84/51%20%E5%A6%82%E4%BD%95%E7%94%BB%E5%87%BA%E4%BC%98%E7%A7%80%E7%9A%84%E8%BD%AF%E4%BB%B6%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84%E5%9B%BE%EF…

C++ 11 【可变参数模板】【lambda】

&#x1f493;博主CSDN主页:麻辣韭菜&#x1f493;   ⏩专栏分类&#xff1a;C修炼之路⏪   &#x1f69a;代码仓库:C高阶&#x1f69a;   &#x1f339;关注我&#x1faf5;带你学习更多C知识   &#x1f51d;&#x1f51d; 目录 前言 一、新的类功能 1.1默认成员函数—…

【数据分析基础】实验三 文件操作、数组与矩阵运算

一&#xff0e;实验目的 掌握上下文管理语句with的使用方法。掌握文本文件的操作方法。了解os、os.path模块的使用。掌握扩展库Python-docx、openpyxl的安装与操作word、Excel文件内容的方法。熟练掌握numpy数组相关运算和简单应用。熟练使用numpy创建矩阵&#xff0c;熟悉常用…

新技术前沿-2024-构建个人知识库和小语言模型

OllamaWebUIAnythingLLM&#xff0c;构建安全可靠的个人/企业知识库 1 技术路线一 1.1 搭建本地大模型Ollama 1.2 搭建用户界面open WebUI 使用Docker Desktop Open-webui。它可以快速基于Ollama构筑本地UI。 如果没有科学上网&#xff0c;很可能会拉不动&#xff0c;可以试…