python数据挖掘---机器学习模型

机器学习模型

数据 + 算法

  • 算法

Clustering (聚类),旨在将数据根据相似性进行分组,不需要事先知道每个组的具体定义或标签。简单地说就是把相似的东西分到一组(簇),聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起。

因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习,这在Machine Learning中被称作unsupervised learning (无监督学习)。

常用算法有 K-means、层次聚类、DBSCAN等。

Classification (分类),是基于已知的标签将数据划分到预定义的类别中,对于一个classifier,通常需要你告诉它“这个东西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种提供训练数据的过程通常叫做supervised learning (监督学习)。

常用算法有 决策树、神经网络、支持向量机等。

数据标记 猫的图片 狗的图片

  • 分类算法 已经知道数据有哪些类 性别 男 ,女 认为将数据按照男女分类

  • 聚类算分 不知道数据有哪些,根据数据的相似度,将数据拆分成不同的类

数据挖掘的流程

  • 加载数据

    • 把需要的模型数据先计算出来

  • 特征工程 提取数据特征,对特征数据进行清洗转化

    • 数据的筛选和清洗

    • 数据转化 类型转为 性别 男,女 ----> 1,0

    • 特征交叉 性别/职业/收入 ---> 新特这 优质男性程序员 将多个特征值组合在一起

    • 特征筛选 筛选和计算需求强关联的特征

    • 特征清洗 空值处理,重复值处理

    • 数据经过特征处理后会转为向量数据

  • 模型训练

    • 将特征工程的数据传递算法训练

    • 模型评估

      • 数据划分 100万 80万 训练 20万 评估

        • 样本数据 训练模型

        • 测试数据 评估模型

  • 模型的上线部署

    • 模型评估没有问题就可以上线部署

Spark实现机器学习

from pyspark.ml

ml模块包含

  • 各类算法

    • 分类算法,聚类,协调过滤....

  • 特征处理方法

    • 特征抽取,转化,选择...

  • 管道

    • 传递数据方法

  • 持久化

    • 保存数据

人工智能开发方向

  • 数据挖掘 用户画像,推荐系统

  • 自然语言处理 NLP 智能客服,智能助手

  • 计算机视觉 CV 无人超市,智慧交通,视频广告

  • 无人驾驶

人工智能,机器学习,深度学习关系

  • 人工智能

    • 机器学习 使用机器学习的算法实现人工智能的开发 ,需要人工提供数据,对数据进特征提取,让算法分析特征数据,寻找规律,预测未来变化

      • 深度学习 利用神经网络自我学习,不需人为提取数据特征,自己分析数据的特征属性,然后找到规律

人工智能模型有哪些?

特征工程

需要安装numpy模块

pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple

I StringIndexer方法

将字符串数据转为数值,在算法模型训练需要用到的是数值

II VectorAssembler方法

特征交叉,将多个字段数据合并在一起,在算法计算时,是对组合特征进行分析

在进行算法模型训练时,必须将训练的特征数据组合在一起

III MinMaxScaler

特征缩放 将特征数据的比例调整在同一范围

根据需求选择

KMeans聚类算法

KMeans聚类:KMeans单词----K(K个聚类中心)+Means(根据均值迭代聚类中心)

K-Means算法的思想: 对给定的样本集,用欧氏距离(向量)作为衡量数据对象间相似度的指标,相似度与数据对象间的距离成反比,相似度越大,距离越小。

(标量 大小)


使用聚类的方式,将数据划分多份 人以类聚,物以群分

将数据转为向量,计算向量数据距离(欧式距离),向量距离越短,数据相似度越高,可以划分同一类

算法步骤:

  • 1-首先随机选择K个聚类中心 有多少和聚类中心最后就会有多少个分类

  • 2-计算每个样本点到达K个聚类中心的距离,如果距离比较紧直接划分为该类

  • 3-迭代聚类中心,根据均值迭代聚类中心

  • 4-直到聚类中心不在改变为止

  • 得到K个聚类中心所代表的的K类

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/46680.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

为什么提示词写作技能会让生成式AI工程师更上一层楼?

欢迎来到云闪世界。 “为什么我的经理对我的文章吹毛求疵?把措辞从 X 改为 Y 有什么区别?” 当你看到你的经理在你的文档中提出了无数建议时,你可能发现自己有这样的想法;我知道我有过。事实上,我曾经认为写作是数据科…

29、js中this指向

this就是一个使用在作用域内的关键字 1.普通函数调用——》指向window function fn(){console.log(this) //Window } fn() 2.对象调用——》指向对象名 var obj {a: fn,};console.log(obj.a()); 3.定时器函数调用——》指向window setTimeout(function () {console.log(thi…

Flutter 教程实战笔记

Flutter 实战教程笔记,个人觉得不错,特此整理,需要的小伙伴可以看看 01. 初学者须知02. 初识 Flutter03. Flutter 开发环境搭建 Windows 版04. 创建 Flutter 项目05. Flutter 编写一个 HelloWorld 程序06. Flutter Text Widget 文本组件的使…

npm安装依赖包报错,npm ERR! code ENOTFOUND

一、报错现象: npm WARN registry Unexpected warning for https://registry.npmjs.org/: Miscellaneous Warning ETIMEDOUT: request to https://registry.npmjs.org/vue failed, reason: connect ETIMEDOUT 104.16.23.35:443 npm WARN registry Using stale data…

“点点通“餐饮点餐小程序-计算机毕业设计源码11264

"点点通"餐饮点餐小程序 XXX专业XX级XX班:XXX 指导教师:XXX 摘要 随着中国经济的飞速增长,消费者的智能化水平不断提高,许多智能手机和相关的软件正在得到更多的关注和支持。其中,微信的餐饮点餐小程序更…

《Exploring Aligned Complementary Image Pair for Blind Motion Deblurring》

这篇论文的标题《Exploring Aligned Complementary Image Pair for Blind Motion Deblurring》可以翻译为《探索对齐的互补图像对用于盲运动去模糊》。从标题可以推断,论文的焦点在于开发一种算法或技术,利用成对的图像来解决运动模糊问题,特别是在不知道模糊核(即造成模糊…

wifi preamble code, 前导码

WiFi packets 很神奇,自从802.11 协议诞生以来 就对信息传输 产生了无尽的影响, 闲来无事 看看wireless 空口包 发现 前导码 非常奇怪。 为什么前导码有两部分组成, 1. radiotap header 2. 802.11 radio information 并且 radiotap 是有在…

AIGC工具:IPAdapter和ControlNet 指导控制生成工具

ControlNet强调对生成过程的直接控制,如通过线条、边缘、形状等信息;而IPAdapter侧重于风格迁移和内容的间接引导。 IPAdapter 它专注于通过迁移图片风格来生成新的图像内容。IPAdapter的强项在于能够将一张图片的风格迁移到另一张图片上,实现风格融合,甚至可以进行多图风格…

CS110L(Rust)

1.Rust 语法总结 数值类型 有符号整数: i8, i16, i32, i64无符号整数: u8, u16, u32, u64 变量声明 声明变量: let i 0; // 类型推断let n: i32 1; // 显式类型声明 可变变量: let mut n 0; n n 1; 字符串 注意,let s: str "Hello world";…

React@16.x(62)Redux@4.x(11)- 中间件2 - redux-thunk

目录 1,介绍举例 2,原理和实现实现 3,注意点 1,介绍 一般情况下,action 是一个平面对象,并会通过纯函数来创建。 export const createAddUserAction (user) > ({type: ADD_USER,payload: user, });这…

WEB前端07-DOM对象

DOM模型 1.DOM概念 文档对象模型属于BOM的一 部分,用于对BOM中的核心对象document进行操作,它是一种与平台、语言无关的接口,允许程序和脚本动态地访问或更新HTML、XML文档的内容、结构和样式,且提供了一系列的函数和对象来实现…

工作边界感

工作边界 **明确工作边界****尊重他人的工作边界**:**建立有效的沟通机制**:**制定明确的规则和流程**:**保持开放和包容的心态**:**寻求专业支持**: 在程序员的日常工作中,会遇到很多边界问题。如果这些边…

【人工智能大模型】文心一言介绍以及基本使用指令

目录 一、产品背景与技术基础 二、主要功能与特点 基本用法 指令的使用 注意事项 文心一言(ERNIE Bot)是百度基于其文心大模型技术推出的生成式AI产品。以下是对文心一言的详细介绍: 一、产品背景与技术基础 技术背景:百度…

基于Gunicorn、Flask和Docker的高并发部署

1. 引言 你好,我是悦创。 随着互联网应用的不断发展,如何高效地处理高并发请求成为了每个开发者需要解决的关键问题。本文将详细介绍如何使用 Gunicorn、Flask 和 Docker 来实现一个高并发部署模型,确保应用在高并发情况下依然能够高效稳定…

NOMAD: Non-Exclusive Memory Tiering via Transactional Page Migration——论文泛读

OSDI 2024 Paper CXL论文阅读笔记整理 问题 随着可字节寻址存储设备的出现,如CXL内存、持久内存和存储类内存,分层存储系统已成为现实,不同层具有不同的特性,如速度、大小、功耗和成本。分层内存管理的核心是操作系统&#xff0…

vmware虚拟机中,Centos安装Docker,解决国内无法访问

背景 本文主要解决了centos 的yum源 无法更新 和 docker的 源 国内无法访问的问题。 本文环境:windows宿主机装了vmware虚拟机,虚拟机中安装了Centos,centos内装docker。其实可以直接在window装docker desktop for windows,但…

技术选型_001_应用场景及编程语言

文章目录 Web开发桌面应用数据分析 不同编程语言有不同的适用场景及生态,这里仅记录作为个人开发者接触过的场景,不考虑企业侧因素,完全从开发效率及性能,包大小等因素考虑,因目前个人只接触过应用层开发,后…

uniapp 获取自定义组件的高度

在 UniApp 中&#xff0c;要获取自定义组件的高度&#xff0c;可以使用uni.createSelectorQuery()方法结合res.node和res.height来实现。 首先&#xff0c;在父组件的代码中&#xff0c;给自定义组件添加一个 ref 属性&#xff0c;例如&#xff1a; <template><view…

VS C#类文件自动生成头部注释

VS C#类文件自动生成头部注释&#xff08;以VS2019为例&#xff09; 1、更新位置 E:\VS2019\vs_2019\Common7\IDE\ItemTemplates\CSharp\Code\2052\Class 2、替换Class 原始文件 using System; using System.Collections.Generic; $if$ ($targetframeworkversion$ > 3.5…

【代码随想录】【算法训练营】【第58天 3】 [卡码103]水流问题 [卡码104]建造最大岛屿

前言 思路及算法思维&#xff0c;指路 代码随想录。 题目来自 卡码网。 day 58&#xff0c;周四&#xff0c;ding~ 题目详情 [卡码103] 水流问题 题目描述 卡码103 水流问题 LeetCode类似题目417 太平洋大西洋水流问题 解题思路 前提&#xff1a; 思路&#xff1a; 重…