顺德新网站制作/温州seo排名公司

顺德新网站制作,温州seo排名公司,wordpress 管理员权限设置,广告传媒公司简介内容一、机器学习介绍与定义 1.1 机器学习定义 机器学习(Machine Learning)是让计算机从数据中自动学习规律,并依据这些规律对未来数据进行预测的技术。它涵盖聚类、分类、决策树、贝叶斯、神经网络、深度学习(Deep Learning&#xf…

一、机器学习介绍与定义

1.1 机器学习定义

机器学习(Machine Learning)是让计算机从数据中自动学习规律,并依据这些规律对未来数据进行预测的技术。它涵盖聚类、分类、决策树、贝叶斯、神经网络、深度学习(Deep Learning)等多种算法 ,基本思路是模拟人类学习行为,通过经验归纳总结规律来预测未来。

1.2 机器学习的发展历史

机器学习的发展历程丰富且具有标志性:

  • 萌芽发展期(20 世纪 50 年代):图灵测试提出,塞缪尔开发西洋跳棋程序,标志着机器学习进入发展阶段。
  • 发展停滞期(20 世纪 60 - 70 年代):发展几乎停滞。
  • 复兴时期(20 世纪 80 年代):神经网络反向传播(BP)算法训练的多参数线性规划(MLP)理念提出,使机器学习复兴。
  • 数据驱动转变期(20 世纪 90 年代):“决策树”(ID3 算法)和支持向量机(SVM)算法出现,机器学习从知识驱动转变为数据驱动。
  • 蓬勃发展期(21 世纪初至今):Hinton 提出深度学习,随着算力提升和海量训练样本支持,深度学习成为研究热点并广泛应用。

1.3 机器学习分类

机器学习按学习模式可分为以下几类:

  • 监督学习(Supervised Learning):从有标签的训练数据中学习模型,用于预测新数据标签,主要用于回归和分类。如预测房价(回归)和判断邮件是否为垃圾邮件(分类)。常见算法包括线性回归、朴素贝叶斯等。
  • 半监督学习(Semi - Supervised Learning):利用少量标注数据和大量无标注数据学习,侧重于在有监督分类算法中加入无标记样本实现半监督分类。例如在图像分类中,利用少量标注图像和大量未标注图像训练模型。常见算法有 Pseudo - Label、Π - Model 等。
  • 无监督学习(Unsupervised Learning):从未标注数据中寻找隐含结构,主要用于关联分析、聚类和降维。比如对客户进行聚类分析,找出不同客户群体特征。常见算法有稀疏自编码、主成分分析等。
  • 强化学习(Reinforcement Learning):通过不断试错学习,有智能体和环境两个交互对象,以及策略、回报函数、价值函数和环境模型(可选)四个核心要素。常用于机器人避障、棋牌类游戏等。如 AlphaGo 通过强化学习在围棋领域取得卓越成绩。

1.4 机器学习需要具备的基础的知识,如何学习机器学习

学习机器学习需具备线性代数、微积分、概率和统计等数学知识,以及编程基础。学习建议如下:

  • 数学基础:掌握线性代数、概率论和统计学概念,理解算法原理。
  • 编程语言:熟练掌握 Python 或 R 语言,它们有丰富的机器学习库和工具。
  • 机器学习算法:了解常见算法原理、应用和优缺点。
  • 机器学习工具和框架:熟悉 scikit - learn、TensorFlow、PyTorch 等工具和框架。
  • 实践项目:通过小型项目提升实践能力,如利用鸢尾花数据集进行分类预测。
  • 学习资源:利用 Coursera、Kaggle、GitHub 等平台的学习资源。
  • 参与机器学习社区:与他人交流经验,参加线下活动。
  • 持续学习和实践:机器学习不断发展,需持续关注研究成果,参与竞赛和项目。

1.5 机器学习的应用场合

机器学习应用广泛,涵盖多个行业领域:

  • 自然语言处理(NLP):实现语音识别、文本分析、情感分析等,用于智能客服、聊天机器人等。如智能音箱通过语音识别和自然语言处理理解用户指令。
  • 医疗诊断与影像分析:分析医疗图像、预测疾病、辅助药物发现。例如利用深度学习模型诊断医学影像中的疾病。
  • 金融风险管理:分析金融数据,预测市场波动性、信用风险等。银行利用机器学习模型评估客户信用风险。
  • 预测与推荐系统:进行销售预测、个性化推荐。电商平台根据用户购买历史推荐商品。
  • 制造业和物联网:处理传感器数据,实现设备预测性维护和质量控制。工厂利用机器学习预测设备故障,提前维护。
  • 能源管理与环境保护:优化能源管理,提高能源利用效率。通过分析能源数据,制定节能策略。
  • 决策支持与智能分析:分析大量数据,辅助决策制定。企业利用机器学习分析市场数据,制定营销策略。
  • 图像识别与计算机视觉:实现图像分类、目标检测等。安防系统利用图像识别技术识别人员身份。

1.6 机器学习趋势分析

机器学习热点研究包括深度神经网络、强化学习、卷积神经网络、循环神经网络等。以深度神经网络、强化学习为代表的深度学习技术研究热度持续上升,是当前研究热点。

1.7 机器学习项目开发步骤

机器学习项目开发通常包含以下 5 个基本步骤:

  1. 收集数据:收集原始数据,数据种类、密度和数量越多,学习效果越好。如收集电商用户购买数据。
  2. 准备数据:确定数据质量,处理缺失数据和异常值,进行探索性分析。例如对收集的用户购买数据进行清洗和预处理。
  3. 训练模型:选择合适算法和数据表示形式,将清理后的数据分为训练集和测试集,用训练集开发模型。以房价预测为例,选择线性回归算法,用部分数据训练模型。
  4. 评估模型:使用测试集评估模型准确性,查看模型在未使用数据上的性能。如用测试集数据评估房价预测模型的准确性。
  5. 提高性能:选择不同模型或引入更多变量提高效率。若房价预测模型准确性不高,尝试其他算法或增加更多特征。

二、scikit - learn 工具介绍

2.1 Python 语言机器学习工具

scikit - learn 是 Python 语言的机器学习工具,包含许多智能的机器学习算法实现,文档完善,上手容易,拥有丰富的 API 接口函数。

2.2 官网及文档

  • 官网:https://scikit - learn.org/stable/#
  • 中文文档:sklearn
  • 中文社区:https://scikit - learn.org.cn/

2.3 scikit - learn 安装

使用 pip 安装:

收起

bash

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scikit - learn

2.4 Scikit - learn 包含的内容

scikit - learn 包含分类、回归、聚类、降维、模型选择、预处理等内容,为机器学习提供全面支持。

三、数据集(重点)

3.1 sklearn 玩具数据集介绍

数据量小,存储在 sklearn 库本地,安装 sklearn 后无需联网即可获取,如鸢尾花数据集。

3.2 sklearn 现实世界数据集介绍

数据量大,需通过网络获取,如 20 分类新闻数据集。

3.3 sklearn 加载玩具数据集

以鸢尾花数据集为例:

收起

python

from sklearn.datasets import load_iris
iris = load_iris()  # 加载鸢尾花数据集

鸢尾花数据集特征包括花萼长、花萼宽、花瓣长、花瓣宽,为三分类数据集(0 - Setosa 山鸢尾 、1 - versicolor 变色鸢尾 、2 - Virginica 维吉尼亚鸢尾)。iris 对象重要属性有:

收起

python

# data 特征
# feature_names 特征描述
# target  目标
# target_names  目标描述
# DESCR 数据集的描述
# filename 下载到本地保存后的文件名

使用 pandas 展示特征和目标:

收起

python

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
iris = load_iris()
feature = iris.data
target = iris.target
target.shape = (len(target), 1)
data = np.hstack([feature, target])
cols = iris.feature_names
cols.append("target")
pd.DataFrame(data, columns=cols)

3.4 sklearn 获取现实世界数据集

以获取 20 分类新闻数据为例:

收起

python

from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups(data_home=None, subset='all')

  • 参数说明
    • data_home:默认 None,下载路径为 “C:/Users/ADMIN/scikit_learn_data/20news - bydate_py3.pkz”;也可自定义路径。
    • subset:“train” 只下载训练集,“test” 只下载测试集,“all” 下载训练集和测试集。
    • return_X_y:默认 False;为 True 时,返回值为元组,包含特征数据集和目标数据集。
  • 返回值说明
    • return_X_y 为 False 时:返回 Bunch 对象,包含 data(特征数据集)、target(目标数据集)、target_names(目标描述)、filenames(新闻数据位置路径)。
    • return_X_y 为 True 时:返回元组,包含特征数据集和目标数据集。

3.5 本地 csv 数据

3.5.1 创建 csv 文件

  • 方式 1:使用记事本编写数据,数据间用英文逗号分隔,保存后将后缀名改为 csv。
  • 方式 2:创建 excel 文件填写数据,以 csv 为后缀保存。
3.5.2 pandas 加载 csv

收起

python

import pandas as pd
pd.read_csv("./src/ss.csv")

3.6 数据集的划分(重点)

3.6.1 函数

收起

python

sklearn.model_selection.train_test_split(*arrays,**options)

  • 参数
    • *array:接收 1 到多个 “列表、numpy 数组、稀疏矩阵或 padas 中的 DataFrame”。
    • **options
      • test_size:0.0 到 1.0 的小数,表示划分后测试集占比。
      • random_state:任意整数,作为随机种子,相同随机种子对相同数据集多次划分结果相同。
      • stratify:分层划分,填写 y。
  • 返回值说明:返回列表,长度与形参 array 接收的参数数量相关,对应划分出的两部分数据类型与 array 接收的类型相同。
3.6.2 示例

  • 列表数据集划分

收起

python

from sklearn.model_selection import train_test_split
data1 = [1, 2, 3, 4, 5]
data2 = ["1a", "2a", "3a", "4a", "5a"]
a, b = train_test_split(data1, test_size=0.4, random_state=22)
print(a, b)
a, b = train_test_split(data2, test_size=0.4, random_state=22)
print(a, b)
a, b, c, d = train_test_split(data1, data2, test_size=0.4, random_state=22)
print(a, b, c, d)

  • ndarray 数据集划分

收起

python

from sklearn.model_selection import train_test_split
import numpy as np
data1 = [1, 2, 3, 4, 5]
data2 = np.array(["1a", "2a", "3a", "4a", "5a"])
a, b, c, d = train_test_split(data1, data2, test_size=0.4, random_state=22)
print(a, b, c, d)
print(type(a), type(b), type(c), type(d))

  • 二维数组数据集划分

收起

python

from sklearn.model_selection import train_test_split
import numpy as np
data1 = np.arange(1, 16, 1)
data1.shape = (5, 3)
print(data1)
a, b = train_test_split(data1, test_size=0.4, random_state=22)
print("a=\n", a)
print("b=\n", b)

  • DataFrame 数据集划分

收起

python

from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
data1 = np.arange(1, 16, 1)
data1.shape = (5, 3)
data1 = pd.DataFrame(data1, index=[1, 2, 3, 4, 5], columns=["one", "two", "three"])
print(data1)
a, b = train_test_split(data1, test_size=0.4, random_state=22)
print("\n", a)
print("\n", b)

  • 字典数据集划分

收起

python

from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
data = [{'city': '成都', 'age': 30, 'temperature': 20},{'city': '重庆', 'age': 33, 'temperature': 60},{'city': '北京', 'age': 42, 'temperature': 80},{'city': '上海', 'age': 22, 'temperature': 70},{'city': '成都', 'age': 72, 'temperature': 40},]
transfer = DictVectorizer(sparse=True)
data_new = transfer.fit_transform(data)
a, b = train_test_split(data_new, test_size=0.4, random_state=22)
print(a)
print("\n", b)

  • 鸢尾花数据集划分

收起

python

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris = load_iris()
list = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
x_train, x_test, y_train, y_test = list
print(x_train.shape, x_test.shape, y_train.shape, y_test.shape)

  • 现实世界数据集划分

收起

python

from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import train_test_split
news = fetch_20newsgroups(data_home=None, subset='all')
list = train_test_split(news.data, news.target, test_size=0.2, random_state=22)
x_train, x_test, y_train, y_test = list
print(len(x_train), len(x_test), y_train.shape, y_test.shape)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/896390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型训练——pycharm连接实验室服务器

一、引言 我们在运行或者复现大佬论文代码的时候,笔记本的算力不够,需要使用实验室的服务器进行运行。可以直接在服务器的终端上执行,但是这样的话代码调试就不方便。而我们可以使用 pycharm 连接到服务器,既方便了代码调试&…

【Linux】进程优先级 | 进程调度(三)

目录 前言: 一、进程优先级: 1.通过nice值修改优先级: 二、进程切换: 三、上下文数据 四、Linux真实调度算法: 五、bitmap位图: 六、命令总结: 总结: 前言: 我…

【C语言】第八期——指针、二维数组与字符串

目录 1 初始指针 2 获取变量的地址 3 定义指针变量、取地址、取值 3.1 定义指针变量 3.2 取地址、取值 4 对指针变量进行读写操作 5 指针变量作为函数参数 6 数组与指针 6.1 指针元素指向数组 6.2 指针加减运算(了解) 6.2.1 指针加减具体数字…

SpringBoot——生成Excel文件

在Springboot以及其他的一些项目中&#xff0c;或许我们可能需要将数据查询出来进行生成Excel文件进行数据的展示&#xff0c;或者用于进行邮箱发送进行附件添加 依赖引入 此处demo使用maven依赖进行使用 <dependency><groupId>org.apache.poi</groupId>&…

LLC谐振变换器恒压恒流双竞争闭环simulink仿真

1.模型简介 本仿真模型基于MATLAB/Simulink&#xff08;版本MATLAB 2017Ra&#xff09;软件。建议采用matlab2017 Ra及以上版本打开。&#xff08;若需要其他版本可联系代为转换&#xff09;针对全桥LLC拓扑&#xff0c;利用Matlab软件搭建模型&#xff0c;分别对轻载&#xf…

Discourse 中集成 Claude 3.7 Sonnet 模型

如果 Discourse 实例已经接入了 Anthropic。 那么只需要在后台挑一个不希望继续使用的模型改下就好。 否则需要重新在 Discourse 实例中配置 AI&#xff0c;然后获得 Anthropic 的 key。 进入后台的 AI 然后选择 LLMs 虽然我们这里已经显示成 3.7 了&#xff0c;但实际上所有…

Oracle 12c Docker安装问题排查 sga_target 1536M is too small

一、问题描述 在虚拟机环境&#xff08;4核16GB内存&#xff09;上部署 truevoly/oracle-12c 容器镜像时&#xff0c;一切运行正常。然而&#xff0c;当在一台 128 核 CPU 和 512GB 内存的物理服务器上运行时&#xff0c;容器启动时出现了 ORA-00821 等错误&#xff0c;提示 S…

DeepSeek 提示词:高效的提示词设计

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家&#xff0c;历代文学网&#xff08;PC端可以访问&#xff1a;https://literature.sinhy.com/#/?__c1000&#xff0c;移动端可微信小程序搜索“历代文学”&#xff09;总架构师&#xff0c;15年工作经验&#xff0c;精通Java编…

KIMI K1.5:大规模强化学习在大语言模型中的应用与工程实践

目录 1、核心技术创新:长上下文强化学习 2、策略优化的技术细节 2.1、在线镜像下降变体 2.2、长度惩罚机制 2.3、智能采样策略 3、工程架构创新 3.1、混合部署框架 3.2、代码沙箱与奖励模型 3.3、分布式系统架构 4、实验成果与性能提升 5、结论与未来展望 大语言模…

HDFS数据多目录、异构存储、回收站

1.NameNode元数据多目录 HDFS集群中可以在hdfs-site.xml中配置“dfs.namenode.name.dir”属性来指定NameNode存储数据的目录&#xff0c;默认NameNode数据存储在${hadoop.tmp.dir}/dfs/name目录&#xff0c;“hadoop.tmp.dir”配置项在core-site.xml中。 我们也可以将NameNod…

TFChat:腾讯大模型知识引擎(DeepSeek R1)+飞书机器人实现AI智能助手

效果 TFChat项目地址 https://github.com/fish2018/TFChat 腾讯大模型知识引擎用的是DeepSeek R1&#xff0c;项目为sanic和redis实现&#xff0c;利用httpx异步处理流式响应&#xff0c;同时使用buffer来避免频繁调用飞书接口更新卡片的网络耗时。为了进一步减少网络IO消耗&…

布署elfk-准备工作

建议申请5台机器部署elfk&#xff1a; filebeat(每台app)--> logstash(2台keepalived)--> elasticsearch(3台)--> kibana(部署es上)采集输出 处理转发 分布式存储 展示 ELK中文社区: 搜索客&#xff0c;搜索人自己的社区 官方…

DeepSeek:我的AI助手之旅

★【前言】: 初次使用AI助手帮我写作,就像摸石头过河一样,一点点的前行。我在慢慢的摸索,慢慢的体会中,感悟出的一点个人心得体会现分享给大家。这也说明一个问题,网站上各种使用方法和技巧是对于已经使用过的人来说的方便和快捷,但对于刚刚接触的使用者来说,网上的各…

esp8266 rtos sdk开发环境搭建

1. 安装必要的工具 1.1 安装 Git Git 用于从远程仓库克隆代码&#xff0c;你可以从Git 官方网站下载 Windows 版本的安装程序。安装过程中可保持默认设置&#xff0c;安装完成后&#xff0c;在命令提示符&#xff08;CMD&#xff09;或 PowerShell 中输入git --version&#…

C# | GDI+图像测距辅助线的实现思路

C# | GDI图像测距辅助线的实现思路 文章目录 C# | GDI图像测距辅助线的实现思路一、辅助线需求概述二、坐标系与角度计算2.1 笛卡尔坐标系2.2 线长和角度计算方法2.3 文本角度矫正计算方法2.4 坐标变换实现步骤 三、与if判断方式对比四、总结 一、辅助线需求概述 在图像测量工…

记录此刻:历时两月,初步实现基于FPGA的NVMe SSD固态硬盘存储控制器设计!

背景 为满足实验室横向项目需求&#xff0c;在2024年12月中下旬导师提出基于FPGA的NVMe SSD控制器研发项目。项目核心目标为&#xff1a;通过PCIe 3.0 x4接口实现单盘3000MB/s的持续读取速率。 实现过程 调研 花了半个月的时间查阅了一些使用FPGA实现NVME SSD控制器的论文、…

python编写liunx服务器登陆自动巡检脚本

前言&#xff1a; 用户需要一份用Python编写的Linux系统巡检脚本&#xff0c;检查内存、磁盘、CPU使用率&#xff0c;还有网络连通性。 首先&#xff0c;我得确定用户的使用场景。可能用户是系统管理员&#xff0c;需要定期监控服务器状态&#xff0c;确保系统正常运行。 或者…

springboot015基于SpringBoot的在线视频教育平台的设计与实现(源码+数据库+文档)

源码地址&#xff1a;基于SpringBoot的在线视频教育平台的设计与实现 文章目录 1.项目简介2.部分数据库结构与测试用例3.系统功能结构4.包含的文件列表&#xff08;含论文&#xff09;前端运行截图后端运行截图 1.项目简介 ​ 随着科学技术的飞速发展&#xff0c;各行各业都在…

可以免费无限次下载PPT的网站

前言 最近发现了一个超实用的网站&#xff0c;想分享给大家。 在学习和工作的过程中&#xff0c;想必做PPT是一件让大家都很头疼的一件事。 想下载一些PPT模板减少做PPT的工作量&#xff0c;但网上大多精美的PPT都是需要付费才能下载使用。 即使免费也有次数限制&#xff0…