数据探查系列:如何进行有意义的探索性数据分析(EDA)

如何进行有意义的探索性数据分析(EDA)

目录

  • 1. 设置
    • 1.1 导入库
    • 1.2 导入数据
    • 1.3 数据集特征
    • 1.4 数据集属性
  • 2. 探索训练集和测试集
    • 2.1 训练集 - 快速概览
    • 2.2 训练集 - 基本统计
    • 2.3 测试集 - 快速概览
    • 2.4 测试集 - 基本统计
  • 3. 特征分布
  • 4. 数据不平衡检查 - 为什么重要
    • 4.1 不平衡数据需要不同的处理方法
  • 5. 我们应该删除异常值吗?
    • 5.1 检查训练集中的异常值
    • 5.2 四分位距(IQR)
    • 5.3 检测和删除异常值
    • 5.4 我们做了什么?
  • 6. 处理重复值
  • 7. 相关性
  • 8. 更多可视化

1 | 设置

1.1 导入库

# 导入所需的库
import numpy as np
import pandas as pd
import seaborn as sns
import plotly.express as px
import tkinter
from matplotlib import pyplot as plt
from sklearn.model_selection import cross_val_score
from collections import Counter
# 设置seaborn的样式为ticks,并将上下文设置为talk
sns.set(style="ticks", context="talk")

<a id="1.2"></a>
## <b>1.2 <span style='color:#F1A424'>导入数据</span></b>```python
# 读取训练数据和测试数据
try:# 尝试从指定路径读取训练数据和测试数据raw_train = pd.read_csv('/kaggle/input/playground-series-s3e4/train.csv', index_col='id')raw_test = pd.read_csv('/kaggle/input/playground-series-s3e4/test.csv', index_col='id')
except:# 如果指定路径读取失败,则从当前路径读取训练数据和测试数据raw_train = pd.read_csv('train.csv', index_col='id')raw_test = pd.read_csv('test.csv', index_col='id')

1.3 数据集特征

比赛的数据集(包括训练集和测试集)是从一个在信用卡欺诈检测(https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud)上训练的深度学习模型生成的。特征分布与原始数据集接近,但并非完全相同。请随意将原始数据集用作比赛的一部分,既可以探索差异,也可以查看是否将原始数据集纳入训练可以提高模型性能。

请注意,与之前的Tabular Tuesdays数据集相比,这个比赛的基础数据集要大得多,因此可能包含更多的伪像。

https://www.kaggle.com/competitions/playground-series-s3e4/overview

1.4 数据集属性

数据集说明

该数据集仅包含经过PCA转换的数值型输入变量。不幸的是,由于保密问题,我们无法提供原始特征和更多关于数据的背景信息。特征V1、V2、…、V28是通过PCA获得的主成分,唯一没有经过PCA转换的特征是’Time’和’Amount’。特征’Time’表示每个交易与数据集中第一笔交易之间经过的秒数。特征’Amount’表示交易金额,该特征可以用于基于示例的成本敏感学习。特征’Class’是响应变量,如果是欺诈交易则取值为1,否则为0。

  • Id - 每行的唯一标识符。

  • Time - 该交易与数据集中第一笔交易之间经过的秒数

  • V1-V28 - 经过降维处理以保护用户身份和敏感特征的特征

  • Amount - 交易金额

  • Class - 目标类别(1表示欺诈交易,0表示真实交易)

🔝返回目录🔝

2 | 探索训练集和测试集

训练数据集中的观察结果:

  • 共有32列:30列连续型变量,0列分类变量,1列id和1列目标变量
  • 共有219129行
  • 类别是目标变量
  • 没有缺失值

测试数据集中的观察结果:

  • 共有31列:30列连续型数据,0列分类数据和1列id
  • 共有146087行
  • 没有缺失值

2.1 训练数据集 - 快速概览

# 查看训练数据的前几行
raw_train.head()
TimeV1V2V3V4V5V6V7V8V9...V21V22V23V24V25V26V27V28AmountClass
id
00.02.074329-0.129425-1.1374180.412846-0.192638-1.2101440.110697-0.2634770.742144...-0.334701-0.8878400.336701-0.110835-0.2914590.207733-0.076576-0.0595771.980
10.01.998827-1.250891-0.520969-0.894539-1.122528-0.270866-1.0292890.050198-0.109948...0.054848-0.0383670.133518-0.461928-0.465491-0.464655-0.009413-0.03823884.000
20.00.0915351.004517-0.223445-0.4352490.667548-0.9883510.948146-0.084789-0.042027...-0.326725-0.8037360.1544950.951233-0.5069190.0850460.2244580.0873562.690
30.01.979649-0.184949-1.0642060.120125-0.215238-0.648829-0.087826-0.0353670.885838...-0.095514-0.0797920.167701-0.0429390.000799-0.096148-0.057780-0.0738391.000
40.01.025898-0.1718271.2037171.243900-0.6365721.099074-0.9386510.5692390.692665...0.0991570.6089080.027901-0.2628130.257834-0.2528290.1083380.0210511.000

5 rows × 31 columns

2.2 训练数据集 - 基本统计信息

# 使用describe()函数对raw_train进行描述性统计分析
raw_train.describe()
TimeV1V2V3V4V5V6V7V8V9...V21V22V23V24V25V26V27V28AmountClass
count219129.000000219129.000000219129.000000219129.000000219129.000000219129.000000219129.000000219129.000000219129.000000219129.000000...219129.000000219129.000000219129.000000219129.000000219129.000000219129.000000219129.000000219129.000000219129.000000219129.000000
mean62377.4153760.0960080.0483450.5921020.069273-0.1615550.133688-0.1282240.149534-0.048337...-0.031064-0.050852-0.050531-0.0029920.1240050.0098810.0140340.01731366.3598030.002140
std25620.3485691.3954251.1598051.1328841.2531251.0695301.2024110.8172070.7162121.054143...0.4227770.5978120.3181750.5931000.4067410.4738670.2333550.164859150.7950170.046214
min0.000000-29.807725-44.247914-19.722872-5.263650-37.591259-25.659750-31.179799-28.903442-8.756951...-14.689621-8.748979-11.958588-2.836285-3.958591-1.858672-9.234767-4.5516800.0000000.000000
25%47933.000000-0.846135-0.573728-0.027154-0.769256-0.847346-0.631835-0.646730-0.095948-0.711444...-0.190418-0.473099-0.174478-0.332540-0.126080-0.318330-0.050983-0.0095125.9900000.000000
50%63189.0000000.3859130.0469370.7358950.064856-0.229929-0.087778-0.0989700.111219-0.131323...-0.042858-0.032856-0.0633070.0387080.145934-0.0863880.0159050.02216321.9000000.000000
75%77519.0000001.1906610.8141451.3061100.9193530.3568560.4823880.3855670.3909760.583715...0.1091870.3549100.0602210.3945660.4029260.2538690.0768140.06698768.9300000.000000
max120580.0000002.43049416.0684736.14557812.54799734.58126016.23396739.82409918.27058613.423914...22.0629456.16354112.7343914.5727393.1116243.40234413.12361823.2637467475.0000001.000000

8 rows × 31 columns

2.3 测试数据集 - 快速概览

raw_test.head()
TimeV1V2V3V4V5V6V7V8V9...V20V21V22V23V24V25V26V27V28Amount
id
219129120580.02.115519-0.691809-1.305514-0.685655-0.641265-0.764784-0.924262-0.023030-0.230126...0.0673670.2417080.6825240.037769-0.546859-0.123055-0.0848890.004720-0.02194429.95
219130120580.01.743525-1.681429-0.547387-1.061113-0.6958252.458824-1.6328591.0735291.068183...0.4417880.5432781.2945710.3095413.703925-0.2425790.0687080.0026290.064690163.50
219131120580.02.205568-1.571445-0.238965-1.662517-1.652324-0.054701-1.6820640.105613-1.177858...-0.366906-0.1315270.0866230.2913750.739087-0.543006-0.2978130.043699-0.03785516.00
219132120580.01.989728-0.972909-1.938259-1.440129-0.166855-0.7940480.252889-0.3997892.079398...-0.049136-0.080115-0.010732-0.0385500.6568300.343470-0.627529-0.024338-0.036143120.98
219133120580.0-1.943548-1.6687610.363601-0.9776102.684779-2.0376810.039709-0.048895-0.281749...0.3916270.083389-0.3069180.247822-0.391799-0.790716-0.0257060.3307580.3355371.98

5 rows × 30 columns

2.4 测试数据集 - 基本统计信息

# 使用describe()函数对raw_test数据进行描述性统计分析
raw_test.describe()
TimeV1V2V3V4V5V6V7V8V9...V20V21V22V23V24V25V26V27V28Amount
count146087.000000146087.000000146087.000000146087.000000146087.000000146087.000000146087.000000146087.000000146087.000000146087.000000...146087.000000146087.000000146087.000000146087.000000146087.000000146087.000000146087.000000146087.000000146087.000000146087.000000
mean144637.9281660.512929-0.013098-0.697478-0.2732580.321856-0.0502040.0734190.043803-0.071620...-0.0566780.0447290.1754610.0184710.016029-0.118352-0.0151990.0062360.00203566.182463
std14258.0253961.6284551.2477491.2925221.3657521.1462151.3328800.9466810.7495130.924996...0.4583640.4490170.7107040.3595970.6339290.4797200.4461540.2559350.174613153.151535
min120580.000000-34.755944-37.803827-18.934952-5.497560-25.639591-14.133040-18.715915-26.926164-4.823352...-26.412867-13.087263-5.392649-12.814296-2.789084-3.361564-1.743223-9.412538-8.2623390.000000
25%132698.000000-0.679988-0.715885-1.619268-1.021205-0.418547-0.891441-0.570042-0.231824-0.634695...-0.237529-0.166715-0.393667-0.135059-0.368957-0.409938-0.284914-0.066037-0.0574475.990000
50%144493.0000000.2857980.009058-0.719060-0.4829450.306851-0.3728130.1185450.014979-0.075909...-0.0967290.0583930.2501690.0178350.029727-0.142325-0.069342-0.003539-0.02695521.790000
75%156140.0000001.9740150.8274200.0738740.3697250.9559970.3027240.7345030.2969690.513770...0.0657530.2448170.7495550.1675140.5621380.1829370.2166320.0693340.06695466.000000
max172790.0000002.45290112.3901284.49264011.23292824.35281816.59663527.02395512.0983227.888980...15.82926115.3335465.77124517.4816094.5417244.5559603.37474812.67396813.0932294630.600000

8 rows × 30 columns

🔝返回目录🔝

3 | 特征分布

# 获取数值型特征列
numeric_columns = (list(raw_train.loc[:, 'Time':'Amount']))# 创建一个图形对象
fig = plt.figure(figsize=(20, 50))# 设置子图的行数和列数
rows, cols = 10, 3# 遍历数值型特征列
for idx, num in enumerate(numeric_columns[:30]):# 在图形对象中添加子图ax = fig.add_subplot(rows, cols, idx+1)# 设置网格线的透明度和轴ax.grid(alpha = 0.7, axis ="both")# 绘制训练集的核密度估计曲线sns.kdeplot(x = num, fill = True, color ="#3386FF", linewidth=0.6, data = raw_train, label = "Train")# 绘制测试集的核密度估计曲线sns.kdeplot(x = num, fill = True, color ="#EFB000", linewidth=0.6, data = raw_test, label = "Test")      # 设置x轴标签ax.set_xlabel(num)# 添加图例ax.legend()# 调整子图的布局
fig.tight_layout()# 显示图形对象
fig.show()

对于训练集和测试集来说,“时间”(Time)的分布非常不同。这可能会导致严重的问题,因为算法将更容易地区分这些集合。

我们可以通过将时间分解为一天中的小时特征或删除它来转换时间。

# 从原始训练数据中删除'Time'列,得到训练数据集
train_df = raw_train.drop('Time', axis=1)# 从原始测试数据中删除'Time'列,得到测试数据集
test_df = raw_test.drop('Time', axis=1)

🔝返回目录🔝

4 | 数据不平衡检查 - 为什么它很重要

# 创建一个包含两种颜色的调色板
palette = ["#ADD8E6","#EFB000"]
# 给饼图添加注释
# 获取训练数据集中每个类别的数量,并转换为列表
l1 = list(train_df['Class'].value_counts())
# 计算每个类别在总数中的比例,并乘以100,得到饼图的数值
pie_values = [l1[0] / sum(l1) * 100, l1[1] / sum(l1) * 100]# 创建一个包含两个子图的图形,设置图形大小为(20, 7)
fig = plt.subplots(nrows=1, ncols=2, figsize=(20, 7))# 在第一个子图中绘制饼图
plt.subplot(1, 2, 1)
plt.pie(pie_values, labels=['Genuine', 'Fraud'], autopct='%1.2f%%',  # 设置饼图上显示的百分比格式startangle=90,  # 设置饼图的起始角度为90度explode=(0.1, 0.1),  # 设置饼图中每个扇区的偏移量,使其突出显示colors=palette,  # 设置饼图的颜色wedgeprops={'edgecolor': 'black', 'linewidth': 1, 'antialiased': True})  # 设置饼图的边缘颜色、线宽和抗锯齿效果
plt.title('Fraud vs Genuine transactions in train data set %');  # 设置子图标题# 在第二个子图中绘制柱状图
plt.subplot(1, 2, 2)
ax = sns.countplot(data=train_df, x='Class', palette=palette,  # 设置柱状图的颜色edgecolor='black')  # 设置柱状图的边缘颜色
for i in ax.containers:ax.bar_label(i,)  # 在每个柱状图上添加标签,显示每个类别的数量
ax.set_xticklabels(['Genuine', 'Fraud'])  # 设置x轴刻度标签为类别名称plt.title('Fraud vs Genuine transactions in train data set')  # 设置子图标题
plt.show()  # 显示图形

4.1 不平衡数据需要不同的方法

我们有**99.8%的真实交易(218,660笔),只有0.214%**的欺诈交易(469笔)!

这意味着盲猜(押注真实交易)将给我们**99.8%**的准确率。

  • 不要使用准确率作为不平衡数据集的度量标准 - 它通常会非常高且具有误导性(您可以使用AUC-ROC、召回率、F1分数等)。
  • 考虑利用欠采样或过采样技术。
  • 在训练测试拆分期间使用分层拆分。
  • 在处理异常值时要特别小心(您可以删除有意义的信息)。

5 | 我们应该删除异常值吗?

5.1 检查训练数据集中的异常值

# 定义一个函数,用于绘制数据集中数值型变量的箱线图
# 参数包括数据集、数值型变量列表、行数、列数和总标题
def boxplots_custom(dataset, columns_list, rows, cols, suptitle):# 创建一个绘图对象和子图对象fig, axs = plt.subplots(rows, cols, sharey=True, figsize=(16,25))# 设置总标题fig.suptitle(suptitle,y=1, size=25)# 将子图对象展平为一维数组axs = axs.flatten()# 遍历数值型变量列表,绘制每个变量的箱线图for i, data in enumerate(columns_list):# 使用seaborn库的boxplot函数绘制箱线图sns.boxplot(data=dataset[data], orient='h', ax=axs[i])# 设置每个子图的标题,包括变量名和偏度值axs[i].set_title(data + ', skewness is: '+str(round(dataset[data].skew(axis = 0, skipna = True),2)))# 调用函数,绘制训练集中数值型变量的箱线图
boxplots_custom(dataset=train_df, columns_list=numeric_columns, rows=10, cols=3, suptitle='Boxplots for each variable')
# 调整子图的布局
plt.tight_layout()

看起来我们在异常值方面有很大的问题:

  • 巨大的异常值;

  • 高度偏斜的数据;

  • 很多异常值。

5.2 四分位距 (IQR)

Tukey’s (1977) 方法用于检测偏斜或非钟形分布的数据中的异常值,因为它不做分布假设。然而,对于小样本大小,Tukey’s 方法可能不适用。一般规则是,不在 (Q1 - 1.5 IQR) 和 (Q3 + 1.5 IQR) 范围内的任何值都是异常值,并可以被移除。

四分位距离(IQR)是最常用的异常值检测和移除方法之一。

过程:

  1. 找到第一四分位数,Q1。
  2. 找到第三四分位数,Q3。
  3. 计算 IQR。IQR = Q3-Q1。
  4. 将正常数据范围定义为下限为 Q1-1.5 IQR,上限为 Q3+1.5 IQR。
def IQR_method(df, n, features):"""使用Tukey IQR方法,接受一个数据框并返回一个索引列表,该列表对应于包含n个以上异常值的观测值。"""outlier_list = [] # 初始化一个空列表,用于存储异常值的索引for column in features: # 遍历每个特征列# 第一四分位数(25%)Q1 = np.percentile(df[column], 25)# 第三四分位数(75%)Q3 = np.percentile(df[column],75)# 四分位距(IQR)IQR = Q3 - Q1# 异常值步长outlier_step = 1.5 * IQR# 确定异常值索引列表outlier_list_column = df[(df[column] < Q1 - outlier_step) | (df[column] > Q3 + outlier_step )].index# 将异常值索引列表添加到总的异常值列表中outlier_list.extend(outlier_list_column)# 选择包含多于n个异常值的观测值outlier_list = Counter(outlier_list)        multiple_outliers = list(k for k, v in outlier_list.items() if v > n)# 计算低于和高于边界值的记录数out1 = df[df[column] < Q1 - outlier_step]out2 = df[df[column] > Q3 + outlier_step]# 打印删除的异常值总数print('删除的异常值总数为:', out1.shape[0]+out2.shape[0])return multiple_outliers

5.3 检测和删除异常值


# 使用IQR方法检测并处理离群值
Outliers_IQR = IQR_method(train_df, 1, numeric_columns)# 在原始数据集中删除离群值,并重新设置索引
df_out = train_df.drop(Outliers_IQR, axis=0).reset_index(drop=True)
Total number of deleted outliers is: 20617

5.4我们做了什么?

# 打印输出在删除异常值之前数据集中的欺诈交易数量
print ('The amount of frauds in df before dropping outliers: ', len(train_df[train_df['Class'] == 1]))# 打印输出在删除异常值之后数据集中的欺诈交易数量
print ('The amount of frauds in df after dropping outliers: ', len(df_out[df_out['Class'] == 1]))
The amount of frauds in df before dropping outliers:  469
The amount of frauds in df after dropping outliers:  188

通过删除异常值,我们丢失了约**40%的非常重要的数据!我们不应该这样做!**

我们有几个选择,但对于这项研究,我们将回到删除异常值之前的阶段。这里一个非常有趣的选择是创建一个仅包含异常值的新数据框。您可以在此处查看此方法的结果:

https://www.kaggle.com/code/marcinrutecki/credit-card-fraud-detection-tensorflow

🔝返回目录🔝

6 | 处理重复值

# 打印数据集中重复值的数量
print('Number of duplicated values in dataset: ', train_df.duplicated().sum())
Number of duplicated values in dataset:  94
# 复制train_df数据框并赋值给df
df = train_df.copy()# 删除df数据框中的重复行
df.drop_duplicates(inplace=True)# 打印提示信息,表示重复值已成功删除
print("Duplicated values dropped succesfully")# 打印100个"*",用于分隔输出信息
print("*" * 100)
Duplicated values dropped succesfully
****************************************************************************************************

让我们检查一下是否有任何欺诈交易被删除了。这很重要,因为如果是这样的话,我们应该再次考虑它们是否是真正的重复交易。

# 打印在去除重复值之前df中的欺诈数量
print ('The amount of frauds in df before dropping duplicates: ', len(train_df[train_df['Class'] == 1]))# 打印在去除重复值之后df中的欺诈数量
print ('The amount of frauds in df after dropping duplicates: ', len(df[df['Class'] == 1]))
The amount of frauds in df before dropping duplicates:  469
The amount of frauds in df after dropping duplicates:  469

如我们所见,我们没有丢失任何重要的数据。

🔝返回目录🔝

7 | 相关性

# 创建一个11x11的图像
plt.figure(figsize=(11, 11))# 计算数据集的相关系数矩阵
corr = df.corr()# 创建一个与相关系数矩阵相同形状的布尔矩阵,上三角为True,下三角为False
mask = np.triu(np.ones_like(corr, dtype=bool))# 使用热力图可视化相关系数矩阵,只显示上三角部分,颜色映射为viridis
sns.heatmap(corr, mask=mask, robust=True, center=0, square=True, cmap="viridis", linewidths=.6)# 设置图像标题
plt.title('Correlation Table')# 显示图像
plt.show()


# 创建一个大小为7x4的图形
plt.figure(figsize=(7,4))# 计算数据框df中'Class'列与其他列的相关系数,并取绝对值,按照相关系数的大小进行排序,并绘制柱状图
d = df.corr()['Class'][:-1].abs().sort_values().plot(kind='bar', title='Highly correlated features with Class')

🔝返回目录🔝

8 | 更多可视化

# 设置绘图大小
plt.figure(figsize=(10,10))# 绘制联合分布图,x轴为V3,y轴为V1,颜色按照Class分类,数据来源为df,调色板为dark,点的大小为9
sns.jointplot(x='V3', y='V1',hue='Class', data=df, palette='dark', s=9)
<seaborn.axisgrid.JointGrid at 0x7f36c0b01f50><Figure size 720x720 with 0 Axes>


# 设置图形大小
plt.figure(figsize=(10,10))# 创建联合图
# x轴为特征V14,y轴为特征V8
# 根据Class变量的不同值对数据点进行着色
# 使用'dark'调色板进行着色
# 设置数据点的大小为6
sns.jointplot(x='V14', y='V8', hue='Class', data=df, palette='dark', s=6)
<seaborn.axisgrid.JointGrid at 0x7f36c0b01050><Figure size 720x720 with 0 Axes>

🔝返回目录🔝

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/581296.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是迁移学习(Transfer Learning)?定义,优势,方法

迄今为止&#xff0c;大多数人工智能&#xff08;AI&#xff09;项目都是通过监督学习技术构建的。监督学习是一种从无到有构建机器学习&#xff08;ML&#xff09;模型的方法&#xff0c;它对推动AI发展起到了关键作用。然而&#xff0c;由于需要大量的数据集和强大的计算能力…

openmediavault(OMV) (19)云相册(3)mt-photos

简介 MT Photos是一款为Nas用户量身打造的照片管理系统。通过AI技术,自动将您的照片整理、分类,包括但不限于时间、地点、人物、照片类型。可以在任何支持Docker的系统中运行它。详情可查看mtmt.tech官网,mt-photos是付费订阅使用的,也可以一次性付费永久使用,具体使用mt…

机器学习系列--R语言随机森林进行生存分析(1)

随机森林&#xff08;Breiman 2001a&#xff09;&#xff08;RF&#xff09;是一种非参数统计方法&#xff0c;需要没有关于响应的协变关系的分布假设。RF是一种强大的、非线性的技术&#xff0c;通过拟合一组树来稳定预测精度模型估计。随机生存森林&#xff08;RSF&#xff0…

观察者模式概述

观察者模式,它用于建立一种对象与对象之间的依赖关系&#xff0c; 一个对象发生改变将自动通知其他对象&#xff0c; 其他对象将相应做出反应。在观察者模式种&#xff0c;发生改变的对象称为观察目标&#xff0c; 而被通知的对象称为观察者&#xff0c;一个观察目标可以对应多…

docker学习(二十、network使用示例host、none)

文章目录 一、host应用示例总结 二、none应用示例总结 network相关内容&#xff1a; docker学习&#xff08;十八、network介绍&#xff09; docker学习&#xff08;十九、network使用示例bridge&#xff09; docker学习&#xff08;二十、network使用示例host、none&#xff0…

Unity 代码控制Text自适应文本高度

在使用代码给Text赋值时&#xff0c;且文本有多段&#xff0c;并需要根据实际文本高度适配Text组件的高度时&#xff0c;可以使用以下方法&#xff1a; //Text文本 public TextMeshProUGUI text;void Start() {//代码赋值文本text.text "好!\n很好!\n非常好!";//获…

postman入门使用

前言 对于postman的基础其实很容易上手实现&#xff0c;也有很多教程。 对于小编我来说&#xff0c;也基本可以实现开发任务。 但是今年我们的高级测试&#xff0c;搞了一下postman&#xff0c;省去很多工作&#xff0c;让我感觉很有必要学一下 这篇文章是在 高级测试工程师ht…

爬虫工作量由小到大的思维转变---<第三十章 Scrapy Redis 第一步(配置同步redis)>

前言: 要迈向scrapy-redis进行编写了;首要的一步是,如何让他们互通?也就是让多台电脑连一个任务(这后面会讲); 现在来做一个准备工作,配置好redis的同步!! 针对的是windows版本的redis同步,实现主服务和从服务共享一个redis库; 正文: 正常的redis for windows 的安装这里就…

docker +gitee+ jenkins +maven项目 (一)

jenkins环境和插件配置 文章目录 jenkins环境和插件配置前言一、环境版本二、jenkins插件三、环境安装总结 前言 现在基本都是走自动化运维&#xff0c;想到用docker 来部署jenkins &#xff0c;然后jenkins来部署java代码&#xff0c;做到了开箱即用&#xff0c;自动发布代码…

Docker (compose、安装、常用命令整理、compose编排) -day06

一、概念 Docker-Compose就是容器编排&#xff0c;负责实现对Docker容器集群的快速编排 Compose允许用户通过一个单独的docker-compose.yml模板文件&#xff08;YAML 格式&#xff09;来定义一组相关联的应用容器为一个项目&#xff08;project&#xff09;。 可以很容易地用一…

Spring系列学习三、Spring的基础组件

Spring的基础组件 一、 什么是Bean及Bean的生命周期二、 什么是依赖注入(DI)与控制反转(IOC)三、 Spring的作用域与生命周期四、 Spring的配置方式(XML与基于注解的配置)五、HelloWorld示例六、结语 欢迎回来各位亲爱的小伙伴&#xff01;我们已经滑过Spring的门槛&#xff0c;…

laravel api资源的问题记录

resource 转换层 可以帮助我们转换一些字段的结果&#xff0c;类似前端的filter。 可以使用比如对象或者模型的形式来处理&#xff0c;但使用sql查询会导致n1的问题。如图&#xff1a; 层次嵌套很多&#xff0c;而且很深&#xff0c;这样虽然开发方便了&#xff0c;但是维护就…

大华NVR和IPC通过主动注册协议方式接入AS-V1000视频监控平台的步骤

最近有人经常用到有的型号的大华网路摄像机&#xff0c;不支持国标GB28181标准&#xff0c;问我们能否接入到在公网的AS-V1000平台 &#xff1f; 我们早期就开发了大华的主动注册协议SDK&#xff0c;能够支持大华的NVR和IPC接入到AS-V1000平台。 今天就直接讲解如何一步步的把局…

【ES6】Class继承-super关键字

目录 一、前言二、ES6与ES5继承机制区别三、super作为函数1、构造函数this1&#xff09;、首先要明确this指向①、普通函数②、箭头函数③、注意事项 2&#xff09;、其次要明确new操作符做了哪些事情 2、super()的用法及注意点1&#xff09;、用法2&#xff09;、注意点 四、s…

【Docker-Dev】Mac M2 搭建docker mysql

Mac M2 搭建Mysql 1、前言2、前置说明-Docker的代理访问3、前置说明-Mysql的镜像访问3.1、提取信息3.1.1、开启Mysql的实例3.1.2、Dokcer连接Mysql3.1.3、官方简易版的docker-compose3.1.4、如何登录mysql bash3.1.5、自定义my.cnf文件3.1.6、如何知道其他自定义配置项 4、M2安…

LeetCode刷题--- 有效的数独

个人主页&#xff1a;元清加油_【C】,【C语言】,【数据结构与算法】-CSDN博客 个人专栏 力扣递归算法题 http://t.csdnimg.cn/yUl2I 【C】 ​​​​​​http://t.csdnimg.cn/6AbpV 数据结构与算法 ​​​​​http://t.csdnimg.cn/hKh2l 前言&#xff1a;这个专栏主…

什么是负载均衡?

负载均衡是指在计算机网络领域中&#xff0c;将客户端请求分配到多台服务器上以实现带宽资源共享、优化资源利用率和提高系统性能的技术。负载均衡可以帮助小云有效解决单个服务器容量不足或性能瓶颈的问题&#xff0c;小云通过平衡流量负载&#xff0c;使得多台服务器能够共同…

模式识别与机器学习(十二):Stacking

原理 在本次实验中以决策树、svm和随机森林为基学习器&#xff0c;以决策树为元学习器。 Stacking的做法是首先构建多个不同类型的一级学习器&#xff0c;并使用他们来得到一级预测结果&#xff0c;然后基于这些一级预测结果&#xff0c;构建一个二级学习器&#xff0c;来得到…

基于MATLAB的泊松分布,正态分布与伽玛分布(附完整代码与例题)

目录 一. 泊松分布 1.1 理论部分 1.2 MATLAB函数模型 1.3 例题 二. 正态分布 2.1 理论部分 2.2 MATLAB函数模型 2.3 例题 三. 伽玛分布 3.1 理论部分 3.2 MATLAB函数模型 3.3 例题 一. 泊松分布 1.1 理论部分 Poisson分布是离散的&#xff0c;其x值只能取自然数。…

const和constexpr

constexpr 是 C 11 标准新添加的关键字&#xff0c;在此之前&#xff08;C 98/03标准&#xff09;只有 const 关键字&#xff0c;其在实际使用中经常会表现出两种不同的语义&#xff08;常量和只读&#xff09;。 dis_1() 函数中的“const int x”只是想强调 x 是一个只读的变量…