【深度学习】图形模型基础(5):线性回归模型第二部分:单变量线性回归模型

1.引言

在统计学与机器学习的广阔领域中,线性回归作为一种基础而强大的预测技术,其核心在于通过输入变量(或称预测器、自变量)来估计输出变量(响应变量、因变量)的连续值。本章聚焦于线性回归的一个基本但意义深远的实例——单变量线性回归,即仅使用一个连续型自变量x来预测另一个连续型因变量y。

具体而言,我们构建了一个线性模型,其形式为 y i = a + b x i + ε y_i = a + bx_i + ε yi=a+bxi+ε,其中 y i y_i yi代表第i个观测值的因变量, ξ \xi ξ是自变量的相应观测值, a a a b b b是模型的参数(分别称为截距和斜率),而 ξ \xi ξ代表误差项,用于捕捉模型无法完全解释的变异性。我们的目标是基于给定的数据集 ( x i , y i ) (x_i, y_i) (xi,yi)(其中 i i i从1到 n n n n n n为样本数量),找到最佳的 a ‘ a` a b b b值,使得模型能够最准确地预测或拟合数据。

为了深入理解这一过程,我们将通过一个实际案例来逐步展示:从数据准备、模型拟合、结果可视化(包括数据点和拟合线的展示),到模型解释(解读斜率和截距的含义)。此外,为了验证模型的稳健性和拟合效果,我们还将采用模拟数据的方法,通过人为生成的数据集来重复模型拟合过程,以此检查拟合流程的有效性和准确性。

尤为值得一提的是,单变量线性回归不仅是复杂统计模型的基础,而且它还隐含了简单比较的逻辑。在某些特定情境下,当斜率 b b b接近或等于某一固定值时(如0或1),线性回归模型就退化为一种更为直观的比较分析,从而展示了其作为数据分析工具箱中通用而灵活的工具之一的重要地位。

2.单变量线性回归的示例

本节以经济增长与美国总体选举的关系展示单变量回归模型的基本特性。

在探讨总统选举中选票份额与经济表现之间关系的统计模型时,我们聚焦于由著名政治学家道格拉斯·希布斯(Douglas Hibbs)提出的“面包与和平”理论框架。这一理论简约而有力,其核心在于通过经济增长这一单一变量来预测选举结果,并巧妙地考虑了战争时期的特殊情况,如1952年史蒂文森(Stevenson)因战争而遭遇的选举挫折,以及1968年汉弗莱(Humphrey)在越南战争阴影下的失利。尽管通过整合更多信息(如现任总统的执政状态、民意调查结果等)能够进一步提升预测精度,但这一基础模型已展现出其非凡的预测能力。

为了具体实现这一模型,我们采用了线性回归的方法,并将结果可视化于图2.2中。此图直观地描绘了经济增长(自变量x)与现任政党选票份额(因变量y)之间的关系,通过一条拟合线展现了两者之间的统计关联。数据来源于精心整理的 h i b b s . d a t hibbs.dat hibbs.dat文件,其中包含了历次选举中现任政党在两党制投票中的得票百分比( v o t e vote vote)以及前几年的平均个人收入增长( g r o w t h growth growth),作为分析的关键指标。

在R环境中,我们首先读取并绘制了这些数据,以便直观感受经济增长与选举结果之间的潜在联系。随后,利用 s t a n g l m stan_glm stanglm函数(来自 r s t a n a r m rstanarm rstanarm包,一个结合了贝叶斯统计与广义线性模型的强大工具)拟合了线性模型 M 1 M1 M1,其中 v o t e vote vote被建模为 g r o w t h growth growth的函数。通过执行 p r i n t ( M 1 ) print(M1) print(M1),我们在R控制台中获得了模型的详细输出,这些输出包括参数估计值(如斜率和截距,它们分别量化了经济增长对选票份额的直接影响)、拟合优度指标(评估模型对数据解释的充分程度)、以及残差分析(揭示模型未能解释的变异性)。

深入理解这些输出结果,对于评估模型的有效性、识别潜在的数据模式以及探索经济增长与选举结果之间复杂关系的本质至关重要。尽管第8章将更深入地探讨模型的拟合过程与细节,但当前阶段的分析已为我们提供了关于这一重要社会现象的初步见解,揭示了经济增长在塑造选举结果方面不可忽视的力量。
在这里插入图片描述
图2.1 道格拉斯·希布斯的“面包与和平”投票与经济模型。自1952年以来的总统选举按前一届政府任期末经济表现(通过通货膨胀调整后的平均个人收入增长来衡量)的顺序列出。对决以现任政党的候选人对阵其他政党的候选人列出。经济表现越好,现任政党的候选人表现得越好,最大的例外是1952年(朝鲜战争)和1968年(越南战争)。
在这里插入图片描述
图2.2 (a)根据经济预测选举:图7.1中的数据以散点图的形式表示,每年有一个数据点,(b)带有线性拟合的数据, y = 46.3 + 3.0 x y = 46.3 + 3.0x y=46.3+3.0x

3.利用经济预测分析总统选举投票

在探讨如何通过经济增长率来预测总统选举投票份额的过程中,我们深入分析了投票结果与经济状况之间的关联。本例中,投票份额作为结果变量,而经济增长率则作为预测变量。值得注意的是,我们的模型默认包含了一个截距项,这意味着回归线并非简单地从原点出发,而是形式为 y = a + b x y = a + bx y=a+bx,其中 a a a 是截距, b b b 是斜率,而 x x x 代表经济增长率。

3.1.截距项的意义与调整

在某些特定情境下,我们可能希望拟合一条截距为零的直线,即 y = b x y = bx y=bx。这可以通过在R中使用 s t a n g l m stan_glm stanglm 函数时添加 − 1 -1 1 参数来实现,如 s t a n g l m ( v o t e − 1 + g r o w t h ) stan_glm(vote ~ -1 + growth) stanglm(vote 1+growth)。然而,在本例中,由于我们希望模型能够反映经济增长为零时现任政党可能遭受的惩罚性影响,因此保留截距项是有意义的。

3.2.模型系数解读

模型拟合后,我们得到了两个关键系数:截距和增长率的斜率,以及它们的不确定性度量(通过中位数和MAD_SD表示)和残差标准差(sigma)。具体来说,拟合的直线方程为 y = 46.3 + 3.0 x y = 46.3 + 3.0x y=46.3+3.0x,这意味着:

  • 当经济增长率为零时,现任政党预计将获得46.3%的选票,这通常预示着选举的失利。
  • 经济增长率每增加一个百分点,现任政党的预期选票份额将增加3.0个百分点。

斜率的标准误差较小(0.7),表明这一估计具有较高的可靠性,且95%置信区间为[1.6, 4.4],与零显著分离,进一步支持了经济增长对选举结果的重要影响。

3.3.残差标准差与模型预测能力

残差标准差(σ=3.9)反映了模型预测与实际结果之间的平均差异,约68%的观测值将落在拟合线±3.9个百分点之内。这表明模型虽然提供了有价值的预测信息,但并非完全准确,选举结果仍受多种因素影响。

3.4案例分析

回顾2008年选举,当时的经济增长率约为0.1%,根据我们的模型,预测现任政党(共和党)将获得约46.6%的选票,而奥巴马(民主党)则有望获得53.4%的选票。这一预测与实际情况相符,展示了模型在特定条件下的有效性。

在2016年选举前,我们基于约2%的经济增长率进行了预测。根据模型,希拉里·克林顿的预期投票份额为52.3%。然而,这个预测值本身并不直接告诉我们希拉里获胜的概率。为了评估这一预测的不确定性,我们构建了图2.3,展示了以52.3为中心、标准差为3.9的正态分布图,从而量化了预测的不确定性。
在这里插入图片描述
图2.3 基于2%的经济增长率,对希拉里·克林顿在2016年两党投票中所占百分比的预测分布。曲线显示了一个以预测点 46.3 + 3.0 × 2.0 = 52.3 为中心的正态分布,标准差为3.9,这是基于模型拟合的估计不确定性。阴影区域表示基于模型的克林顿获胜的概率,即 1 - pnorm(50, 52.3, 3.9),或者0.72。

为了更直观地解释如何利用投票份额预测来估算希拉里·克林顿在2016年普选中的获胜概率,我们可以进一步探讨这一过程的逻辑和实用性。在图7.3中,通过将预测的投票份额分布(以52.3%为中心,标准差为3.9%)与50%的获胜阈值进行比较,我们得到了一个概率值,即希拉里赢得选举的概率为72%。这一计算不仅展示了统计模型的应用,还揭示了概率分布在预测不确定性中的关键作用。

为什么预测投票份额而非直接预测获胜者?

预测投票份额而非直接预测获胜者的原因,根植于选举复杂性和结果不确定性的本质。以下是通过分析三类选举情况来阐述这一点的深度解析:

  1. 势均力敌的选举
    在势均力敌的选举中,如1960年的肯尼迪与尼克松对决,两位候选人的支持率极为接近,使得直接预测获胜者变得极为困难且不可靠。这种情况下,预测投票份额(即每位候选人可能获得的选票百分比)比单纯判断谁将获胜更加合理和科学。它提供了关于选举结果可能性的更细致、更全面的信息,有助于理解选举的紧张程度和潜在的不确定性。

  2. 具有竞争性的选举
    对于像2008年奥巴马与麦凯恩这样的选举,虽然一方被普遍认为是更有可能的获胜者,但另一方仍保留着相当程度的竞争力。在这种情境下,预测投票差距(即两位候选人之间的选票百分比差异)以及任何一方获胜的概率,比简单地宣布某位候选人将获胜更为准确和有用。这不仅有助于评估选举的紧张程度,还能为选民、媒体和政策制定者提供关于选举结果可能性的重要参考。

  3. 概率视角的优越性
    通过预测投票份额并计算获胜概率,我们能够以更加量化和精确的方式理解选举结果的不确定性。这种方法不仅有助于减少主观臆断和偏见的影响,还能为决策制定提供更加科学、客观的依据。此外,概率分布还允许我们考虑极端情况的可能性(尽管它们可能较为罕见),从而进一步完善我们对选举结果的理解。

预测投票份额而非直接预测获胜者,是出于对选举复杂性和结果不确定性的充分考虑。通过预测投票份额并计算获胜概率,我们能够以更加全面、细致和量化的方式理解选举结果的可能性,为选民、媒体和政策制定者提供更加准确、有用的信息。这种方法不仅提高了预测的准确性和可靠性,还促进了对选举结果更深入、更科学的理解和分析。

4.利用模拟数据检验模型拟合过程

虽然前一个例子简单到可以通过绘图直观判断直线是否穿过数据点,但更普遍地说,在已知真实情况的受控条件下进行拟合并检查拟合效果是一种良好的实践。本文将通过选举模型来演示这一过程。

步骤1:构建虚拟世界
我们首先为模型中的所有参数设定真实的值。鉴于我们已经对数据进行了模型拟合,我们将假设这些特定的参数值是真实的。即,我们假设公式 y = a + b x + error y = a + bx + \text{error} y=a+bx+error 正确无误,其中误差来自均值为0、标准差为 σ \sigma σ 的正态分布。然后,我们使用数据集中已有的预测变量 x x x 来检查这些预测变量是否能够复现与我们观察到的 y y y 一致的分布。

a <- 46.3
b <- 3.0
sigma <- 3.9
x <- hibbs$growth
n <- length(x)

步骤2:生成模拟数据
接下来,我们生成一个假数据向量 y y y 并将其放入数据框中:

y <- a + b*x + rnorm(n, 0, sigma)
fake <- data.frame(x, y)

步骤3:拟合模型并比较拟合值与预设值
然后,我们对这些数据执行回归分析。在拟合过程中,不使用预设的真实值 α \alpha α β \beta β σ \sigma σ

it <- stan_glm(y ~ x, data=fake)
print(fit)

回归分析的输出结果如下:

Median MAD_SD
(Intercept) 44.4 1.7
x 3.2 0.7
Auxiliary parameter(s):
Median MAD_SD
sigma 4.0 0.8

将估计得到的系数与预设的真实值46.3和3.0进行比较,可以看出拟合结果是合理的:虽然估计值并不完全精确,但它们落在了可接受的误差范围内。

为了更正式地进行比较,我们可以从回归对象中提取系数的估计值和标准误差。为了编程简便,这里我们仅提取斜率 b b b 的值:

b_hat <- coef(fit)["x"]
b_se <- se(fit)["x"]

接着,我们检查 b b b 的真实值是否落在通过加减一个或两个标准误差得到的68%和95%置信区间内:

cover_68 <- abs(b - b_hat) < b_se
cover_95 <- abs(b - b_hat) < 2*b_se
cat(paste("68% coverage: ", cover_68, "\n"))
cat(paste("95% coverage: ", cover_95, "\n"))

步骤4:将模拟过程嵌入循环中
我们已经确认了置信区间在单次模拟中的有效性,但它们是否具有正确的覆盖概率——也就是说,这些区间是否如预期那样按照宣称的百分比包含了真实值?为了验证这一点,我们将模拟过程、模型拟合和覆盖率检查嵌入一个循环中,并重复执行1000次。这样的循环也可以使用R语言中的 replicate 函数来隐式执行,如文档中第72页和74页所示。这里我们选择直接编写循环代码:

n_fake <- 1000
cover_68 <- rep(NA, n_fake)
cover_95 <- rep(NA, n_fake)
for (s in 1:n_fake){
y <- a + b*x + rnorm(n, 0, sigma)
fake <- data.frame(x, y)
fit <- stan_glm(y ~ x, data=fake, refresh=0) # suppress output on console
b_hat <- coef(fit)["x"]
b_se <- se(fit)["x"]
cover_68[s] <- abs(b - b_hat) < b_se
cover_95[s] <- abs(b - b_hat) < 2*b_se
}
cat(paste("68% coverage: ", mean(cover_68), "\n"))
cat(paste("95% coverage: ", mean(cover_95), "\n"))

这个过程需要几分钟来运行,完成后在控制台上将显示如下内容:

68% coverage: 0.628
95% coverage: 0.928

这表明平均而言,63%的68%置信区间和93%的95%置信区间包含了真实参数值,这与理论值0.68和0.95相差不远。覆盖率稍低,部分是因为我们使用的是正态分布的标准误差界限,而实际上,鉴于样本量只有16,我们应该使用具有14个自由度的t分布来进行更准确的推断。为了谨慎起见,我们可以重新检查适当t区间的覆盖率:

n_fake <- 1000
cover_68 <- rep(NA, n_fake)
cover_95 <- rep(NA, n_fake)
t_68 <- qt(0.84, n - 2)
t_95 <- qt(0.975, n - 2)
for (s in 1:n_fake){
y <- a + b*x + rnorm(n, 0, sigma)
fake <- data.frame(x, y)
fit <- stan_glm(y ~ x, data=fake, refresh=0)
b_hat <- coef(fit)["x"]
b_se <- se(fit)["x"]
cover_68[s] <- abs(b - b_hat) < t_68 * b_se
cover_95[s] <- abs(b - b_hat) < t_95 * b_se
}
cat(paste("68% coverage: ", mean(cover_68), "\n"))
cat(paste("95% coverage: ", mean(cover_95), "\n"))

这次模拟给出了预期的结果,即大约68%的68%置信区间和大约95%的95%置信区间包含了真实的参数值。

5. 将比较转化为回归模型

为了与基本统计方法相衔接,本文将展示如何将简单的平均值和比较操作视为线性回归的特殊情况。这种更为通用的公式化方法不仅有助于在概念上统一这些看起来不同的概念,而且在实践中,它将成为构建更复杂模型的一个关键部分,这将在后续章节中展示。

要将比较转化为回归模型,我们需要引入指标变量的概念。指标变量是一种特殊的预测变量,它可以取值为1或0,用于指示数据点是否属于某个特定类别。例如,我们可以为性别创建一个指标变量,其中男性为1,女性为0;或者为种族创建多个指标变量,如“白人”、“黑人”和“西班牙裔”,每个指标变量对于属于特定种族的个体取值为1,否则为0。

为了简化说明,我们将使用模拟数据来展示比较操作与指标回归之间的联系。

5.1.估计均值等同于对常数项进行回归

示例:假设我们从一个均值为2.0、标准差为5.0的总体中模拟20个观测值:

n_0 <- 20
y_0 <- rnorm(n_0, mean = 2.0, sd = 5.0)
fake_0 <- data.frame(y_0)
print(y_0)

在一次特定的模拟中,生成的数字可能如下:

-0.3, 4.1, -4.9, 3.3, 6.4, 7.2, 10.7, -4.6, 4.7, 6.0, 1.1, -6.7, 10.2,
9.7, 5.6, 1.7, 1.3, 6.2, -2.1, 6.5

将这些数值视为一个随机样本,我们可以通过 mean(y_0) 来估计总体均值,其标准误差为 sd(y_0)/sqrt(n_0)。例如,我们得到的估计值可能是3.3,标准误差为1.1。

使用最小二乘回归对常数项进行拟合,我们可以得到相同的结果:

fit_0 <- stan_glm(y_0 ~ 1, data = fake_0, prior_intercept = NULL, prior = NULL, prior_aux = NULL)
print(fit_0)

这将产生以下输出:

Median MAD_SD
(Intercept) 3.3 1.1
Auxiliary parameter(s):
Median MAD_SD
sigma 5.3 0.9

上述设置分配了一个平坦的先验,以便 stan_glm 能够产生传统的最小二乘回归估计。在后续的讨论中,我们将更详细地讨论先验分布;在这里,我们使用简单的最小二乘估计来证明简单平均值和只有截距的回归之间的等价性。

5.2.估计差异等同于对指标变量进行回归

接下来,我们添加一个新的组别:来自均值为8.0、标准差为5.0的总体的30个观测值:

n_1 <- 30
y_1 <- rnorm(n_1, mean = 8.0, sd = 5.0)

我们可以直接比较每组的平均值,并计算相应的标准误差:

diff <- mean(y_1) - mean(y_0)
se_0 <- sd(y_0) / sqrt(n_0)
se_1 <- sd(y_1) / sqrt(n_1)
se <- sqrt(se_0^2 + se_1^2)

在特定的模拟中,这些计算返回的差异值为4.2,其标准误差为1.3,这与模拟中构建的总体差异6.0一致。

或者,我们可以将问题构建为回归问题,通过将数据合并到一个单独的向量 y ‘ y` y中,并创建一个指标变量 x x x

x_i <- ifelse(observation_i 在组 0, 0, 1)

在R中,我们可以这样编写:

n <- n_0 + n_1
y <- c(y_0, y_1)
x <- c(rep(0, n_0), rep(1, n_1))
fake <- data.frame(x, y)
fit <- stan_glm(y ~ x, data = fake, prior_intercept = NULL, prior = NULL, prior_aux = NULL)
print(fit)

这将产生:

Median MAD_SD
(Intercept) 3.3 1.1
x 4.2 1.2
Auxiliary parameter(s):
Median MAD_SD
sigma 4.7 0.5

斜率的估计值4.2与均值差异 y ˉ 1 − y ˉ 0 \bar{y}_1 - \bar{y}_0 yˉ1yˉ0 相同,这是简单模型的必然结果。我们将在第9章更全面地讨论先验。标准误差几乎相同,但略有差异,因为回归模型估计了一个单一的残差标准差参数,而差异计算使用了单独的 s e 0 se_0 se0 s e 1 se_1 se1 值。

在这里插入图片描述
图2.4 模拟数据示例,展示了对指标变量进行回归分析与计算两个组之间均值差异是相同的
图2.4直观地展示了两种估计的等价性:对指标变量的回归(由拟合线显示)和两种均值的比较(由两条虚线之间的差异显示)。在这个没有其他预测变量的简单设置中,最小二乘线将穿过点(0, y ˉ 0 \bar{y}_0 yˉ0 )和(1, y ˉ 1 \bar{y}_1 yˉ1 ),所以线的斜率就是差异 y ˉ 1 − y ˉ 0 \bar{y}_1 - \bar{y}_0 yˉ1yˉ0

在更复杂的情况下,我们可以使用指标变量来比较群体,同时调整其他预测变量。

使用模拟假数据进行所有这些操作的目的是,首先,直接验证直接比较和回归是否给出相同的答案;其次,使用一个通用工具来理解统计拟合的特性,这个工具在更复杂的情况下将继续有用。

6.参考文献说明

在本文和接下来的探讨中,我们深入探讨了线性回归的多个维度,这是一个在众多书籍中从不同专业角度广泛讨论的主题。Harrell的著作(2001年)不仅深入挖掘了回归分析的实际应用,还涉及了其背后的理论基础。对于希望在R语言环境中开始他们的回归分析之旅的读者来说,Fox的教科书(2002年)提供了一个极好的起点,尤其是关于如何有效地拟合和呈现回归模型。

当我们将视野转向政治经济学领域,特别是探究经济状况如何影响现任政党在总统选举中的得票率时,Hibbs、Rivers和Vasilatos在1982年的研究是一个重要的参考点。随后,Hibbs在2000年和2012年对这一主题进行了进一步的更新和深入研究。此外,Rosenstone(1983年)、Fair(1978年)以及Wlezien和Erikson在2004年和2005年的连续研究,为理解经济与政治投票行为之间的复杂关系提供了宝贵的视角和数据支持。

这些文献不仅为我们提供了丰富的历史数据和实证分析,而且还展示了如何将统计方法应用于解释现实世界的经济和政治现象。通过这些作品,读者可以更深入地理解线性回归模型在社会科学研究中的应用,并掌握如何通过这些技术来揭示和预测社会行为模式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/40164.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++】相机标定源码笔记- 立体视觉相机的校准和图像矫正类

类主要用于双目相机的标定和矫正。它包含了读取和保存相机模型、计算标定参数以及矫正图像的功能。通过这些功能&#xff0c;可以实现双目相机的标定和矫正&#xff0c;从而提高双目相机的精度和稳定性。 公有函数&#xff1a; 构造函数、带参构造函数、析构函数、读取双目相机…

摩斯邀您参加“WAIC 2024世界人工智能大会”

2024世界人工智能大会暨人工智能全球治理高级别会议&#xff08;简称“WAIC 2024”&#xff09;将于7月在上海世博中心、世博展览馆举行&#xff0c;论坛时间为7月4日-6日&#xff0c;展览时间为7月5日-7日。大会展览面积超5.2万平方米&#xff0c;重点围绕核心技术、智能终端、…

STM32要学到什么程度才算合格?

在开始前刚好我有一些资料&#xff0c;是我根据网友给的问题精心整理了一份「嵌入式的资料从专业入门到高级教程」&#xff0c; 点个关注在评论区回复“888”之后私信回复“888”&#xff0c;全部无偿共享给大家&#xff01;&#xff01;&#xff01; STM32 这玩意儿要学到啥…

vscode 前行复制到下一行

目录 这个技巧也比较多 选择 python解释器 F1 Ctrl Shift P 跳转上一次编辑 下一次编辑 Ctrl d 会把当前行复制到下一行 步骤1&#xff1a;打开键绑定设置 使用VS Code设置换行 这个技巧也比较多 VS Code技巧汇总_vs code反缩进-CSDN博客 选择 python解释器 F1 Ctrl Shi…

Java中如何使用 tesseract-ocr 进行图片文字提取(tesseract、tesseract训练自己的字库)

tesseract下载链接&#xff1a; github&#xff1a;https://github.com/tesseract-ocr/ db&#xff1a;https://digi.bib.uni-mannheim.de/tesseract/ 文字识别技术在许多领域都有广泛的应用&#xff0c;例如文档处理、自动化办公、移动设备上的文本输入等。而Tesseract-OCR作…

Python推导式写出简洁高效的代码方法详解

概要 推导式是Python中一种非常强大的语法特性,允许你用简洁的语法创建列表、字典、集合等数据结构。使用推导式不仅可以让代码更加简洁和易读,还能提高代码的执行效率。本文将详细介绍Python中的各种推导式,并提供相应的示例代码,帮助全面掌握这一强大的工具。 列表推导式…

【前端项目笔记】9 数据报表

数据报表 效果展示&#xff1a; 在开发代码之前新建分支 git checkout -b report 新建分支report git branch 查看分支 git push -u origin report 将本地report分支推送到云端origin并命名为report 通过路由的形式将数据报表加载到页面中 渲染数据报表基本布局 面包屑导航…

数据洞察:从零到一的数据仓库与Navicat连接全攻略【实训Day04】[完结篇]

一、数据分析 1 实现数据仓库(在hadoop101上) 1) 创建jobdata数据库 # cd $HIVE_HOME # bin/hive hive>create database jobdata; hive>use jobdata; 2) 创建原始职位数据事实表ods_jobdata_orgin(在hadoop101上) create table ods_jobdata_origin( city string CO…

Keepalived+LVS实现负责均衡,高可用的集群

Keepalived的设计目标是构建高可用的LVS负载均衡群集&#xff0c;可以调用ipvsadm工具来创建虚拟服务器&#xff0c;管理服务器池&#xff0c;而不仅仅用作双机热备。使用Keepalived构建LVS群集更加简便易用&#xff0c;主要优势体现在&#xff1a;对LVS负责调度器实现热备切换…

配置并调试后端程序(sql)

1.环境准备 安装VS Code和Node.js插件&#xff1a;确保你已经安装了VS Code和Node.js插件。创建launch.json文件&#xff1a;在你的项目中创建一个.vscode文件夹&#xff0c;并在其中创建launch.json文件。添加以下内容&#xff1a; {"version": "0.2.0"…

uniapp 数据父传子

文章目录 可能出现的问题 在uni-app中&#xff0c;父组件向子组件传递数据主要通过属性绑定的方式实现。这里提供一个简单的示例来说明如何进行父传子的数据传递&#xff1a; 父组件 准备数据: 在父组件的data中定义要传递的数据。 export default {data() {return {parentMe…

PLC基础知识

1.PLC中的数据寄存器地址D表示存数据的地方。 2.PLC的物理存储器的规定&#xff1a;PLC存储器以字节为单位&#xff08;Byte&#xff09;&#xff0c;存储单元以位&#xff08;Bit&#xff09;、字节&#xff08;B&#xff0c;8Bit&#xff09;、字&#xff08;W&#xff0c;1…

电子行业MES系统解决方案

工业4.0时代的工业自动化&#xff0c;将在原有自动化技术和架构下&#xff0c;实现集中式控制向分散式增强型控制的基本模式转变&#xff0c;让设备从传感器到因特网的通讯能够无缝对接&#xff0c;从而建立一个高度灵活的、个性化和数字化、融合了产品与服务的生产模式。在这种…

spark shuffle写操作——BypassMergeSortShuffleWriter

创建分区文件writer 每一个分区都生成一个临时文件&#xff0c;创建DiskBlockObjectWriter对象&#xff0c;放入partitionWriters 分区writer写入消息 遍历所有消息&#xff0c;每一条消息都使用分区器选择对应分区的writer然后写入 生成分区文件 将分区writer的数据flu…

从海上长城到数字防线:视频技术在海域边防现代化中的创新应用

随着全球化和科技发展的加速&#xff0c;海域安全问题日益凸显其重要性。海域边防作为国家安全的第一道防线&#xff0c;其监控和管理面临着诸多挑战。近年来&#xff0c;视频技术的快速发展为海域边防场景提供了新的解决方案&#xff0c;其高效、实时、远程的监控特点极大地提…

如何快速开展每日待办工作 待办任务高效管理

每天&#xff0c;我们都需要处理大量的待办工作&#xff0c;如何高效有序地开展这些工作成为了我们必须要面对的问题。仅仅依靠个人的记忆和脑力去管理这些繁杂的事务&#xff0c;显然是一项艰巨的挑战。在这个时候&#xff0c;如果能有一款实用的待办工具来辅助我们&#xff0…

如何使用C++调用Pytorch模型进行推理测试:使用libtorch库

如何使用C调用Pytorch模型进行推理测试&#xff1a;使用libtorch库 目录 如何使用C调用Pytorch模型进行推理测试&#xff1a;使用libtorch库一、环境准备1&#xff0c;linux&#xff1a;以ubuntu 22.04系统为例1. 准备CUDA和CUDNN2. 准备C环境3, 下载libtorch文件4, 编写测试li…

期权学习必看圣书:《3小时快学期权》要在哪里看?

今天带你了解期权学习必看圣书&#xff1a;《3小时快学期权》要在哪里看&#xff1f;《3小时快学期权》是一本关于股票期权基础知识的书籍。 它旨在通过简明、易懂的语言和实用的案例&#xff0c;让读者在短时间内掌握股票期权的基本概念、操作方法和投资策略。通过这本书&…

Linux系统(CentOS)安装Mysql5.7.x

安装准备&#xff1a; Linux系统(CentOS)添加防火墙、iptables的安装和配置 请访问地址&#xff1a;https://blog.csdn.net/esqabc/article/details/140209894 1&#xff0c;下载mysql安装文件&#xff08;mysql-5.7.44为例&#xff09; 选择Linux通用版本64位&#xff08;L…

算力互联网网络架构;SRV6;智享WAN

目录 算力互联网网络架构 SRV6 主要特点 应用场景 结论 G-SRV6 多层次网络切片 智享WAN 一、定义与背景 二、关键技术 三、应用场景与优势 四、发展现状与未来展望 智能算力网络成为智能经济时代代表性数字基础设施 算力互联网网络架构 为构建算力互联网这个前瞻性…