核心数学知识点
- 1、引言
- 2、数据科学必会数学知识
- 2.1 线性代数
- 2.2 微积分
- 2.3 概率论
- 2.4 数理统计
- 2.5 随机过程
- 2.6 数据分布
- 2.7 贝叶斯统计
- 2.8 线性回归
- 2.9 逻辑回归
- 2.10 矩阵分解
- 2.11 主成分分析(PCA)
- 2.12 奇异值分解(SVD)
- 3、总结
1、引言
小屌丝:鱼哥,能不能讲一讲数学知识点啊。
小鱼:这,跟着每一章内容学习就好了
小屌丝:觉得麻烦,你就给总结一下呗。
小鱼:.额… 这真是不拿我当外人啊。
小屌丝:自家人,何必见外。
小鱼:…
2、数据科学必会数学知识
2.1 线性代数
- 定义:研究向量、矩阵及其操作的数学分支。
- 核心原理:向量与矩阵乘法、线性变换、特征值和特征向量等。
- 用法:数据表示、矩阵分解、降维。
- 算法公式:矩阵-向量乘法 A x = b A \mathbf{x} = \mathbf{b} Ax=b
- 代码示例:
import numpy as np
A = np.array([[1, 2], [3, 4]])
x = np.array([1, 2])
b = np.dot(A, x)
2.2 微积分
- 定义:研究变化率(微分)和累积量(积分)的数学分支。
- 核心原理:导数、积分、梯度、链式法则。
- 用法:优化算法(如梯度下降)、曲线拟合。
- 算法公式:梯度 ∇ f ( x ) \nabla f(x) ∇f(x)
- 代码示例:
import sympy as sp
x = sp.Symbol('x')
f = x**2
f_prime = sp.diff(f, x)
2.3 概率论
- 定义:研究随机事件发生概率及其分布规律的数学分支。
- 核心原理:概率空间、条件概率、贝叶斯定理。
- 用法:机器学习模型中的概率估计、潜在变量模型。
- 算法公式:贝叶斯公式 P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A)
- 代码示例:
from scipy.stats import normp = norm.pdf(0) # 标准正态分布在0点处的概率密度值
2.4 数理统计
- 定义:利用概率分布对数据进行推断和验证的数学分支。
- 核心原理:假设检验、置信区间、最大似然估计(MLE)。
- 用法:统计模型的参数估计、验证模型。
- 算法公式:t-检验公式 t = x ˉ − μ 0 s / n t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} t=s/nxˉ−μ0
- 代码示例:
from scipy import stats
t_stat, p_value = stats.ttest_1samp([1, 2, 3, 4, 5], 3)
2.5 随机过程
- 定义:研究随时间或空间随机变量变化的数学模型。
- 核心原理:马尔可夫链、泊松过程、随机游走。
- 用法:时间序列分析、金融建模。
- 算法公式:马尔可夫链状态转移概率 P ( X n + 1 = j ∣ X n = i ) P(X_{n+1}=j|X_n=i) P(Xn+1=j∣Xn=i)
- 代码示例:
import numpy as np
# 简单的马尔可夫链模拟
transition_matrix = np.array([[0.5, 0.5], [0.2, 0.8]])
initial_state = np.array([0.8, 0.2])
next_state = np.dot(initial_state, transition_matrix)
2.6 数据分布
- 定义:研究数据如何在数值范围内分布的数学特征。
- 核心原理:正态分布、泊松分布、指数分布等。
- 用法:数据建模、异常检测。
- 算法公式: 正态分布概率密度函数 f ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2πσ1e−2σ2(x−μ)2
- 代码示例:
import numpy as np
import matplotlib.pyplot as plt
mean, std_dev = 0, 1
samples = np.random.normal(mean, std_dev, 1000)
plt.hist(samples, bins=30, density=True)
plt.show()
2.7 贝叶斯统计
- 定义:一种基于贝叶斯定理的统计推断方法。
- 核心原理:先验分布、后验分布、贝叶斯更新。
- 用法:贝叶斯网络、贝叶斯优化。
- 算法公式:后验概率 P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X ) P(\theta|X) = \frac{P(X|\theta)P(\theta)}{P(X)} P(θ∣X)=P(X)P(X∣θ)P(θ)
- 代码示例:
import pymc3 as pm
# 使用PyMC3进行贝叶斯推断
with pm.Model() as model:theta = pm.Uniform('theta', lower=0, upper=1)y = pm.Bernoulli('y', p=theta, observed=[1, 0, 0, 1, 1])trace = pm.sample(1000, step=pm.Metropolis())
pm.traceplot(trace)
2.8 线性回归
-
定义:用线性模型描述自变量和因变量关系的统计方法。
-
核心原理:最小二乘法、回归系数估计。
-
用法:趋势预测、关系探索。
-
算法公式: y = β 0 + β 1 x + ε y = \beta_0 + \beta_1 x + \varepsilon y=β0+β1x+ε
-
代码示例:
from sklearn.linear_model import LinearRegressionX = [[1], [2], [3], [4]]
y = [2, 3, 5, 7]
model = LinearRegression().fit(X, y)
2.9 逻辑回归
- 定义:用于分类问题的回归模型。
- 核心原理:逻辑函数映射概率、最大似然估计。
- 用法:二元分类、多分类。
- 算法公式: P ( y = 1 ∣ x ) = 1 1 + e − ( β 0 + β 1 x ) P(y=1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x)}} P(y=1∣x)=1+e−(β0+β1x)1
- 代码示例:
from sklearn.linear_model import LogisticRegressionX = [[0], [1], [2], [3]]
y = [0, 0, 1, 1]
model = LogisticRegression().fit(X, y)
2.10 矩阵分解
- 定义:将矩阵分解成多个矩阵乘积的技术。
- 核心原理:特征分解、奇异值分解(SVD)。
- 用法:降维、推荐系统。
- 算法公式: A = U Σ V T A = U \Sigma V^T A=UΣVT
- 代码示例:
import numpy as npA = np.array([[3, 1], [1, 3]])
U, Sigma, Vt = np.linalg.svd(A)
2.11 主成分分析(PCA)
- 定义:一种降维技术,通过线性变换将数据投影到较低维度空间。
- 核心原理:协方差矩阵、特征值和特征向量。
- 用法:降维、数据压缩。
- 算法公式: Z = X W \mathbf{Z} = \mathbf{XW} Z=XW
- 代码示例:
from sklearn.decomposition import PCAX = [[1, 2], [3, 4], [5, 6]]
pca = PCA(n_components=1)
principal_components = pca.fit_transform(X)
2.12 奇异值分解(SVD)
- 定义:一种矩阵分解方法,将矩阵分解为三个子矩阵的乘积。
- 核心原理:特征分解、秩、范数。
- 用法:降维、信号处理。
- 算法公式: A = U Σ V T A = U \Sigma V^T A=UΣVT
- 代码示例:
import numpy as npA = np.array([[3, 1], [1, 3]])
U, Sigma, Vt = np.linalg.svd(A)
3、总结
由于临时任务,今天的内容就先写到这里了。
关于另一部分数学知识点,小鱼会在这篇体现哦
-
《【机器学习】必会数学知识:一文掌握数据科学核心数学知识点(上),收藏~》
-
《【机器学习】必会数学知识:一文掌握数据科学核心数学知识点(下),收藏~》
我是小鱼: -
CSDN 博客专家;
-
阿里云 专家博主;
-
51CTO博客专家;
-
企业认证金牌面试官;
-
多个名企认证&特邀讲师等;
-
名企签约职场面试培训、职场规划师;
-
多个国内主流技术社区的认证专家博主;
-
多款主流产品(阿里云等)评测一等奖获得者;
关注小鱼,学习【机器学习】&【深度学习】领域的知识。