国科大prml-往年习题

文章目录

  • 1 模式识别
      • 过拟合欠拟合
    • 概率图
      • 概率图-独立性
      • HMM
      • 哲学理论
      • adaboost
    • 贝叶斯
      • 贝叶斯判别
        • 贝叶斯判别-正态分布
      • 贝叶斯估计
      • 贝叶斯决策
      • 朴素贝叶斯
    • 半监督无监督
      • 聚类
      • GMM+EM+极大似然估计
    • 判别函数
      • 线性判别和非线性判别
        • 线性判别函数的数量(M分类
      • 感知机
      • 势函数法
        • 9.势函数法(非线性)
          • 9.1Hermite
          • 9.2z第二种:指数势函数
      • 偏差方差分解过程
      • 降维PCA
    • SVM
    • 神经网络
      • 人工神经网络
          • why deep
        • BP:
      • CNN
        • 特征提取方式的变更(目标检测)

1 模式识别

  1. 简述模式的概念和他的直观特性
    • 模式:是抽取自物体的信息集合,既包含空间部分,又包含时间部分。
    • 直观特性:可观察性,可区分性,相似性
    • 主要方法:
      • 监督学习:概念驱动,归纳假说
      • 无监督学习:数据驱动,演绎假说
    • 模式分类的主要方法:
      • 数据聚类:用某种相似性度量的方法将原始数据组织成有意义的和有用的各种数据集。是一种非监督学习的方法,解决方案是数据驱动的。
      • 统计分类:基于概率统计模型得到各类别的特征向量的分布,以取得分类的方法。特征向量分布的获得是基于一个类别已知的训练样本集。是一种监督分类的方法,分类器是概念驱动的。
      • 结构模式识别:该方法通过考虑识别对象的各部分之间的联系来达到识别分类的目的。(句法模式识别)
      • 神经网络:由一系列互相联系的、相同的单元(神经元)组成。相互间的联系可以在不同的神经元之间传递增强或抑制信号。增强或抑制是通过调整神经元相互间联系的权重系数来(weight)实现。神经网络可以实现监督和非监督学习条件下的分类。

过拟合欠拟合

  1. 某研究者在会议上使用SVM,在如下情况下,如何才能使效果更好:
    • 训练5%,验证误差10%,测试误差10%
      • 欠拟合:换用复杂度高的模型
    • 训练1%,验证误差10%,测试误差10%
      • 过拟合:换复杂度低的模型
    • 训练1%,验证误差3%,测试误差10%
      • 测试数据与训练数据不是独立同分布的,更换测试数据集

概率图

概率图-独立性

在这里插入图片描述
* P(x1,x2,x3,x4,x5,x6)=p(x1)p(x6)P(x2|x1)p(x3|x1,x6)P(x4|x3)p(x5|x2,x4)
* p(x1,x2,x3,x6)=Σx4Σx5P(x1,x2,x3,x4,x5,x6)=p(x1)p(x6)P(x2∣x1)p(x3∣x1,x6)Σx4P(x4∣x3)Σx5p(x5∣x2,x4)=p(x1)p(x6)P(x2∣x1)p(x3∣x1,x6)p(x1,x2,x3,x6)=\Sigma_{x4}\Sigma_{x5}P(x1,x2,x3,x4,x5,x6)\\=p(x1)p(x6)P(x2|x1)p(x3|x1,x6)\Sigma_{x4}P(x4|x3)\Sigma_{x5}p(x5|x2,x4)\\=p(x1)p(x6)P(x2|x1)p(x3|x1,x6)p(x1,x2,x3,x6)=Σx4Σx5P(x1,x2,x3,x4,x5,x6)=p(x1)p(x6)P(x2x1)p(x3x1,x6)Σx4P(x4x3)Σx5p(x5x2,x4)=p(x1)p(x6)P(x2x1)p(x3x1,x6)
* Σx5p(x5∣x2,x4)=1\Sigma_{x5}p(x5|x2,x4)=1Σx5p(x5x2,x4)=1
* P(x1,x2,x3,x4,x6)=Σx5P(x1,x2,x3,x4,x5,x6)=p(x1)p(x6)P(x2∣x1)p(x3∣x1,x6)P(x4∣x3)P(x1,x2,x3,x4,x6)=\Sigma_{x5}P(x1,x2,x3,x4,x5,x6)\\=p(x1)p(x6)P(x2|x1)p(x3|x1,x6)P(x4|x3)P(x1,x2,x3,x4,x6)=Σx5P(x1,x2,x3,x4,x5,x6)=p(x1)p(x6)P(x2x1)p(x3x1,x6)P(x4x3)
* P(x4∣x1,x2,x3,x6)=p(x4∣x3)−−−所以给定x3,x4和x6独立,和x1/x2/x6均独立P(x4|x1,x2,x3,x6)=p(x4|x3)---所以给定x3,x4和x6独立,和x1/x2/x6均独立P(x4x1,x2,x3,x6)=p(x4x3)x3,x4x6x1/x2/x6

HMM

在这里插入图片描述

  • A:aij:i->j
  • 前向计算
    • 时间1:
      • α(y1=1)=P(x1∣y1=1)πy1=1=0.5∗0.2=0.1(x1=红)α(y1=2)=P(x1∣y1=2)πy1=2=0.4∗0.4=0.16α(y1=3)=P(x1∣y1=3)πy1=3=0.7∗0.4=0.28\alpha(y_1=1)=P(x_1|y_1=1)\pi_{y_1=1}=0.5*0.2=0.1\\(x1=红) \alpha(y_1=2)=P(x_1|y_1=2)\pi_{y_1=2}=0.4*0.4=0.16 \alpha(y_1=3)=P(x_1|y_1=3)\pi_{y_1=3}=0.7*0.4=0.28α(y1=1)=P(x1y1=1)πy1=1=0.50.2=0.1x1=α(y1=2)=P(x1y1=2)πy1=2=0.40.4=0.16α(y1=3)=P(x1y1=3)πy1=3=0.70.4=0.28
    • 时间2:x2=白
      • α(y2=1)=(Σy1α(y1)P(y2=1∣y1))P(x2∣y2)=(0.1∗0.5+0.16∗0.3+0.28∗0.2)∗0.5=0.077α(y2=2)=(α(y1=1)P(y2=2∣y1=1)+α(y1=2)P(y2=2∣y1=2)+α(y1=3)P(y2=2∣y1=3))∗P(x2∣y2=2)=(0.1∗0.2+0.16∗0.5+0.28∗0.3)∗0.6=0.1104α(y2=3)=(0.1∗0.3+0.16∗0.2+0.28∗0.5)∗0.3=0.0606\alpha(y_2=1)=(\Sigma_{y_1}\alpha(y_1)P(y_2=1|y_1))P(x_2|y_2)=(0.1*0.5+0.16*0.3+0.28*0.2)*0.5=0.077\\ \alpha(y_2=2)=(\alpha(y_1=1)P(y_2=2|y_1=1)+\alpha(y_1=2)P(y_2=2|y_1=2)+\alpha(y_1=3)P(y_2=2|y_1=3))*P(x_2|y_2=2)=(0.1*0.2+0.16*0.5+0.28*0.3)*0.6=0.1104\\ \alpha(y_2=3)=(0.1*0.3+0.16*0.2+0.28*0.5)*0.3=0.0606α(y2=1)=(Σy1α(y1)P(y2=1y1))P(x2y2)=(0.10.5+0.160.3+0.280.2)0.5=0.077α(y2=2)=(α(y1=1)P(y2=2y1=1)+α(y1=2)P(y2=2y1=2)+α(y1=3)P(y2=2y1=3))P(x2y2=2)=(0.10.2+0.160.5+0.280.3)0.6=0.1104α(y2=3)=(0.10.3+0.160.2+0.280.5)0.3=0.0606
    • 时间3:x3=红
      • α(y3=1)=(0.077∗0.5+0.1104∗0.3+0.0606∗0.2)∗0.5=0.4187α(y3=2)=(0.077∗0.2+0.1104∗0.5+0.0606∗0.3)∗0.4=0.03551α(y3=3)=(0.077∗0.3+0.1104∗0.2+0.0606∗0.5)∗0.7=0.05284p(x)=Σiα(yTi)=α(y3=1)+α(y3=2)+α(y3=3)=0.13022\alpha(y_3=1)=(0.077*0.5+0.1104*0.3+0.0606*0.2)*0.5=0.4187\\ \alpha(y_3=2)=(0.077*0.2+0.1104*0.5+0.0606*0.3)*0.4=0.03551\\ \alpha(y_3=3)=(0.077*0.3+0.1104*0.2+0.0606*0.5)*0.7=0.05284\\ p(x)=\Sigma_i \alpha(y_T^i)=\alpha(y_3=1)+\alpha(y_3=2)+\alpha(y_3=3)=0.13022α(y3=1)=(0.0770.5+0.11040.3+0.06060.2)0.5=0.4187α(y3=2)=(0.0770.2+0.11040.5+0.06060.3)0.4=0.03551α(y3=3)=(0.0770.3+0.11040.2+0.06060.5)0.7=0.05284p(x)=Σiα(yTi)=α(y3=1)+α(y3=2)+α(y3=3)=0.13022
  • 后向计算:
    • β(y3=1)=1,β(y3=2)=1,β(y3=3)=1\beta(y_3=1)=1,\beta(y_3=2)=1,\beta(y_3=3)=1β(y3=1)=1β(y3=2)=1β(y3=3)=1
    • 时间2
      • β(y2)=Σy3β(y3)ay3,y2P(x3∣y3)=β(y3=1)ay3=1,y2P(x3∣y3=1)+β(y3=2)ay3=2,y2P(x3∣y3=2)+β(y3=3)ay3,y2P(x3∣y3=3)\beta(y_2)=\Sigma_{y_3}\beta(y_3)a_{y_3,y_2}P(x_3|y_3)\\ =\beta(y_3=1)a_{y_3=1,y_2}P(x_3|y_3=1)+\beta(y_3=2)a_{y_3=2,y_2}P(x_3|y_3=2)+\beta(y_3=3)a_{y_3,y_2}P(x_3|y_3=3)β(y2)=Σy3β(y3)ay3,y2P(x3y3)=β(y3=1)ay3=1,y2P(x3y3=1)+β(y3=2)ay3=2,y2P(x3y3=2)+β(y3=3)ay3,y2P(x3y3=3)
      • β(y2=1)=1∗0.5∗0.5+1∗0.2∗0.4+1∗0.2∗0.7=0.47\beta(y_2=1)=1*0.5*0.5+1*0.2*0.4+1*0.2*0.7=0.47β(y2=1)=10.50.5+10.20.4+10.20.7=0.47
      • β(y2=2)=1∗0.3∗0.5+1∗0.5∗0.4+1∗0.2∗0.7=0.49\beta(y_2=2)=1*0.3*0.5+1*0.5*0.4+1*0.2*0.7=0.49β(y2=2)=10.30.5+10.50.4+10.20.7=0.49
      • β(y2=3)=1∗0.2∗0.5+1∗0.3∗0.4+1∗0.5∗0.7=0.57\beta(y_2=3)=1*0.2*0.5+1*0.3*0.4+1*0.5*0.7=0.57β(y2=3)=10.20.5+10.30.4+10.50.7=0.57
    • 时间1
      • β(y2=1)=0.47∗0.5∗0.5+0.49∗0.2∗0.6+0.57∗0.2∗0.3=0.2105\beta(y_2=1)=0.47*0.5*0.5+0.49*0.2*0.6+0.57*0.2*0.3=0.2105β(y2=1)=0.470.50.5+0.490.20.6+0.570.20.3=0.2105
      • β(y2=2)=0.47∗0.3∗0.5+0.49∗0.5∗0.6+0.57∗0.2∗0.3=0.2517\beta(y_2=2)=0.47*0.3*0.5+0.49*0.5*0.6+0.57*0.2*0.3=0.2517β(y2=2)=0.470.30.5+0.490.50.6+0.570.20.3=0.2517
      • β(y2=3)=0.47∗0.2∗0.5+0.49∗0.3∗0.6+0.57∗0.5∗0.3=0.2207\beta(y_2=3)=0.47*0.2*0.5+0.49*0.3*0.6+0.57*0.5*0.3=0.2207β(y2=3)=0.470.20.5+0.490.30.6+0.570.50.3=0.2207
        在这里插入图片描述
  • 求最优路径(维特比,贪心)
    • δ(y1)=α(y1)=P(x1∣y1)πy1\delta(y_1)=\alpha(y_1)=P(x_1|y_1)\pi_{y_1}δ(y1)=α(y1)=P(x1y1)πy1
    • δ(yt+1)=maxy1δ(y1)P(y2=1∣y1))P(x2∣y2)=max(δ(y1=1)P(y2=2∣y1=1),δ(y1=2)P(y2=2∣y1=2),δ(y1=3)P(y2=2∣y1=3))∗P(x2∣y2=1)\delta(y_{t+1})=max_{y_1}\delta(y_1)P(y_2=1|y_1))P(x_2|y_2)=max(\delta(y_1=1)P(y_2=2|y_1=1),\delta(y_1=2)P(y_2=2|y_1=2),\delta(y_1=3)P(y_2=2|y_1=3))*P(x_2|y_2=1)δ(yt+1)=maxy1δ(y1)P(y2=1y1))P(x2y2)=max(δ(y1=1)P(y2=2y1=1),δ(y1=2)P(y2=2y1=2),δ(y1=3)P(y2=2y1=3))P(x2y2=1)
  • HMM(x–O)
    • 则联合概率P(x,y)=p(y1)Πt=1T−1P(yt+1j∣yti)Πt=1TP(xt∣yt)P(x,y)=p(y_1)\Pi_{t=1}^{T-1}P(y_{t+1}^j|y_t^i)\Pi_{t=1}^{T}P(x_t|y_t)P(x,y)=p(y1)Πt=1T1P(yt+1jyti)Πt=1TP(xtyt)
      • 参数化P(x,y)=πy1Πt=1T−1ayt+1,ytΠt=1TP(xt∣yt)P(x,y)=\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t)P(x,y)=πy1Πt=1T1ayt+1,ytΠt=1TP(xtyt)
    • P(x)=Σy1,y2,...,yTP(x,y)=Σy1,y2,...,yTπy1Πt=1T−1ayt+1,ytΠt=1TP(xt∣yt)=ΣyP(x∣y)p(y)=Σy1Σy2...ΣyTπy1Πt=1T−1ayt+1,ytΠt=1TP(xt∣yt)P(x)=\Sigma_{y_1,y_2,...,y_T} P(x,y)=\Sigma_{y_1,y_2,...,y_T}\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t)\\=\Sigma_y P(x|y)p(y)\\=\Sigma_{y_1}\Sigma_{y_2}...\Sigma_{y_T}\pi_{y_1}\Pi_{t=1}^{T-1}a_{y_{t+1},y_t}\Pi_{t=1}^{T}P(x_t|y_t)P(x)=Σy1,y2,...,yTP(x,y)=Σy1,y2,...,yTπy1Πt=1T1ayt+1,ytΠt=1TP(xtyt)=ΣyP(xy)p(y)=Σy1Σy2...ΣyTπy1Πt=1T1ayt+1,ytΠt=1TP(xtyt)
    • P(yt∣x)=γ(yt)=P(x1,...,xt,yt)P(xt+1,...,xn∣yt)P(x)=α(yt)β(yt)P(x)P(y_t|x)=\gamma(y_t)=\frac{P(x1,...,x_t,y_t)P(x_{t+1},...,x_n|y_t)}{P(x)}=\frac{\alpha(y_t)\beta(y_t)}{P(x)}P(ytx)=γ(yt)=P(x)P(x1,...,xt,yt)P(xt+1,...,xnyt)=P(x)α(yt)β(yt)
    • 递归的计算
      • α(yt+1)=Σytα(yt)ayt+1,ytP(xt+1∣yt+1)\alpha(y_{t+1})=\Sigma_{y_t}\alpha(y_t)a_{y_{t+1},y_t}P(x_{t+1}|y_{t+1})α(yt+1)=Σytα(yt)ayt+1,ytP(xt+1yt+1)
        • 初始化α(y0)=P(x0,y0)=p(x0∣y0)P(y0)=P(x0∣y0)πy0\alpha(y_0)=P(x_0,y_0)=p(x_0|y_0)P(y_0)=P(x_0|y_0)\pi_{y_0}α(y0)=P(x0,y0)=p(x0y0)P(y0)=P(x0y0)πy0
      • β(yt)=Σyt+1β(yt+1)ayt+1,ytP(xt+1∣yt+1)\beta(y_{t})=\Sigma_{y_{t+1}}\beta(y_{t+1})a_{y_{t+1},y_t}P(x_{t+1}|y_{t+1})β(yt)=Σyt+1β(yt+1)ayt+1,ytP(xt+1yt+1)
        • 初始化β(yT)=1就行了\beta(y_T)=1就行了β(yT)=1
          • 假定β(yT)为单位向量,我们可以准确计算出βyT−1假定\beta(y_T)为单位向量,我们可以准确计算出\beta_{y_{T-1}}β(yT)βyT1
            • P(x)=Σiα(yTi)β(yTi)=Σiα(yTi)=P(x)P(x)=\Sigma_i\alpha(y_T^i)\beta(y_T^i)=\Sigma_i \alpha(y_T^i)=P(x)P(x)=Σiα(yTi)β(yTi)=Σiα(yTi)=P(x)

哲学理论

  1. (1)随便猜测作为一个分类算法是否一定比SVM差?借此阐述你对“no free lunch theorem”的理解(2)举例阐述你对“Occam’s razor"的理解
    • (1):不一定,在没有先验的情况下,无法得知一个算法是否比另一个算法更好。
    • (2)简单的就是最好的:训练数据来自添加高斯噪声的y=sinx(x∈[0,2π])y=sinx(x \in [0,2\pi])y=sinx(x[0,2π]),使用不同的多项式拟合,三次的效果最佳,在同等训练错误率的条件下,简单模型具有更小的方差,又有更好的泛化能力。(复杂模型方差大,偏差小)
    • 丑小鸭定理:
      • 丑小鸭与白天鹅之间的区别和两只白天鹅之间的区别一样大
      • 世界上不存在分类的客观标准,一切分类的标准都是主观的
      • (有假设的)
      • (无假设的前提下)没有最优的特征

adaboost

  1. Adaboost的原理并给出算法,并解释为什么adaboost经常可以在训练误差为0后继续训练还能带来测试误差的继续下降?
    • adaboost原理:通过多个弱学习器的组合,得到一个强分类器,每次训练弱分类器后,对分类错误的样本增加权重使得后续分类器更加”关注“分类错误的样本,以提升分类效果。
    • 算法:{xi,yi}i=1nDi1=1/nforitoT:对每个分类器训练弱分类器,给各样本加权重Dit+1=Dit∗e−αtyiht(xi)ht(x)为第t个分类器;αt=12ln1−ϵtϵt>0;错误率ϵ=P(h(x)≠y)<0.5Hfinal(x)=sign(Σt=1nαtht(x))\{x_i,y_i\}_{i=1}^n\\D^1_i=1/n\\for i to T:对每个分类器\\训练弱分类器,给各样本加权重\\D_i^{t+1}=D_i^{t}*e^{-\alpha_ty_ih_t(x_i)}\\h_t(x)为第t个分类器;\alpha_t=\frac{1}{2}ln\frac{1-\epsilon_t}{\epsilon_t}>0;错误率\epsilon=P(h(x)\neq y)<0.5\\H_{final}(x)=sign(\Sigma_{t=1}^n\alpha_th_t(x)){xi,yi}i=1nDi1=1/nforitoTDit+1=Diteαtyiht(xi)ht(x)t;αt=21lnϵt1ϵt>0;ϵ=P(h(x)=y)<0.5Hfinal(x)=sign(Σt=1nαtht(x))
    • 训练误差为0后,adaboost会继续增大分类间距,提升模型的泛化能力,减少测试误差
      在这里插入图片描述

贝叶斯

贝叶斯判别

贝叶斯判别-正态分布

在这里插入图片描述

  • 贝叶斯判别:p(wi∣x)=p(x∣w1)p(w1)Σi=12p(x∣wi)p(wi),哪个大属于哪一类p(wi|x)= {{p(x|w1)p(w1)} \over {\Sigma_{i=1}^2 p(x|wi)p(wi)}},哪个大属于哪一类p(wix)=Σi=12p(xwi)p(wi)p(xw1)p(w1),
  • 模式类别具有正态概率密度函数 p(x∣wi)=1(2π)n/2∣Ci∣1/2exp{−12(x−mi)TCi−1(x−mi)}p(x|w_i) ={{1} \over {(2\pi)^{n/2}|C_i|^{1/2}}} exp\{ -{{1} \over {2}}(x-m_i)^TC_i^{-1}(x-m_i)\}p(xwi)=(2π)n/2Ci1/21exp{21(xmi)TCi1(xmi)}—一个类别一个,n-n维度
    • Ci=(x−mi)(x−mi)TC_i=(x-m_i)(x-m_i)^TCi=(xmi)(xmi)T–>x是一列一个样本的,C最终是个33的,m是31的列向量
    • 均值就用均值求,方差就用协方差矩阵求(由贝叶斯估计、极大似然估计都可以得到)
  • 判别面:第i类的f(x)常数,gi(x)=lnp(x∣wi)+lnp(wi)=lnp(wi)−12log∣Ci∣−12(x−mi)TCi−1(x−mi)f(x)常数,g_i(x)=lnp(x|w_i)+lnp(w_i)\\=lnp(w_i)-\frac{1}{2}log|C_i|-\frac{1}{2}(x-m_i)^TC_i^{-1}(x-m_i)f(x)gi(x)=lnp(xwi)+lnp(wi)=lnp(wi)21logCi21(xmi)TCi1(xmi)
  • 二分类的界面:g1(x)−g2(x)=lnp(w1)+lnp(w2)−12log∣C1∣−12(x−m1)TC1−1(x−m1)+12log∣C2∣+12(x−m2)TC2−1(x−m2)g_1(x)-g_2(x)=lnp(w_1)+lnp(w_2)-\frac{1}{2}log|C_1|-\frac{1}{2}(x-m_1)^TC_1^{-1}(x-m_1)+\frac{1}{2}log|C_2|+\frac{1}{2}(x-m_2)^TC_2^{-1}(x-m_2)g1(x)g2(x)=lnp(w1)+lnp(w2)21logC121(xm1)TC11(xm1)+21logC2+21(xm2)TC21(xm2)
  • 二分类的界面(C1=C2=C):g1(x)−g2(x)=lnp(w1)−lnp(w2)−12(x−m1)TC1−1(x−m1)+12(x−m2)TC2−1(x−m2)=lnp(w1)−lnp(w2)+(m1−m2)TC−1x−12m1TC−1m1+12m2TC−1m2=0g_1(x)-g_2(x)=lnp(w_1)-lnp(w_2)-\frac{1}{2}(x-m_1)^TC_1^{-1}(x-m_1)+\frac{1}{2}(x-m_2)^TC_2^{-1}(x-m_2)\\=lnp(w_1)-lnp(w_2)+(m_1-m_2)^TC^{-1}x-\frac{1}{2}m_1^TC^{-1}m_1+\frac{1}{2}m_2^TC^{-1}m_2=0g1(x)g2(x)=lnp(w1)lnp(w2)21(xm1)TC11(xm1)+21(xm2)TC21(xm2)=lnp(w1)lnp(w2)+(m1m2)TC1x21m1TC1m1+21m2TC1m2=0
  • X1=[011100010010]X1=\left[ \begin{matrix}0&1&1&1\\0&0&0&1\\0&0&1&0& \end{matrix} \right]X1=000100101110–一列一个样本,一行一个维度
  • X2=[000111010111]X2=\left[ \begin{matrix}0&0&0&1\\1&1&0&1\\0&1&1&1& \end{matrix} \right]X2=010011001111
  • m1=14(3,1,1)T,m2=14(1,3,3)Tm1=\frac{1}{4}(3,1,1)^T,m_2=\frac{1}{4}(1,3,3)^Tm1=41(3,1,1)T,m2=41(1,3,3)T
  • C1=(X1−m1)(X1−m1)T=116[1244412−44−412]C2=(X2−m2)(X2−m2)T=116[1244412−44−412]C=C1=C2C_1=(X1-m1)(X1-m1)^T=\frac{1}{16}\left[ \begin{matrix}12&4&4\\4&12&-4\\4&-4&12 \end{matrix} \right]\\C2=(X2-m2)(X2-m2)^T=\frac{1}{16}\left[ \begin{matrix}12&4&4\\4&12&-4\\4&-4&12 \end{matrix} \right]\\C=C1=C2C1=(X1m1)(X1m1)T=161124441244412C2=(X2m2)(X2m2)T=161124441244412C=C1=C2

贝叶斯估计

在这里插入图片描述在这里插入图片描述

  • 图中σ−>σ2图中\sigma->\sigma^2σ>σ2
  • p(β∣y)=p(y∣β)p(β)p(y)p(\beta|y)=\frac{p(y|\beta)p(\beta)}{p(y)}p(βy)=p(y)p(yβ)p(β)
  • p(y∣β)=1(2π)n/2∣σ2I∣1/2exp{−12(y−Xβ)T(σ2I)−1(y−Xβ)}p(β)=1(2π)n/2∣τI∣1/2exp{−12(β)T(τI)−1(β)}p(y|\beta)={{1} \over {(2\pi)^{n/2}|\sigma^2I|^{1/2}}} exp\{ -{{1} \over {2}}(y-X\beta)^T(\sigma^2I)^{-1}(y-X\beta)\}\\ p(\beta)={{1} \over {(2\pi)^{n/2}|\tau I|^{1/2}}} exp\{ -{{1} \over {2}}(\beta)^T(\tau I)^{-1}(\beta)\}p(yβ)=(2π)n/2σ2I1/21exp{21(yXβ)T(σ2I)1(yXβ)}p(β)=(2π)n/2τI1/21exp{21(β)T(τI)1(β)}
  • logp(β∣y)=log(p(y∣β)+logp(β)+C=−12σ2(y−Xβ)2−12τ∣∣β∣∣2+C′=−12σ2((y−Xβ)2+σ2τ∣∣β∣∣2)log p(\beta|y)=log(p(y|\beta)+logp(\beta)+C\\=-\frac{1}{2\sigma^2}(y-X\beta)^2-\frac{1}{2\tau}||\beta||^2+C'\\ =-\frac{1}{2\sigma^2}((y-X\beta)^2+\frac{\sigma^2}{\tau}||\beta||^2)logp(βy)=log(p(yβ)+logp(β)+C=2σ21(yXβ)22τ1β2+C=2σ21((yXβ)2+τσ2β2)

贝叶斯决策

在这里插入图片描述

  • 最小错误率就是最普通的贝叶斯决策I12=p(x∥w1)p(x∥w2)>p(w2)p(w1),分界面为d(x)=p(x∥w1)p(x∥w2)−p(w2)p(w1)I_{12}= {{p(x\|w1)} \over {p(x\|w2)}} >{ {p(w2)} \over {p(w1)}},分界面为d(x)= {{p(x\|w1)} \over {p(x\|w2)}}-{ {p(w2)} \over {p(w1)}}I12=p(xw2)p(xw1)>p(w1)p(w2)d(x)=p(xw2)p(xw1)p(w1)p(w2)
  • 最小风险的贝叶斯决策r1=λ11p(x∣w1)p(w1)+λ12p(x∣w2)p(w2)r2=λ21p(x∣w1)p(w1)+λ22p(x∣w2)p(w2)r1>r2=>(λ11−λ21)p(x∣w1)p(w1)+(λ12−λ22)p(x∣w2)p(w2)>0p(x∣w1)p(x∣w2)>(λ12−λ22)p(w2)(λ11−λ21)p(w1)分界面:d(x)=r1−r2r_1=\lambda_{11}p(x|w_1)p(w_1)+\lambda_{12}p(x|w_2)p(w_2)\\ r_2=\lambda_{21}p(x|w_1)p(w_1)+\lambda_{22}p(x|w_2)p(w_2)\\ r_1>r_2=>(\lambda_{11}-\lambda_{21})p(x|w_1)p(w_1)+(\lambda_{12}-\lambda_{22})p(x|w_2)p(w_2)>0\\ \frac{p(x|w_1)}{p(x|w_2)}>\frac{(\lambda_{12}-\lambda_{22})p(w_2)}{(\lambda_{11}-\lambda_{21})p(w_1)}\\分界面:d(x)=r1-r2r1=λ11p(xw1)p(w1)+λ12p(xw2)p(w2)r2=λ21p(xw1)p(w1)+λ22p(xw2)p(w2)r1>r2=>(λ11λ21)p(xw1)p(w1)+(λ12λ22)p(xw2)p(w2)>0p(xw2)p(xw1)>(λ11λ21)p(w1)(λ12λ22)p(w2)d(x)=r1r2
w1w2------------阈值------------
p(wi|x)(max)p(w1|x)>p(w2|x)p(w1|x)>p(w2|x)1
p(x|wi)p(wi)(max)p(x|w1)p(w1) > p(x|w2)p(w2)p(x|w1)p(w1) < p(x|w2)p(w2)1
最小错误率I12I_{12}I12似然比(分割)I12=p(x∥w1)p(x∥w2)>p(w2)p(w1)I_{12}= {{p(x\|w1)} \over {p(x\|w2)}} >{ {p(w2)} \over {p(w1)}}I12=p(xw2)p(xw1)>p(w1)p(w2)I21=p(x∥w1)p(x∥w2)<p(w2)p(w1)I_{21}={{p(x\|w1)} \over {p(x\|w2)}} < {{p(w2)} \over {p(w1)}}I21=p(xw2)p(xw1)<p(w1)p(w2)θ21=p(w2)p(w1)\theta_{21}= {{p(w2)} \over {p(w1)}}θ21=p(w1)p(w2)
条件平均风险(min)r1(x)<r2(x)r1(x)>r2(x)θ21=p(w2)p(w1)L21−L22L12−L11\theta_{21}= {{p(w2)} \over {p(w1)}}{{L_{21}-L_{22}} \over {L_{12}-L_{11}}}θ21=p(w1)p(w2)L12L11L21L22(L的定义和上面相反)
正态模式( max)d1(x)>d2(x)d2(x)>d1(x)di(x)=lnp(wi)−12ln∥Ci∥−12(x−mi)TCi−1(x−mi),d1(x)−d2(x)=0为判别界面d_i(x)=ln p(w_i)-{{1} \over {2}}ln\|C_i\| -{{1} \over {2}}(x-m_i)^TC_i^{-1}(x-m_i) ,d_1(x)-d_2(x)=0为判别界面di(x)=lnp(wi)21lnCi21(xmi)TCi1(xmi)d1(x)d2(x)=0

朴素贝叶斯

  • p(wi∣x)=p(x∣w1)p(w1)Σi=12p(x∣wi)p(wi)p(x∣w1)=Πip(xi∣w1)−−统计得到p(wi|x)= {{p(x|w1)p(w1)} \over {\Sigma_{i=1}^2 p(x|wi)p(wi)}}\\p(x|w_1)=\Pi_ip(x_i|w_1)--统计得到p(wix)=Σi=12p(xwi)p(wi)p(xw1)p(w1)p(xw1)=Πip(xiw1)
    在这里插入图片描述

半监督无监督

聚类

k-均值聚类GMM层次聚类基于密度的聚类
算法随机中心,迭代更新簇中心EM求解;E步是软划分的k-means;M步不仅估计了均值还有协方差;属于所有簇概率均等时一样树;凝聚式,分列式连接性,最大性的点属于簇
局限性不同尺寸、密度、非球形不可用;扰动影响大-贪心(拆分和合并不可逆);没有全局目标函数;对噪声和离群点敏感;难处理不同尺寸的簇和凸的簇;成链,误把大簇分裂参数确定困难 ,不适合密度差异大的数据集;对变化的维度和高维数据不友好
损失函数最小平方距离和最小化负对数似然没有优化一个全局的目标函数
划分点到簇的硬划分从属关系的软划分层次划分,拆分合并不可逆
优点--不需要确定k,聚类结果可能对应着有意义的分类体系不需要确定簇的数量;任意形状;对离群点稳定
超参数确定间隔统计;交叉检验;簇的稳定性;非参数方法eps;minPts=k:同一个簇的点,到他们k最近邻的距离相同(画出来找)
预处理归一化;消除离群点
后处理删除小簇;分裂远;合并近的
收敛收敛(J单调下降)收敛
最优局部极小局部极小
假设簇是球的且每个簇的概率相等(欧式距离、质心)簇是高斯分布,属于每个簇的概率不同,但每个簇都有可能,球或椭球形

GMM+EM+极大似然估计

在这里插入图片描述

  • 目标函数: L=logp(Xl,Yl,Xu∣θ)=Σi=1llogp(yi∣θ)p(xi∣yi,θ)+Σi=l+1mlog(Σk=1Np(yi=k∣θ)p(xi∣yi=k,θ)),θi=αi,μi,ΣiL=logp(X_l,Y_l,X_u|\theta)=\Sigma_{i=1}^llogp(y_i|\theta)p(x_i|y_i,\theta)+\Sigma_{i=l+1}^mlog(\Sigma_{k=1}^Np(y_i=k|\theta)p(x_i|y_i=k,\theta)),\theta_i={\alpha_i,\mu_i,\Sigma_i}L=logp(Xl,Yl,Xuθ)=Σi=1llogp(yiθ)p(xiyi,θ)+Σi=l+1mlog(Σk=1Np(yi=kθ)p(xiyi=k,θ)),θi=αi,μi,Σi
  • =Σi=1llogαyiN(xi∣θyi)+Σi=lmlogΣk=1NαkN(xi∣θk)=Σi=1l(logαyi−n2log(2π)−12log(∣Σyi∣)−(xi−μyi)TΣyi−1(xi−μyi)+Σi=lmlog(Σk=1N(αk1(2π)n/2∣Σk∣1/2exp{−12(xi−μk)TΣk−1(xi−μk)}))=\Sigma_{i=1}^llog \alpha_{y_i}N(x_i|\theta_{y_i})+\Sigma_{i=l}^mlog\Sigma_{k=1}^N\alpha_kN(x_i|\theta_k) \\=\Sigma_{i=1}^l(log\alpha_{y_i}-\frac{n}{2}log(2\pi)-\frac{1}{2}log(|\Sigma_{y_i}|)-(x_i-\mu_{y_i})^T\Sigma_{y_i}^{-1}(x_i-\mu_{y_i})+\Sigma_{i=l}^mlog(\Sigma_{k=1}^N(\alpha_k{{1} \over {(2\pi)^{n/2}|\Sigma_k|^{1/2}}} exp\{ -{{1} \over {2}}(x_i-\mu_k)^T{\Sigma_k}^{-1}(x_i-\mu_k)\}))=Σi=1llogαyiN(xiθyi)+Σi=lmlogΣk=1NαkN(xiθk)=Σi=1l(logαyi2nlog(2π)21log(Σyi)(xiμyi)TΣyi1(xiμyi)+Σi=lmlog(Σk=1N(αk(2π)n/2Σk1/21exp{21(xiμk)TΣk1(xiμk)}))
  • E:求γik=p(yi=k∣xi)=αkN(xi∣θk)Σk=1NαkN(xi∣θk)求\gamma_{ik}=p(y_i=k|x_i)=\frac{\alpha_kN(x_i|\theta_k)}{\Sigma_{k=1}^N\alpha_kN(x_i|\theta_k)}γik=p(yi=kxi)=Σk=1NαkN(xiθk)αkN(xiθk)
  • M:μk=1Σi=lmγik+lk(Σi∈Dl,yi=kxi+Σi=lmγikxi)Σi=1Σi=lmγik+lk(Σi∈Dl,yi=k(xi−μk)(xi−μk)T+Σi=lmγik(xi−μk)(xi−μk)T)αk=Σi=lmγik+lkm\mu_k=\frac{1}{\Sigma_{i=l}^m\gamma_{ik}+l_k}(\Sigma_{i\in D_l ,y_i=k}x_i+\Sigma_{i=l}^m\gamma_{ik}x_i)\\ \Sigma_i=\frac{1}{\Sigma_{i=l}^m\gamma_{ik}+l_k}(\Sigma_{i\in D_l ,y_i=k}(x_i-\mu_k)(x_i-\mu_k)^T+\Sigma_{i=l}^m\gamma_{ik}(x_i-\mu_k)(x_i-\mu_k)^T)\\ \alpha_k=\frac{\Sigma_{i=l}^m\gamma_{ik}+l_k}{m}μk=Σi=lmγik+lk1(ΣiDl,yi=kxi+Σi=lmγikxi)Σi=Σi=lmγik+lk1(ΣiDl,yi=k(xiμk)(xiμk)T+Σi=lmγik(xiμk)(xiμk)T)αk=mΣi=lmγik+lk
有监督无监督半监督
目标函数L=logp(Xl,Yl∥θ)=Σi=1llogp(yi∥θ)p(xi∥yi,θ)=Σi=1llogαyiN(xi∥θyi)L=logp(X_l,Y_l\|\theta)=\Sigma_{i=1}^llogp(y_i\|\theta)p(x_i\|y_i,\theta)\\=\Sigma_{i=1}^llog \alpha_{y_i}N(x_i\|\theta_{y_i})L=logp(Xl,Ylθ)=Σi=1llogp(yiθ)p(xiyi,θ)=Σi=1llogαyiN(xiθyi)p(x;θ)=ΠiNΣk=1KπkN(xi∥μk,Σk)p(x;\theta)=\Pi_i^N\Sigma_{k=1}^K\pi_kN(x_i\|\mu_k,\Sigma_k)p(x;θ)=ΠiNΣk=1KπkN(xiμk,Σk)P(xl,yl,xu∥θ)=Σi=1llogαyiN(xi∥θyi)+Σi=lmlogΣk=1NαkN(xi∥θk)P(x_l,y_l,x_u\|\theta)=\Sigma_{i=1}^llog \alpha_{y_i}N(x_i\|\theta_{y_i})+\Sigma_{i=l}^mlog\Sigma_{k=1}^N\alpha_kN(x_i\|\theta_k)P(xl,yl,xuθ)=Σi=1llogαyiN(xiθyi)+Σi=lmlogΣk=1NαkN(xiθk)
E求导解决求γik=p(yi=k∥xi)=αkN(xi∥θk)Σk=1NαkN(xi∥θk)求\gamma_{ik}=p(y_i=k\|x_i)=\frac{\alpha_kN(x_i\|\theta_k)}{\Sigma_{k=1}^N\alpha_kN(x_i\|\theta_k)}γik=p(yi=kxi)=Σk=1NαkN(xiθk)αkN(xiθk)求γik=p(yi=k∥xi)=αkN(xi∥θk)Σk=1NαkN(xi∥θk)求\gamma_{ik}=p(y_i=k\|x_i)=\frac{\alpha_kN(x_i\|\theta_k)}{\Sigma_{k=1}^N\alpha_kN(x_i\|\theta_k)}γik=p(yi=kxi)=Σk=1NαkN(xiθk)αkN(xiθk)
Mμk=1lk(Σi∈Dl,yi=kxi)Σi=1lk(Σi∈Dl,yi=k(xi−μk)(xi−μk)T)αk=lkm\mu_k=\frac{1}{l_k}(\Sigma_{i\in D_l ,y_i=k}x_i)\\\Sigma_i=\frac{1}{l_k}(\Sigma_{i\in D_l ,y_i=k}(x_i-\mu_k)(x_i-\mu_k)^T)\\\alpha_k=\frac{l_k}{m}μk=lk1(ΣiDl,yi=kxi)Σi=lk1(ΣiDl,yi=k(xiμk)(xiμk)T)αk=mlkμk=Σiγ(zik)xiγ(zik)πk=Σiγ(zik)NΣk=Σiγ(zik)(xi−μk)(xi−μk)Tγ(zik)\mu_k=\frac{\Sigma_i\gamma(z_{ik})x_i}{\gamma(z_{ik})}\\\pi_k=\frac{\Sigma_i\gamma(z_{ik})}{N}\\\Sigma_k=\frac{\Sigma_i\gamma(z_{ik})(x_i-\mu_k)(x_i-\mu_k)^T}{\gamma(z_{ik})}μk=γ(zik)Σiγ(zik)xiπk=NΣiγ(zik)Σk=γ(zik)Σiγ(zik)(xiμk)(xiμk)Tμk=1Σi=lmγik+lk(Σi∈Dl,yi=kxi+Σi=lmγikxi)Σi=1Σi=lmγik+lk(Σi∈Dl,yi=k(xi−μk)(xi−μk)T+Σi=lmγik(xi−μk)(xi−μk)T)αk=Σi=lmγik+lkm\mu_k=\frac{1}{\Sigma_{i=l}^m\gamma_{ik}+l_k}(\Sigma_{i\in D_l ,y_i=k}x_i+\Sigma_{i=l}^m\gamma_{ik}x_i)\\\Sigma_i=\frac{1}{\Sigma_{i=l}^m\gamma_{ik}+l_k}(\Sigma_{i\in D_l ,y_i=k}(x_i-\mu_k)(x_i-\mu_k)^T+\Sigma_{i=l}^m\gamma_{ik}(x_i-\mu_k)(x_i-\mu_k)^T)\\\alpha_k=\frac{\Sigma_{i=l}^m\gamma_{ik}+l_k}{m}μk=Σi=lmγik+lk1(ΣiDl,yi=kxi+Σi=lmγikxi)Σi=Σi=lmγik+lk1(ΣiDl,yi=k(xiμk)(xiμk)T+Σi=lmγik(xiμk)(xiμk)T)αk=mΣi=lmγik+lk
半监督=无监督+有监督
  • 分析高斯混合模型和k-means的异同
    • ;E步是软划分的k-means;M步不仅估计了均值还有协方差;属于所有簇概率均等时两者等价

判别函数

线性判别和非线性判别

  • 试阐述线性判别和非线性判别的基本概念,并说明为何有了线性判别还要有非线性判别?假设有两类模式,每类模式有5个3维特征的样本,且良好分布,问线性可分情况下权重需要多少系数分量?假如需要建立二次多项式判别函数,需要多少系数分量?
    • 线性判别:以线性函数为判别函数的模式分类
    • 非线性判别:使用非线性函数作为判别函数的模式分类
    • 因为存在线性不可分的模式,无法用线性判别函数进行模式分类
    • Cn+rr:n维数据,采用r次多项式的参数个数C_{n+r}^r:n维数据,采用r次多项式的参数个数Cn+rr:nr
    • 线性可分:C41=4二次:C3+22=10线性可分:C_4^1=4\\ 二次:C_{3+2}^2=10线C41=4C3+22=10

线性判别函数的数量(M分类

  • 情况1:分为自己和其他所有:M个判别函数
  • 情况2:分为i和j类:M(M-1)/2个判别函数
  • 情况3:M个
想法…判别函数……判别…优点缺点
二分类区分为ω1和ω2\omega_1 和 \omega_2ω1ω2(不是1就是2)d(x)=w1x1+w2x2+w3=0,1个d(x)=w_1x_1+w_2x_2+w_3=0,\\1个d(x)=w1x1+w2x2+w3=01d(x)>0x∈ω1;d(x)<0x∈ω2d(x)>0 x \in \omega_1;\\d(x)<0 x \in \omega_2d(x)>0xω1;d(x)<0xω2
M分类1区分为ω1和非ω1\omega_1 和 非\omega_1ω1ω1di(x)=w1x1+w2x2+w3x3+...+wnxn+wn+1=wTx+wn+1=0,M个d_i(x)=w_1x_1+w_2x_2+w_3x_3+...+w_nx_n+w_{n+1}=w^Tx+w_{n+1}=0,\\M个di(x)=w1x1+w2x2+w3x3+...+wnxn+wn+1=wTx+wn+1=0Mdi(x)>0且dj(x)<0,i≠j,ifx∈ωid_i(x)>0 \\且 d_j(x)<0,\\i \neq j,\\if x \in \omega_idi(x)>0dj(x)<0,i=j,ifxωi简单线性可分性差,IR区域最大
M分类2区分为ωi和ωj\omega_i 和 \omega_jωiωj,一对一对的分dij(x)=w1x1+w2x2+w3x3+...+wnxn+wn+1=wTx+wn+1=0,dij(x)=−dji(x);M(M−1)/2个d_{ij}(x)=w_1x_1+w_2x_2+w_3x_3+...+w_nx_n+w_{n+1}=w^Tx+w_{n+1}=0,\\d_{ij}(x)=-d_{ji}(x);\\M(M-1)/2个dij(x)=w1x1+w2x2+w3x3+...+wnxn+wn+1=wTx+wn+1=0dij(x)=dji(x);M(M1)/2dij(x)>0且i≠j,,任意j,ifx∈ωid_{ij}(x)>0 \\且i \neq j,,任意j,\\if x \in \omega_idij(x)>0i=j,,j,ifxωi简单线性可分性差,IR区域小,判别函数太多
M分类3_1区分为ωi和ωj\omega_i 和 \omega_jωiωj,一对一对的分dij(x)=di(x)−dj(x),dij(x)=−dji(x);M个di(x),M(M−1)/2个判别面d_{ij}(x)=d_i(x)-d_j(x),\\d_{ij}(x)=-d_{ji}(x);\\M个d_i(x),M(M-1)/2个判别面dij(x)=di(x)dj(x)dij(x)=dji(x);Mdi(x),M(M1)/2dij(x)>0且i≠j,,任意j,ifx∈ωid_{ij}(x)>0 \\且i \neq j,,任意j,\\if x \in \omega_idij(x)>0i=j,,j,ifxωi无IR线性可分性差,IR区域无
M分类3_2区分为ωi和ωj\omega_i 和 \omega_jωiωj,一对一对的分dij(x)=di(x)−dj(x),dij(x)=−dji(x);M个di(x),M(M−1)/2个判别面d_{ij}(x)=d_i(x)-d_j(x),\\d_{ij}(x)=-d_{ji}(x);\\M个d_i(x),M(M-1)/2个判别面dij(x)=di(x)dj(x)dij(x)=dji(x);Mdi(x),M(M1)/2di(x)>dj(x)且i≠j,任意j,ifx∈ωid_{i}(x)>d_j(x) \\且i \neq j,任意j,\\if x \in \omega_idi(x)>dj(x)i=j,j,ifxωi无IR线性可分性差,IR区域无
非线性f(x)核函数:非线性x–>线性的x*=f(x)--从非线性变成了线性|x|<|x*|
非线性分段判别函数分段函数逼近曲线--从非线性变成了线性-
最小距离分类分段函数逼近曲线d(x)=∥x−μ1∥2−∥x−μ2∥2,μ为各类中心d(x)=\|x-\mu_1\|^2-\|x-\mu_2\|^2,\\\mu为各类中心d(x)=xμ12xμ22μd(x)>0x∈ω1;d(x)<0x∈ω2d(x)>0 x \in \omega_1;\\d(x)<0 x \in \omega_2d(x)>0xω1;d(x)<0xω2从非线性变成了线性-
模式空间与权空间模式空间w为面/线的法向量; 权空间x为法向量d(x)=wTx=0d(x)=w^Tx=0d(x)=wTx=0法向量方向为正的方向,d(x)>0x∈ω1;d(x)<0x∈ω2法向量方向为正的方向,d(x)>0 x \in \omega_1;\\d(x)<0 x \in \omega_2d(x)>0xω1;d(x)<0xω2--
Fisher准则函数(降维,找JF(w)=(m1(y)−m2(y))2S12(y)+S12(y)J_F(w)={{(m_1(y)-m_2(y))^2}\over {S_1^2(y)+S_1^2(y)}}JF(w)=S12(y)+S12(y)(m1(y)m2(y))2最大的w)d维空间–>1维且仍可分,yn=wTxny_n=w^Tx_nyn=wTxn;找类间距离大,类内距离小的最佳投影方向;d(yn)=T(阈值)d(y_n)=T(阈值)d(yn)=T()d(yn)>Tx∈ω1;d(yn)<Tx∈ω2d(y_n)>T x \in \omega_1; d(y_n)<T x \in \omega_2d(yn)>Txω1;d(yn)<Txω2降维-
决策树二叉树,每个特征分一次符合特征就专项分支到哪个叶子,就是哪一类概念简单、直观、便于解释,可用先验知识不易得到最优

感知机

  • 描述感知机模型,并给出权值学习算法。在此基础上,以仅有一个隐含层的三层神将网络为例,形式化描述BP算法中是如何对隐含层和神经元之间的连接权重调整的。
    • 感知机模型:y=WTx,>0分为w1类,<0分为w2类;分错:Wt+1=Wt+yi∗xi,分对了:Wt+1=Wty=W^Tx,>0分为w1类,<0分为w2类;分错:W_{t+1}=W_t+y_i*x_i,分对了:W_{t+1}=W_ty=WTx,>0w1<0w2Wt+1=Wt+yixiWt+1=Wt
      在这里插入图片描述在这里插入图片描述

势函数法

在这里插入图片描述
在这里插入图片描述在这里插入图片描述

9.势函数法(非线性)

  • 一个样本一个势函数
  • 计算积累位势函数K(x)
    • xk+1∈ω1:Kk(xk+1)<0x_{k+1} \in \omega_1:K_k(x_{k+1})<0xk+1ω1Kk(xk+1)<0则分错了:修改K(x)
    • xk+1∈ω1:Kk(xk+1)>0x_{k+1} \in \omega_1:K_k(x_{k+1})>0xk+1ω1Kk(xk+1)>0正确,不变
  • 初始化K1(x)=K_{1}(x)=K1(x)=
    • K(x,x1),x1∈ω1K(x,x_1),x_1 \in \omega_1K(x,x1),x1ω1
    • −K(x,x1),x1∈ω2-K(x,x_1),x_1 \in \omega_2K(x,x1),x1ω2
  • 迭代
    • 分错:
      • Kk+1(x)=Kk(x)+K(x,xk+1),xk+1∈ω1K_{k+1}(x)=K_{k}(x)+K(x,x_{k+1}),x_{k+1} \in \omega_1Kk+1(x)=Kk(x)+K(x,xk+1),xk+1ω1
      • Kk+1(x)=Kk(x)−K(x,xk+1),xk+1∈ω2K_{k+1}(x)=K_{k}(x)-K(x,x_{k+1}),x_{k+1} \in \omega_2Kk+1(x)=Kk(x)K(x,xk+1),xk+1ω2
    • 正确:
      • 不变
  • x=(x1,x2)T,xk=(xk1,xk2)Tx=(x_1,x_2)^T,x_k=(x_{k_1},x_{k_2})^Tx=(x1,x2)T,xk=(xk1xk2)T
  • 如何选择势函数
    1. K(x,xk)=K(xk,x)<==>当且仅当x=xk时最大
    2. x距离xk越远越小,无穷远则趋于0
    3. 光滑的,x距离xk越远越小
9.1Hermite
  • Hermite多项式
    • H0(x)=1H_0(x)=1H0(x)=1
    • H1(x)=2xH_1(x)=2xH1(x)=2x——一次多项式的K取到这里
    • H2(x)=4x2−2H_2(x)=4x^2-2H2(x)=4x22————二次多项式的K取到这里
  • 建立二维正交函数集:(一次的,前两项排列组合
    • ϕ1(x)=ϕ1(x1,x2)=H0(x1)H0(x2)=1\phi_1(x)=\phi_1(x_1,x_2)=H_0(x_1)H_0(x_2)=1ϕ1(x)=ϕ1(x1,x2)=H0(x1)H0(x2)=1
    • ϕ2(x)=ϕ2(x1,x2)=H1(x1)H0(x2)=2x1\phi_2(x)=\phi_2(x_1,x_2)=H_1(x_1)H_0(x_2)=2x_1ϕ2(x)=ϕ2(x1,x2)=H1(x1)H0(x2)=2x1
    • ϕ3(x)=ϕ3(x1,x2)=H0(x1)H1(x2)=2x2\phi_3(x)=\phi_3(x_1,x_2)=H_0(x_1)H_1(x_2)=2x_2ϕ3(x)=ϕ3(x1,x2)=H0(x1)H1(x2)=2x2
    • ϕ4(x)=ϕ4(x1,x2)=H1(x1)H1(x2)=4x1x2\phi_4(x)=\phi_4(x_1,x_2)=H_1(x_1)H_1(x_2)=4x_1x_2ϕ4(x)=ϕ4(x1,x2)=H1(x1)H1(x2)=4x1x2
  • K(x,xk)=Σi=14ϕi(x)ϕi(xk)=1+4x1xk1+4x2xk2+16x1xk1x2xk2K(x,x_k)=\Sigma_{i=1}^4\phi_i(x)\phi_i(x_k)=1+4x_1x_{k_1}+4x_2x_{k_2}+16x_1x_{k_1}x_2x_{k_2}K(x,xk)=Σi=14ϕi(x)ϕi(xk)=1+4x1xk1+4x2xk2+16x1xk1x2xk2
    • 对样本x1=(1,0)T:K1(x)=K1(x,x1)=1+4x1x_1=(1,0)^T:K_1(x)=K_1(x,x_1)=1+4x_1x1=(1,0)T:K1(x)=K1(x,x1)=1+4x1——xk=x1
    • x2=(0,−1)TK1(x2,x1)=1>0,分对了,所以K2(x)=K1(x)x_2=(0,-1)^T K_1(x_2,x_1)=1>0,分对了,所以K_2(x)=K_1(x)x2=(0,1)TK1(x2,x1)=1>0,K2(x)=K1(x)——看是否分对的时候x=x2
    • 二次hermit
      在这里插入图片描述
9.2z第二种:指数势函数
  • K(x,xk)=exp(−α∥x−xk∥2)K(x,x_k)=exp(-\alpha \|x-x_k\|^2)K(x,xk)=exp(αxxk2)
    • 二维α=1,K(x,xk)=exp(−((x1−xk1)2+(x2−xk2)2))\alpha=1,K(x,x_k)=exp(-((x_1-x_{k_1})^2+(x_2-x_{k_2})^2))α=1,K(x,xk)=exp(((x1xk1)2+(x2xk2)2))

偏差方差分解过程

  • 偏差-方差分解
    • expectedloss=bias2+variance+noiseexpected loss=bias^2+variance +noiseexpectedloss=bias2+variance+noise
    • expectedloss=E(fD)=∫∫(fD(x)−y)2p(x,y)dxdy={∫(fD(x)−h(x))2p(x)dx+∫∫(h(x)−y)2p(x,y)dxdy}=(ED(fD(x))−h(x))2+ED(fD(x)−ED(fD(x)))2+∫∫(h(x)−y)2p(x,y)dxdyexpected loss=E(f_D)= \int \int (f_D(x)-y)^2p(x,y)dxdy\\=\{\int (f_D(x)-h(x))^2p(x)dx+\int \int (h(x)-y)^2p(x,y)dxdy\}\\=(E_D(f_D(x))-h(x))^2+E_D(f_D(x)-E_D(f_D(x)))^2+\int \int (h(x)-y)^2p(x,y)dxdyexpectedloss=E(fD)=(fD(x)y)2p(x,y)dxdy={(fD(x)h(x))2p(x)dx+(h(x)y)2p(x,y)dxdy}=(ED(fD(x))h(x))2+ED(fD(x)ED(fD(x)))2+(h(x)y)2p(x,y)dxdy
    • bias=ED(fD(x))−h(x),预测结果的均值和最优解的差别bias=E_D(f_D(x))-h(x),预测结果的均值和最优解的差别bias=ED(fD(x))h(x)
      • 模型越复杂,偏差越小
    • variance=ED(fD(x)−ED(fD(x)))2,预测的结果自己和自己均值的差别variance=E_D(f_D(x)-E_D(f_D(x)))^2,预测的结果自己和自己均值的差别variance=ED(fD(x)ED(fD(x)))2,
      • 模型越复杂,方差越大
    • noise=∫∫(h(x)−y)2p(x,y)dxdynoise=\int \int (h(x)-y)^2p(x,y)dxdynoise=(h(x)y)2p(x,y)dxdy --不论如何也解决不了的部分,不用管了
    • ED(fD(x))=fˉD(x)E_D(f_D(x))=\bar{f}_D(x)ED(fD(x))=fˉD(x)
      在这里插入图片描述

降维PCA

在这里插入图片描述

  • X1=(−5−5−4−5−6−5−4−5−6−5)X2=(5565456545)M1=(−5,−5)T;M2=(5,5)T;M1+M2=0不用变化C=P(w1)X1X1T/5+P(w2)X2X2T/5=0.5(25.4252525.4)+0.5(25.4252525.4)=(25.4252525.4)C=WΣWT=12(−1111)(0.40050.4)12(−1111)TW=12(−1111)取W′=12(1,1)TZ1=WTX1=12(1,1)(−5−5−4−5−6−5−4−5−6−5)=12(−10−−9−9−11−11)Z1=WTX1=12(1,1)(5565456545)=12(10111199)X1=\left(\begin{matrix}-5&-5&-4&-5&-6\\-5&-4&-5&-6&-5\end{matrix}\right)\\ X2=\left(\begin{matrix}5&5&6&5&4\\5&6&5&4&5\end{matrix}\right)\\ M1=(-5,-5)^T;M2=(5,5)^T;M1+M2=0不用变化\\ C=P(w_1)X1X1^T/5+P(w_2)X2X2^T/5=0.5\left(\begin{matrix}25.4&25\\25&25.4\end{matrix}\right)+0.5\left(\begin{matrix}25.4&25\\25&25.4\end{matrix}\right)=\left(\begin{matrix}25.4&25\\25&25.4\end{matrix}\right)\\ C=W\Sigma W^T=\frac{1}{\sqrt{2}}\left(\begin{matrix}-1&1\\1&1\end{matrix}\right)\left(\begin{matrix}0.4&0\\0&50.4\end{matrix}\right)\frac{1}{\sqrt{2}}\left(\begin{matrix}-1&1\\1&1\end{matrix}\right)^T\\ W=\frac{1}{\sqrt{2}}\left(\begin{matrix}-1&1\\1&1\end{matrix}\right)\\ 取W'=\frac{1}{\sqrt{2}}(1,1)^T\\ Z1=W^TX1=\frac{1}{\sqrt{2}}(1,1)\left(\begin{matrix}-5&-5&-4&-5&-6\\-5&-4&-5&-6&-5\end{matrix}\right)=\frac{1}{\sqrt{2}}\left(\begin{matrix}-10&--9&-9&-11&-11\end{matrix}\right)\\ Z1=W^TX1=\frac{1}{\sqrt{2}}(1,1)\left(\begin{matrix}5&5&6&5&4\\5&6&5&4&5\end{matrix}\right)=\frac{1}{\sqrt{2}}\left(\begin{matrix}10&11&11&9&9\end{matrix}\right)X1=(5554455665)X2=(5556655445)M1=(5,5)T;M2=(5,5)T;M1+M2=0C=P(w1)X1X1T/5+P(w2)X2X2T/5=0.5(25.4252525.4)+0.5(25.4252525.4)=(25.4252525.4)C=WΣWT=21(1111)(0.40050.4)21(1111)TW=21(1111)W=21(1,1)TZ1=WTX1=21(1,1)(5554455665)=21(10991111)Z1=WTX1=21(1,1)(5556655445)=21(10111199)

  • 思想:最小化重构误差

  • 算法:(不区分类别)

    1. 均值化为0:xi=xi−1mΣj=1mxj−−−这是所有样本的均值,若有多类,则是多类样本均值之和x_i=x_i-\frac{1}{m}\Sigma_{j=1}^mx_j---这是所有样本的均值,若有多类,则是多类样本均值之和xi=xim1Σj=1mxj
    2. 计算XXTXX^TXXT
    3. C=E(XXT)C=E(XX^T)C=E(XXT)特征分解(SVD取U)(C-协方差)
    4. 取前d‘个特征向量:W=(w1,w2,...,wd′)W=(w_1,w_2,...,w_{d'})W=(w1,w2,...,wd)
    5. z=WTxz=W^Txz=WTx
  • 算法:(区分类别)

    1. 均值化为0:xi=xi−m,m=m1+m2−−−这是所有样本的均值,若有多类,则是多类样本均值之和,x_i=x_i-m,m=m_1+m_2---这是所有样本的均值,若有多类,则是多类样本均值之和,xi=xim,m=m1+m2
    2. 计算XXTXX^TXXT
    3. C=p(w1)E(X1X1T)+p(w2)E(X2X2T)=VΣVT,V的列向量为特征向量W=V,VTCV=ΣC=p(w_1)E(X_1X_1^T)+p(w_2)E(X_2X_2^T)=V\Sigma V^T,V的列向量为特征向量W=V,V^TCV=\SigmaC=p(w1)E(X1X1T)+p(w2)E(X2X2T)=VΣVT,VW=VVTCV=Σ特征分解(SVD取U)(C-协方差)
    4. 取前d‘个特征向量:W=(w1,w2,...,wd′),wi为列向量−特征向量W=(w_1,w_2,...,w_{d'}),w_i为列向量-特征向量W=(w1,w2,...,wd),wi
    5. z=WTx,x是均值归0后的z=W^Tx,x是均值归0后的z=WTx,x0
  • PCA优化目标

    • 最小化重构误差
    • PCA能够获取互不相关的新特征。采用较大特征值对应的特征向量变换,则能保留元模式中方差最大的特征部分,所以K-L变换起到了减小相关性,突出差异性的效果==KL变换

SVM

在这里插入图片描述

原问题拉格朗日对偶问题分界面最终参数
hard marginminw12∥w∥2min_w \frac{1}{2}\|w\|^2minw21w2约束yi(wTxi)>=1,对任意iy^i(w^Tx^i)>=1,对任意iyi(wTxi)>=1,iL(λi,w,b)=Σi=1Nλi(1−yi(wTxi+b))++12∥w∥2L(\lambda_i,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b))_++\frac{1}{2} \|w\|^2L(λi,w,b)=Σi=1Nλi(1yi(wTxi+b))++21w2maxλθD(λ)=Σi=1nλi−12Σi,j=1nyiyjλiλj(xi)Txjmax_\lambda \theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^jmaxλθD(λ)=Σi=1nλi21Σi,j=1nyiyjλiλj(xi)Txj约束:λi>=0;Σi=1nλiyi=0\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0λi>=0;Σi=1nλiyi=0b∗+Σi=1nλi∗yi(xi)Txj=0b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j=0b+Σi=1nλiyi(xi)Txj=0w∗=Σi=1nλi∗yixi;b∗=yj−Σi=1nλi∗yi(xi)Txjw*=\Sigma_{i=1}^n \lambda_i*y^ix^i;b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^jw=Σi=1nλiyixi;b=yjΣi=1nλiyi(xi)Txj
softminw12∥w∥2+CΣi=1nξimin_w \frac{1}{2}\|w\|^2+C\Sigma_{i=1}^n\xi_iminw21w2+CΣi=1nξi约束yi(wTxi)>=1−ξi,ξi≥0,对任意iy^i(w^Tx^i)>=1-\xi_i,\xi_i \geq 0,对任意iyi(wTxi)>=1ξi,ξi0,iL(λi,ηi,ξ,w,b)=Σi=1Nλi(1−yi(wTxi+b)−ξi)−Σi=1nηiξi+12∥w∥2L(\lambda_i,\eta_i,\xi,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b)-\xi_i)-\Sigma_{i=1}^n\eta_i \xi_i+\frac{1}{2} \|w\|^2L(λi,ηi,ξ,w,b)=Σi=1Nλi(1yi(wTxi+b)ξi)Σi=1nηiξi+21w2maxλθD(λ)=Σi=1nλi−12Σi,j=1nyiyjλiλj(xi)Txjmax_\lambda \theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^jmaxλθD(λ)=Σi=1nλi21Σi,j=1nyiyjλiλj(xi)Txj 约束:0≤λi≤C=λi+ηi(ηi>=0);Σi=1nλiyi=00 \leq \lambda_i\leq C=\lambda_i+\eta_i(\eta_i>=0);\Sigma_{i=1}^n\lambda_iy^i=00λiC=λi+ηi(ηi>=0);Σi=1nλiyi=0b∗+Σi=1nλi∗yi(xi)Txj=0b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j=0b+Σi=1nλiyi(xi)Txj=0w∗=Σi=1nλi∗yixi;b∗=yj−Σi=1nλi∗yi(xi)Txjw*=\Sigma_{i=1}^n \lambda_i*y^ix^i;b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^jw=Σi=1nλiyixi;b=yjΣi=1nλiyi(xi)Txj
kernel--θD(λ)=Σi=1nλi−12Σi,j=1nyiyjλiλjK(xi,xj)\theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_jK(x^i,x^j)θD(λ)=Σi=1nλi21Σi,j=1nyiyjλiλjK(xi,xj)约束:λi>=0;Σi=1nλiyi=0\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0λi>=0;Σi=1nλiyi=0w∗=Σi=1nλi∗yixib∗=yj−Σi=1nλi∗yiK(xi,xj)w*=\Sigma_{i=1}^n \lambda_i*y^ix^i\\b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i K(x^i,x^j)w=Σi=1nλiyixib=yjΣi=1nλiyiK(xi,xj)
  • SMO
    • 每次对一对,其他n-2个固定:λ1y1+λ2y2=−Σi=3Nαiyi=C\lambda_1y^1+\lambda_2y^2=-\Sigma_{i=3}^N\alpha_iy^i=Cλ1y1+λ2y2=Σi=3Nαiyi=C
      • λ1=(C−λ2y2)y1\lambda_1=(C-\lambda_2y^2)y^1λ1=(Cλ2y2)y1
      • L((C−λ2y2)y1,λ2,...,λN),先忽略约束求导,得到λ2new,unclipped,再加上约束L((C-\lambda_2y^2)y^1,\lambda_2,...,\lambda_N),先忽略约束求导,得到\lambda_2^{new,unclipped},再加上约束L((Cλ2y2)y1,λ2,...,λNλ2new,unclipped
      • 用λ2更新λ1:λ1new=λ1old(λ2old−λ2new)y2y1用\lambda_2更新\lambda_1:\lambda_1^{new}=\lambda_1^{old}(\lambda_2^{old}-\lambda_2^{new})y^2y^1λ2λ1:λ1new=λ1old(λ2oldλ2new)y2y1
    • 从那一对开始呢?

神经网络

人工神经网络

  1. 定义
    所谓人工神经网络就是基于模仿生物大脑的结构和功能而构成的一种信息处理系统(计算机)。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。由于我们建立的信息处理系统实际上是模仿生理神经网络,因此称它为人工神经网络。
  2. 特点
    • 固有的并行结构和并行处理;
    • 知识的分布存储;
    • 容错性;
    • 自适应性;
  • 人工神经网络也有其局限性(
    • 不适于高精度的计算、
    • 不适于类似顺序计数的工作、
    • 学习和训练是一个艰难的过程、
    • 必须克服时间域顺序处理方面的困难、
    • 硬件限制、
    • 正确的训练数据的收集)。
  1. 考虑因素
    要基于应用的要求和人工神经网络模型的能力间的匹配,主要考虑因素包括:
    网络大小、所需输出类型、联想记忆类型、训练方法、时间的限定。
why deep
  1. 深层结构能够有效地表达
    1. 对相同函数需要更少的计算单元
    2. 高层可以综合利用低层信息
  2. 深层结构产生层次化的特征表达
    1. 可解释性,更有语义化信息
  3. 多层隐变量允许统计上的组合共享
  4. 有效

BP:

在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述

CNN

  • CNN基本操作的含义
  • 卷积层: 检测某种特异性特征,不同的权值组合检测不同的特征,通过局部连接,参数共享降低参数数量
  • 池化层:平移不变性和旋转不变性(下采样+降维)
  • 激活函数(RELU)层: 非线性。
  • 多层:层级性

特征提取方式的变更(目标检测)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481625.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

城市大脑已经几岁?城市大脑发展成熟度的年龄评估模型

说明&#xff1a;该论文由科学院研究团队刘颖、刘锋于2022年7月发表在《科技导报》第14期&#xff0c;是对城市大脑发展成熟度的探索研究&#xff0c;为构建城市大脑发展成熟度评估规范提供参考。根据研究团队建立的评估模型&#xff0c;进行初步评估&#xff0c;提出目前城市大…

GMM

GMM 一个类一个正态分布N(μk,Σk)N(\mu_k,\Sigma_k)N(μk​,Σk​) 有监督无监督半监督目标函数Llogp(Xl,Yl∥θ)Σi1llogp(yi∥θ)p(xi∥yi,θ)Σi1llogαyiN(xi∥θyi)Llogp(X_l,Y_l\|\theta)\Sigma_{i1}^llogp(y_i\|\theta)p(x_i\|y_i,\theta)\\\Sigma_{i1}^llog \alpha_…

城市大脑已经几岁?城市大脑发展成熟度的年龄评估模型(修改版)

说明&#xff1a;该论文由科学院研究团队刘颖、刘锋于2022年7月发表在《科技导报》第14期&#xff0c;是对城市大脑发展成熟度的探索研究&#xff0c;为构建城市大脑发展成熟度评估规范提供参考。根据研究团队建立的评估模型&#xff0c;进行初步评估&#xff0c;提出目前城市大…

2022年 AI 技术成熟度曲线

来源&#xff1a;Gartner公司编辑&#xff1a;蒲蒲近日&#xff0c;Gartner发布了最新的《2022年人工智能技术成熟度曲线》报告&#xff0c;报告称尽早采用复合型人工智能&#xff08;AI&#xff09;、决策智能等AI技术将给企业机构带来明显的竞争优势&#xff0c;缓解AI模型脆…

国科大prml--SVM

拉格朗日的原始问题是minw,bmaxλLmin_{w,b} max_{\lambda} Lminw,b​maxλ​L对偶问题是maxλminw,bLmax_{\lambda} min_{w,b}Lmaxλ​minw,b​L 原问题拉格朗日对偶问题分界面最终参数hard marginminw12∥w∥2min_w \frac{1}{2}\|w\|^2minw​21​∥w∥2约束yi(wTxi)>1,对…

科学家们正在使用人工智能来构想革命性的新蛋白质

来源&#xff1a;ScienceAI编译&#xff1a;白菜叶6 月&#xff0c;韩国监管机构授权使用人类设计的新型蛋白质制成首个药物&#xff0c;即 COVID 疫苗。该疫苗基于研究人员近十年前通过劳动密集型试错过程创造的球形蛋白质「纳米颗粒」。现在&#xff0c;由于人工智能&#xf…

多模态认知计算

来源&#xff1a;图灵人工智能 日常生活中, 人类至少利用视觉, 听觉等多种感官理解周围环境, 通过整合多种感知模态, 形成对事件的整体认识. 为使机器更好地模仿人类的认知能力, 多模态认知计算模拟人类的“联 觉”(Synaesthesia), 探索图像, 视频, 文本, 语音等多模态输入的高…

知识表示与知识图谱--介绍

知识表示与知识图谱 知识支撑 人类理解需要机器也需要知识工程 手段&#xff1a;信息技术特点&#xff1a;高效率、大容量目标&#xff1a;获取并利用知识与信息的技术例子 第一个专家系统&#xff1a;费根鲍姆知识工程语言TUILI--1982--陆汝衿专家系统开发环‘天马’--1987--…

「图学习推荐系统」最新2022综述

来源&#xff1a;专知协同过滤是一种被广泛应用于推荐系统中的方法,其利用不同用户之间(或不同物品之间)的相似性关系来过滤和抽 取用户和物品的交互信息,从而进行用户推荐.近年来,图神经网络因其出色的表示学习性能和良好的可扩展性逐渐成为推荐 领域中的一种新兴的范式.文中从…

2知识图谱的生命周期

知识图谱的生命周期 知识图谱 知识建模--建立本体ontolog 建什么 概念、实体的类型概念/实体的关联关系要求&#xff1a;可靠性方法 自顶向下--专家手工形成数据模式自底向上--实体--类 利用现有的标准转换从现有的高质量数据源中进行映射&#xff1a;用知识图谱--抽象建模--来…

nlp1-介绍

能做什么&#xff1f; 自然语言处理&#xff1a; 如何让计算机能够自动或半自动地理解自然语言文本&#xff0c;懂得人的意图和心声&#xff1f;如何让计算机实现海量语言文本的自动处理、挖掘和有效利用&#xff0c;满足不同用户的各种需求&#xff0c;实现个性化信息服务&…

经纬张颖:给科研技术背景创始人的十条建议

来源&#xff1a;动脉橙果局编辑&#xff1a; Light出品&#xff1a; 科技智谷"给科研技术背景创始人的十条建议近一年&#xff0c;随着经纬在科技类公司的投资比例更大、金额更多&#xff0c;我和这类创始人们也进行了更高频次的交流&#xff0c;更多地了解了他们的困惑和…

nlp2-数学基础(信息论,概率论、词义消歧)

文章目录概率论信息论计算熵计算信息熵、条件熵、联合熵波利尼亚语熵率噪声信道模型建立一个翻译词义消歧&#xff08;WSD贝叶斯最大熵的消歧方法概率论 在自然语言处理中&#xff0c;以句子为处理单位时一般假设句子独立于它前面的其它语句&#xff0c;句子的概率分布近似地符…

格鲁夫12年前惊人的预言,解释了今天美国对中国芯片所做的一切

来源&#xff1a; 未尽研究从芯片到光伏和动力电池&#xff0c;英特尔前董事长和CEO格鲁夫惊人地预言了美国制造业与科技当下所遇到的麻烦。他是一位以严厉著称的CEO&#xff0c;在美国金融危机刚结束之际&#xff0c;在商业杂志的封面发表了一篇犀利的评论。尤其是在美国硅谷如…

真正的人工智能,需要理解本体论

来源&#xff1a;混沌巡洋舰人工智能的终极语境是什么&#xff1f;真正的人工智能&#xff0c;需要理解本体论现在的人工智能技术突破或许具有划时代意义&#xff0c;但即使是计算能力最强大、最先进的机器&#xff0c;也达不到人类智能的层级。人工智能具备测算能力&#xff0…

知识图谱-架构图

binlog-MySQL的日志 用于实时处理与离线增量导入架构 Kafka消息队列 老虎队队长&#xff08;AV75056045)

知识图谱2-知识表示

知识表示的重要性 知识是智能的基础 机器可以获得知识机器可以运用知识符合计算机要求的知识模式 计算机能存储处理的知识表示模式数据结构ER模型Sql与RDF模型SPARQL对比 关系模型 关系显式定义&#xff08;RDF) 关系隐式定义(ER)(理解后写出来的表 数据变更时 RDF--数据变更…

韩国芯片教父:金钟基如何带领韩国成为半导体超级大国

来源 :大数据文摘编译&#xff1a;Mickey来源&#xff1a;https://spectrum.ieee.org/kim-choong-ki在韩国芯片行业有这样一群人的传说&#xff0c;他们被称为“金氏黑手党”。金钟基本人不会这么称呼这群人&#xff0c;但对韩国的半导体工程师们来说&#xff0c;“金氏黑手党”…

论文学习1-DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

文章目录摘要Introduction最近工作基于PRA的其他方法其他使用强化学习的方法我们的方法方法介绍&#xff08;强化学习摘要 研究了大规模知识图的学习推理问题。更具体地说&#xff0c;我们描述了一个用于学习多跳关系路径的新型强化学习框架:我们使用一个基于知识图嵌入的具有…

万字因果推断入门:为什么要做因果推断?

来源&#xff1a;PaperWeekly1、为什么需要因果推断1.1 辛普森悖论首先&#xff0c;考虑一个与现实情况很相关的例子&#xff1a;针对某种新冠病毒 COVID-27&#xff0c;假设有两种疗法&#xff1a;方案 A 和方案 B&#xff0c;B 比 A 更稀缺&#xff08;耗费的医疗资源更多&am…