常见组合函数
常见激活函数
结构
- 前馈神经网络(单向)
- 反馈/循环神经网络
学习方法
-
学习模型
- 增量
- 迭代
-
类型
- 监督
- 无监督
-
学习策略
- Hebbrian Learning
- 若两端的神经元同时激活,增强联接权重
- Unsupervised Learning
- 循环?
- ωij(t+1)=ωij(t)+η(xi(t),xj(t))\omega_{ij}(t+1)=\omega_{ij}(t)+\eta(x_i(t),x_j(t))ωij(t+1)=ωij(t)+η(xi(t),xj(t))
- Error Correction
- 最小化实际和输出的误差
- BP
- 目标函数:ω∗=argminω1KΣk=1Ke(Dk,Yk)\omega^* =argmin_{\omega} \frac{1}{K} \Sigma_{k=1}^Ke(D_k,Y_k)ω∗=argminωK1Σk=1Ke(Dk,Yk)
- 迭代:ω←ω+Δω=ω+ηδ\omega \leftarrow \omega+\Delta \omega= \omega+\eta \deltaω←ω+Δω=ω+ηδ
- delta rule(LMS rule,windrow-hoff
- BP
- 最小化实际和输出的误差
- 随机学习(模拟退火?)
- 采用随机模式,跳出局部极小
- 如果网络性能提高,新参数被接受.
- 否则,新参数依概率接受
- 采用随机模式,跳出局部极小
- Hebbrian Learning
重要的ANN
…损失函数… | …目标函数… | …激活函数… | …更新… | 特点 | |
---|---|---|---|---|---|
多层感知机(MLP,全连接) | L(y,f(x)) | R(f)=∫L(y,f(x))p(x,y)dx,Remf=ΣL(y,f(x))R(f) =\int L(y,f(x))p(x,y)dx,R_{emf}=\Sigma L(y,f(x))R(f)=∫L(y,f(x))p(x,y)dx,Remf=ΣL(y,f(x)) | v=σiωixi,y=f(v)v=\sigma_i\omega_ix_i,y=f(v)v=σiωixi,y=f(v) | 梯度法 | - |
多层感知机(MLP,全连接–>BP网络) | 平方误差 | - | v=σiωixi,y=f(v),f是sigmoid,ω=argmin(E)v=\sigma_i\omega_ix_i,y=f(v),f是sigmoid,\omega=argmin(E)v=σiωixi,y=f(v),f是sigmoid,ω=argmin(E) | 输入从前向后,损失从后向前(链式法则),梯度下降法 | 允许非线性,收敛慢,过拟合,局部极小,表达能力强,容易执行 |
单层感知机 | 看分类对错 | - | ωx=0,一面1,一面−1,权向量是一个超平面\omega x=0,一面1,一面-1,权向量是一个超平面ωx=0,一面1,一面−1,权向量是一个超平面 | ω=ω+y∗⋅x,y∗=1或−1(C,真实y,正确:y∗=y)\omega=\omega+y^* ·x,y^* =1或-1(C,真实y,正确:y^* =y )ω=ω+y∗⋅x,y∗=1或−1(C,真实y,正确:y∗=y) | 仅当线性可分时收敛,对噪声(不可分)/泛化性不好 |
单层感知机(最小二乘法) | 平方损失12Σi=1nΣk=1m(yk(xi)−tk,i)2\frac{1}{2}\Sigma_{i=1}^n\Sigma_{k=1}^m(y_k(x_i)-t_{k,i})^221Σi=1nΣk=1m(yk(xi)−tk,i)2 | - | y=v(线性的)y=v(线性的)y=v(线性的) | wT=(XTX)−1XTTw^T=(X^TX)^{-1}X^TTwT=(XTX)−1XTT | 仅当线性可分时收敛,对噪声(不可分)/泛化性不好 |
单层感知机(改进) | 平方损失E=12Σi=1nΣk=1m(yk(xi)−tk,i)2\frac{1}{2}\Sigma_{i=1}^n\Sigma_{k=1}^m(y_k(x_i)-t_{k,i})^221Σi=1nΣk=1m(yk(xi)−tk,i)2 | - | y=11+e−v(sigmoidy=\frac{1}{1+e^{-v}}(sigmoidy=1+e−v1(sigmoid | $\frac{ | |
\partial E}{\partial w_k}=\Sigma_{i=1}n\Sigma_{k=1}m(y_k(x_i)-t_{k,i})y_k(x_i)(1-y_k(x_i))x_i$ | 仅当线性可分时收敛,对噪声(不可分),泛化性不好 | ||||
支持向量机 | - | 最大化间隔,约束:minω12∥ω∥2,yiωTxi≥1,任意i,小于则为0(relu)min_\omega \frac{1}{2} \|\omega\|^2,y_i\omega^Tx_i \geq 1,任意i,小于则为0(relu)minω21∥ω∥2,yiωTxi≥1,任意i,小于则为0(relu) | - | - | 可以找到最好的分界面,解决了泛化性 |
Hopfield网络(能量稳定点-记忆) | - | 有输入:E=−12Σi=0nΣj=0nωijsisj−Σi=0nIisi,没有输入则去除后面的E=-\frac{1}{2}\Sigma_{i=0}^n\Sigma_{j=0}^n\omega_{ij}s_is_j-\Sigma_{i=0}^nI_is_i,没有输入则去除后面的E=−21Σi=0nΣj=0nωijsisj−Σi=0nIisi,没有输入则去除后面的 | wij=ji(i!=j) | 权值是设定的wij=Σk=1Kxikxjk,i≠j,否则0(n∗n矩阵)(s=x)权值是设定的w_{ij}=\Sigma_{k=1}^Kx_{ik}x_{jk},i\neq j,否则0(n* n矩阵)(s=x)权值是设定的wij=Σk=1Kxikxjk,i=j,否则0(n∗n矩阵)(s=x) | f分布式记忆,动态联想,记忆容量有限,伪稳定点的联想与记忆,样本接近时,难以回忆 |
感知机
-
感知机收敛定理:线性可分则收敛
- w、x是增广得到的
- 若数据集可分,
- 存在w∗(∣∣w∗∣∣=1),γ>0,使得ytw∗xt≥γw^* (||w^* ||=1),\gamma>0,使得y_tw^* x_t\geq \gammaw∗(∣∣w∗∣∣=1),γ>0,使得ytw∗xt≥γ
- 令最终分离超平面参数为w∗(∣∣w∗∣∣=1)w^* (||w^* ||=1)w∗(∣∣w∗∣∣=1)
- wkw∗=(wk−1+xtyt)w∗≥wk−1w∗+γ≥...≥kγw_kw^* =(w_{k-1}+x_ty_t)w^* \geq w_{k-1}w^* + \gamma \geq ...\geq k\gammawkw∗=(wk−1+xtyt)w∗≥wk−1w∗+γ≥...≥kγ
- ∣∣wk∣∣2=∣∣wk+1+xtyt∣∣2=∣∣wk−1∣∣2+2wk−1Txtyt+∣∣xt∣∣2||w_k||^2=||w_{k+1}+x_ty_t||^2=||w_{k-1}||^2+2w_{k-1}^Tx_ty_t+||x_t||^2∣∣wk∣∣2=∣∣wk+1+xtyt∣∣2=∣∣wk−1∣∣2+2wk−1Txtyt+∣∣xt∣∣2——yt=1
- ≤∣∣wk−1∣∣2+∣∣xt∣∣2≤∣∣wk−1∣∣2+R2≤...≤kR2\leq ||w_{k-1}||^2+||x_t||^2\leq ||w_{k-1}||^2+R^2 \leq ...\leq kR^2≤∣∣wk−1∣∣2+∣∣xt∣∣2≤∣∣wk−1∣∣2+R2≤...≤kR2
- 所以kγ≤wkw∗≤∣∣wk∣∣∣∣w∗∣∣≤kRk\gamma \leq w_kw^* \leq ||w_k||||w^* || \leq \sqrt{k} Rkγ≤wkw∗≤∣∣wk∣∣∣∣w∗∣∣≤kR
- k≤R2γ2k\leq \frac{R^2}{\gamma^2}k≤γ2R2
-
改进
- sigmoid激活函数
- 批处理
- 一次性更新权重
- 收敛慢
- 增量模式
- 逐样本更新
- 随机近似,但速度快能保证收敛
- 批处理
- sigmoid激活函数
-
MLP(多层感知机
- 在实际应用中
- 预处理很重要—normalize
- 调整学习率——ηt=1/t\eta_t=1/tηt=1/t
- 表达能力强
- 容易执行
- 收敛速度慢
- newton法
- 过拟合(
- 正则化,约束权值平滑性
- 采用更少的隐层单元
- 局部极小(不同的初始化,增加扰动
- 三层-所有连续函数
- 4层:多层连续
- 权重如何学习?BP–链式法则计算反向传递
- 在实际应用中
Hopfield
- 应用
- 将优化目标函数转换成能量函数(energy function)——网络的稳定状态是优化问题的解
- 两个稳态:——>解
- E最大——>w1
- E最小——>w2
- 两个工作方式
- 异步:每次只改变一个状态x_i
- 同步:所有状态均改变:x1~xn
- 反馈网络(无向有权图)
- 权值是设定的,而不是学习出来的
- TSP:
- Hopfield网络:l邻接矩阵
- 行:城市;列:时间,每行只有一个亮,每列也只有一个on