- 拉格朗日的原始问题是minw,bmaxλLmin_{w,b} max_{\lambda} Lminw,bmaxλL
- 对偶问题是maxλminw,bLmax_{\lambda} min_{w,b}Lmaxλminw,bL
原问题 | 拉格朗日 | 对偶问题 | 分界面 | 最终参数 | |
---|---|---|---|---|---|
hard margin | minw12∥w∥2min_w \frac{1}{2}\|w\|^2minw21∥w∥2约束yi(wTxi)>=1,对任意iy^i(w^Tx^i)>=1,对任意iyi(wTxi)>=1,对任意i | L(λi,w,b)=Σi=1Nλi(1−yi(wTxi+b))++12∥w∥2L(\lambda_i,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b))_++\frac{1}{2} \|w\|^2L(λi,w,b)=Σi=1Nλi(1−yi(wTxi+b))++21∥w∥2 | maxλθD(λ)=Σi=1nλi−12Σi,j=1nyiyjλiλj(xi)Txjmax_\lambda \theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^jmaxλθD(λ)=Σi=1nλi−21Σi,j=1nyiyjλiλj(xi)Txj约束:λi>=0;Σi=1nλiyi=0\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0λi>=0;Σi=1nλiyi=0 | b∗+Σi=1nλi∗yi(xi)Txj=0b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j=0b∗+Σi=1nλi∗yi(xi)Txj=0 | w∗=Σi=1nλi∗yixi;b∗=yj−Σi=1nλi∗yi(xi)Txjw*=\Sigma_{i=1}^n \lambda_i*y^ix^i;b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^jw∗=Σi=1nλi∗yixi;b∗=yj−Σi=1nλi∗yi(xi)Txj |
soft | minw12∥w∥2+CΣi=1nξimin_w \frac{1}{2}\|w\|^2+C\Sigma_{i=1}^n\xi_iminw21∥w∥2+CΣi=1nξi约束yi(wTxi)>=1−ξi,ξi≥0,对任意iy^i(w^Tx^i)>=1-\xi_i,\xi_i \geq 0,对任意iyi(wTxi)>=1−ξi,ξi≥0,对任意i | L(λi,ηi,ξ,w,b)=Σi=1Nλi(1−yi(wTxi+b)−ξi)−Σi=1nηiξi+12∥w∥2L(\lambda_i,\eta_i,\xi,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b)-\xi_i)-\Sigma_{i=1}^n\eta_i \xi_i+\frac{1}{2} \|w\|^2L(λi,ηi,ξ,w,b)=Σi=1Nλi(1−yi(wTxi+b)−ξi)−Σi=1nηiξi+21∥w∥2 | maxλθD(λ)=Σi=1nλi−12Σi,j=1nyiyjλiλj(xi)Txjmax_\lambda \theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^jmaxλθD(λ)=Σi=1nλi−21Σi,j=1nyiyjλiλj(xi)Txj 约束:0≤λi≤C=λi+ηi(ηi>=0);Σi=1nλiyi=00 \leq \lambda_i\leq C=\lambda_i+\eta_i(\eta_i>=0);\Sigma_{i=1}^n\lambda_iy^i=00≤λi≤C=λi+ηi(ηi>=0);Σi=1nλiyi=0 | b∗+Σi=1nλi∗yi(xi)Txj=0b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j=0b∗+Σi=1nλi∗yi(xi)Txj=0 | w∗=Σi=1nλi∗yixi;b∗=yj−Σi=1nλi∗yi(xi)Txjw*=\Sigma_{i=1}^n \lambda_i*y^ix^i;b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^jw∗=Σi=1nλi∗yixi;b∗=yj−Σi=1nλi∗yi(xi)Txj |
kernel | - | - | θD(λ)=Σi=1nλi−12Σi,j=1nyiyjλiλjK(xi,xj)\theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_jK(x^i,x^j)θD(λ)=Σi=1nλi−21Σi,j=1nyiyjλiλjK(xi,xj)约束:λi>=0;Σi=1nλiyi=0\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0λi>=0;Σi=1nλiyi=0 | w∗=Σi=1nλi∗yixib∗=yj−Σi=1nλi∗yiK(xi,xj)w*=\Sigma_{i=1}^n \lambda_i*y^ix^i\\b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i K(x^i,x^j)w∗=Σi=1nλi∗yixib∗=yj−Σi=1nλi∗yiK(xi,xj) |
hard margin
- 原问题
- minw12∣∣w∣∣2min_w \frac{1}{2}||w||^2minw21∣∣w∣∣2
- 约束yi(wTxi)>=1,对任意iy^i(w^Tx^i)>=1,对任意iyi(wTxi)>=1,对任意i
- 拉格朗日:
- L(λi,w,b)=Σi=1Nλi(1−yi(wTxi+b))++12∣∣w∣∣2L(\lambda_i,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b))_++\frac{1}{2} ||w||^2L(λi,w,b)=Σi=1Nλi(1−yi(wTxi+b))++21∣∣w∣∣2(拉格朗日问题)
- 损失函数
- Σi=1Ni(1−yi(wTxi+b))++λ∣∣w∣∣2\Sigma_{i=1}^Ni(1-y^i(w^Tx^i+b))_++\lambda||w||^2Σi=1Ni(1−yi(wTxi+b))++λ∣∣w∣∣2
- 目标函数(hinge loss function)
- (1−yi(wTxi+b))+(1-y^i(w^Tx^i+b))_+(1−yi(wTxi+b))+
- 得到对偶形式:
- θD(λ)=Σi=1nλi−12Σi,j=1nyiyjλiλj(xi)Txj\theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^jθD(λ)=Σi=1nλi−21Σi,j=1nyiyjλiλj(xi)Txj
- 约束:λi>=0;Σi=1nλiyi=0\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0λi>=0;Σi=1nλiyi=0
- 时间复杂度O(N3)O(N^3)O(N3)
- 空间复杂度O(N2)O(N^2)O(N2)
- 最终结果
- w∗=Σi=1nλi∗yixiw*=\Sigma_{i=1}^n \lambda_i*y^ix^iw∗=Σi=1nλi∗yixi
- b∗=yj−Σi=1nλi∗yi(xi)Txjb*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^jb∗=yj−Σi=1nλi∗yi(xi)Txj
- 所以分离超平面为:b∗+Σi=1nλi∗yi(xi)Txj=0b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j=0b∗+Σi=1nλi∗yi(xi)Txj=0
- 决策函数:fw,b=sign(b∗+Σi=1nλi∗yi(xi)Txj)f_{w,b}=sign(b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j)fw,b=sign(b∗+Σi=1nλi∗yi(xi)Txj)
- 转化为对偶问题会简单化(原问题复杂度高)
- 拉格朗日的原始问题是minw,bmaxλLmin_{w,b} max_{\lambda} Lminw,bmaxλL
- 对偶问题是maxλminw,bLmax_{\lambda} min_{w,b}Lmaxλminw,bL
- 对偶问题:
- 消去w/bθD(w)=minw,bL\theta_D(w)=min_{w,b}LθD(w)=minw,bL
- 求梯度
- ∂L∂w=w−Σi=1nλiyixi=0\frac{\partial L}{\partial w}=w-\Sigma_{i=1}^n \lambda_iy^ix^i=0∂w∂L=w−Σi=1nλiyixi=0
- w=Σi=1nλiyixiw=\Sigma_{i=1}^n \lambda_iy^ix^iw=Σi=1nλiyixi
- ∂L∂b=−Σi=1nλiyi=0\frac{\partial L}{\partial b}=-\Sigma_{i=1}^n \lambda_iy^i=0∂b∂L=−Σi=1nλiyi=0
- Σi=1nλiyi=0\Sigma_{i=1}^n \lambda_iy^i=0Σi=1nλiyi=0
- ∂L∂w=w−Σi=1nλiyixi=0\frac{\partial L}{\partial w}=w-\Sigma_{i=1}^n \lambda_iy^ix^i=0∂w∂L=w−Σi=1nλiyixi=0
- 结果带入L–得到对偶问题
- θD(λ)=Σi=1nλi−12Σi,j=1nyiyjλiλj(xi)Txj\theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^jθD(λ)=Σi=1nλi−21Σi,j=1nyiyjλiλj(xi)Txj
- 约束:λi>=0;Σi=1nλiyi=0\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0λi>=0;Σi=1nλiyi=0
- 求梯度
- 再求最大d∗<−−maxλθD(w)d^*<--max_{\lambda}\theta_D(w)d∗<−−maxλθD(w)
- 由新的对偶问题求极值点,得到最优解$\lambda* $
- 由此可以找到w∗,b∗w*,b*w∗,b∗
- w∗=Σi=1nλi∗yixiw*=\Sigma_{i=1}^n \lambda_i*y^ix^iw∗=Σi=1nλi∗yixi
- b∗=yj−Σi=1nλi∗yi(xi)Txjb*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^jb∗=yj−Σi=1nλi∗yi(xi)Txj
- 所以分离超平面为:b∗+Σi=1nλi∗yi(xi)Tx=0b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx=0b∗+Σi=1nλi∗yi(xi)Tx=0
- 决策函数:fw,b(x)=sign(b∗+Σi=1nλi∗yi(xi)Tx)f_{w,b}(x)=sign(b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx)fw,b(x)=sign(b∗+Σi=1nλi∗yi(xi)Tx)
- 可以看出
- 只受到支持向量的影响(其他的λ=0\lambda=0λ=0
- 正样本y=1,负样本y=-1,正样本对w起正向作用,负样本起负向作用
- 由新的对偶问题求极值点,得到最优解$\lambda* $
soft margin
- 问题描述
- minw12∣∣w∣∣2+CΣi=1nξimin_w \frac{1}{2}||w||^2+C\Sigma_{i=1}^n\xi_iminw21∣∣w∣∣2+CΣi=1nξi
- 约束yi(wTxi)>=1−ξi,ξi≥0,对任意iy^i(w^Tx^i)>=1-\xi_i,\xi_i \geq 0,对任意iyi(wTxi)>=1−ξi,ξi≥0,对任意i
- 凸函数的QP问题
- 对应拉格朗日函数:
- L(λi,ηi,ξ,w,b)=Σi=1Nλi(1−yi(wTxi+b)−ξi)−Σi=1nηiξi+12∣∣w∣∣2L(\lambda_i,\eta_i,\xi,w,b)=\Sigma_{i=1}^N\lambda_i(1-y^i(w^Tx^i+b)-\xi_i)-\Sigma_{i=1}^n\eta_i \xi_i+\frac{1}{2} ||w||^2L(λi,ηi,ξ,w,b)=Σi=1Nλi(1−yi(wTxi+b)−ξi)−Σi=1nηiξi+21∣∣w∣∣2
- 得到对偶形式:
- maxθD(λ)=Σi=1nλi−12Σi,j=1nyiyjλiλj(xi)Txjmax\theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^jmaxθD(λ)=Σi=1nλi−21Σi,j=1nyiyjλiλj(xi)Txj
- 约束:0≤λi≤C=λi+ηi(ηi>=0);Σi=1nλiyi=00 \leq \lambda_i\leq C=\lambda_i+\eta_i(\eta_i>=0);\Sigma_{i=1}^n\lambda_iy^i=00≤λi≤C=λi+ηi(ηi>=0);Σi=1nλiyi=0
- 原来λi\lambda_iλi可以无限大,因为线性可分
- C–容忍度是有限的,对应了λi\lambda_iλi–C越大越苛刻,margin越小,容忍度越小
-
C的三种理解方式
- 容忍度
- 在中间范围内也算是分错了的点
- C-会有多少个分错的点,C大容忍度小
- 对ξ\xiξ的惩罚,C越大,惩罚越大,越苛刻
- C=12λ,与λ是相反的,λ大,希望模型不要太复杂,也就是C小的情况C=\frac{1}{2\lambda},与\lambda是相反的,\lambda大,希望模型不要太复杂,也就是C小的情况C=2λ1,与λ是相反的,λ大,希望模型不要太复杂,也就是C小的情况
- 容忍度
-
回忆KKT
- λi∗fi(w∗)=0andηi∗ξi=0\lambda_i*f_i(w*)=0 and \eta_i*\xi_i=0λi∗fi(w∗)=0andηi∗ξi=0
- λi∗=0==>yi(b∗+w∗Txi)>1,在正确的地方\lambda_i*=0==>y^i(b*+w*^Tx^i)>1,在正确的地方λi∗=0==>yi(b∗+w∗Txi)>1,在正确的地方
- λi∗=0==>ηi∗=C>0==>ξ=0==>yi(b∗+w∗Txi)>1−ξ=1,在正确的地方\lambda_i*=0==>\eta_i*=C>0==>\xi=0==>y^i(b*+w*^Tx^i)>1-\xi=1,在正确的地方λi∗=0==>ηi∗=C>0==>ξ=0==>yi(b∗+w∗Txi)>1−ξ=1,在正确的地方
- 0<λi∗<C==>yi(b∗+w∗Txi)=1,在边界上−−−支持向量0<\lambda_i*<C==>y^i(b*+w*^Tx^i)=1,在边界上---支持向量0<λi∗<C==>yi(b∗+w∗Txi)=1,在边界上−−−支持向量
- λi∗>0==>ηi∗=C−λi∗>0==>ξ=0==>yi(b∗+w∗Txi)=1−ξ=1,在正确的地方\lambda_i*>0==>\eta_i*=C-\lambda_i*>0==>\xi=0==>y^i(b*+w*^Tx^i)=1-\xi=1,在正确的地方λi∗>0==>ηi∗=C−λi∗>0==>ξ=0==>yi(b∗+w∗Txi)=1−ξ=1,在正确的地方
- λi∗=C>0,ηi=0==>ξ>0==>yi(b∗+w∗Txi)=1−ξ<=1在错误的地方\lambda_i*=C>0,\eta_i=0==>\xi>0==>y^i(b*+w*^Tx^i)=1-\xi<=1在错误的地方λi∗=C>0,ηi=0==>ξ>0==>yi(b∗+w∗Txi)=1−ξ<=1在错误的地方
-
- 最终结果
- w∗=Σi=1nλi∗yixiw*=\Sigma_{i=1}^n \lambda_i*y^ix^iw∗=Σi=1nλi∗yixi
- b∗=yj−Σi=1nλi∗yi(xi)Txjb*=y^j-\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^jb∗=yj−Σi=1nλi∗yi(xi)Txj
- 所以分离超平面为:b∗+Σi=1nλi∗yi(xi)Txj=0b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j=0b∗+Σi=1nλi∗yi(xi)Txj=0
- 决策函数:fw,b=sign(b∗+Σi=1nλi∗yi(xi)Txj)f_{w,b}=sign(b*+\Sigma_{i=1}^n\lambda_i* y^i (x^i)^Tx^j)fw,b=sign(b∗+Σi=1nλi∗yi(xi)Txj)
kernel SVM
-
得到对偶形式:
- θD(λ)=Σi=1nλi−12Σi,j=1nyiyjλiλjK(xi,xj)\theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_jK(x^i,x^j)θD(λ)=Σi=1nλi−21Σi,j=1nyiyjλiλjK(xi,xj)
- 约束:λi>=0;Σi=1nλiyi=0\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0λi>=0;Σi=1nλiyi=0
- w∗=Σi=1nλi∗yixiw*=\Sigma_{i=1}^n \lambda_i*y^ix^iw∗=Σi=1nλi∗yixi
- b∗=yj−Σi=1nλi∗yiK(xi,xj)b*=y^j-\Sigma_{i=1}^n\lambda_i* y^i K(x^i,x^j)b∗=yj−Σi=1nλi∗yiK(xi,xj)
- 所以分离超平面为:b∗+Σi=1nλi∗yiK(xi,x)=0b*+\Sigma_{i=1}^n\lambda_i* y^i K(x^i,x)=0b∗+Σi=1nλi∗yiK(xi,x)=0
- 决策函数:fw,b(x)=w∗Tϕ(x)+b∗=sign(b∗+Σi=1nλi∗yiK(xi,x))f_{w,b}(x)=w*^T\phi(x)+b*=sign(b*+\Sigma_{i=1}^n\lambda_i* y^i K(x^i,x))fw,b(x)=w∗Tϕ(x)+b∗=sign(b∗+Σi=1nλi∗yiK(xi,x))
-
常见几种核
1. hillbert space:可以再生任意函数(最重要的)
* ϕ(x)=K(⋅,x)K(x,z)=K(⋅,x)⋅K(⋅,z)=ϕ(x)Tϕ(z)再生性:f(⋅)=Σi=1mαiK(⋅,xi)f(⋅)K(⋅,x)=Σi=1mαiK(x,xi)=f(x),都是这个空间的两个函数\phi(x)=K(·,x)\\K(x,z)=K(·,x)·K(·,z)=\phi(x)^T\phi(z)\\再生性:f(·)=\Sigma_{i=1}^m\alpha_iK(·,x^i)\\f(·)K(·,x)=\Sigma_{i=1}^m\alpha_iK(x,x^i)=f(x),都是这个空间的两个函数ϕ(x)=K(⋅,x)K(x,z)=K(⋅,x)⋅K(⋅,z)=ϕ(x)Tϕ(z)再生性:f(⋅)=Σi=1mαiK(⋅,xi)f(⋅)K(⋅,x)=Σi=1mαiK(x,xi)=f(x),都是这个空间的两个函数
2. 多项式核K(x,z)=(xTz+1)pK(x,z)=(x^Tz+1)^pK(x,z)=(xTz+1)p
3. 高斯核:K(x,z)=exp{−∥x−z∥22σ2}K(x,z)=exp\{-\frac{\|x-z\|^2}{2\sigma^2}\}K(x,z)=exp{−2σ2∥x−z∥2}–radial basis function(RBF)
* K(x,z)=exp{−dist(x,z)2σ2}K(x,z)=exp\{-\frac{dist(x,z)}{2\sigma^2}\}K(x,z)=exp{−2σ2dist(x,z)}
* f(x)=sign(Σi=1nαi∗yiexp{−∥x−z∥22σ2}+b∗)f(x)=sign(\Sigma_{i=1}^n\alpha_i^*y^iexp\{-\frac{\|x-z\|^2}{2\sigma^2}\}+b^*)f(x)=sign(Σi=1nαi∗yiexp{−2σ2∥x−z∥2}+b∗)
4. Sigmoid kernel:K(x,x′)=tanh(2xTx′+1)K(x,x')=tanh(2x^Tx'+1)K(x,x′)=tanh(2xTx′+1)
4.SMO–可以快速求解svm
- 用对偶形式
- 得到对偶形式:
- θD(λ)=Σi=1nλi−12Σi,j=1nyiyjλiλj(xi)Txj\theta_D(\lambda)=\Sigma_{i=1}^n\lambda_i-\frac{1}{2}\Sigma_{i,j=1}^ny^iy^j\lambda_i\lambda_j(x^i)^Tx^jθD(λ)=Σi=1nλi−21Σi,j=1nyiyjλiλj(xi)Txj
- 约束:λi>=0;Σi=1nλiyi=0\lambda_i>=0;\Sigma_{i=1}^n\lambda_iy^i=0λi>=0;Σi=1nλiyi=0
- Coordinate Ascent:每一次仅对一个λi\lambda_iλi求最大,从i=1,2,…,n
- 可以直接用在svm上吗?
- 不可以,λ\lambdaλ之间是线性相关的。
- 改进:每次对一对,其他n-2个固定,求最大。
- 可以直接用在svm上吗?
- SMO
- 每次对一对,其他n-2个固定:λ1y1+λ2y2=−Σi=3Nαiyi=C\lambda_1y^1+\lambda_2y^2=-\Sigma_{i=3}^N\alpha_iy^i=Cλ1y1+λ2y2=−Σi=3Nαiyi=C
- λ1=(C−λ2y2)y1\lambda_1=(C-\lambda_2y^2)y^1λ1=(C−λ2y2)y1
- L((C−λ2y2)y1,λ2,...,λN),先忽略约束求导,得到λ2new,unclipped,再加上约束L((C-\lambda_2y^2)y^1,\lambda_2,...,\lambda_N),先忽略约束求导,得到\lambda_2^{new,unclipped},再加上约束L((C−λ2y2)y1,λ2,...,λN),先忽略约束求导,得到λ2new,unclipped,再加上约束
- 用λ2更新λ1:λ1new=λ1old(λ2old−λ2new)y2y1用\lambda_2更新\lambda_1:\lambda_1^{new}=\lambda_1^{old}(\lambda_2^{old}-\lambda_2^{new})y^2y^1用λ2更新λ1:λ1new=λ1old(λ2old−λ2new)y2y1
- 从那一对开始呢?
- 最优的λ\lambdaλ肯定是满足KKT条件的
- λi=0<==>yig(xi)>=1\lambda_i=0<==>y^ig(x^i)>=1λi=0<==>yig(xi)>=1
- 0<λi<C<==>yig(xi)=10<\lambda_i<C<==>y^ig(x^i)=10<λi<C<==>yig(xi)=1
- λi=C<==>yig(xi)<=1\lambda_i=C<==>y^ig(x^i)<=1λi=C<==>yig(xi)<=1
- g(xi)=Σj=1NαjyjK(xi,xj)+bg(x_i)=\Sigma_{j=1}^N\alpha_jy^jK(x^i,x^j)+bg(xi)=Σj=1NαjyjK(xi,xj)+b
- 每次选择违背KKT条件最大的
- 从0<λi<C0<\lambda_i<C0<λi<C的开始,违背最多的选择一个
- 第二个有固定准则来选:E1-E2
- Ei=g(xi)−yiE_i=g(x^i)-y^iEi=g(xi)−yi
- Ei=g(xi)−yiE_i=g(x^i)-y^iEi=g(xi)−yi
- 最优的λ\lambdaλ肯定是满足KKT条件的
- 每次对一对,其他n-2个固定:λ1y1+λ2y2=−Σi=3Nαiyi=C\lambda_1y^1+\lambda_2y^2=-\Sigma_{i=3}^N\alpha_iy^i=Cλ1y1+λ2y2=−Σi=3Nαiyi=C