Unconstrained Optimization (Derivative-based methods)

Table of Contents

1. 无约束最优化简介

无约束最优化(Unconstrained Optimization)问题表示如下:
minxRnf(x)
即求 f(x) 取极小值时对应的 x 值。

无约束最优化问题的解法(方法)可以分为两大类:“Derivative-based optimization”和“Derivative-free optimization”(比如 Pattern search, Powell's method 等等)。不过,“Derivative-free optimization”方法的收敛速度一般比较慢,本文不介绍它们。本文的重点是介绍“基于导数”的无约束最优化方法。

参考:
本文主要摘自:最优化理论与算法(第 2 版), 陈宝林

2. Steepest Descent Method

考虑无约束最优化问题: minxRnf(x) ,其中函数 f(x)Rn 上具有一阶连续偏导数的函数。

梯度下降法(Gradient Descent)是一种迭代算法,选取适当的初值后,不断迭代更新 x 的值,进行目标函数的极小化,直到收敛。梯度下降法背后的原理是“负梯度方向是使函数值下降最快的方向”,梯度下降法的更新公式为:
xk+1=xkλf(xk)
其中, xk 为第 k 次迭代时 x 的值, λ 是大于零的实数,称为步长。

有很多设置步长 λ 的方法。下面介绍的最速下降法(Steepest Descent)是其中的一种(注:有时我们提到梯度下降法时,指的就是最速下降法)。

2.1. 最速下降法总结

最速下降法每次迭代时都采用不同的 λ 。记 dk=deff(xk) ,迭代公式可写为:
xk+1=xk+λkdk
其中 dk 是从 xk 出发的搜索方向, λk 是从 xk 出发沿方向 dk 进行一维搜索(也称“线搜索”,也就是单变量函数极小化问题)得到的步长,即 λk 满足:
f(xk+λkdk)=minλ0f(xk+λdk)
也就是:
λk=argminλ0f(xk+λdk)

最速下降法计算步骤:
(1) 给定初始点 x1Rn ,允许误差 ε ,置 k=1
(2) 计算搜索方向 dk=f(xk)
(3) 如果 f(xk)ε ,则停止迭代,返回 xk 作为 f(x) 极小点;否则,从 xk 出发,沿 dk 进行一维搜索,求 λk ,即:
λk=argminλ0f(xk+λdk)
(4) 令 xk+1=xk+λkdk ,转到步骤(2)。

2.2. 最速下降法应用实例

用最速下降法求解下面优化问题(精度 ε=110 ):
min2x2+y2
解:记 x=(x,y)T ,目标函数的 f(x) 的梯度为:
f(x)=[4x2y]
取初值点 x1=(1,1)T
第 1 次迭代。 计算搜索方向 d1
d1=f(x1)=[42]
由于 f(x1)=16+4=25>110 ,所以要接着迭代计算。
x1 出发,沿 d1 进行一维搜索,求 λ1 ,方法如下:
minλ0φ(λ)=deff(x1+λd1)
由于:
x1+λd1=[11]+λ[42]=[14λ12λ]
所以:
φ(λ)=2(14λ)2+(12λ)2
令:
φ(λ)=16(14λ)4(12λ)=0
上式解得的值即为 λ1
λ1=58
由迭代公式有:
x2=x1+λ1d1=[1949]
第 2 次迭代。 计算搜索方向 d2
d2=f(x2)=[4989]
由于 f(x2)=(49)2+(89)2=455>110 ,所以要接着迭代计算。
x2 出发,沿 d2 进行一维搜索,求 λ2 ,方法如下:
minλ0φ(λ)=deff(x2+λd2)
由于:
x2+λd2=[1949]+λ[4989]=[19+49λ4989λ]
所以:
φ(λ)=281(1+4λ)2+1681(12λ)2
令:
φ(λ)=1681(1+4λ)6481(12λ)=0
上式解得的值即为 λ2
λ2=512
由迭代公式有:
x3=x2+λ2d2=227[11]
第 3 次迭代。 其过程类似,直接给出结果:
d3=f(x3)=427[21]f(x3)=4275>110λ3=518
从而有:
x4=x3+λ3d3=2243[14]
这时 f(x4)=82435<110 ,已经满足精度要求,停止迭代,得到近似解:
[xy]=2243[14]
实际上,这个问题的最优解为: (0,0)T

3. Newton's Method

在数学中,有两个地方会提到牛顿方法:在微积分领域中,牛顿方法用于求解方程的根;在最优化理论中,牛顿方法用于求解无约束最优化问题。这里介绍的是后者。

参考:https://en.wikipedia.org/wiki/Newton%27s_method_in_optimization

3.1. 一维情况

为简单起见,先介绍牛顿方法求解一维情况下无约束最优化问题(即单变量的极小化问题)。

考虑问题:
minxRf(x)
假设 xkf(x) 的极小点的一个估计。我们把 f(x)xk 点处展开为 Taylor 级数 ,并取二阶近似:
f(x)φ(x)=deff(xk)+f(xk)(xxk)+12f(xk)(xxk)2

为了求 φ(x) 的驻点(Stationary point),令 φ(x)=0 ,有: φ(x)=f(xk)+f(xk)(xxk)=0 从而有:x=xkf(xk)f(xk) 把求得的 φ(x) 驻点记为 xk+1 ,即有: xk+1=xkf(xk)f(xk)(单变量时牛顿法迭代公式) 由于在点 xk 附近 f(x)φ(x) ,因此可用函数 φ(x) 的极小点作为目标函数 f(x) 的极小点的估计。如果 xkf(x) 的极小点的一个估计,那么利用上式求得的 xk+1 是极小点的一个进一步的估计,经过很多次迭代后,一般会收敛于极值点。

3.2. 多维情况

前面介绍了单变量极小化问题的牛顿法,这里推广到一般无约束问题的牛顿法。
f(x) 是二次可微实函数, xRn 。又设 xkf(x) 的极小点的一个估计。我们把 f(x)xk 点处展开为 Taylor 级数 ,并取二阶近似:
f(x)φ(x)=deff(xk)+f(xk)T(xxk)+12(xxk)T2f(xk)(xxk)
为了求 φ(x) 的驻点(Stationary point),令 φ(x)=0 ,有:
φ(x)=f(xk)+2f(xk)(xxk)=0
2f(xk) 可逆(其逆矩阵记为 2f(xk)1 ),从而有:
x=xk2f(xk)1f(xk)
把求得的 φ(x) 驻点记为 xk+1 ,即有: xk+1=xk2f(xk)1f(xk)(牛顿法迭代公式)
经过上面公式多次迭代后,得到的序列 x1,x2,,xk,xk+1, ,在适当条件下,会收敛于极值点。

3.3. 牛顿法应用实例

用牛顿法求解下列问题:
min(x1)4+y2
解:记 x=(x,y)T ,目标函数 f(x) 的梯度和 Hessian 矩阵分别为:
f(x)=[4(x1)32y]2f(x)=[12(x1)2002]
取初值点 x1=(0,1)T
第 1 次迭代:
f(x1)=[42]2f(x1)=[12002]
由牛顿法迭代公式有:
x2=x12f(x1)1f(x1)=[01][12002]1[42]=[130]
第 2 次迭代:
f(x2)=[32270]2f(x2)=[489002]
由牛顿法迭代公式有:
x3=x22f(x2)1f(x2)=[130][489002]1[32270]=[590]
继续迭代下去,得到:
x4=[19270],x5=[65810],
这个问题的最优解为 x=(1,0)T 。从迭代进展情况看,牛顿法收敛比较快。

3.4. 牛顿法优缺点

牛顿方法的优点是 收敛速度很快 ,经过较少的迭代次数即可接近极小值点。

牛顿方法的缺点:
(1) 需要计算 2f(xk)1 ,它的计算量过程比较复杂。为此,人们提出了拟牛顿法(寻找更容易计算的矩阵来近似 2f(xk)1 ),后文将介绍它。
(2) 运用牛顿法时,牛顿方向 dk=def2f(xk)1f(xk) 不一定是下降方向,经迭代,目标函数值可能上升。此外,即使目标函数值下降,得到的点 xk+1 也不一定是沿牛顿方向的最好点或极小点。为此,人们提出了阻尼牛顿法,后文将介绍它。
(3) 运用牛顿法时,初始点的选择十分重要。如果初始点远离极小点,牛顿法可能不收敛。如优化问题 minx4+xy+(1+y)2 ,当取初始点为 (0,0)T 时,用原始牛顿法或者阻尼牛顿法都不会收敛。人们提出了一些修正算法来确保从任意初始点开始迭代都能得到极小值点,本文不介绍这些修正算法。参考《最优化理论与算法(第 2 版), 陈宝林》10.2.3 节

3.5. 阻尼牛顿法(Damped Newton's Method)

阻尼牛顿法与原始牛顿法的区别在于增加了沿牛顿方向的一维搜索,阻尼牛顿法的迭代公式为:
xk+1=xkλk2f(xk)1f(xk)(阻尼牛顿法迭代公式) 其中 λk 是由一维搜索得到的步长。记牛顿方向 dk=def2f(xk)1f(xk) ,则 λk 由下式求得:
f(xk+λkdk)=minλ0f(xk+λdk)
由于阻尼牛顿法含有一维搜索,因此 每次迭代时目标函数值一般会有所下降(绝不会上升)。

阻尼牛顿法是对原始牛顿法非常小的一个改进。 有时,当我们提到牛顿法时,就是指阻尼牛顿法。

4. Quasi-Newton Method

4.1. 动机

运用牛顿法(阻尼牛顿法)时,需要 计算目标函数的 Hessian 矩阵的逆矩阵,这个计算过程比较复杂。

xk+1=xkλk2f(xk)1这是 Hessian 矩阵的逆矩阵拟牛顿法思路:寻找易计算的矩阵来近似它f(xk)(阻尼牛顿法迭代公式)

为了解决这个问题,人们提出了拟牛顿法(Quasi-Newton Method),其基本思想是 用不包含二阶导数的矩阵来近似牛顿法中的 Hessian 矩阵的逆矩阵。 由于构造近似矩阵的方法不同,因而出现了不同的拟牛顿法。

4.2. 拟牛顿条件

为了构造 2f(xk)1 的近似矩阵,我们先分析 2f(xk)1 和一阶导数的关系。
设在第 k 次迭代后,得到点 xk+1 ,我们将目标函数 f(x) 在点 xk+1 处展开为 Taylor 级数,并取二阶近似,有:
f(x)f(xk+1)+f(xk+1)T(xxk+1)+12(xxk+1)T2f(xk+1)(xxk+1)
对上式两个求偏导有:
f(x)f(xk+1)+2f(xk+1)(xxk+1)
x=xk ,则:
f(xk)f(xk+1)+2f(xk+1)(xkxk+1)
定义下面两个符号:
Δxk=defxk+1xkyk=deff(xk+1)f(xk)
前面的式子可写为:
yk2f(xk+1)Δxk
设矩阵 2f(xk+1) 可逆,则:
Δxk2f(xk+1)1yk
这样,计算出 Δxkyk 后,可以根据上式估计在 xk+1 处的 2f(xk+1)1 。因此,为了用不包含二阶导数的矩阵(记为 Hk+1 )取代牛顿法中的 2f(xk+1)1 ,有理由令 Hk+1 满足: Δxk=Hk+1yk(拟牛顿条件) 上式称为 拟牛顿条件,满足这个条件的 Hk+1 都可以作为 2f(xk+1)1 的近似代替。

4.3. Davidon-Fletcher-Powell (DFP)

DFP(Davidon-Fletcher-Powell)著名的拟牛顿法,它由 William C. Davidon 首先提出,后来被 Roger FletcherMichael J. D. Powell 改进。

DFP 方法采用下面公式(这里直接给出结论,不推导)迭代计算拟牛顿条件中的 Hk+1 (即 2f(xk+1)1 的近似): Hk+1=Hk+ΔxkΔxkTΔxkTykHkykykTHkykTHkyk(DFP formula) 初始时, H1 通常选择 n 阶单位矩阵 I 。上面的公式中,只用到了一阶偏导数信息,并不需要二阶偏导数相关信息。

4.3.1. DFP 算法总结

输入:目标函数 f(x) ,精度 ε
输出: f(x) 的极小点 x

DFP 方法计算步骤如下:
(1) 选定初始点 x1Rn
(2) 置 H1=In (单位矩阵),计算出在 x1 处的梯度 f(x1) 。如果 f(x1)<ε ,则停止计算,极小点 x 的近似值就是初始点 x1 ;否则,置 k=1 ,接着执行下面步骤。
(3) 令 dk=Hkf(xk)
(4) 求步长 λk (阻尼牛顿法中的步长),使它满足:
f(xk+λkdk)=minλ0f(xk+λdk)
(5) 置 xk+1=xk+λkdk
(6) 计算 f(xk+1) ,如果 f(xk+1)<ε ,则停止迭代,得到近似解 x=xk+1 ;否则,令 Δxk=xk+1xk,yk=f(xk+1)f(xk) ,按下式计算 Hk+1Hk+1=Hk+ΔxkΔxkTΔxkTykHkykykTHkykTHkyk(DFP formula)
(7) 置 k=k+1 ,返回步骤(3)

4.3.2. DFP 算法应用实例

用 DFP 方法求解下列问题:
min2x2+y24x+2
解:记 x=(x,y)T ,目标函数 f(x) 的梯度为:
f(x)=[4(x1)2y]
初始点 x1 和初始矩阵 H1 分别取为:
x1=[21],H1=[1001]
第 1 次迭代,在点 x1 处的梯度:
f(x1)=[42]
令搜索方向:
d1=H1f(x1)=[42]
λ1 ,即从 x1 出发沿 d1 作一维搜索,即求解:
f(x1+λ1d1)=minλ0f(x1+λd1)
得到 λ1=518 。令
x2=x1+λ1d1=[21]+518[42]=[8949]
计算 f(x2)
f(x2)=[4(891)249]=[4989]
第 2 次迭代。
Δx1=x2x1=[10959]y1=f(x2)f(x1)=[409109]
计算矩阵:
H2=H1+Δx1Δx1TΔx1Ty1H1y1y1TH1y1TH1y1=[1001]+118[4221]117[16441]=1306[863838305]
令:
d2=H2f(x2)=1306[863838305][4989]=1251[14]
λ2 ,即从 x2 出发沿 d2 作一维搜索,即求解:
f(x2+λ2d2)=minλ0f(x2+λd2)
得到 λ2=1736 。令
x3=x2+λ2d2=[8949]+17361251[14]=[10]
这时有:
f(x3)=[00]
驻点为零的点就是极值点。因此得到的最优解为:
(x,y)=(1,0)

4.4. Broyden-Fletcher-Goldfarb-Shanno (BFGS)

BFGS(Broyden–Fletcher–Goldfarb–Shanno)方法另一种拟牛顿法。

BFGS 方法采用下面公式(这里直接给出结论,不推导)迭代计算拟牛顿条件中的 Hk+1 (即 2f(xk+1)1 的近似): Hk+1=(IΔxkykTykTΔxk)Hk(IykxkTykTΔxk)+ΔxkΔxkTykTΔxk(BFGS formula)

BFGS 算法和 DFP 算法的具体步骤是一样的,仅仅只是计算 Hk+1 的迭代公式不同。 数值计算经验表明,使用 BFGS 公式比使用 DFP 公式还要快,目前 BFGS 方法得到广泛应用。

4.4.1. BFGS 公式和 DFP 公式的关系

在 BFGS 公式和 DFP 公式中, Hk+12f(xk+1)1 的近似,如果记 Bk+12f(xk+1) 的近似,则有图 1 (摘自 https://en.wikipedia.org/wiki/Quasi-Newton_method )所示结论。有时, BFGS 公式也称为 DFP 公式的对偶公式。

opt_bfgs_dfp.gif

Figure 1: BFGS 公式和 DFP 公式的关系

4.4.2. Limited-memory BFGS (L-BFGS)

假设原始优化问题 f(x)n 个变量( xn 维向量 ),则在 BFGS 公式中, Hk 的规模为 n×n ,当 n 很大时,存储这个 n×n 矩阵会很占计算机资源,Limited-memory BFGS (L-BFGS)是在受限内存时的一种 BFGS 近似算法。

4.4.3. 使用 SciPy 库进行最优化

Python 的 SciPy 库实现了常见的最优化算法,参考:https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.minimize.html

下面是使用 BFGS 算法求解最优化问题 min(x1)4+y2 (这个问题我们在节 3.3 中求解过)的演示:

>>> from scipy import optimize
>>> def f(x):
...     return (x[0] - 1)**4 + x[1]**2
...
>>> optimize.minimize(f, [0, 0], method='BFGS')
   status: 0
  success: True
     njev: 15
     nfev: 60
 hess_inv: array([[  1.04206844e+03,   1.26935227e+00],
       [  1.26935227e+00,   5.33941376e-01]])
      fun: 1.0776982563563174e-09
        x: array([  1.00570151e+00,  -4.58021983e-06])
  message: 'Optimization terminated successfully.'
      jac: array([  7.41364167e-07,  -9.14553849e-06])

上面输出中,倒数第 3 行就是求得的极小值点:

        x: array([  1.00570151e+00,  -4.58021983e-06])

Author: cig01

Created: <2015-03-07 Sat>

Last updated: <2018-01-02 Tue>

Creator: Emacs 27.1 (Org mode 9.4)