配色: 字号:
第五章 共轭梯度法和拟牛顿法
2022-10-20 | 阅:  转:  |  分享 
  
第 五 章 共轭梯度法 和拟牛顿法

§5.1 共轭方向法

共轭方向法是无约束最优化问题的一类重要算法 , 它一方面克服了最速下降法中,迭代

点列呈锯齿形前进,收敛慢的缺点,同时又不像牛顿法中计算牛顿方向耗费大量的工作量,

尤其是共轭方向法具有 二次终止性 .

设 G 是 nn? 对称正定矩阵, 1d , 2d 是 n 维非零向量,若 12( ) 0Td Gd ? , 则称 1d , 2d 是

G 共轭的 ;如果 n? 中一组非零向量 12, , , md d d? 两两共轭,即 ( ) 0i T jd Gd ? ()ij? 则

称向量组 12, , , md d d? 是 G 共轭的 .

显然, 当 GI? 时,共轭性就变为正交性, 因此 共轭是正交概念的推广 . 不难证明, 若

12, , , md d d? 是 G 共轭的 ,则它们 必定 线性无关 .

算法 5.1( 正定二次函数的 共轭方向法)

步 1: 给出初始点 0x 和初始下降方向 0d , 置 0k? ;

步 2: 求解

0min ( )kkf x d? ?? ?

,得最优解 k? ;

步 3: 令 1k k kkx x d?? ?? ,如果 1|| ( ) || 0kfx???,则停止迭代,输出 1kx? ;

步 4: 给出共轭方向 1kd? 满足 1( ) 0k T jd Gd? ? , 0,1, ,jk? ? ,置 1kk??,转步 2.

定理 5.1.1 对于正定二次函数

1() 2 TTf x x G x r x c? ? ?, (5.1.1)

采用精确线搜索的 共轭方向法至多经过 n 步 就能达到目标函数的最优解,且 每个 迭代点 1ix?

是 ()fx在线性流形

0

0{ | , , 0 , 1 , , }

i j

jjjx x x d j i???? ? ? ? ?? ?? ? ?

(5.1.2)

中的极小点 .

第五章 共轭梯度法和拟牛顿法

68 最优化理论与方法 [乌力吉 ]

证 首 先证明对所有的 1in??,都有

1 0Tjigd? ? , 0,1, ,ji? ? . (5.1.3)

事实上,由于 ()fx是二次函数,因而有

? ?11 k k kk k kg g G x x G d??? ? ? ? ?.

故 当 ji? 时,有

? ?1 1 11i TT j T j ji j k kkjg d g d g g d? ? ???? ? ??1 1 ( ) 0iT j k T jjkkjg d d G d?? ??? ? ?? ;

而 当 ji? 时,由精确搜索性质知 1 0Tjigd? ? .

再证算法的有限 步 终止 . 若有某个 1 0ig? ? ( 1in??),则结论 成立 , 否则, 由上面已

证则必有 0Tjngd? , 0,1, , 1jn??? . 由于 0 1 1, , , nd d d ?? 构成 n? 的一组基, 故 0ng? ,

这表明 至多经过 n 次精确 线搜索 即可获得最优解 .

最后 证明定理的后半部分 . 由于 ()fx是正定二次函数, 故函数

001

0( , , , ) ( )

i j

ijjt t t f x t d? ??? ??



是线性流形 (5.1.2)上的 严格 凸函数 . 由此可知,

101 01( , , , )m in ( , , , )ii it t t R t t t???? ?

的最优解就是它的

唯一 驻点,即

0

0( ) 0

i j T j

jjf x t d d?? ? ??

, 0,1, ,ji? ? (5.1.4)

的解 . 注意到在 1ix? 处 等式 (5.1.3)成立, 故 当 0 1 0 1( , , , ) ( , , , )iit t t ? ? ????时 , 等式 (5.1.4)

成立,从而 01( , , , )it t t? ? 取得极小, 这表明 10

0

iij

jjx x d?? ????

是 ()fx在线性流形 (5.1.2)

上的极小点 .

§ 5.2 共轭梯度法

最优化理论与方法 [乌力吉 ] 69

§5.2 共轭梯度法

§5.2.1 共轭梯度的构造

下面考察正定二次函数

1() 2 TTf x x G x r x c? ? ?, (5.2.1)

其中 G 为 nn? 正定矩阵, 显然 ()g x Gx r??,且 ? ?1

1 k k kk k kg g G x x G d??? ? ? ? ?

.

针对正定二次函数 ()fx,构造共轭方向的思想如下:

( 1)给定初始点 0x ,首先取 0 0dg?? ,令 1 0 00x x d??? ,其中 0? 为精确线搜索的

步长 . 由精确线搜索可知 , 01 0 1 0TTg g g d? ? ?.

( 2) 令 1010d g d??? ? , 并 适当选择 0? ,使 得 10( ) 0Td Gd ? , 则有

0 1 1 01 1 1

0 0 0 0 1 0 0 0()( ) ( ) ( )

TTT

T T Tg g gg G d g gd G d d g g g g? ?? ? ??

.

由 定理 5.1.1 可知, 12 0Tgd? , 02 0Tgd? , 故 由 0d 与 1d 的构造 知 210Tgg? , 200Tgg? .

( 3) 再令 2 0 12 0 1d g d d??? ? ? ?,适当选择 0? , 1? ,使得 2( ) 0Tid Gd ? , 0,1i? ,

由此得

0 0?? , 2 2 1 2 21 1

2 1 1 1

()( ) ( )TTg g g g gd g g g g? ????.

( 4) 一般地,在第 k 次迭代中,令 1

0

kki

kiid g d?

?

?? ? ??

适当选取 i? , 使得 ( ) 0k T id Gd ? ,

0,1, , 1ik??? . 由定理 5.1.1 知 0Tikgd? , 0,1, , 1ik??? ,再由 ig 与 id 的关系得

0Tkigg? , 0,1, , 1ik??? ,因此

1

1

11

0 , 1 , 2 , , 2 ,()

, 1 .( ) ( ) ( )

T i T

k k i i Ti

i T i i T kk

ii T

kk

ikg G d g g g

gg ikd G d d g g

gg

? ?

?

??

???? ?

? ? ? ? ??? ?

?

?

( 5.2.2)

于是,我们得到 共轭梯度法的迭代公式为 1k k kkx x d?? ?? ,其中 kd 为共轭方向, k? 为

第五章 共轭梯度法和拟牛顿法

70 最优化理论与方法 [乌力吉 ]

最佳步长因 子 . 对二次函数 取 / ( )T k k T kkkg d d G d? ?? , 而对非二次函数,则采用精确 线搜

索 得到 k? .

共轭方向的修正公式为

1 1kkkkd g d?? ?? ? ? , ( 5.2.3)

其中, k? 由下面诸式之一计算:

( 1) 11

1

()( ) ( )Tk k kk kT

kk

g g gd g g? ??

?

?? ? ( Crowder-Wolfe公式) ( 5.2.4)

( 2) 11Tkk

k Tkkgggg? ???

( Fletcher-Reeves 公式) ( 5.2.5)

( 3) 11()Tk k k

k Tkkg g ggg? ????

( Polak-Ribiere-Polyak 公式) ( 5.2.6)

( 4) 11

()

Tkk

k kT kggdg? ????

( Dixon 公式) ( 5.2.7)

( 5) 11

1( ) ( )

Tkk

k kT kkggd g g? ???? ?

( Dai-Yuan 公式) ( 5.2.8)

对二次函数而言,上述 五 个公式都是等价的 , 而且求得的搜索方向均为共轭方向; 但对

非二次函数, 将导出互不相同的算法,而且据此求出的搜索方向不再保证是共轭的 . 事实上,

此时不存在一个常值正定矩阵 G ,共轭的提法都已无意义 .

§5.2.2 共轭梯度法的性质

定理 5.2.1 对于正定二次函数,采用精确 线搜索 的共轭梯度算法,必定经过 mn? 步

迭代后终止 . 且对 每个 1 im?? ,下列关系式成立:

( 1) ( ) 0i T jd Gd ? , 0,1, , 1ji??? ; ( 5.2.9)

( 2) 0Tijgg? , 0,1, , 1ji??? ; ( 5.2.10)

( 3) ()i T Ti i id g g g?? ; ( 5.2.11)

( 4) 0 1 0 0 0[ , , , ] [ , , , ]iig g g g G g G g???; ( 5.2.12)

§ 5.2 共轭梯度法

最优化理论与方法 [乌力吉 ] 71

( 5) 01 0 0 0[ , , , ] [ , , , ]iid d d g G g G g???. ( 5.2.13)

证 先用归纳法 证明 (5.2.9)-(5.2.11).

对于 1i? ,容易验证 (5.2.9)-(5.2.11)成立 . 现假设这些关系式对某个 im? 成立,下面证

明对于 1i? ,这些关系式仍然成立 . 事实上,对 11 ()i i ii i i ig g G x x g G d??? ? ? ? ? ?左乘

()iTd ,并注意到 0( ) ( )T i Ti i ii i T i i T ig d g gd G d d G d? ? ? ? ?, 得

111( ) ( ) ( )T T i T T i T j ji j i j i j i j i jg g g g d G g g g d G d d? ? ? ???? ? ? ? ?.

当 ji? 时, 上式 成为

1 ( ) 0()

TT T i T iii

i j i i i T iggg g g g d G dd G d? ? ? ?



当 ji? 时,由归纳法假设可知

111( ) ( ) 0T T i T j ji j i j i jg g g g d G d d?? ???? ? ? ?,

于是 (5.2.10)得证 .

再由共轭梯度法的迭代公式及 i? 是最优步长 ,有

11 11( ) ( ) ( )jji T j T j i T j T i T ji i i i

j

ggd G d g G d d G d g d G d?? ? ??

??

?? ? ? ? ?,

当 ji? 时, 由 (5.2.10)和归纳法假设知 1( ) 0i T jd Gd? ? ; 当 ji? 时,由 (5.2.10)及 i? 和 i? 的

定义 知

1 1 1 1 1( ) ( ) ( ) 0TTi T i i T i i T ii i i i

i i i i

g g g gd G d d G d d G dg g g g? ? ? ? ?? ? ? ?,

于是 (5.2.9)得证 .

又由 id 的构造知, id 是 01, , , ig g g? 的线性组合,故有 (5.2.10)知

1 1 1 1 1 1 1( ) ( )i T T i T Ti i i i i i id g g g d g g g?? ? ? ? ? ? ?? ? ? ? ?,

于是 (5.2.11)得证 .

下面利用归纳法证 明 (5.2.12)与 (5.2.13).

当 1i? 时,由 01 0 0 0 0 0g g G d g G g??? ? ? ?易见 0 1 0 0[ , ] [ , ]g g g g? .再由 0 0dg??

第五章 共轭梯度法和拟牛顿法

72 最优化理论与方法 [乌力吉 ]

及 101 0 1 0 0d g d g g??? ? ? ? ? ?易见 01 0 1 0 0[ , ] [ , ] [ , ]d d g g g G g??.

故当 1i? 时, (5.2.12)与 (5.2.13)成立 .

假定 (5.2.12)与 (5.2.13)对 i 成立 . 下面证明 结论对 1i? 也成立 .

由于 1 ii i ig g Gd?? ?? ,而从归纳法假设知 0 0 0, [ , , , ]iiig d g G g G g? ?, 故有

11 0 0 0[ , , , ]iig g G g G g?? ? ?,



011 0 0 0[ , , , ] [ , , , ]iiig g G g G g d d d? ????,

若不然, 由 011 [ , , , ]iig d d d? ? ? 及 1 0Tjigd? ? , 0,1, ,ji? ? , 则必有 1 0ig? ? ,矛盾 . 因



10 1 1 0 0 0[ , , , ] [ , , , ]iig g g g G g G g?? ???,

再由 1 1iiiidgd?? ?? ? ? ,可得

0 1 1 10 1 1 0 0 0[ , , , ] [ , , , ] [ , , , ]iiid d d g g g g G g G g?????? ? ? .

注 ( 1) 上面定理中出现的这些生成子空间通称为 Krylov 子空间;

( 2) 在共轭梯度法中, 1 1kkkkd g d?? ?? ? ? ,若采用精确 线搜索 ,则 k? 不论采用哪

种公式计算,都有

11 1 1 1 1 1 0T k T T k Tk k k k k k kg d g g g d g g??? ? ? ? ? ?? ? ? ? ? ?,

即 1kd? 总是下降方向,若不采用精确 线搜索 ,则不一定了;

( 3) 对 Dixon 公式,使用不精确搜索准则

1T k T kkkg d g d?? ??

, (0,1)?? 能保证搜

索方向总是下降的 . 事实上,由

1 111 ()Tkkkkk kT

k

ggd g ddg? ???? ? ? ,



1 11 1 1 1 TkT k T kk k k Tk

k

gdg d g g gd? ?? ? ? ??? ? ?????,

而 由 1T k T kkkg d g d?? ?? 知 1T k T kkkg d g d? ?? ,从而

§ 5. 3 共轭梯度法的收敛性

最优化理论与方法 [乌力吉 ] 73

1 1TkkTk

k

gdgd? ?? ,

由此即得 11 0Tkkgd?? ? , 故 1kd? 为下降方向;

( 4) Fletcher- Reeves 公式最为简洁,使用得最多;

( 5) 共轭梯度算法用于非二次函数时,没有有限终止性质,一般经过 n 次搜索后,就

取一次负梯度方向,称再开始 . Polak-Ribiere-Polyak 具有自动再开始的特点,事实上,当

算法改进不大时,会出现 1kkgg? ? ,这时用 Polak-Ribiere-Polyak 公式计算出的 0k?? ,

从而导致 1 1k kdg? ??? .

算法 5.2(再开始 FR 共轭梯度法)

步 0: 给出初始点 0x ,容许误差 0?? ;

步 1: 计算 00 ()g f x? ,置 0k? ;

步 2: 若 0|| ||g ?? ,停止迭代,输出 0x ,否则,令 0 0dg?? ;

步 3: 求

0min ( )kkf x d? ?? ?

的最优解 k? ;

步 4: 令 1k k kkx x d?? ?? , 1kk??;

步 5: 计算 ()kkg f x?? ,若 || ||kg ?? ,停止迭代,输出 kx ;

步 6: 若 kn? ,令 0 kxx? ,转步 1;

步 7: 计算 11/TTk k k kg g g g? ??? , 1kkkd g d? ?? ? ? ;

步 8: 若 0Tkkgd? ,令 0 kxx? ,转步 1,否则转步 3.

§5. 3 共轭梯度法的收敛性

由 上一节的 讨论 可知 ,当共轭梯度算法用于正定二次函数时必定有限 步 终止 . 本节研究

将其用于一般非二次函数时的收敛性问题 .

§5. 3.1 共轭梯度法的 全局 收敛性

定理 5.3.1 设水平集 ? ?0( ) ( )L x f x f x??有界, f 是 n? 上连续 可微 的凸函数 . 如果

第五章 共轭梯度法和拟牛顿法

74 最优化理论与方法 [乌力吉 ]

{}kx 是由 采用精确线搜索的 Fletcher-Reeves 再开始 共轭梯度算法产生的迭代点列 , 则

( 1) { ( )} kfx 为单调下降序列,且 lim ( )k

k fx??

存在 .

( 2) {}kx 的任意聚点都是最优解 .

证 ( 1) 在算法迭代过程中,由于每隔 n 次采用一次再开始措施 . 因而搜索方向 或为 共

轭梯度方向, 或为 最速下降方向 , 但 无论 哪种情形都有

2 0Tkkkg d g? ? ?.

因而 { ( )}kfx 单调下降, 由于 L 有界,故 { ( )}kfx 有下界,因此 lim ( )k

k fx??

存在,记为 f .

( 2) 由 { ( )}kfx 单调下降 知 {}kxL? ,故 {}kx 是有界 点列 .



1{}k Kx

是 {}kx 中 满足 1kkkkx x g?? ?? 的 点 kx (即再开始的点)全体构成的 子列 ,

由于

1{}k Kx

有界,故存在收敛子列

2{}k Kx

, 使得

2 ,lim

kk K k xx? ?? ? .

由于

21{}k Kx?

也是有界点列,故存在子列

31{}k Kx?

,使

3

1,lim kk K k xx?? ?? ? ,且

( ) ( ) l im ( ) kkf x f x f x f??? ? ?.

下面用反证法证明 ( ) 0fx??. 假设 不然,设 ( ) 0fx??,则对充分小的 ? ,有

( ( ) ) ( )f x f x f x?? ? ?,

注意 到对任意 0?? 和 3kK? , 有

1( ) ( ) ( ) ( )k k k k kk k k kf x f x d f x g f x g? ? ?? ? ? ? ? ? ?,

令 k?? ,则有 ( ) ( ) ( )f x f x g f x?? ? ?,但这 与 ( ) ( )f x f x? 矛盾, 矛盾表明必

有 ( ) 0fx??. 于是, 由 ()fx的凸性 知 x 是 min ( )

nx fx??

的 最优解 .

进一步地,对点列 {}kx 的任一 聚点 ?x ,必存在 {}kx 的子列

0{}k Kx

,使得

0 , ?lim

kk K k xx? ?? ? ,

由此得

0 ,?( ) ( l i m ) l i m ( ) m i n ( )n

kkk K k k xf x f x f x f x? ? ? ? ? ?? ? ? ?,

这表明 ?x 也是 min ( )

nx fx??

的 最优解 .

注 从 这个定理的证明过程易见 , 上述收敛 结果 对其它几种 再开始 共轭梯度算法也是成

§ 5. 3 共轭梯度法的收敛性

最优化理论与方法 [乌力吉 ] 75

立的 .

定理 5.3.2 设 ()fx二阶连续可微,水平集 ? ?0( ) ( )L x f x f x??有界 . 若 存在常数

0m? ,使得 不等式

2 2 ()Tm y y f x y??

对 任意 xL? 和 ny?? 成立, 则采用精确 线 搜索的 Polak-Ribbiere-Polyak 共轭梯度 法产生的

点列 {}kx 收敛 到 ()fx的唯一极小点 .

证 只 需 证明 存在正数 ? ,使得 不等式

T k kkkg d g d?? ? ? (5.3.1)

对 任意 k 成立即 可 . 这是 因为不等式 (5.3.1)成立 保证 定理 3.2.3 的夹角条件成立,故由定理

3.2.3 知, 必有 lim ( ) 0k

k fx????

,若 x 是 {}kx 的 聚点 , 则 由 ()fx? 的连续性, 有 ( ) 0fx??.

再 由 ()fx在水平集 L 上一致凸知, {}kx 的聚点必唯一,若不然,设 ?x 是 {}kx 的另一聚点,

则也有 ?( ) 0fx??,于是

2? ? ? ?0 ( ) ( ( ) ( ) ) ( ) ( ) ( )TTx x f x f x x x f x x?? ? ? ? ? ? ? ? ?,

但这与一致凸的假设矛盾 . 故 {}kx 收敛到 ()fx的唯一极小点 . x .

下面证明不等式 (5.3.1)成立 .

由于采用了精确 线搜索 ,故有 2Tkkkg d g?? , 因而 不等式 (5.3.1)等价于

kkgd?? . ( 5.3.2)

由于

11 1 1 1 1 11 1 1 1 10 ( ) ( )T k T k T k k T k kk k k k k kg d g d g d d G x t d d d t??? ? ? ? ? ?? ? ? ? ?? ? ? ? ??,

故有

21 11

1 1 1 1 111( ) ( )

Tk kk

k k T k k T kkk

ggdd G d d G d? ? ??

? ? ? ? ???? ? ?

, ( 5.3.3)

其中 1

1 1 1 10 ()k k k kG G x t d d t?? ? ? ????

. 再注意到

1 1 1 1 11 1 1 1 10 ()k k k kk k k k k kg g G x t d d d t G d? ? ?? ? ? ?? ? ? ? ?? ? ? ?? ,

第五章 共轭梯度法和拟牛顿法

76 最优化理论与方法 [乌力吉 ]

我们 有

111

11 211 1()

T T kk k k k k

kkTkk kg g g g G dgg g??

???

???? ????



结合 (5.3.3), 得

1111

1 211 11()

T k kk k k k

k k T k kk

g G d g G d

d G d md?

????

? ?? ????

.

又由 L 有界 知 ,存在常数 0M? , 使得 不等式 ()G x y M y? 对任意 xL? 和 ny??

成立, 故

1

1 2 11

kk k

k kk

g M d gM

m dmd?

?

? ????



由此得

11 ( 1 )kkk k k k kMMd g d g g gmm? ??? ? ? ? ? ?,

取 1(1 )Mm? ??? ,则不等式 (5.3.2)得证,从而 定理得证 .

定理 5.3.3 若 k? 由不精确 线搜索 的 Wolfe-Powell 准则产生, 则 Fletcher-Reeves 共轭梯

度算法具体下降性质 ,即 0Tkkgd? 对任意 k 成立 .

证明: 先 用归纳法证明不等式

2002

Tkkkjjk

jjk

gdg??

??? ? ? ? ???

( 5.3.4)

成立, 其中 (0,1/ 2)?? 是 W-P 准则中的 ? .

当 0k? 时, ( 5.3.4)式 成为等式,故结论成立 . 假设对任何 0k? , ( 5.3.4) 式成立 ,

现考虑 1k? 情形 . 由于

11 1 1 1 1

2 2 2 21 1 1() 11

T k T k T k T kk k k k k k

kk k k kg d g g d g d g dg g g g? ?

?? ? ? ? ?

? ? ?

??? ? ? ? ? ? ?



1TTk k k kg d g d?? ??

,故 有

11

2 2 2111

T k T k T kk k k

k k k

g d g d g dg g g????

?

? ? ? ? ? ?.

再由归纳法假设,有

§ 5. 3 共轭梯度法的收敛性

最优化理论与方法 [乌力吉 ] 77

1

20011

Tkkkjj k

jj k

gdg? ? ? ??

??? ? ? ? ? ? ???



1 11

22 001 1 1 2

T k T k kkjjkk

jj

g d g dgg ? ? ? ?? ??

???? ? ? ? ? ? ? ? ? ???

,

故不等式 (5.3.4)得证 . 由于 (0,1/ 2)?? ,故有

0

1 1 22 2 011k j

j

?? ??

?

??? ? ? ? ? ? ???? ,

从而由不等式 (5.3.4),我们 得到 0Tkkgd? 对任意 k 成立 .

定理 5.3.4 设 ()fx二阶连续可微,水平集 ? ?0( ) ( )nL x f x f x? ? ?? 有界 . 设 k? 由

Wolfe-Powell 准则确定,那么 Fletcher-Reeves 共轭梯度算法产生的点列 全局收敛 ,即有

lim inf 0kk g?? ? . ( 5.3.5)

证 由 Wolfe-Powell 准则及 不等式 (5.3.4)得

211111T k T kk k kg d g d g?? ?????? ? ? ?,

结合 11kkkkd g d? ??? ? ? 及 2

1 211

1

T kkk

k Tkk

k

ggggg

g? ? ?? ???

,我们有

222 1 2 1112k T k kk k k kd g g d d??????? ? ?

222 2 22 1 2 11121 ()11 kkk k k k kg g d g d?????????? ? ? ? ???,

递推 下去, 可得

2 24

0

1( ) ( )1 kk kj

jd g g

?? ?

?

?? ? ?. ( 5.3.6)

下面用反证法证明 ( 5.3.5) 成立 . 若不然,则存在常数 0?? ,使得对充分大的 k ,都

有 0kg ??? .

由于 kg 在水平集 L 上有界,从 ( 5.3.6) 可知,存在常数 1c ,使得 2 1kd ck? . 因此

2 0 12c o s ( 2 ) ( )1

T k T k kk k kjkk

k k k k kjk k

g g gg d g dg d d d dg ??? ?

?

?? ? ? ? ? ? ? ?? ,

第五章 共轭梯度法和拟牛顿法

78 最优化理论与方法 [乌力吉 ]

2 2

2 2 2 22

1

1 2 1 2 1c os ( ) ( )11 k

k kk k k k

g c

c k kd? ? ?? ????? ? ?? ? ? ?



这表明 级数

2cos kk ??

发散 . 若设 M 为 ()Gx 在 L 上的上界,则 有

21T k T k kk k kg d g d M d?? ??,

结合 Wolfe-Powell 准则

1T k T kkkg d g d?? ??

,得

21T k T k T k kk k k kg d g d g d M d???? ? ?,

由此得

21 Tkkkk gdMd?? ???

.

于是, 由 Wolfe-Powell 准则 ,我们有

2 2 2 21 ( 1 ) ( 1 ) c o s c o sk k k k k kf f g fMM? ? ? ?? ? ?? ??? ? ? ?,

这表明 { ( )}kfx 单调下降 ,而由 ()fx 连续可微且水平集有界知 { ( )}kfx 有下界,故

lim ( )kk fx?? 存在 . 再由

2(1 ) 0M???? ? 及 22 1(1 ) c o s k k kffM?? ?? ?? ??,

推得

2cos k

k ??

收敛,矛盾 . 矛盾表明 定理结论成立 .

§5 .4 拟牛顿法

牛顿法具有 收敛速率 快的 优 点,但需要计算 Hesse 矩阵 及其 逆 矩阵 , 单步 计算量大 . 本

章介绍的拟牛顿法将用较简单的方式得到 Hesse 矩阵或其逆的近似,一方面 减少了 计算量,

另一方面 保证了 较快的 收敛速率 ,这类算法是无约束最优化问题最重要的求解方法 .

§5.4.1 拟牛顿 法的基本思想

设 ()fx在 n? 上二次可微,为了获得 Hesse 矩阵 2( ) ( )G x f x?? 在 1kx? 处的近似, 考

察 ()fx? 在 1kx? 处 的 一阶 Taylor 展开式 111( ) ( )kkkg x g G x x ???? ? ?, 取 kxx? ,则 有

111()kkk k kg g G x x ???? ? ?,

§ 5.4 拟牛顿法

最优化理论与方法 [乌力吉 ] 79

令 1kkks x x???, 1k kky g g???, 则有

1k k ky G s?? 或 11k kkG y s?? ? .

因此,我们要求构造出的 Hesse 矩阵的近似 1kB? 或 Hesse 矩阵逆的近似 1kH? 应 分别满



1k k kB s y? ? 或 1k k kH ys? ? , ( 5.4.1)

我们 称 其 为 拟牛顿条件 .

算法 5.3(拟牛顿 法 )

步 1: 给出初始点 0x?? , 初始近似矩阵 0HI? , 容许误差 0?? , 置 0k? ;

步 2: 若 kg ?? ,停止 计算,输出 kx ;

步 3: 计算 搜索方向 k kkHd g?? (或从 kkBd g?? 解出来), 这就是 拟 牛顿方向 ;

步 4: 沿方向 kd 进行 线搜索 ,确定步长 0k?? ;

步 5: 置 1k k kkx x d?? ?? ;

步 6: 在 满足拟牛顿条件 下, 校正 kH 产生 1kH? 更接近 11kG?? ;

步 7: 置 1kk??,转步 2.

注 拟牛顿 算法 5.3 较之牛顿法有下述优点: ( 1) 仅需梯度 , 牛顿法需 Hesse 矩阵 ; ( 2)

kH 保持正定,因而方向具有下降性质 , 而牛顿法中 kG 可 能不定 ; ( 3) 每次迭代需 2()On 次

运算,而牛顿法需 3()On 次运算 .

正如牛顿法中牛顿方向 1kkGg?? 是在椭球范数 ||||

kG?

下的最速下降方向一样, kkHg? 也

可 看成是 在椭球范数

1||||kH??

下的最速下降方向,也就是在 空间某种特定度量( 尺度 ) 意义下

的最速下降方向 . 由于每次迭代 kH 都在变化,因而度量也在变化 . 正因为如此, 常 称拟牛

顿 算 法为变尺度法 .

第五章 共轭梯度法和拟牛顿法

80 最优化理论与方法 [乌力吉 ]

§5.4.2 对称秩一校正公式( SRI 校正)

设 kH 是 21()kfx?? 的近似 , 希望对 kH 校正得到 1kH? ,即 1k k kH H E? ??,其中 kE 应

该是一个简单、容易构造且能校正矩阵中每个元素的矩阵,我们自然想到它应该是 一个秩一

矩阵, 这时, kH 的校正公式形如

1 TkkH H uv? ??. ( 5.4.2)

代入 拟牛顿条件 ,有 1 ()Tk k k k k kH y H y u v y s? ? ? ?,取适当的 v ,使得 0T kvy? ,则



k k k

T ks H yu vy??

, ( 5.4.3)

将 其 代入 ( 5.4.2) , 得到校正公式

1 1 () Tk k k k kT kH H s H y vvy? ? ? ?

, ( 5.4.4)

称为一般 Broyden 秩一校正公式 . 特别地,取 kvy? 时,称为 Broyden 秩一校正公式 .

由于 Hesse 矩阵是对称的,故希望 1kH? 也对称,因而取 k k kv s H y?? , 由此 得

1 ( ) ( )()

Tk k k k k k

kk Tk k k ks H y s H yHH s H y y? ???? ?

, ( 5.4.5)

称 为对称秩一校正 .

定理 5.4.1 设 0 1 1, , , ns s s ?? 线性无关,那么对于正定二次函数,对称秩一校正方法至多

1n? 步终止,即 1nHG?? .

证 首先 用归纳法证明拟牛顿条件的遗传性质,即

i j jHy s? , 0,1, , 1ji??? .

当 1i? 时,直接由( 5.4.5) 可知结论成立 . 假定结论对 1i? 成立,现考虑 1i? 情形,

此时

1

( ) ( )() Ti i i i i i j

i j i j Ti i i i

s H y s H y yH y H y s H y y

?

???? ?.

当 ji? 时,直接由 ( 5.4.5) 可得 . 而 当 ji? 时,由归纳法假设,有

§ 5.4 拟牛顿法

最优化理论与方法 [乌力吉 ] 81

( ) 0T T T T T T Ti i i j i j i i j i j i j i j i js H y y s y y H y s y y s s G s s G s? ? ? ? ? ? ? ?,

故当 ji? 时, 有 1i j i j jH y H y s? ??.

再根据以上所得遗传性质,有

n j jHy s? , n j jHGs s? , 0,1, , 1jn??? ,

由于 js 线性无关,故有 nHG I? ,即 1nHG?? .

注 证明中对 is 除了要求线性无关外,没有其他条件,因而简单取 i i is Hg?? 也是可以

的 . 这样完全不用一维搜索,并且由 1n n n ns H g G g?? ? ? ?,得到最优解 .

SRI 校正的缺点是不能保证 kH 的正定性,除非始终保持 ( ) 0Tk k k ks H y y??. 当用于

一般函数时,由 k kkd H g?? 算出的搜索方向不能保证是下降方向,这在一定程度上妨碍了

它的应用 .

§5.4.3 DFP 校正

考虑对称秩二校正 1 TTkkH H auu bvv? ? ? ?,代入 1k k kH y s? ? , 得

TTk k k k kH y a u u y b vv y s? ? ?,

取 kus? , kkv Hy? ,则 有 1T kau y ? , 1T kbv y ?? ,由此得

11TT

k k ka u y s y??

, 11

TTk k k kb v y y H y? ? ? ?



于是,我们得到 校正公式

1

TTk k k k k k

kk TTk k k k ks s H y y HHH s y y H y? ? ? ?

, ( 5.4.6)

称 为 DFP( Davidon-Fletcher-Powell) 校正公式 .

注 DFP 公式是最重要的拟牛顿校正公式,有很多重要性质 .

( I) 对于 采用精确一维搜索正定二次函数:( 1) 具有有限终止性; ( 2) 拟牛顿条件具

有遗传性质; ( 3) 当 0HI? 时,产生共轭方向和共轭梯度 .

( II) 对于一般函数 : ( 4) 校正保持正定性,因而算法具有下降性质; ( 5) 方法具有超

线性 收敛速率 ; ( 6) 当采用精确一维搜索时,对于凸函数,算法具有总体收敛性 .

第五章 共轭梯度法和拟牛顿法

82 最优化理论与方法 [乌力吉 ]

定理 5.4.2 当且仅当 0Tkksy? 时, DFP 校正公式保持正定性 .

证 用归纳法 证明 . 显然 初始 矩阵 0H 正定 . 假设 结论对 k 成立,即 kH 正定,并记 kH

的 Cholesky 分解为 TkH LL? .

下面 讨论 1k? 时的情形,设 , TTka L z b L y??, 则

22

1 ()()( ) [ ]

T T TTT T T Tk k k k k k k

kk T T T Tk k k k k k kH y y H s s s zabz H z z H z z z a ay H y s y b b s y? ? ? ? ? ? ?

, ( 5.4.7)

故 由 Cauchy 不等式 及 题设 0Tkksy? ,有 1 0T kz H z? ? . 当 0z? 时,等式 (5.4.7)右端第一项

等式成立当且仅当 a 与 b 平行 ,亦即当且仅当 z 与 ky 平行 . 而当 z 与 ky 平行 时,便有

,0kzy????. 此时 必有 2 2() 0T Tk kkT

kk

sz sysy ???. 因而,对任何 0z? ,均有 1 0T kz H z? ? ,

故 1kH? 正定 .

注 在 上面定理中,条件 0Tkksy? 是可以满足的 . 事实上, 由于 k kkd H g?? , kkksd?? ,

由 kH 的正定性, 有 ( ) 0T k T Tk k k k k k k ks g d g g H g??? ? ? ?, 而

11()T T T Tk k k k k k k k ks y s g g s g s g??? ? ? ?.

当采用精确一维搜索时,有 1 0Tkkgs? ? ,从而 0Tkksy? .

而当采用非精确一维搜索(如 Wolfe-Powell 准则)时,只要适当提高搜索精度,就可

使 1Tkksg? 小到所要求的程度,从而有 0Tkksy? .

定理 5.4.3 ( DFP 算法 的二次终止性 ) 设 ()fx是二次正定函数 , 若采用精确一维搜索,

则 DFP 算法是 具有遗传性质和方向共轭性质,即对于 0,1, , 1im??? ,有

1i j jH y s? ? , 0,1, ,ji? ? ; 0Tijs Gs ? , 0,1, , 1ji??? ,

DFP 算法 在 1mn??步迭代后终止 . 若 1mn??,则 1nHG?? .

证 用归纳法证明 . 当 0i? 时,结论显然成立 ,假设 结论对 i 成立 .

下面讨论 1i? 时 的情形, 注意到 1 0ig? ? ,由精确一维搜索及归纳法假设,对于 ji? ,



§ 5.4 拟牛顿法

最优化理论与方法 [乌力吉 ] 83

1 1 1 11 1 1( ) 0 0

i i iT T T T T T

i j j j k k j j j k j k jk j k j k jg s g s g g s g s y s s G s? ? ? ?? ? ? ? ? ?? ? ? ? ? ? ? ?? ? ?



由 11 1 1 1 1ii i i i is d H g???? ? ? ? ?? ? ? ?及 jjGs y? ,得

1 1 1 1 1 1 0T T Ti j i i i j i i js G s g H y g s??? ? ? ? ? ?? ? ? ? ?,

从而有 1 0Tijs Gs? ? , 0,1, ,ji? ? , 这就证明了 方向共轭性质 . 下面 证 遗传性质 ,即 证

2i j jH y s? ? , 0,1, , 1ji??? .

由 拟牛顿条件可知, 2 1 1i i iH y s? ? ?? , 而对于 ji? ,由 11 0TTi j i js y s Gs????及

1 1 1 1 0T T Ti i j i j i jy H y y s s G s? ? ? ?? ? ?,



1 1 1 1 1 12 1 1

1 1 1 1 1

TTi i j i i i i j

i j i j i j jTTi i i i i

s s y H y y H yH y H y H y ss y y H y? ? ? ? ? ?

? ? ?? ? ? ? ?? ? ? ? ?

.

注 由此定理可知, DFP 拟牛顿法是共轭方向法 . 若取 0HI? ,则初始方向为负梯度方

向,此时方法变成共轭梯度法 .

§5.4.4 BFGS 校正和 PSB 校正

若在 kH 的 DFP 校正公式

()

1

TTD F P k k k k k k

kk TTk k k k ks s H y y HHH s y y H y? ? ? ?

( 5.4.8)

中实行代换: kkHB? , kksy? ,即可得到关于 kB 的校正公式

()

1

TTB F G S k k k k k k

kk TTk k k k ky y B s s BBB y s s B s? ? ? ?

, ( 5.4.9)

称 为 kB 的 BFGS( Broyden-Flecther-Goldforb-Shanno)校正公式 .

对上式 连续两次 应用秩一校正的求逆公式,又得到 kH 的 BFGS 校正公式:

()1 (1 T T T TB F G S k k k k k k k k k k kkk T T T

k k k k k k

y H y s s s y H H y sHH s y s y s y? ?? ? ? ?) ( 5.4.10a)

第五章 共轭梯度法和拟牛顿法

84 最优化理论与方法 [乌力吉 ]

2( ) ( ) ( )()

T T T Tk k k k k k k k k k k k

k k kTTk k k ks H y s s s H y s H y yH s ss y s y? ? ? ?? ? ?

( 5.4.10b)

( ) ( )T T Tk k k k k kkT T T

k k k k k k

s y y s s sI H Is y s y s y? ? ? ?, ( 5.4.10c)

再将上式中 实行代换: kkHB? , kksy? ,得 kB 的 DFP 公式

()1 (1 T T T TD F P k k k k k k k k k k kkk T T T

k k k k k k

s B s y y y s B B s yBB y s y s y s? ?? ? ? ?) ( 5.4.11a)

2( ) ( ) ( )()

T T T Tk k k k k k k k k k k k

k k kTTk k k ky B s y y y B s y B s sB y yy s y s? ? ? ?? ? ?

( 5.4.11b)

( ) ( )T T Tk k k k k kkT T T

k k k k k k

y s s y y yI B Iy s y s y s? ? ? ?. ( 5.4.11c)

对 SRI 校正公式 ()1SRIkH?

()1 ( ) ( )() TS R I k k k k k kkk T

k k k k

s H y s H yHH s H y y? ???? ?, ( 5.4.12)

进行交换后得

1 ( ) ( )()

Tk k k k k k

kk Tk k k ky B s y B sBB y B s s? ???? ?

, ( 5.4.13)

再利用秩一求逆公式, 得到的 1kH? 就是 ()1SRIkH? ,因而 SRI 校正 是自对偶的 .

注 BFGS 校正是迄今为止最好的拟牛顿公式,它不仅具有 DFP 校正所拥有的各种性质,

而且当采用非精确一维搜索时,对于一般函数也具有总体收敛性,但这一结论对 DFP 校正

尚未获得证明 .

Powell 对一般的 Broyden 秩一校正公式采用对称化改造,得到了 PSB 公式 . 其基本思想

是在一般 Broyden 秩一校正公式的基础上,构造一个不断满足对称性和拟牛顿条件的矩阵序

列,然后求出这个矩阵序列的极限,则该极限矩阵是一个满足对称性和拟牛顿条件的矩阵,

从而产生出一个校正公式 .

设 nnB ??? 是对称矩阵,令

1 ()

T

Ty Bs cCB cs???

, 并 将其对称化, 即 令 11

2 2

TCCC ?? .

2C 虽然对称,却不一定满足拟牛顿条件 . 因而重复以上过程产生 矩阵 序列 {}kC ,其中

§ 5.4 拟牛顿法

最优化理论与方法 [乌力吉 ] 85

2 2 1 2 12 1 2 2 2() , 2TTk k kk k kTy C s c C CC C Ccs ??????? ? ?,

可以 证明这个矩阵序列是收敛的,其极限为

2( ) ( ) ( )()

T T T T

TTy B s c c y B s y B s sB B c cc s c s? ? ? ?? ? ?



加上下标,则得到一类秩二校正公式

1 2( ) ( ) ( )()

T T T Tk k k k k k k k k k k k

k k k kTTk k k ky B s c c y B s y B s sB B c cc s c s? ? ? ? ?? ? ?

, ( 5.4.14)

这个校正类包括了很多的校正公式,在 ( 5.4.14) 式中,若令 k k k kc y B s?? , 则得到关于 kB

的对称秩一校正公式( SR1 公式);若令 kkcy? ,则得到关于 kB 的 DFP 校正公式;若令

1 11kk k k k

kk

wc y B sww????, 其中 TTk k k k k kw y s s B s? ,则得到关于 kB 的 BFGS 校正;

若令 kkcs? ,则得到 PSB 校正 公式

1 2( ) ( ) ( )()

T T T Tk k k k k k k k k k k k

k k k kTTk k k ky B s s s y B s y B s sB B s ss s s s? ? ? ? ?? ? ?

, ( 5.4.15)

这个校正在理论研究和实际计算中是十分重要的,其缺点是不能保证校正矩阵的正定性 . 值

得指出的是,通过交换 kkHB? , kkys? ,可得到关于 1kH? 的类似校正公式 .

前面介绍了一些拟牛顿校正公式,以及派生新的拟牛顿法校正公式的方法(如对偶 方 法,

对称技术等) . 有时候,还可利用一些特殊的附加条件推出校正公式 .

BFGS 校正是由 DFP 校正公式经过替换与 秩一矩阵 求逆得到的校正公式 . 事实上对其它

校正公式也可采用类似方法获得新的校正公式 , 这些新 的派生 公式 称 为原公式的对偶 , 对偶

方法是 产 生新校正公式的一种 重要 方法 . 若一个校正公式的对偶还等于其自身,则称之为自

对偶 .

将一般的 Broyden 秩一校正公式反复采用对称化、应用秩一校正 使其满足拟牛顿条件,

生成一迭代序列,其极限构成一类新的秩一校正公式,而且很多常见的校正公式都含在这个

类中,特别地得到 PSB 校正公式 .

第五章 共轭梯 度法和拟牛顿法

86 最优化理论与方法 [乌力吉 ]

§5.4.5 Broyden 族 和 Huang 族

上节讨论的 DFP 校正和 BFGS 校正都是对称秩二校正,且都是通过 ky , ks 和 kH 来获得

校正矩阵 1kH? . 下面考虑 DFP 与 BFGS 的加权组合

1 1 1(1 ) D F P B F G Sk k kH H H? ??? ? ?? ? ?, ( 5.4.16)

其中 ? 为参数 ,称之为 Broyden 族校正 公式 . 显然 ,这样得到的校正公式必满足拟牛顿条件 .

容易 看出

1 1 1 ( 1 )D F P T B F G S Tk k k k k k kH H v v H v v? ??? ? ?? ? ? ? ?, ( 5.4.17)

其中 12( ) [ ]T k k k

k k k k TTk k k k ks H yv y H y s y y H y??

.

当 0?? 时, ( 5.4.16) 就是 DFP 校正 ; 当 1?? 时, ( 5.4.16) 就是 BFGS 校正 ; 当

()

Tkk

Tk k k ksys H y y? ? ?

时, ( 5.4.16) 就是 SRI 校正 ;而 当 1

1 ( / )TTk k k k ky H y s y? ? ?

时, ( 5.4.16)

就是 Hoshino 校正 .

类似地, 也 有关于 kB 的 Broyden 族校正

1 1 1(1 )D F P B F G Sk k kB B B? ??? ? ?? ? ? 11 ( 1 )B F G S T D F P Tk k k k k kB w w B w w????? ? ? ? ?, ( 5.4.18)

其中 12( ) [ ]T k k k

k k k k TTk k k k ky B sw s B s s y s B s??

.

注 由于 0Tkkvy? 和 0Tkkws? ,也可以直接验证 Broyden 族校正对任意的 ? 和 ? 都满

足拟牛顿条件 .

定理 5.4.4( Broyden 族校正二次终止性定理 )设 ()fx是正定二次函数, G 是其 Hesse

矩阵, 若 采用精确线性搜索, 则 Broyden 族校正具有遗传性质和方向共轭性质, 相应的算法

在 1mn??步迭代后终止 . 若 1mn??,则 1nHG?? .

证明略 .

定理 5.4.5( Broyden 族校正的正定性 )设参数 0?? ,当且仅当 0Tkksy? 时, Broyden

族校正公式保持正定性 .

§ 5.5 拟牛顿法的收敛性质

最优化理论与方法 [乌力吉 ] 87

证明略 .

Huang 族是比 Broyden 族更广泛的一类校正公式 . 在 Broyden 族中, {}kH 是对称的 且

满足拟牛顿条件 1k k kH y s? ? . 但 在 Huang 族中取消了对 kH 对称的限制,并将拟牛顿条件

进一步 放松为

1k k kH y s?? ? , ( 5.4.19)

称 为 广义拟牛顿条件 ,其中 ? 是一个参数 . 为了使 Huang 族拟牛顿法 用 于二次正定函数 时,

所 产生的 搜索 方向共轭 ,进而 具有二次终止性 . 设 Huang 族校正公式 的形式为

1 TTk k k k k k kH H s u H y v? ? ? ?,

其中 ku , kv 满足

1 1 1 2 Tk k k ku a s a H y?? , Tkkuy?? , 2 1 2 2 Tk k k kv a s a H y?? , 1Tkkvy?? .

在上面的方程组中, 含 有 三个自由参数 . 特别地,令 1?? , 12 21aa? ,则 只含一个自由参数 ,

若取 11a 为自由参数,则有

1

TT Tk k k k k k

k k k kTTk k k k ks s H y y HH H v vs y y H y ?? ? ? ? ?

, ( 5.4.20)

其中 12( ) [ ]T k k k

k k k k TTk k k k ks H yv y H y s y y H y??

,正好蜕变为 Broyden 族 校正公式,这 表明 Broyden

族是 Huang 族的子族 . 一般地 , Huang 族中含有三个自由参数,可产生丰富的校正公式 .

注 ( 1) 若采用精确一维搜索,对于正定二次函数,所有 Huang 族变尺度算法产生相

同的迭代点列 ,而 对一般函数产生的点列只依赖于 ? .

( 2) 当极小化正定二次函数时,若取 0HI? ,则 Huang 族校正公式产生的搜索方向

与 F-R 共轭梯度法相同,因而也是共轭方向法 .

§5.5 拟牛顿法的 收敛 性质

§5.5.1 一般拟牛顿算法超线性收敛的特征

假设 A ( 1) 设 ()fx在开凸集 nD?? 上 二阶连续可微;

第五章 共轭梯度法和拟牛顿法

88 最优化理论与方法 [乌力吉 ]

( 2) ()fx存在一个严格局部极小点 xD? ,且 2 ( )fx? 正定;

( 3) 2 ()fx? 在点 x 处局部 Lipschitz 连续,即 存在 x 的一个邻域 ( , )Nx? 和常数

0?? , 使 对任意 , ( , )x y N x ?? ,满足

22( ) ( )f y f x y x?? ? ? ? ?.

定理 5.5.1 设 ()fx满足假设 A 中的 ( 1) 与 ( 2) ,又设 {}kB 为一非奇异矩阵序列 . 假

定对某 0xD? ,迭代序列

11()k k kkx x B f x??? ? ? ( 5.5.1)

恒在 D 中且 对每个 k 有 kxx? ,又设该序列收敛于 x , 则当且仅当

21

1

[ ( ) ] ( )l i m 0kkk

kkk

B f x x x

xx

?

?? ? ?

? ? ? ?

?

( 5.5.2)

时,序列 {}kx 超线性收敛到 x .

证 充分性 . 假设等式 (5.5.2)成立 . 由 (5.5.1)和 (5.5.2)可知,

2 1 1 2 1 1[ ( ) ] ( ) [ ( ) ( ) ( ) ( ) ] ( )k k k k k k kkB f x x x f x f x f x x x f x? ? ? ?? ? ? ? ? ? ? ? ? ? ? ?, ( 5.5.3)

于是,由定理 1.2.3,我们有

2 1 21 || [ ( ) ] || || ( ) ( ) ( ) |||| ( ) ||

|| || || || || ||

kkk k k k

k k k

B f x s f x f x f x sfxs s s?? ? ? ? ? ? ? ?? ??

2 1|| [ ( ) ] || ( || || || ||)

|| || 2 kkkkkB f x s x x x xs ? ???? ? ? ? ?



由于 lim k

k xx?? ?

,故由上式及 (5.5.2),有 1|| ( ) ||lim 0

|| ||

k

k k

fxs ?

??

? ?. 又因为 lim|| || 0kk s?? ? , 故

1( ) lim ( ) 0kkf x f x ???? ? ? ?.

注意到 2 ( )fx? 正定从而非奇异,由定理 1.2.4 知存在 0?? 和 k ,使当 kk? 时, 我们 有

1 1 1| | ( ) | | | | ( ) ( ) | | | | | |k k kf x f x f x x x?? ? ?? ? ? ? ? ? ?,

因此

§ 5.5 拟牛顿法的收敛性质

最优化理论与方法 [乌力吉 ] 89

11

11|| ( ) || || |||| || || || || || 1

kk k

k k k k krf x x xx x x x x x r??

??

??????? ? ? ? ?



其中 1|| || / || ||kkkr x x x x?? ? ?. 注意到上式不等式左端趋向于零,我们有 lim 0

kk r?? ?

,这

意味着 {}kx 超线性收敛到 x .

必要性 . 假设 {}kx 超线性收敛到 x ,由于 ( ) 0fx??, 由定理 1.2.4 知存在 0?? 和 k? ,

使当 kk?? 时, 有

1 1 1| | ( ) | | | | ( ) ( ) | | | | | |k k kf x f x f x x x?? ? ?? ? ? ? ? ? ?,

由此得

1 1 1 1

1| | | | | | ( ) | | 1 | | ( ) | | | | | |0 l i m l i m l i m| | | | | | | | | | | | | | | |

k k k k k

k k k k kk k kx x f x f x x xx x x x x x x x??

? ? ? ?

??? ?? ??? ? ? ?? ? ? ?? ? ? ?



注意到 {}kx 超线性收敛到 x 时,有 1|| ||lim 1

|| ||

kk

kk xxxx

?

??

? ?? ,故由 (5.5.3)可推知 (5.5.2)成立 .

定理 5.5.2 设 ()fx满足假设 A 中的( 1)与( 2) ,又设 {}kB 为一非奇异矩阵序列 . 设 对

某 0xD? , 迭代序列

11 ()k k kkkx x B f x???? ? ? ( 5.5.4)

恒在 D 中且对每个 k 有 kxx? ,又设该序列收敛于 x . 如果 (5.5.2)式成立,则序列 {}kx 超

线性收敛到 x 且 ( ) 0fx??的 充分必要 条件是 {}k? 收敛到 1.

证 必要性 . 假设 {}kx 超线性收敛到 x 且 ( ) 0fx??,由定理 5.5.1 可知,

21

1

[ ( ) ] ( )l i m 0kkkk

kkk

B f x x x

xx

? ?

?? ? ?

? ? ? ?

?

.



( 5.5.5)

因而 (5.5.2)意味着

1 1 1

11

( 1 ) ( ) ( 1 ) ( )l i m l i m 0k k kk k k k

k k k kkk

B x x f x

x x x x

? ? ?? ? ?

??? ? ? ? ? ?

? ? ? ? ???

??

.



( 5.5.6)

由于 2 ( )fx? 非奇异,由定理 1.2.4 知存在 0?? 和 k ,使当 kk? 时,有

11|| ( ) || || ||kkf x x x???? ? ?,

第五章 共轭梯度法和拟牛顿法

90 最优化理论与方法 [乌力吉 ]

再 注意到 {}kx 超线性收敛到 x 时,有 1|| ||lim 1

|| ||

kk

kk xxxx

?

??

? ?? ,从而由 (5.5.6)可推得 {}k? 收

敛到 1.

充分性 . 假设 {}k? 收敛到 1,则从 (5.5.2)可推知 (5.5.5)成立,因此,由定理 5.5.1 可知,

{}kx 超线性收敛到 x 且 ( ) 0fx??.

注 ( 1) 要使算法超线性收敛,步长因子 k? 必趋近于 1; ( 2) 拟牛顿算法超线性收敛的

几何特征是:其位移 ks 在长度与方向上都必趋近于牛顿方向 Nks .

下面我们不加证明地给出一些收敛性结果 .

定理 5.5.3 设 ()fx满足假设 A 中的 ( 1) 与 ( 2) , 又设 {}kB 为一非奇异矩阵序列 . 假

定对某 0xD? ,迭代序列

11 ()k k kkkx x B f x???? ? ?

恒在 D 中且对每个 k 有 kxx? ,又设该序列收敛于 x , k? 由精确线性搜索产生,则当

21

1

[ ( ) ] ( )l i m 0kkk

kkk

B f x x x

xx

?

?? ? ?

? ? ? ?

?



成立时,一定有 lim 0

kk ??? ?

和 ( ) 0fx??,从而序列 {}kx 超线性收敛到 x .

定理 5.5.4 设 ()fx满足假设 A 中的( 1)与( 2),又设 {}kB 为一非奇异矩阵序列 . 假

定对某 0xD? ,迭代序列

11 ()k k kkkx x B f x???? ? ?

恒在 D 中且对每个 k 有 kxx? ,又设该序列收敛于 x , k? 由不精确线性搜索的

Wolfe-Powell 准则产生,则当

21

1

[ ( ) ] ( )l i m 0kkk

kkk

B f x x x

xx

?

?? ? ?

? ? ? ?

?



成立时,一定有 lim 0

kk ??? ?

和 ( ) 0fx??,从而序列 {}kx 超线性收敛到 x .

§ 5.5 拟牛顿法的收敛性质

最优化理论与方法 [乌力吉 ] 91

§5.5.2 Broyden 秩一校正的局部超线性收敛性

定理 5.5.5 设 ()fx 满足假设 A,又设存在正常数 ,??,使得 0 xx??? 和

210 ( )H f x ??? ? ?, 则由 Broyden 秩一方法

11

1

( ) ,

() ,

k k k

k

T

k k k kkk

T

kk

x x B f x

y B s sBB

ss

??

?

? ? ? ??

? ????

?



产生的 迭代序列 {}kx 是有定义的,且超线性收敛 到 x .

定理 5.5.6 设 ()fx 满足假设 A,又设存在正常数 ,??,使得 0 xx??? 和

20 ( )B f x ??? ?,则由 Hesse 逆 Broyden 秩一方法

1

1

( ) ,

() ,

k k k

k

T

k k k kkk

T

kk

x x H f x

s H s yHH

ss

?

?

? ? ? ??

? ????

?



产生的 迭代序列 {}kx 是有定义的,且超线性收敛 到 x .

§5.5.3 DFP 和 BFGS 算法的局部超线性收敛性

定理 5.5.7 设 ()fx满足假设 A, 又设在 x 的一个邻域内, 不等式 1( , ) 1 / 3kkxx??? ? ?

成立, 其中 21( )fx? ??? , 11( , ) m a x { , }k k k kx x x x x x? ??? ? ?. 则 存在 0?? 和

0?? ,使 当 0 xx???和 20 ( ) D FPB f x ?? ? ?时, DFP 方法

11

1 2

( ) ,

( ) ( ) ( ) ,

()

k k k

k

T T T T

k k k k k k k k k k k kk k k k

TT

k k k k

x x B f x

y B s y y y B s y B s sB B y y

y s y s

??

?

? ? ? ??

? ? ? ? ?? ? ??

?



产生的 迭代序列 {}kx 是有定义的,且超线性收敛 到 x .

类似于 Hesse 近似形式的 DFP 方法,可以建立对 Hesse 拟近似的 BFGS 方法的局部收

敛性定理 .

定理 5.5.8 设 ()fx满足假设 A,又设在 x 的一个邻域内,不等式 1( , ) 1 / 3kkxx??? ? ?

成立,其中 21( )fx? ??? , 11( , ) m a x { , }k k k kx x x x x x? ??? ? ?. 则存在 0?? 和

第五章 共轭梯度法和拟牛顿法

92 最优化理论与方法 [乌力吉 ]

0?? ,使当 0 xx???和 210 ( ) B F G SH f x ??? ? ?时, BFGS 方法

1

1 2

( ) ,

( ) ( ) ( )

()

k k k

k

T T T T

k k k k k k k k k k k kk k k k

TT

k k k k

x x H f x

s H y s s s H y s H y sH H s s

s y s y

?

?

? ? ? ??

? ? ? ? ?? ? ??

?



有定义, 产生的 序列 {}kx 线性收敛 . 如果

0

k

k xx

?

? ? ? ???

,则 序列 {}kx 超线性收敛 到

x .

Byrd, Nocedal, Yuan 于 1987 证明了 Broyden 族的超线性收敛性 .

定理 5.5.9 设 ()fx在开凸集 nD?? 上二阶连续可微且一致凸, 且 2 ()fx? 在点 x 处

局部 lipschitz 连续 . 则对于任何正定矩阵 0B ,当线性搜索满足 Wolfe-Powell 准则时, Broyden

族 算法( [0,1)?? ,即不包含 DFP 算法)所产生的极小化序列 {}kx 超线性收敛 到 x .

定理 5.5.10 设 ()fx在开凸集 nD?? 上二阶连续可微且一致凸,且 2 ()fx? 在点 x

处局部 lipschitz 连续 . 则对于任何正定矩阵 0B ,当采用精确线性搜索 时, Broyden 族 算法

所产生的极小化序列 {}kx 超线性收敛 到 x .

§5.5.4 拟牛顿法的全局 收敛性

Powell 于 1971 年 证明了当目标函数 ()fx是二阶连续可微 且 一致凸函数时,采用精确

搜索的 DFP 方法的 全局 收敛性及 2 ()fx? 满足 Lipschitz 条件时 的 超线性收敛性 . 1976 年 ,

他又 证明 了 ()fx为 二阶连续可微 凸函数 且 ()fx有下界 时 , 采用 Wolfe-Powell 准则 的 BFGS

方法的全局收敛性和超线性收敛性 . 1985 年 Byrd, Nocedal, Yuan 将 Powell 的结果推广到除

DFP 以外的所有限制 Broyden 族算法 ( 即 [0,1)?? ) ,证明了全局收敛性及超线性收敛性 .

定理 5.5.11 设 ()fx在 水平集 0( ) { ( ) ( )}L x x f x f x??上二阶连续可微且一致凸 , 则

采用 精确线性搜索的 DFP 方法产生的点列 {}kx 收敛到极小点 x .

定理 5.5.12 设 0x 和 0B 为任意给定的初始点和初始正定矩阵,又 设 ()fx 在 水平集

0( ) { ( ) ( )}L x x f x f x??上二阶连续可微且一致凸,则在不精确线性搜索 Wolfe-Powell 准

§ 5.5 拟牛顿法的收敛性质

最优化理论与方法 [乌力吉 ] 93

则下, Broyden 族算法 当 [0,1)?? 时 产生的点列 {}kx 收敛到极小点 x .

注 拟牛顿算法中 Broyden 族具有二次终止性和超线性收敛性,对于中小规模问题这是

一类最有效的求解方法,但由于求解过程要存贮一个 nn? 矩阵,求迭代方向要解一个线代

数方程组,使算法效率受影响,而共轭梯度法克服了这些缺陷,故常称共轭梯度法是大规模

无约束的最优化算法 .



第五章 共轭梯度法和拟牛顿法

94 最优化理论与方法 [乌力吉 ]



献花(0)
+1
(本文系清风之墉实首藏)