数学 において凸共役 (とつきょうやく、英 : convex conjugation )とは、ルジャンドル変換 の一般化である。ルジャンドル=フェンシェル変換 あるいはフェンシェル変換 としても知られる(アドリアン=マリ・ルジャンドル とウェルナー・フェンシェル (英語版 ) の名にちなむ)。
X
{\displaystyle X}
を実 ノルム線型空間 とし、
X
∗
{\displaystyle X^{*}}
を
X
{\displaystyle X}
の双対空間 とする。双対組 を次で表す。
⟨
⋅
,
⋅
⟩
:
X
∗
×
X
→
R
.
{\displaystyle \langle \cdot ,\cdot \rangle :X^{*}\times X\to \mathbb {R} .}
拡大実数 に値を取る函数
f
:
X
→
R
∪
{
∞
}
{\displaystyle f:X\to \mathbb {R} \cup \{ \infty \}}
に対する凸共役
f
⋆
:
X
∗
→
R
∪
{
∞
}
{\displaystyle f^{\star }:X^{*}\to \mathbb {R} \cup \{ \infty \}}
は、上限 を用いて次のように定義される。
f
⋆
(
x
∗
)
:=
sup
{
⟨
x
∗
,
x
⟩
−
f
(
x
)
∣
x
∈
X
}
.
{\displaystyle f^{\star }\left(x^{*}\right):=\sup \left\{\langle x^{*},x\rangle -f(x)\mid x\in X\right\}.}
あるいは、同値であるが、下限 を用いて次のように定義される。
f
⋆
(
x
∗
)
:=
−
inf
{
f
(
x
)
−
⟨
x
∗
,
x
⟩
∣
x
∈
X
}
.
{\displaystyle f^{\star }\left(x^{*}\right):=-\inf \left\{f(x)-\langle x^{*},x\rangle \mid x\in X\right\}.}
この定義は、函数のエピグラフ の凸包 の、支持超平面 (英語版 ) に関する符合化と解釈することが出来る[ 1]
[ 2] 。
アフィン函数
f
(
x
)
=
⟨
a
,
x
⟩
−
b
,
a
∈
R
n
,
b
∈
R
{\displaystyle f(x)=\left\langle a,x\right\rangle -b,\,a\in \mathbb {R} ^{n},b\in \mathbb {R} }
の凸共役は
f
⋆
(
x
∗
)
=
{
b
,
x
∗
=
a
∞
,
x
∗
≠
a
.
{\displaystyle f^{\star }\left(x^{*}\right)={\begin{cases}b,&x^{*}=a\\ \infty ,&x^{*}\neq a.\end{cases}}}
である。冪函数
f
(
x
)
=
1
p
|
x
|
p
,
1
<
p
<
∞
{\displaystyle f(x)={\frac {1}{p}}|x|^{p},\,1<p<\infty }
の凸共役は
f
⋆
(
x
∗
)
=
1
q
|
x
∗
|
q
,
1
<
q
<
∞
{\displaystyle f^{\star }\left(x^{*}\right)={\frac {1}{q}}|x^{*}|^{q},\,1<q<\infty }
である。ここで
1
p
1
q
=
1
{\displaystyle {\tfrac {1}{p}} {\tfrac {1}{q}}=1}
である。
絶対値 函数
f
(
x
)
=
|
x
|
{\displaystyle f(x)=\left|x\right|}
の凸共役は
f
⋆
(
x
∗
)
=
{
0
,
|
x
∗
|
≤
1
∞
,
|
x
∗
|
>
1
{\displaystyle f^{\star }\left(x^{*}\right)={\begin{cases}0,&\left|x^{*}\right|\leq 1\\\infty ,&\left|x^{*}\right|>1\end{cases}}}
である。指数函数
f
(
x
)
=
e
x
{\displaystyle f(x)=\,\!e^{x}}
の凸共役は
f
⋆
(
x
∗
)
=
{
x
∗
ln
x
∗
−
x
∗
,
x
∗
>
0
0
,
x
∗
=
0
∞
,
x
∗
<
0
{\displaystyle f^{\star }\left(x^{*}\right)={\begin{cases}x^{*}\ln x^{*}-x^{*},&x^{*}>0\\0,&x^{*}=0\\\infty ,&x^{*}<0\end{cases}}}
である。指数函数の凸共役とルジャンドル変換は、凸共役の定義域が厳密に大きいことを除いて一致する。ルジャンドル変換は正の実数に対してのみ定義されるためである。
期待ショートフォール(リスク平均値)との関係[ 編集 ]
F を確率変数 X の累積分布函数 とする。このとき、部分積分により
f
(
x
)
:=
∫
−
∞
x
F
(
u
)
d
u
=
E
[
max
(
0
,
x
−
X
)
]
=
x
−
E
[
min
(
x
,
X
)
]
{\displaystyle f(x):=\int _{-\infty }^{x}F(u)\,du=\operatorname {E} \left[\max(0,x-X)\right]=x-\operatorname {E} \left[\min(x,X)\right]}
は次の凸共役を持つ。
f
⋆
(
p
)
=
∫
0
p
F
−
1
(
q
)
d
q
=
(
p
−
1
)
F
−
1
(
p
)
E
[
min
(
F
−
1
(
p
)
,
X
)
]
=
p
F
−
1
(
p
)
−
E
[
max
(
0
,
F
−
1
(
p
)
−
X
)
]
.
{\displaystyle f^{\star }(p)=\int _{0}^{p}F^{-1}(q)\,dq=(p-1)F^{-1}(p) \operatorname {E} \left[\min(F^{-1}(p),X)\right]=pF^{-1}(p)-\operatorname {E} \left[\max(0,F^{-1}(p)-X)\right].}
特別な解釈により次の変換が考えられる。
f
inc
(
x
)
:=
arg
sup
t
t
⋅
x
−
∫
0
1
max
{
t
−
f
(
u
)
,
0
}
d
u
,
{\displaystyle f^{\text{inc}}(x):=\arg \sup _{t}\,t\cdot x-\int _{0}^{1}\max\{t-f(u),0\}\,\mathrm {d} u,}
これは初期函数 f の非減少な書き換えである。特に、f に対する
f
inc
=
f
{\displaystyle f^{\text{inc}}=f}
は非減少である。
閉凸函数 の凸共役は再び閉凸函数である。多面体的凸函数 (多面体的エピグラフ を持つ凸函数 )の凸共役は、再び多面体的凸函数である。
凸共役は、順序を反転させる。すなわち、
f
≤
g
{\displaystyle f\leq g}
ならば
f
∗
≥
g
∗
{\displaystyle f^{*}\geq g^{*}}
である。ここで
(
f
≤
g
)
:
⟺
(
∀
x
,
f
(
x
)
≤
g
(
x
)
)
{\displaystyle (f\leq g):\iff (\forall x,f(x)\leq g(x))}
である。函数の族
(
f
α
)
α
{\displaystyle \left(f_{\alpha }\right)_{\alpha }}
に対し、上限は交換されうるという事実により、次が従う。
(
inf
α
f
α
)
∗
(
x
)
=
sup
α
f
α
∗
(
x
)
.
{\displaystyle \left(\inf _{\alpha }f_{\alpha }\right)^{*}(x)=\sup _{\alpha }f_{\alpha }^{*}(x).}
さらに最大最小不等式 により、次が従う。
(
sup
α
f
α
)
∗
(
x
)
≤
inf
α
f
α
∗
(
x
)
.
{\displaystyle \left(\sup _{\alpha }f_{\alpha }\right)^{*}(x)\leq \inf _{\alpha }f_{\alpha }^{*}(x).}
函数の凸共役は常に下半連続 である。二重共役
f
∗
∗
{\displaystyle f^{**}}
(凸共役の凸共役)は閉凸包 、すなわち、
f
∗
∗
≤
f
{\displaystyle f^{**}\leq f}
を満たす最大の下半連続凸函数でもある。真凸函数 f に対し、次が成り立つ。
f
=
f
∗
∗
{\displaystyle f=f^{**}}
であるための必要十分条件は、f が凸かつ下半連続であることである(フェンシェル=モローの定理 )
任意の函数 f とその凸共役 f * に対し、次のフェンシェルの不等式 (フェンシェル=ヤングの不等式 としても知られる)は、すべての x ∈ X と p ∈ X * に対して成立する:
⟨
p
,
x
⟩
≤
f
(
x
)
f
∗
(
p
)
.
{\displaystyle \left\langle p,x\right\rangle \leq f(x) f^{*}(p).}
二つの函数
f
0
{\displaystyle f_{0}}
と
f
1
{\displaystyle f_{1}}
および数
0
≤
λ
≤
1
{\displaystyle 0\leq \lambda \leq 1}
に対し、次の凸関係が成立する。
(
(
1
−
λ
)
f
0
λ
f
1
)
⋆
≤
(
1
−
λ
)
f
0
⋆
λ
f
1
⋆
{\displaystyle \left((1-\lambda )f_{0} \lambda f_{1}\right)^{\star }\leq (1-\lambda )f_{0}^{\star } \lambda f_{1}^{\star }}
この演算
⋆
{\displaystyle \star }
はそれ自身が凸写像である。
二つの函数 f と g の極小畳み込み (infimal convolution)は、次で定義される(epi-sum とも呼ばれる):
(
f
◻
g
)
(
x
)
=
inf
{
f
(
x
−
y
)
g
(
y
)
∣
y
∈
R
n
}
.
{\displaystyle \left(f\Box g\right)(x)=\inf \left\{f(x-y) g(y)\mid y\in \mathbb {R} ^{n}\right\}.}
f 1 , …, f m は R n 上の真凸かつ下半連続 な函数とする。このとき、これらの極小畳み込みは凸かつ下半連続である(が、必ずしも真凸ではない)[ 3] 。さらに次が成立する。
(
f
1
◻
⋯
◻
f
m
)
⋆
=
f
1
⋆
⋯
f
m
⋆
.
{\displaystyle \left(f_{1}\Box \cdots \Box f_{m}\right)^{\star }=f_{1}^{\star } \cdots f_{m}^{\star }.}
二つの函数の極小畳み込みは、次のような幾何学的解釈がある:二つの函数の極小畳み込みの(厳密な)エピグラフ は、それらの函数の(厳密な)エピグラフのミンコフスキー和 (英語版 ) である[ 4] 。
函数
f
{\displaystyle f}
が微分可能であるなら、その導函数は凸共役の計算における最大化引数(maximizing argument)である。すなわち、
f
′
(
x
)
=
x
∗
(
x
)
:=
arg
sup
x
⋆
⟨
x
,
x
⋆
⟩
−
f
⋆
(
x
⋆
)
{\displaystyle f^{\prime }(x)=x^{*}(x):=\arg \sup _{x^{\star }}{\langle x,x^{\star }\rangle }-f^{\star }(x^{\star })}
と
f
⋆
′
(
x
⋆
)
=
x
(
x
⋆
)
:=
arg
sup
x
⟨
x
,
x
⋆
⟩
−
f
(
x
)
;
{\displaystyle f^{\star \prime }(x^{\star })=x(x^{\star }):=\arg \sup _{x}{\langle x,x^{\star }\rangle }-f(x);}
が成り立つ。したがって
x
=
∇
f
⋆
(
∇
f
(
x
)
)
,
{\displaystyle x=\nabla f^{\star }(\nabla f(x)),}
x
⋆
=
∇
f
(
∇
f
⋆
(
x
⋆
)
)
,
{\displaystyle x^{\star }=\nabla f(\nabla f^{\star }(x^{\star })),}
であり、さらに次が成立する。
f
′
′
(
x
)
⋅
f
⋆
′
′
(
x
⋆
(
x
)
)
=
1
,
{\displaystyle f^{\prime \prime }(x)\cdot f^{\star \prime \prime }(x^{\star }(x))=1,}
f
⋆
′
′
(
x
⋆
)
⋅
f
′
′
(
x
(
x
⋆
)
)
=
1.
{\displaystyle f^{\star \prime \prime }(x^{\star })\cdot f^{\prime \prime }(x(x^{\star }))=1.}
ある
γ
>
0
{\displaystyle \gamma >0}
に対し、
g
(
x
)
=
α
β
x
γ
⋅
f
(
λ
x
δ
)
{\displaystyle \,g(x)=\alpha \beta x \gamma \cdot f(\lambda x \delta )}
であるなら、次が成り立つ。
g
⋆
(
x
⋆
)
=
−
α
−
δ
x
⋆
−
β
λ
γ
⋅
f
⋆
(
x
⋆
−
β
λ
γ
)
.
{\displaystyle g^{\star }(x^{\star })=-\alpha -\delta {\frac {x^{\star }-\beta }{\lambda }} \gamma \cdot f^{\star }\left({\frac {x^{\star }-\beta }{\lambda \gamma }}\right).}
さらにパラメータ α が追加される場合は、次が成り立つ。
f
α
(
x
)
=
−
f
α
(
x
~
)
.
{\displaystyle f_{\alpha }(x)=-f_{\alpha }({\tilde {x}}).}
ここで
x
~
{\displaystyle {\tilde {x}}}
は最大化引数であるように選ばれる。
A を X から Y への有界線型作用素 とする。X 上の任意の凸函数 f に対して、次が成り立つ。
(
A
f
)
⋆
=
f
⋆
A
⋆
{\displaystyle \left(Af\right)^{\star }=f^{\star }A^{\star }}
ここで
(
A
f
)
(
y
)
=
inf
{
f
(
x
)
:
x
∈
X
,
A
x
=
y
}
{\displaystyle (Af)(y)=\inf\{f(x):x\in X,Ax=y\}}
は f の A に関する原像であり、A * は A の共役作用素 である[ 5] 。
閉凸函数 f は、ある与えられた直交線型変換 の集合 G に関して対称である、すなわち
f
(
A
x
)
=
f
(
x
)
,
∀
x
,
∀
A
∈
G
{\displaystyle f\left(Ax\right)=f(x),\;\forall x,\;\forall A\in G}
であるための必要十分条件は、凸共役 f * が G に関して対称であることである。
次の表では、多くの有名な函数のルジャンドル変換で、有用な性質を持つものが示されている[ 6] 。
g
(
x
)
{\displaystyle g(x)}
dom
(
g
)
{\displaystyle \operatorname {dom} (g)}
g
∗
(
x
∗
)
{\displaystyle g^{*}(x^{*})}
dom
(
g
∗
)
{\displaystyle \operatorname {dom} (g^{*})}
f
(
a
x
)
{\displaystyle f(ax)}
(where
a
≠
0
{\displaystyle a\neq 0}
)
X
{\displaystyle X}
f
∗
(
x
∗
a
)
{\displaystyle f^{*}\left({\frac {x^{*}}{a}}\right)}
X
∗
{\displaystyle X^{*}}
f
(
x
b
)
{\displaystyle f(x b)}
X
{\displaystyle X}
f
∗
(
x
∗
)
−
⟨
b
,
x
∗
⟩
{\displaystyle f^{*}(x^{*})-\langle b,x^{*}\rangle }
X
∗
{\displaystyle X^{*}}
a
f
(
x
)
{\displaystyle af(x)}
(where
a
>
0
{\displaystyle a>0}
)
X
{\displaystyle X}
a
f
∗
(
x
∗
a
)
{\displaystyle af^{*}\left({\frac {x^{*}}{a}}\right)}
X
∗
{\displaystyle X^{*}}
α
β
x
γ
⋅
f
(
λ
x
δ
)
{\displaystyle \alpha \beta x \gamma \cdot f(\lambda x \delta )}
X
{\displaystyle X}
−
α
−
δ
x
∗
−
β
λ
γ
⋅
f
∗
(
x
∗
−
β
γ
λ
)
(
γ
>
0
)
{\displaystyle -\alpha -\delta {\frac {x^{*}-\beta }{\lambda }} \gamma \cdot f^{*}\left({\frac {x^{*}-\beta }{\gamma \lambda }}\right)\quad (\gamma >0)}
X
∗
{\displaystyle X^{*}}
|
x
|
p
p
{\displaystyle {\frac {|x|^{p}}{p}}}
(where
p
>
1
{\displaystyle p>1}
)
R
{\displaystyle \mathbb {R} }
|
x
∗
|
q
q
{\displaystyle {\frac {|x^{*}|^{q}}{q}}}
(where
1
p
1
q
=
1
{\displaystyle {\frac {1}{p}} {\frac {1}{q}}=1}
)
R
{\displaystyle \mathbb {R} }
−
x
p
p
{\displaystyle {\frac {-x^{p}}{p}}}
(where
0
<
p
<
1
{\displaystyle 0<p<1}
)
R
{\displaystyle \mathbb {R} _{ }}
−
(
−
x
∗
)
q
q
{\displaystyle {\frac {-(-x^{*})^{q}}{q}}}
(where
1
p
1
q
=
1
{\displaystyle {\frac {1}{p}} {\frac {1}{q}}=1}
)
R
−
−
{\displaystyle \mathbb {R} _{--}}
1
x
2
{\displaystyle {\sqrt {1 x^{2}}}}
R
{\displaystyle \mathbb {R} }
−
1
−
(
x
∗
)
2
{\displaystyle -{\sqrt {1-(x^{*})^{2}}}}
[
−
1
,
1
]
{\displaystyle [-1,1]}
−
log
(
x
)
{\displaystyle -\log(x)}
R
{\displaystyle \mathbb {R} _{ }}
−
(
1
log
(
−
x
∗
)
)
{\displaystyle -(1 \log(-x^{*}))}
R
−
−
{\displaystyle \mathbb {R} _{--}}
e
x
{\displaystyle e^{x}}
R
{\displaystyle \mathbb {R} }
{
x
∗
log
(
x
∗
)
−
x
∗
if
x
∗
>
0
0
if
x
∗
=
0
{\displaystyle {\begin{cases}x^{*}\log(x^{*})-x^{*}&{\text{if }}x^{*}>0\\0&{\text{if }}x^{*}=0\end{cases}}}
R
{\displaystyle \mathbb {R} _{ }}
log
(
1
e
x
)
{\displaystyle \log \left(1 e^{x}\right)}
R
{\displaystyle \mathbb {R} }
{
x
∗
log
(
x
∗
)
(
1
−
x
∗
)
log
(
1
−
x
∗
)
if
0
<
x
∗
<
1
0
if
x
∗
=
0
,
1
{\displaystyle {\begin{cases}x^{*}\log(x^{*}) (1-x^{*})\log(1-x^{*})&{\text{if }}0<x^{*}<1\\0&{\text{if }}x^{*}=0,1\end{cases}}}
[
0
,
1
]
{\displaystyle [0,1]}
−
log
(
1
−
e
x
)
{\displaystyle -\log \left(1-e^{x}\right)}
R
{\displaystyle \mathbb {R} }
{
x
∗
log
(
x
∗
)
−
(
1
x
∗
)
log
(
1
x
∗
)
if
x
∗
>
0
0
if
x
∗
=
0
{\displaystyle {\begin{cases}x^{*}\log(x^{*})-(1 x^{*})\log(1 x^{*})&{\text{if }}x^{*}>0\\0&{\text{if }}x^{*}=0\end{cases}}}
R
{\displaystyle \mathbb {R} _{ }}
^ “Legendre Transform ”. September 13, 2012 閲覧。
^
“Legendre transformation and information geometry ”. 2015年7月13日 閲覧。
^ Phelps, Robert (1991). Convex Functions, Monotone Operators and Differentiability (2 ed.). Springer. p. 42. ISBN 0-387-56715-1
^ Bauschke, Heinz H.; Goebel, Rafal; Lucet, Yves; Wang, Xianfu (2008). “The Proximal Average: Basic Theory”. SIAM Journal on Optimization 19 (2): 766. doi :10.1137/070687542 .
^ Ioffe, A.D. and Tichomirov, V.M. (1979), Theorie der Extremalaufgaben . Deutscher Verlag der Wissenschaften. Satz 3.4.3
^ Borwein, Jonathan ; Lewis, Adrian (2006). Convex Analysis and Nonlinear Optimization: Theory and Examples (2 ed.). Springer. pp. 50–51. ISBN 978-0-387-29570-1