凸関数

（とつかんすう、英: convex function）は、ある区間で定義された実数値関数 $f$ で、区間内の任意の 2 点 $x , y$ と開区間 $(0, 1)$ 内の任意の $t$ に対して

$f(tx+(1-t)y)\leq tf(x)+(1-t)f(y)\,$

を満たすものをいう。グラフの膨らむ向きを区別する表現を使うなら、凸関数とは「下に凸な関数」のことである^[1]。これはまた、エピグラフ（グラフ上およびグラフの上部の点の集合）が凸集合であるような関数である^[2]ともいえる。より一般に、ベクトル空間の凸集合上定義された関数に対しても同様に定義する^[3]。また、狭義凸関数とは、任意の異なる 2 点 $x , y$ と開区間 $(0, 1)$ 内の任意の $t$ に対して

$f(tx+(1-t)y)<tf(x)+(1-t)f(y)\,$

を満たす関数である（従って、下に凸な関数の事である）。

$- f$ が凸関数のとき、 $f$ を（おうかんすう）^[4]と呼ぶ。凸関数を「下に凸な関数」、凹関数を「上に凸な関数」と称することもある。

定義

凸関数とイェンゼンの不等式の可視化

$X$ をある実ベクトル空間内の凸集合として、 $f$ を $f : X \to R$ となる関数とする。

このとき、 $f$ が凸であるとは、以下の等価な条件のいずれかを満たすことをいう。

任意の $0 \leq t \leq 1$ および任意の $x 1, x 2 \in X$ に対して：
$f\left(tx_{1}+(1-t)x_{2}\right)\leq tf\left(x_{1}\right)+(1-t)f\left(x_{2}\right)$
任意の $0 < t < 1$ および $x 1 \neq x 2$ である任意の $x 1, x 2 \in X$ に対して：
$f\left(tx_{1}+(1-t)x_{2}\right)\leq tf\left(x_{1}\right)+(1-t)f\left(x_{2}\right)$

1つ目の条件式の右辺は、グラフ上の2点 $(x_{1},f(x_{1}))$ と $(x_{2},f(x_{2}))$ の間を結ぶ線分（弦）を表している。一方、左辺は線分に対応する位置での関数値を表している。したがって、この条件は「曲線上の任意の2点間の弦が、グラフの上側にある、あるいはグラフと接している」ことを要求しているのと同等である。

2つ目の条件は、値域を拡張実数値 $[-\infty ,\infty ]=\mathbf {R} \cup \{\pm \infty \}$ に広げて定義する場合にも用いられる。1つ目の条件は $t$ が 0 または 1 の値を取ることを許容するが、その場合に $f(x_{i})=\pm \infty$ であれば、 $0\cdot \infty$ などの不定形が生じて定義できなくなるためである。なお、 $-\infty +\infty$ も未定義であるため、凸な拡張実数値関数は通常、 $-\infty$ と $+\infty$ のいずれか一方のみを取るように制限される。

また、 $f$ が狭義の凸（厳密に凸）であるとは、任意の $0 < t < 1$ および $x 1 \neq x 2$ である任意の $x 1, x 2 \in X$ に対して次を満たすことをいう。

f\left(tx_{1}+(1-t)x_{2}\right)<tf\left(x_{1}\right)+(1-t)f\left(x_{2}\right)

狭義の凸関数においては、2点間の弦は、交点（端点）を除いて常に曲線の上側に位置する。

「凸であるが狭義の凸ではない」関数の例として、 $f(x,y)=x^{2}+y$ が挙げられる。この関数は、 $x$ 座標を共有する任意の2点間において線分が曲線と重なる（等号が成立する）ため、狭義の凸とはならない。

関数 $- f$ が（狭義の）凸であるとき、 $f$ は（狭義の）凹であるという。

一般形

イェンセンの不等式を参照せよ。

性義と性質

凸関数の多くの性質は、1変数でも多変数でも同様の形式で定式化される。

1変数関数の性質

区間上で定義された関数 $f$ について、平均変化率を $R(x_{1},x_{2})={\frac {f(x_{2})-f(x_{1})}{x_{2}-x_{1}}}$ と定義する。 $f$ が凸関数であることの必要十分条件は、任意の固定された $x_{2}$ に対して $R(x_{1},x_{2})$ が $x_{1}$ について単調非減少であることである。
凸開区間 $C$ で定義された凸関数 $f$ は連続である。また、 $f$ は左右両方の片側微分を持ち、これらは単調非減少である。その結果、 $f$ は高々可算個の点を除いて微分可能である^[5]。閉区間の場合は、端点で連続でない場合がある。
微分可能な1変数関数が凸であるための必要十分条件は、そのグラフがすべての接線の上側に位置することである。すなわち、区間内の任意の $x, y$ に対して以下が成立することである。

f(x)\geq f(y)+f'(y)(x-y)

2階微分可能な1変数関数が凸であるための必要十分条件は、2階微分が非負であることである^[6]。2階微分が常に正ならば狭義凸であるが、逆は必ずしも真ではない（例： $y=x^{4}$ は狭義凸だが $x=0$ で2階微分が 0 となる）。
$f$ が凸関数で $f(0)\leq 0$ を満たすとき、 $f$ は正の実数上で優加法性を持つ。すなわち、 $a,b>0$ に対して $f(a+b)\geq f(a)+f(b)$ が成立する。
$f$ が連続関数ならば、任意の $x, y$ に対して $f\left({\frac {x+y}{2}}\right)\leq {\frac {f(x)+f(y)}{2}}$ （中点凸性）を満たせば、 $f$ は凸関数である。

多変数関数の性質

関数 $f:X\to [-\infty ,\infty ]$ が凸であるための必要十分条件は、そのエピグラフ $\{(x,r)\in X\times \mathbf {R} \mid r\geq f(x)\}$ が凸集合となることである。
各変数について個別に凸（周辺的に凸）であっても、関数全体として凸であるとは限らない。例えば $f(x,y)=xy$ は各変数については線形（よって凸）だが、多変数関数としては凸ではない。
微分可能な多変数関数が凸集合上で凸であるための必要十分条件は、任意の $x, y$ に対して以下が成立することである：

f(x)\geq f(y)+\nabla f(y)^{T}\cdot (x-y)

2階微分可能な多変数関数が凸であるための必要十分条件は、そのヘッセ行列が内部において半正値であることである。
凸関数に対してはイェンゼンの不等式が成立する。 $X$ を期待値 $E[X]$ が存在する確率変数とすると、 $E[f(X)]\geq f(E(X))$ が成り立つ。
$f, g$ が凸関数であるとき、非負の $a, b$ について $af+bg$ や $\max(f,g)$ も凸関数である。
凸関数の極小値は最小値（グローバルミニマム）であり、その最小値を取る点の集合は凸集合となる。狭義凸関数が最小値を取る場合、その点は一意である^[7]。
凸関数のレベル集合 $\{x\mid f(x)\leq a\}$ は常に凸集合である。この性質を持つ関数は準凸関数と呼ばれる。

凸性の演算

$f$ が凸であることと、 $-f$ が凹であることは同値である。
任意の実数 $r$ に対して、 $f$ が凸であることと、 $r+f$ が凸であることは同値である。
非負の重み付き和：
- $w_{1},\ldots ,w_{n}\geq 0$ かつ $f_{1},\ldots ,f_{n}$ がすべて凸であるならば、 $w_{1}f_{1}+\cdots +w_{n}f_{n}$ もまた凸である。特に、2つの凸関数の和は凸である。
- この性質は、無限級数、積分、および期待値に対しても（それらが存在する限り）拡張される。
各点ごとの上限（Elementwise maximum）： $\{f_{i}\}_{i\in I}$ $\{f_{i}\}_{i\in I}$ を凸関数の族とする。このとき、 $g(x)=\sup \nolimits _{i\in I}f_{i}(x)$ $g(x)=\sup \nolimits _{i\in I}f_{i}(x)$ は凸である。 $g(x)$ $g(x)$ の定義域は、この式が有限の値をとる点集合である。重要な特例は以下の通り：
- $f_{1},\ldots ,f_{n}$ が凸関数であれば、 $g(x)=\max \left\{f_{1}(x),\ldots ,f_{n}(x)\right\}$ も凸である。
- ダンスキンの定理： $f(x,y)$ が $x$ について凸であれば、たとえ $C$ が凸集合でなくとも、 $g(x)=\sup \nolimits _{y\in C}f(x,y)$ は $x$ について凸である。
合成：
- $f$ と $g$ が凸関数であり、 $g$ が 1 変数の定義域において単調非減少であれば、 $h(x)=g(f(x))$ は凸である。例えば、 $e^{x}$ は凸かつ単調増加であるため、 $f$ が凸ならば $e^{f(x)}$ も凸となる。
- $f$ が凹関数、 $g$ が凸関数であり、 $g$ が 1 変数の定義域において単調非増加であれば、 $h(x)=g(f(x))$ は凸である。
- 凸性はアフィン写像のもとで不変である。すなわち、定義域 $D_{f}\subseteq \mathbf {R} ^{m}$ を持つ凸関数 $f$ に対して、 $g(x)=f(Ax+b)$ も凸である。ここで、 $A\in \mathbf {R} ^{m\times n},b\in \mathbf {R} ^{m}$ であり、 $g$ の定義域は $D_{g}\subseteq \mathbf {R} ^{n}$ である。
最小化： $f(x,y)$ が $(x,y)$ について凸であれば、 $C$ が凸集合であり、かつ $g(x)\neq -\infty$ である限り、 $g(x)=\inf \nolimits _{y\in C}f(x,y)$ は $x$ について凸である。
$f$ が凸ならば、その遠近写像（Perspective）である $g(x,t)=tf\left({\tfrac {x}{t}}\right)$ も凸である。ここで、その定義域は $\left\{(x,t):{\tfrac {x}{t}}\in \operatorname {Dom} (f),t>0\right\}$ である。
$X$ をベクトル空間とする。 $f:X\to \mathbf {R}$ が凸かつ $f(0)\leq 0$ を満たすための必要十分条件は、任意の $x,y\in X$ および $a+b\leq 1$ を満たす任意の非負の実数 $a,b$ に対して、 $f(ax+by)\leq af(x)+bf(y)$ が成立することである。

凸関数の強弱

強凸関数

さらに強い凸性の概念として、強凸（きょうとつ、Strongly convex）がある。直感的には、関数が少なくともある正の曲率を持つ（二次関数以上の速さで増大する）ことを意味する。パラメータ $m>0$ を持つ強凸関数は、定義域内のすべての $x,y$ と $t\in [0,1]$ に対して次を満たす。

f(tx+(1-t)y)\leq tf(x)+(1-t)f(y)-{\frac {1}{2}}mt(1-t)\|x-y\|^{2}

強凸（きょうとつ、Strongly convex）の概念は、狭義凸の概念を拡張し、パラメータ化したものである。直感的には、強凸関数とは二次関数と同等以上の速さで成長する関数のことである^[8]。強凸関数は狭義凸関数でもあるが、その逆は必ずしも真ではない。1 変数関数 $f$ が 2 回連続微分可能であり、その定義域が実数直線である場合、以下のように特徴付けることができる：

すべての $x$ に対して $f''(x)\geq 0$ であることと、 $f$ が凸であることは同値である。
すべての $x$ に対して $f''(x)>0$ ならば、 $f$ は狭義凸である（注：これは十分条件であるが、必要条件ではない）。
すべての $x$ に対して $f''(x)\geq m>0$ であることと、 $f$ が強凸であることは同値である。

例えば、 $f$ を狭義凸関数とし、 $f''(x_{n})={\tfrac {1}{n}}$ となるような点列 $(x_{n})$ が存在すると仮定する。このとき、 $f''(x_{n})>0$ ではあるが、 $f''(x)$ はいくらでも小さくなり得るため、この関数は強凸ではない。より一般的に、微分可能な関数 $f$ がパラメータ $m>0$ を持つ強凸関数であるとは、その定義域内のすべての点 $x,y$ に対して次の不等式が保持されることをいう^[9]：

(\nabla f(x)-\nabla f(y))^{T}(x-y)\geq m\|x-y\|_{2}^{2}

あるいは、より一般的には、

\langle \nabla f(x)-\nabla f(y),x-y\rangle \geq m\|x-y\|^{2}

ここで、 $\langle \cdot ,\cdot \rangle$ は任意の内積、 $\|\cdot \|$ は対応するノルムである。一部の著者（例えば ^[10]）は、この不等式を満たす関数を楕円型関数（elliptic functions）と呼んでいる。これと等価な条件として、以下がある^[11]：

f(y)\geq f(x)+\nabla f(x)^{T}(y-x)+{\frac {m}{2}}\|y-x\|_{2}^{2}

関数が強凸であるために微分可能である必要はない。パラメータ $m$ を持つ強凸関数の第 3 の定義^[11]は、定義域内のすべての $x,y$ と $t\in [0,1]$ に対して、次が成立することである：

f(tx+(1-t)y)\leq tf(x)+(1-t)f(y)-{\frac {1}{2}}mt(1-t)\|x-y\|_{2}^{2}

この定義は、 $m\to 0$ とすると狭義凸の定義に近づき、 $m=0$ のとき凸関数の定義と一致することに注目されたい。それにもかかわらず、狭義凸ではあるが、いかなる $m>0$ に対しても強凸ではない関数が存在する（後述の例を参照）。関数 $f$ が 2 回連続微分可能である場合、定義域内のすべての $x$ に対して $\nabla ^{2}f(x)\succeq mI$ であることと、パラメータ $m$ に対して強凸であることは同値である。ここで $I$ は単位行列、 $\nabla ^{2}f$ はヘッセ行列であり、不等号 $\succeq$ は $\nabla ^{2}f(x)-mI$ が半正定値であることを意味する。これは、すべての $x$ について $\nabla ^{2}f(x)$ の最小固有値が少なくとも $m$ であることを要求するのと同等である。定義域が実数直線である場合、 $\nabla ^{2}f(x)$ は単に 2 階微分 $f''(x)$ であり、条件は $f''(x)\geq m$ となる。 $m=0$ の場合、ヘッセ行列が半正定値であることを意味し（定義域が実数直線の場合は $f''(x)\geq 0$ ）、これは関数が凸であること、場合によっては狭義凸であることを意味するが、強凸ではない。関数が 2 回連続微分可能であると仮定し続けると、 $\nabla ^{2}f(x)$ の下界が強凸性を導くことを示すことができる。テイラーの定理を使用すると、 $z\in \{tx+(1-t)y:t\in [0,1]\}$ であって、

f(y)=f(x)+\nabla f(x)^{T}(y-x)+{\frac {1}{2}}(y-x)^{T}\nabla ^{2}f(z)(y-x)

を満たすものが存在する。固有値に関する仮定から、

(y-x)^{T}\nabla ^{2}f(z)(y-x)\geq m(y-x)^{T}(y-x)

となり、上記の強凸関数の第 2 の式が導かれる。関数 $f$ がパラメータ $m$ で強凸であることと、関数 $x\mapsto f(x)-{\frac {m}{2}}\|x\|^{2}$ が凸であることは同値である。コンパクトな定義域 $X$ 上で定義され、すべての $x\in X$ に対して $f''(x)>0$ を満たす 2 回連続微分可能な関数 $f$ は強凸である。この表明の証明は、コンパクト集合上の連続関数は最大値と最小値を持つという最大値の定理から導かれる。強凸関数は、凸関数や狭義凸関数よりもクラスが小さいため、一般に扱いやすい。狭義凸関数と同様に、強凸関数はコンパクト集合上で一意な最小値を持つ。

$f$ がパラメータ $m$ を持つ強凸関数である場合、次が成り立つ：

すべての実数 $r$ に対して、レベル集合 $\{x\mid f(x)\leq r\}$ はコンパクトである。
関数 $f$ は $\mathbf {R} ^{n}$ 上で極小値を持つ。

一様凸関数

一様凸関数（Uniformly convex function）^[12]^[13]とは、モジュラス（modulus） $\phi$ を用いて、定義域内のすべての $x,y$ および $t\in [0,1]$ に対して次の不等式を満たす関数 $f$ のことである。

f(tx+(1-t)y)\leq tf(x)+(1-t)f(y)-t(1-t)\phi (\|x-y\|)

ここで、 $\phi$ は非負であり、かつ 0 のときのみ 0 となる関数である。これは強凸関数の概念を一般化したものであり、 $\phi (\alpha )={\tfrac {m}{2}}\alpha ^{2}$ と置くことで強凸の定義が導かれる。なお、モジュラス $\phi$ が増加関数であることを要求する著者もいるが^[13]、すべての著者がこの条件を課しているわけではない^[12]。

半凸関数

半凸（はんとつ、Semi-convexity）の概念は、凸関数をさらに一般化したものである。ある関数 $f:X\to \mathbf {R}$ が半凸であるとは、十分大きな正の定数 $C$ に対して、関数 $x\mapsto f(x)+C\|x\|^{2}$ が凸関数となることをいう。半凸関数は、凸関数と同様に多くの良好な性質を保持している。

強凸関数が「二次関数以上の速さで増大する」のに対し、半凸関数は「二次関数によって下方からその曲率（の負の大きさ）を抑えられる」と解釈できる。
関数 $f$ が 2 回連続微分可能であれば、そのヘッセ行列の下限が抑えられていること（すなわち、ある $C$ に対して $\nabla ^{2}f(x)\succeq -2CI$ ）と同値である。
半凸関数は局所リプシッツ連続であり、アレクサンドロフの定理により、定義域のほとんど至る所で 2 階微分可能である。

この概念は、特にハミルトン–ヤコビ方程式の解の正則性理論や、最適制御理論における値関数の解析において重要な役割を果たす。例えば、滑らかな境界を持つ領域上の最短経路を記述する距離関数などは、一般に凸ではないが半凸性を備えていることが多い。

準凸関数

準凸関数を参照。

対数凸関数

定義域において正値であり、その対数が凸である関数を対数凸関数という^[14]。対数凸関数は凸関数であることが重みつきの算術平均と幾何平均の定理から従う。対数凹関数も同様にして定義される。正値の凹関数が対数凹関数であることも同様にして示される。

例

1変数関数の例

関数 $f(x)=x^{2}$ は $f''(x)=2>0$ であるため、強凸関数である。従って、凸関数でもある。
関数 $f(x)=x^{4}$ は $f''(x)=12x^{2}\geq 0$ であるため、凸関数である。すべての点で2階微分が正とは限らないが、狭義凸関数である。ただし、強凸関数ではない。
絶対値関数 $f(x)=|x|$ は、 $x=0$ で微分不可能であるが、凸関数である（三角不等式の反映）。ただし、狭義凸ではない。
$p\geq 1$ のとき、関数 $f(x)=|x|^{p}$ は凸関数である。
指数関数 $f(x)=e^{x}$ は凸関数である。 $f''(x)=e^{x}>0$ であるため狭義凸でもあるが、2階微分をいくらでも 0 に近づけられるため、強凸関数ではない。より一般に、 $f$ が凸関数のとき、 $g(x)=e^{f(x)}$ は対数凸関数となる。
区間 $[0,1]$ 上で定義され、 $f(0)=f(1)=1$ 、 $0<x<1$ において $f(x)=0$ となる関数 $f$ は凸関数である。この関数は開区間 $(0,1)$ で連続だが、0 と 1 では不連続である。
関数 $x^{3}$ は、2階微分が $6x$ である。したがって、 $x\geq 0$ の範囲で凸関数であり、 $x\leq 0$ の範囲で凹関数である。
単調増加だが凸ではない関数の例として、 $f(x)={\sqrt {x}}$ や $g(x)=\log x$ が挙げられる。
凸だが単調増加ではない関数の例として、 $h(x)=x^{2}$ や $k(x)=-x$ が挙げられる。
関数 $f(x)=1/x$ は、 $f''(x)=2/x^{3}$ である。したがって $x>0$ において凸関数であり、 $x<0$ において凹関数である。
関数 $f(x)=1/x^{2}$ （ただし $f(0)=\infty$ ）は、区間 $(0,\infty )$ と $(-\infty ,0)$ のそれぞれで凸関数であるが、 $x=0$ における特異点のため、区間 $(-\infty ,\infty )$ 全体では凸関数ではない。
ガンマ関数 $\Gamma (x)$ は $x>0$ において対数凸関数である。
ガウス関数 $\exp(-x^{2})$ は対数凹関数であるが、凹関数ではない。

多変数関数の例

LogSumExp関数（ソフトマックス関数とも呼ばれる）は凸関数である。
正定値行列の領域において、関数 $-\log \det(X)$ は凸関数である。
すべての実数値線形写像は凸関数であるが、狭義凸ではない。線形であれば $f(a+b)=f(a)+f(b)$ が成り立つため、これは「凸」を「凹」に置き換えても成立する。
すべての実数値一次関数（アフィン写像）、すなわち $f(x)=a^{T}x+b$ の形式で書ける関数は、凸関数であると同時に凹関数でもある^[15]。
すべてのノルムは、三角不等式と正の斉次性により、凸関数である。
非負行列のスペクトル半径は、その対角成分の凸関数である^[16]。

原点に対して凸

経済学においては、曲線が原点に向かって弓なりに突き出した形になっていることを原点に対して凸^[17]、または原点に向かって凸^[18]と呼ぶことがある。

脚注

↑ 英: downward-convex function
↑ Rockafellar & Wets 1998, Proposition 2.4 (convexity of epigraph).
↑ Rockafellar & Wets 1998, Definition 2.1 (convex sets and convex functions).
↑ 英: concave function
↑ Rockafellar 1977, Theorem 25.3.
↑ アルティン 2002, p. 9.
↑ Rockafellar & Wets 1998, Theorem 2.6.
↑ “Strong convexity · Xingyu Zhou's blog”. xingyuzhou.org. 2023年9月27日閲覧。
↑ Dimitri Bertsekas (2003). Convex Analysis and Optimization. Contributors: Angelia Nedic and Asuman E. Ozdaglar. Athena Scientific. p. 72. ISBN 9781886529458
↑ Philippe G. Ciarlet (1989). Introduction to numerical linear algebra and optimisation. Cambridge University Press. ISBN 9780521339841
1 2 Yurii Nesterov (2004). Introductory Lectures on Convex Optimization: A Basic Course. Kluwer Academic Publishers. pp. 63–64. ISBN 9781402075537
1 2 C. Zalinescu (2002). Convex Analysis in General Vector Spaces. World Scientific. ISBN 9812380671
1 2 H. Bauschke and P. L. Combettes (2011). Convex Analysis and Monotone Operator Theory in Hilbert Spaces. Springer. p. 144. ISBN 978-1-4419-9467-7
↑ アルティン 2002, p. 12.
↑ Hörmander 2007, p. 2.
↑ Cohen, J.E., 1981. Convexity of the dominant eigenvalue of an essentially nonnegative matrix. Proceedings of the American Mathematical Society, 81(4), pp.657-658.
↑ 芦谷 (2009)、p. 51。
↑ 神部、寶多、濱田 (2006)、p. 99。

参考文献

E. アルティン『ガンマ関数入門』日本評論社、2002年。ISBN 4-535-60846-6。
芦谷政浩『ミクロ経済学』有斐閣、2009年。ISBN 978-4-641-16350-8。
神戸伸輔; 寶多康弘; 濱田弘潤『ミクロ経済学をつかむ』有斐閣、2006年。ISBN 4-641-17700-7。
Hörmander, L. (2007) [1994]. Notions of Convexity. Modern Birkhäuser Classics. Birkhäuser. ISBN 978-0-8176-4584-7. MR 2311920. Zbl 1108.32001
Rockafellar, R. Tyrrell (1977). Convex analysis. Princeton Landmarks in Mathematics. Princeton University Press. ISBN 0-691-01586-4. MR 1451876. Zbl 0932.90001
Rockafellar, R. Tyrrell; Wets, Roger J.-B. (1998). Variational analysis. Grundlehren der Mathematischen Wissenschaften. 317. Springer-Verlag. ISBN 3-540-62772-3. MR 1491362. Zbl 0888.49001

凸関数

目次

定義

一般形