数学基础
Jensen's inequality
首先要明确下凸函数的概念:每条弦都位于图像或其上方,就称这个函数是凸函数。
从数轴的x=a到x=b中间的所有值可以写成λa+(1−λ)b,其中0≤λ≤1。弦(图中的蓝色直线)上的点可以写成λf(a)+(1−λ)f(b),凸函数对应的值为f(λa+(1−λ)b),这样,凸函数的性质可以写成:
f(λa+(1−λ)b)≤λf(a)+(1−λ)f(b)
根据数学归纳法,可以得到:
f(i=1∑mλixi)≤i=1∑mλif(xi)
如果把λi看成是取值为{xi}的离散变量x的概率分布的话,那么上述的公式可以写成:
f(E[x])≤E[f(x)]
其中E[⋅]表示的是期望。对于连续变量,可以写成:
f(∫xp(x)dx)≤∫f(x)p(x)dx
Jocobian矩阵&Hessian矩阵
Jocobian矩阵是由一阶偏导数构成的
Hessian矩阵是由二阶偏导数构成的
参考:
梯度
在机器学习中,我们想要优化对应的损失函数,在损失平面上希望每次移动的方向是朝着下降最快的方向移动,这样才能够最快找到最优解。这一个方向称之为梯度。
梯度的计算就是求函数各个分量的偏导数。
参考:
张量
矩阵求导
https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdf
In these examples, b is a constant scalar, and B is a constant matrix:
Scaler derivative
f(x) → dxdf
Vector derivative
f(x) → dxdf
bx → b
xTB → B
bx → b
xTb → b
x2 → 2x
xTx → 2x
bx2 → 2bx
xTBx → 2Bx
(矩阵B是对称矩)
矩阵的零空间(nullspace)
矩阵A的零空间就Ax=0的解的集合。
Last updated