CS Notes
  • CS-Notes文档说明
  • 机器学习
    • 频率派和贝叶斯学派
    • 机器学习中的分类指标
    • 数学基础
    • 数据清洗
    • SVM
    • 线性模型
    • 拉格朗日乘子法和KKT条件
    • 集成学习
    • 贝叶斯分类器
    • 降维和度量学习
    • 决策树
    • 神经网络
    • 神经网络优化器
    • Autoencoders & GANs
    • IoU
    • EM算法
    • ML问题总结
    • 机器学习&深度学习学习资料汇总
    • 如何阅读论文
    • 如何写好一篇论文
  • 语言、算法相关
    • 背包问题 - 01背包&完全背包
    • 平衡二叉树AVL
    • 红黑树RB-Tree
    • STL容器
    • STL 常用算法
    • Markdown总结
    • 问题总结
    • 代码汇总
    • PAT手册
  • MIT 6.828 OS课程
  • ImGui
Powered by GitBook
On this page
  • Jensen's inequality
  • Jocobian矩阵&Hessian矩阵
  • 梯度
  • 张量
  • 矩阵求导
  • 矩阵的零空间(nullspace)

Was this helpful?

  1. 机器学习

数学基础

Jensen's inequality

首先要明确下凸函数的概念:每条弦都位于图像或其上方,就称这个函数是凸函数。

从数轴的x=ax=ax=a到x=bx=bx=b中间的所有值可以写成λa+(1−λ)b\lambda a+(1-\lambda)bλa+(1−λ)b,其中0≤λ≤10\leq \lambda \leq 10≤λ≤1。弦(图中的蓝色直线)上的点可以写成λf(a)+(1−λ)f(b)\lambda f(a) +(1-\lambda)f(b)λf(a)+(1−λ)f(b),凸函数对应的值为f(λa+(1−λ)b)f(\lambda a +(1-\lambda)b)f(λa+(1−λ)b),这样,凸函数的性质可以写成:

f(λa+(1−λ)b)≤λf(a)+(1−λ)f(b)f(\lambda a +(1-\lambda)b)\leq\lambda f(a) +(1-\lambda)f(b)f(λa+(1−λ)b)≤λf(a)+(1−λ)f(b)

根据数学归纳法,可以得到:

f(∑i=1mλixi)≤∑i=1mλif(xi)f(\sum _{i=1}^m\lambda_ix_i)\leq\sum _{i=1}^m\lambda_if(x_i)f(i=1∑m​λi​xi​)≤i=1∑m​λi​f(xi​)

如果把λi\lambda_iλi​看成是取值为{xi}\{x_i\}{xi​}的离散变量xxx的概率分布的话,那么上述的公式可以写成:

f(E[x])≤E[f(x)]f(\mathbb{E}[x]) \leq \mathbb{E}[f(x)]f(E[x])≤E[f(x)]

其中E[⋅]\mathbb E[\cdot]E[⋅]表示的是期望。对于连续变量,可以写成:

f(∫xp(x)dx)≤∫f(x)p(x)dxf\Big(\int \boldsymbol xp( \boldsymbol x) d \boldsymbol x\Big) \leq \int f( \boldsymbol x)p( \boldsymbol x)d \boldsymbol xf(∫xp(x)dx)≤∫f(x)p(x)dx

Jocobian矩阵&Hessian矩阵

Jocobian矩阵是由一阶偏导数构成的

Hessian矩阵是由二阶偏导数构成的

参考:

Jacobian矩阵和Hessian矩阵

梯度

在机器学习中,我们想要优化对应的损失函数,在损失平面上希望每次移动的方向是朝着下降最快的方向移动,这样才能够最快找到最优解。这一个方向称之为梯度。

梯度的计算就是求函数各个分量的偏导数。

参考:

为什么梯度反方向是函数值局部下降最快的方向?

张量

矩阵求导

reference: http://www.gatsby.ucl.ac.uk/teaching/courses/sntn/sntn-2017/resources/Matrix_derivatives_cribsheet.pdf

https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdf

In these examples, b is a constant scalar, and B is a constant matrix:

Scaler derivative

Vector derivative

矩阵的零空间(nullspace)

矩阵A的零空间就Ax=0的解的集合。

reference: https://blog.csdn.net/tengweitw/article/details/40039373?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-6&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-6

Previous机器学习中的分类指标Next数据清洗

Last updated 5 years ago

Was this helpful?

(矩阵是对称矩)

f(x) → dfdx f(x) \ \to \ \frac{\mathrm{d}{f}}{\mathrm{d}{x}} f(x) → dxdf​
f(x) → dfdx f(\mathbf{x}) \ \to \ \frac{\mathrm{d}{f}}{\mathrm{d}{\mathbf{x}}} f(x) → dxdf​
bx → b bx \ \to \ bbx → b
xTB → B\mathbf{x}^T\mathbf{B} \ \to \ \mathbf{B}xTB → B
bx → b bx \ \to \ bbx → b
xTb → b\mathbf{x}^Tb \ \to \ bxTb → b
x2 → 2xx^2 \ \to \ 2xx2 → 2x
xTx → 2x \mathbf{x}^T\mathbf{x} \ \to \ 2\mathbf{x}xTx → 2x
bx2 → 2bx bx^2 \ \to \ 2bxbx2 → 2bx
xTBx → 2Bx\mathbf{x}^T\mathbf{B}\mathbf{x} \ \to \ 2\mathbf{B}\mathbf{x}xTBx → 2Bx
B \mathbf{B}B