线性分类型。多分类问题的输出结果也该样本属k个类别的几率。隐藏状态转移概率A

 对标准分布概率和先验分布建模,然后下贝叶斯定理计算后验分布概率。

机械上笔记-softmax

评估问题

$HMM<S,O,\Theta>, \Theta=<\pi ,A, B>$

隐藏状态S,观测状态O,初始状态的概率分布$\pi$,隐藏状态转移概率A,观测状态转移概率B

计量观测序列概率

  • $p(O|\Theta)=\sum_{S}^{ }p(O,S|\Theta)=\sum_{S}^{
    }p(O|S,\Theta)p(S|\Theta)$
  • $p(O|S,\Theta)=\prod_{i}^{ }p(O_i|S_i,\Theta)=\prod_{i}^{
    }B(O_i,S_i)$
  • $p(S|\Theta)=\pi(S_0)\prod_{i}^{ }p(S_{i+1}|S_i)$

递归公式(前为算法)

  • $p(O_1^t|\Theta)=\sum_i^{ }
    p(O_1^t,S_{t+1}=i|\Theta)=\sum_i^{ }\alpha_t(i)$
  • $\alpha_{t+1}(i)=\sum_j^{ }
    p(O_1^t,O_{t+1},S_t=j,S_{t+1}=i|\Theta)=\sum_j^{ }
    p(O_{t+1},S_{t+1}=i|S_t=j,O_1^t,\Theta)p(O_1^t,S_t=j|\Theta)$

    • $=\sum_j^{ }
      p(O_{t+1},S_{t+1}=i|S_t=j,\Theta)\alpha_t(i)=\sum_j^{ }
      B(O_{t+1},i)A(i,j)\alpha_t(i)$

$$权向量迭代公式:w^{(\tau+1)} = w^{(\tau)} – \eta \Delta E_p(w) =
w^{(\tau)}+\eta\phi_n t_n $$

2、证明多件分布属于指数分布族

以广义线性模型拟合这个多分类问题,首先要证这个差不多项分布是否顺应一个指数分布族

设若一个遍布得为此如下公示表达,那么这分布就属指数分布族:
$$
p(y;\eta) = b(y)\exp(\eta^TT(y)-a(\eta))
$$
中,y是随机变量;$\eta$是布的当参数;$T(y)$称为充分统计量;$a(\eta)$称为对数分割函数

引入$T(y)$,这是一个k-1维的向量,表示为:
$$
T(1)=\begin{bmatrix}
1\
0\
0\
…\
0
\end{bmatrix}\ \ \ T(k-1)=\begin{bmatrix}
0\
0\
0\
…\
1
\end{bmatrix}\ \ \ \ \ T(k)=\begin{bmatrix}
0\
0\
0\
…\
0
\end{bmatrix}
$$
令$T(y)_i$代表$T(y)$向量的第i单元素。

双重引入一个新标志,$1(boolean)$,若括号内也true则得到1,反的取0。所以,$T(y)$和y的关联就足以象征为:
$$
T(y)_i=1(y=i)
$$
这就是说共同分布之概率密度函数为:
$$
\begin{aligned}
p(y;\phi) &= \phi^{1(y=1)}_1 \cdot \phi^{1(y=2)}_2 …
\phi^{1(y=k)}_k \
&= \phi^{1(y=1)}_1 \cdot \phi^{1(y=2)}2 …
\phi^{1-\sum
{i=1}^{k-1} 1(y=i)}_k \
&= \phi^{T(y)_1}_1 \cdot \phi^{T(y)_2}2 …
\phi^{1-\sum
{i=1}^{k-1} T(y)_i}_k \
&=\exp( T(y)_1 \cdot \ln \phi_1 + T(y)2 \cdot \ln \phi_2
+…+ (1-\sum
{i=1}^{k-1} T(y)_i) \cdot \ln \phi_k ) \
&=\exp( T(y)1 \cdot \ln \frac {\phi_1}{\phi_k} + T(y)2 \cdot
\ln \frac {\phi_2}{\phi_k} +…+ T(y){k-1} \cdot \ln \frac
{\phi
{k-1}}{\phi_k} + \ln \phi_k ) \
&=b(y)\exp(\eta^TT(y)-a(\eta))
\end{aligned} \tag{2-1}
$$

季实施至第五实施是通过将最终一个姿态展开;

其中,
$$
\eta=\begin{bmatrix}
\ln \frac {\phi_1}{\phi_k}\
\ln \frac {\phi_2}{\phi_k}\
…\
\ln \frac {\phi_{k-1}}{\phi_k}
\end{bmatrix},\ \ a(\eta)=-\ln \phi_k,\ \ b(y)=1
$$

那,多宗分布表达式可以代表为指数分布族表达式的格式,所以她属于指数分布族,就可为此广义线性模型来拟合这个差不多项式分布模型。

玻尔兹曼机

Gibbs采样算法

  • 着眼到自由$p(x_1,x_C)p(x_2|x_C)=p(x_2,x_C)p(x_1|x_C)$,满足细致平稳条件
  • 每次按照边缘条件分布概率,改变一个份额
  • 流失到一块儿分布,通常为Gibbs分布:$p_x=\frac{1}{Z}e^{-\frac{E_x}{k_BT}}$

Boltzmann机

  • 状态向量分为可见有$x_a$和潜伏部分$x_b$
  • $p(x)=\frac{1}{Z}e^{-E(x)}$,这里$E(x)=\frac{1}{2}x^TWx$
  • $p(x_j|[x_i|i\neq j])=\phi(x\sum_{i\neq j}^{ }
    w_{ji}x_i)$
  • 最大化似然函数:$L(w)=\sum log(p(x_a))=-\sum E(x)-\sum log(Z)$
  • 配分函数Z难以计算

受限Boltzmann机

  • 怀有随机性的可见层v和同一交汇隐藏层h,无向的第二分图
  • 能定义为:$E(v,h)=-a^Tv-b^Th-h^TWv$
  • p(h|v)与
    p(v|h)易于计算和采样,因此得以行使CD、SML(PCD)、比率匹配等技术。

CD算法

  • 取 m 个样本,得到 ML 的正项
  • Gibbs 采样到平衡,得到负项估计
  • 获上升梯度

线性判别函数参数上道:最小平方法,Fisher线性判别函数,感知器

1、多分类问题

softmax回归解决的凡大抵分类问题,有$y^{(i)} \in
{1,2,…,k}$,注意这路的下标从1初始。

大抵分类问题的输出结果也该样本属k个类别的票房价值,再选出最妙的当作结果。这k个概率用k个变量${\phi_i,\phi_2,…,\phi_k}$表示,设
$$
p(y=i;\phi)=\phi_i
$$

此处的分公司表示$\phi$为待估参数(是永恒的,只是目前一无所知),可以直接看是$p(y=i)=\phi$。

Andrew Ng 的机上读本中的说明是:

The notation $p(y{(i)}|x{(i)};\theta)$ indicates that this
is the distribution of $y^{(i)}$ given $x^{(i)}$ and parameterized by
$\theta$. Note that we should not condition on $\theta$, since
$\theta$ is not a random variable.

其和为1,即
$$
\sum_{i=1}^k \phi_i=1
$$
$\phi_k$可以为此前k-1独变量表示,即
$$
p(y=k;\phi)=1-\sum_{i=1}^{k-1}\phi_i
$$

概率图模型分类

  • 发于图:静态贝叶斯、动态贝叶斯(隐马尔可夫模型)
  • 不论是往图:马尔可夫网络(条件仍机场、玻尔兹曼机)

目标项目的表示”1 of K” :$ t = (0,1,0,0,0)^T$

4、使用广义线性构建模型

冲广义线性模型的如3:
$$
\eta_i=\theta_iTx{(i)},\ \ i=1,2,…,k-1
$$
$\theta$是范中的参数,为标记上之便民我们定义$\theta_k=0$,即$\eta_k=0$。

据此模型在给定x的原则下y的分布也
$$
\begin{aligned}
p(y{(i)}=j|x{(i)};\theta) &=\phi_i\
&=\frac {e^{\eta_i}} {\sum_{j=1}^k e^{\eta_j}} \
&=\frac {e{\\theta\_iTx^{(i)}}} {\sum_{j=1}^k
e{\\theta\_jTx^{(i)}}}
\end{aligned}
$$
上述表达式求解的是以$y=i$时的票房价值。在Softmax这个广义线性模型中,目标函数是:
$$
h_{\theta}(x^{(i)})=\begin{bmatrix}
p(y{(i)}=1|x{(i)};\theta) \
p(y{(i)}=2|x{(i)};\theta) \
…\
p(y{(i)}=k|x{(i)};\theta)
\end{bmatrix}=\frac {1} {\sum_{j=1}^k
e{\\theta\_jTx^{(i)}}}\begin{bmatrix}
e{\\theta\_1Tx^{(i)}}\
e{\\theta\_2Tx^{(i)}}\
…\
e{\\theta\_kTx^{(i)}}
\end{bmatrix}
$$
暨逻辑回归类似,通过极端深似然估计推导出损失函数
$$
J(\theta)=-\frac 1 m \left [
\sum_{i=1}^m \sum_{j=1}^k 1(y^{(i)}=j)\log \frac
{e{\\theta\_iTx^{(i)}}} {\sum_{j=1}^k
e{\\theta\_jTx^{(i)}}}
\right ] \tag {4-1}
$$
Softmax代价函数和logistic
代价函数在花样达到颇相近,只是以Softmax损失函数中对近似标志的k个可能价值进行了增长。

损失函数的求解也是透过迭代底优化算法(如梯度下降、L-BFGS)。

隐马尔可夫模型

感知器算法:对应一个二分类模型,输入向量首先用一个定点的非线性函数变换得到特征向量$\phi(x)$然后下这特征向量构造一个二分

参考

【1】Softmax回归

【2】Softmax回归(Softmax
Regression)

【3】softmax回归

【4】广义线性模型(Generalized Linear
Models)

【5】概率论:p(x|theta)和p(x;theta)的区别

条件仍机场

马尔可夫以机场MRF

  • 无向图表示的同台概率分布
  • 化为对马尔可夫性:任意不相邻的节点a,b在另外节点都解之基准下概率独立
    •  $p(a,b|C)=p(a|C)p(b|C)$
  • 揉:完全子图
  • 联合概率等于有最特别团的一头概率的积
    •  $p(x)=\frac{1}{Z}\prod_c\Psi (X_c)$

极仍机场CRF

  • 如果 Y 为 MRF,那么P(Y|X)为CRF
  • 线性链随机场:$p(Y_i|X,Y)=p(Y_i|X,Y_{i-1},Y_{i+1})$
    • $=\frac{1}{Z(x)}exp(\sum_{i,k}^{ }
      w_kf_k(y_{i-1},y_i,x,i))=\frac{1}{Z(x)}exp( W^TF(y,x))$
  • 预计问题:$\arg\,max_y\frac{1}{Z(x)}exp(
    W^TF(y,x))=\arg\,max_yexp( W^TF(y,x))$
  • 读书问题:$\arg\,max_w\frac{1}{Z(x)}exp( W^TF(y,x))$

Fihser
线性判别函数:最大化一个函数,这个函数能够让类均值的影子分开最充分,同时让类内部的方差较小。

6、权重衰减

透过长一个权重衰减项来改代价函数,这个衰减项会惩罚过非常之参数值,现在咱们的代价函数变为:
$$
J(\theta)=-\frac 1 m \left [
\sum_{i=1}^m \sum_{j=1}^k 1(y^{(i)}=j)\log \frac
{e{\\theta\_iTx^{(i)}}} {\sum_{j=1}^k
e{\\theta\_jTx^{(i)}}}
\right ] + \frac {\lambda} 2 \sum_{i=1}^k \sum_{j=0}^n
\theta^2_{ij} \tag{6-1}
$$
其中,$\lambda
>0$。有了之权重衰减项下,代价函数就成为了严的凸函数,这样即使足以保得唯一的排除了。损失函数的偏导为
$$
\triangledown_{\theta_j} J(\theta)=-\frac 1 m \sum_{i=1}^m
\left [
x^{(i)} (1(y{(i)}=j)-p(y{(i)}=j|x^{(i)};\theta))
\right ]+\lambda\theta_j \tag{6-2}
$$

概率采样算法

定理:[仔细平稳条件](detailed balance condition)

  • 假使不周期马氏链的转换矩阵P和分布$\pi(x)$满足$\forall
    i,j\,\pi(i)P_{ij}=\pi(j)P_{ji}$,则$\pi(x)$是马氏链的祥和分布

Metropolis-Hastings

  • 基于转移矩阵P的马氏链,构造平稳分布为p(x)之马氏链
  • 欲串联一个因子$\alpha$,$\pi(i)P_{ij}\alpha_{ij}=\pi(j)P_{ji}\alpha_{ji}$,满足细致平稳条件。相当给修正转移矩阵。
  • $\alpha=min(1,\frac{\pi(i)P_{ij}}{\pi(j)P_{ji}})$

Metropolis/MCMC伪代码

  • 初始化状态x0
  • 基于转移矩阵P ,生成状态y
  • 生成r=uniform(),如果r<α(x,y),接受xn+1=y
  • 迭代直至收敛,采样为分布

模拟退火

  • 避太小值,逐渐下跌温度,使得Metropolis算法快速消灭

对连日来输入:假要标准相仿概率密度是高斯分布,且富有类似比饿的协方差矩阵相同,
$C_k$的类标准概率密度为:

5、Softmax的参数化特点

Softmax
回归有一个请勿平凡的特征:它发生一个“冗余”的参数集。为了方便阐发这无异风味,假要我们打参数为量$\theta_j$中弱化去了通往量$\psi$,根据推导,$p(y{(i)}=j|x{(i)};\theta)$并无发生变化,也就是说减去自由一个价不见面影响预测结果。

这就是说便可令$\psi=\theta_1$,就一定给去丢了一个参数向量而未影响损失函数的表达能力。

在事实上利用被,为了要算法实现还简约明了,往往保留所有参数
而未轻易地拿有平参数设置为
0。但此刻咱们需要针对代价函数做一个转移:加入权重衰减。权重衰减可以解决
softmax 回归之参数冗余所带的数值问题。

攻问题

参数估计$\arg\,\max_{\Theta}p(O|\Theta)$

  • ­引入中变量,采用 EM/向前向后算法
  • ­后为变量:$\beta_t(j)=p(O_{t+1}^T |q_t=j,\Theta)$
  • $\xi_t(i,j)=p(q_t=i,q_{t+1}=j|O,\Theta)=\frac{p(q_t=i,q_{t+1}=j,O|\Theta)}{p(O|\Theta)}=\frac{\alpha_t(i)A(j,i)B(O_{t+1},j)\beta_{t+1}(j)}{\sum_{i}^{
    }\alpha_T(i)}$
  • $\pi(i)=p(q_1=i|O)=\sum_{i}^{ }\xi_1(i,j)=\gamma_1(i)$
  • $A(j,i)=\frac{\sum_{t}^{ }p(q_t=i,q_{t+1}=j|O)}{\sum_{t}^{
    }p(q_t=i|O)}=\frac{\sum_{t}^{ }\xi_t(i,j)}{\sum_{t}^{
    }\gamma_t(i)}$
  • $B(O_T,i)=\frac{\sum_{t}^{ }p(q_t=i,O_t|O)}{\sum_{t}^{
    }p(q_t=i|O)}=\frac{\sum_{t}^{
    }\gamma_t(i)\delta(o=O_t)}{\sum_{t}^{ }\gamma_t(i)}$

$$p(x|C_k) = \frac{1}{(2\pi)^{D/2}} \frac{1}{|\sum|^{1/2}}
exp\left\{-\frac{1}{2}(x-\mu_k)^T\sum^{-1}(x-\mu_k)\right\} $$

3、Softmax函数

推导
$$
\begin{aligned}
& \eta_i = \ln \frac {\phi_i} {\phi_k} \
&\Rightarrow \phi_i = \phi_k \cdot e^{\eta_i} \
&\Rightarrow \phi_k \sum_{i=1}^k
e{\\eta\_i}=\\sum\_{i=1}k \phi_i=1\
&\Rightarrow \phi_k=\frac {1} {\sum_{i=1}^k e^{\eta_i}}\
&\Rightarrow \phi_i=\frac {e^{\eta_i}} {\sum_{j=1}^k
e^{\eta_j}}\
&\Rightarrow \phi_i=\frac {e^{\eta_i}} {||e^{\eta}||}
\end{aligned} \tag{3-1}
$$

季到第五尽是怎抱的?

则这个$\phi_i$关于$\eta_i$的函数称为Softmax函数

为何叫称之为softmax呢?因为分子是每个元素
的指数,分母是归一化向量。当进行向量的口径常,支配范数(norm)的极其老之素将会晤受业内改成一个近似
1 的数字,其他的要素用会见叫一个比较生的值分割并让专业成为一个类似 0
的数字。所收获的向量清楚地显示出了哪位是那个最为老的价值,即「max」,但是可还要保留了其值的老之相对排列顺序,因此就为「soft」。

解码问题

解码问题:求解隐藏序列$\arg\,\max_Sp(S|O,\Theta)$,viterbi/A*算法

  • ­输入为音子时,观察和状态中吧多对准同一关联
  • ­$\arg\,\max_Sp(S|O,\Theta)=\arg\,\max_Sp(O|S,\Theta)p(S|\Theta)=\arg\,\max_S\prod_{i}^{
    }B(O_i,S_i)\pi(S_0)\prod_{i}^{ }A(S_{i+1},S_i)$
  • ­序列空间约:$given\,S_{n+1}, S_n=\arg\,\max_sB(O_{n+1},
    S_{n+1})A(S_{n+1}, s)$
  • ­递归公式:$\delta_i(t)=\max_{q_{1}^{t-1}}p(O_{1}^{t},q_{1}^{t-1},q_t=i)$;$\delta_{i+1}(t)=\max_{i}[\delta_i(t)A(j,i)]B(O_{t+1},j)$

 

疑问

1)(2-1)第二履的末梢不绝懂为什么是得表达为这种1-累加的款式?

2)(3-1)最后一实行是哪获得的?

最为小平方法:对应于高斯分布条件假而下之巨似然法,而二值目标向量的概率分布不是高斯分布。此外最小平方法对异常点及其敏感。

7、Softmax 回归 vs. k 个次头分类器

倘你当支付一个乐分类的应用,需要对k种类型的音乐进行识别,那么是挑下
softmax 分类器呢,还是以 logistic 回归算法建立 k
个独立的老二处女分类器呢?

立即同挑选在你的花色中是否互斥

例如,如果你生出四只类别的音乐,分别吗:古典音乐、乡村音乐、摇滚乐及爵士乐,那么您得要每个训练样本只见面吃于上一个标签(即:一篇歌唱只能属于即四种音乐项目的内部同样栽),此时若当使用项目数
k = 4 的softmax回归。

要你的季单门类如下:人声音乐、舞曲、影视原声、流行歌曲,那么这些类别中并无是轧的。例如:一首歌可以来电影原声,同时也包含人口声
。这种状况下,使用4独伯仲分拣的 logistic
回归分类器更为适合。这样,对于每个新的音乐作品
,我们的算法可以独家判断它们是不是属于各个项目。

 $$误差函数:E_P(w) = – \sum_{n\epsilon M} W^T\phi_n t_n$$

线性分类型:决策面(decision boundary)是输入向量的线性函数

  1. 判别函数(discriminant function):
    找到函数$f(x)$将输入$x$映射为品种标签

  2. 生成式模型(generative model):
    对规则概率$p(x|C_k)$和先验概率$p(C_k)$ 建模 然后透过贝叶斯定理计算.
    #求解模型复杂,但是好要出边缘概率密度$p(x)$

  3. 判别式模型(discriminative model): 直接针对后验概率密度$p(C_k|x)$建模

 对承诺给K>2只项目模型:$p(C_k|x) = \frac{p(x|C_k)p(C_k)}{\sum_j
p(x|C_j)p(C_j)} = \frac{a_k}{\sum_j\exp(a_j)}$

引入激活函数(activation function)$f(\cdot),使得y(x) = f(W^t x + W_0)$

其中:$a = ln\frac{p(x|C_1)p(C_1)}{p(x|C_2)p(C_2)}$

次、分类问题的老三栽方法

 四、概率生成模型

针对诺吃次分类型:类别C_1晚验概率可以形容成:$p(C_1|x)
=\frac{p(x|C_1)P(C_1)}{p(x|C_1)P(C_1)+p(x|C_2)p(C_2)} =
\sigma(a)$

老三、判别函数

其中:$a_k = lnp((x|C_k)p(C_k))$

造一个相似的线性模型形式:$y(x) = f(w^T\phi(x))$

判别函数:推广的线性模型(generalized linear model)

相同、基础概念

相关文章