Loading...
确定性近似的典型代表是变分贝叶斯推断(variationalBayesianinference),它解决的问题是对隐变量$\bfy$关于已知输入$\bfx$的后验概率$p({\bfy}|{\bfx})$的近似,近似的方式是利用最优的近似概率分布$q({\bfy})$来逼近$p({\bfy}|{\bfx})$。优化的目的是用简单的、容易计算的分布$q({\bfy})$来拟合复杂的、不容易计算的后验分布$p({\bfy}|{\bfx})$,优化的对象是变分下界。
机器学习40讲-35:精确推断变量消除及其拓展
fo$与$do$的关系已经由上面计算出的新因子所定义,与$lo$的关系则是纯粹的条件概率,两者结合可以表示为另一个新因子$$\psi_2(do,lo)=\sum\limits_{fo}\psi_1(fo,do)p(fo)p(lo|fo)$$变量$lo$只出现在新因子$\psi_2$中,消除这个变量的结果就是只和变量$do$有关的因子$\psi_3(do)=\sum_{lo}\psi_2(do,lo)$求和。从运算效率的角度对变量消去加以改进,得到的就是置信传播算法。
机器学习40讲-34:连续序列化模型线性动态系统
隐藏状态变量初始的取值${\bfX}^{(0)}$也满足高斯分布,其概率密度可以写成$$P({\bfX}^{(0)})=\mathscr{N}({\bfX}^{(0)}|\boldsymbol\mu_0,V_0)$$如果将线性动态系统放在状态空间表象(statespacerepresentation)下观察,上面的条件概率就可以改写成状态方程的形式$${\bfX}^{(n)}={\bfA}{\bfX}^{(n-1)}+{\bfw}$$
机器学习40讲-33:序列化建模隐马尔可夫模型
在隐马尔可夫模型中,罐子表示的是由概率模型生成的不可观测的随机序列,每个罐子都代表了系统的一种状态,所以这个隐藏的序列叫作状态序列(statesequence),也就是上图中圆圈的部分。这里的上层分布起到的就是前面无信息先验的作用,可以决定哪些状态更容易出现,它的浓度参数决定了状态的密度。假设所有可能的状态$q_i$总共有$N$个,所有可能的观测结果$v_j$总共有$M$个,所有抽取出的状态结果$i_t$构成长度为$T$的状态序列,所有状态生成的观测结果$o_t$则构成长度为$T$的观测序列。
机器学习40讲-32:从有限到无限高斯过程
要理解协方差函数在高斯过程中的作用,首先要明确高斯过程的一个主要特点,那就是它建模的对象不是自变量$\bfx$和因变量$y$之间的关系,而是不同的因变量$y$和$y’$之间的关系,正是这种思想决定了高斯过程的非参数特性。如果要将上面的参数化过程过渡为完全的非参数化过程,就要摆脱对于参数$\bfw$的依赖,最直接的方法是不定义$\bfw$的先验,而是直接定义在函数空间上的输出$y({\bfx})$的先验,也就是给出$y({\bfx})$取不同形式的概率。但在多元高斯分布中,变量的数目依然是有限的。
机器学习40讲-31:建模连续分布高斯网络
在这个顺连结构中,$X_1$和$X_3$之间并不存在直接的作用,而是以$X_2$作为媒介和中转。“如果一个线性高斯网络具有顺连结构$X_1\rightarrowX_2\rightarrowX_3$,其中$X_1$的概率密度${\mathscrN}(1,4)$,已知$X_1$时$X_2$的条件概率密度为${\mathscrN}(0.5X_1-3.5,4)$,已知$X_2$时$X_3$的条件概率密度为${\mathscrN}(-X_2+1,3)$,试求解整个网络所表示的联合分布。
机器学习40讲-30:无向图模型马尔可夫随机场
在上面的例子中,如果要计算四个随机变量分别等于$a^0,b^0,c^1,d^1$的概率,就需要先将反映它们之间的依赖关系的因子相乘$$\phi_1(a^0,b^0)\cdot\phi_2(b^0,c^1)\cdot\phi_3(c^1,d^1)\cdot\phi_4(d^1,a^0)=30\times1\times1\times1=30$$在计算中需要注意的是,在两个因子相乘时,将这两个因子联系起来的中间变量的取值必须是匹配的。上面求出的只是一种可能出现的取值。
机器学习40讲-29:有向图模型贝叶斯网络
在上面的例子中,随机变量的数目,也就是结点的数目是5个,每个随机变量又都只有2种可能的取值。不严谨地说,在给定一些证据(evidence),也就是某些结点的取值固定时,如果一个结点的变化会影响到另一个结点的变化,那它们就是$d$连通的($d$-connected),它们之间存在着$d$连接路径($d$-connectingpath)。将所有结点分成互斥的若干个子集,如果在给定集合$X$的条件下,集合$A$中的任何变量都和集合$B$条件独立,那么满足这一条件的最小集合$X$就是集合$A$的马尔可夫毯。
机器学习40讲-28:最简单的概率图朴素贝叶斯
从今天起,我们将进入概率图模型的模块,以贝叶斯的角度重新审视机器学习。在机器学习任务中,输入和输出之间并不是简单的一对一的决定关系,两者之间通常存在着一些可见或不可见的中间变量。要计算输出变量的概率分布,就得把这些中间变量纳入到建模的框架之中。要简洁明快地表达多个变量之间的复杂的相关关系,图模型无疑是理想的选择。将图模型和概率模型结合起来,就是这个模块的主题——概率图模型(probabilisticgraphicalmodel)。在“人工智能基础课”中,我曾用简短的篇幅粗略地介绍过概率图模型的概念和分类
机器学习40讲-总结课:机器学习的模型体系
结构化局部模型的代表是核函数,虽然它原本的目的不在于此,却在事实上起到了局部化的作用。这里我用参数的非线性化来指代属性不变但参数改变的模型,但由于参数本身是常量而非变量,因此参数的非线性化是以自适应调整的方式体现的。局部化是对数据样本所在的特征空间的切割,可分布式表示却是对特征空间的重组,将原来单个的数据点变出了多个分身,分别作为对数据不同角度的观察结果。一手遮天的全局特性限制了模型的灵活性,改进的方法在于将它改造成若干个局部模型的组合,其演进的过程可以描述为“结构化局部——非结构化局部——分布式表示”。
机器学习40讲-27:万能模型梯度提升与随机森林
在集成方法中,假定最终的输出结果$f(x)$是每个基学习器单独输出的线性组合$\sum_{i=1}^Nw_if_i(x)$,其中线性系数全部为正且和为1,那么每个基学习器的分歧就可以表示为$$a_i(x)=[f(x)-f_i(x)]^2$$集成模型的分歧是所有基学习器的分歧的线性组合$$a(x)=\sum\limits_{i=1}^Nw_ia_i(x)$$这个表达式可以看成是所有独立输出对加权平均求出的加权方差。通过增加个体的方差来减小集体的方差,这就是集成学习的奇妙之处。
机器学习40讲-26:集成化处理Boosting与Bagging
每当一个新的弱学习器加入后,数据的权重都会被重新分配(reweighting),被错误分类的样本占据更大的权重,被正确分类样本的权重则被相应地削减,这保证了未来的弱学习器会更多地以前车之覆作为后车之鉴。某种意义上说,堆叠法的训练数据不是原始的训练数据集,而是不同基学习器在训练数据集上的结果,起到的是模型平均(modelaveraging)的作用,提升法和装袋法都可以看成它的特例。需要注意的是,装袋法并没有降低偏差的效果,也就没法提升预测的准确性,因此在选择基学习器时,应当以偏差较小的优先。
机器学习40讲-25:基于特征的区域划分树模型
显然,$T$的作用是对目标函数的正则化。在从整体到局部的过渡中,回归树的操作和之前介绍过的回归样条方法一脉相承,采用的都是“分段函数”的思路,但两者的区别在于回归树对特征空间执行的是递归式划分(recursivepartitioning)。可以看到,在一维的情形下,回归树其实是分段的常数函数,只不过不同分段之间的分界点并不是人为指定,而是通过方差下降的方法计算出来的。因变量的相似性决定了被划分到同一组的数据在输出上的差别较小,自变量的相异性则决定了被划分到不同组的数据在某一个输入属性上的差别较大。
机器学习40讲-24:深度编解码表示学习
在卷积层和下采样层的迭代过程中,低层次的特征不断组合成高层次的特征,数字图像的表示方式也从原始的像素集合变成卷积得到的特征组合,这两个层也就构成了卷积神经网络的编码器。在自编码器最初的设计中,编码器的任务是生成参数矩阵${\bfW}_C$,用来计算输入数据$\bfX$的码字向量,解码器的任务是生成参数矩阵${\bfW}_D$,用来重构的码字向量所对应的初始数据$\tilde{\bfX}$。从编解码的全过程来看,如果要构造出有效的表示,自编码器的输入和输出就应该是近似相等的,那它学习的对象是个恒等函数。
机器学习40讲-23:层次化的神经网络深度学习
下面的这个例子来自于约书亚·本吉奥(YoshuaBengio)等人的大作《深度学习》(DeepLearning),在识别这张图片时,理想的算法应该能够将由像素的灰度值所组成的数组输出“女人”这样的标签,识别的过程就是逐层提取模式的过程。算法的第一层可以根据灰度的空间分布提取出诸如边缘这类在较小的几何尺度上保持不变性的低层次特征,第二层进一步从边缘的组合中抽象出角度和弧度等高级的形状特征,第三层再根据形状的组合抽象出面部和身体等器官的轮廓,最后将这些器官的轮廓组合成关于“女人”的潜在模式。
机器学习40讲-22:自适应的基函数神经网络
网络输出的分类结果$t$满足两点分布,它关于数据$\bfx$和参数$\bfw$的似然概率可以写成$$p(t|{\bfx},{\bfw})=y({\bfx},{\bfw})^t[1-y({\bfx},{\bfw})]^{1-t}$$其中$y({\bfx},{\bfw})$是输出层激活函数为对数几率函数时的输出,可以视为$\bfx$归属于正类的条件概率。在用于分类的神经网络中,先验假设就是参数$\bfw$的概率分布,这个分布通常被处理成零均值的高斯分布。
机器学习40讲-21:基函数扩展属性的非线性化
充分利用关于基函数的灵活性,就可以将线性回归的表达式推广成$$y=\beta_0+\beta_1\phi(x_1)+\beta_2\phi(x_2)+\cdots+\beta_n\phi(x_n)$$显然,当$\phi(\cdot)$是个非线性的函数时,回归结果实际上就是经过非线性变换的输入属性的线性组合,因变量和自变量之间也就建立起了非线性的关系。在最原始的线性回归中,基函数的形式是恒等函数,因此这样的模型无论对属性$x_i$还是对系数$\beta_i$都是线性的。
机器学习40讲-20:基于距离的学习聚类与度量学习
但近邻点是以内收的形式影响未知的数据,所有近邻点按照一定的规则共同决定处于中心的未知数据的类别。如果聚类的任务是将$N$个数据点聚类成为$K$个簇,那它的目标函数就可以写成$$J=\sum\limits_{n=1}^N\sum\limits_{k=1}^Kr_{nk}||x_n-\mu_k||^2$$其中$x_n$是数据点,$\mu_k$是第k个簇的中心,也就是簇中所有数据点的均值,$r_{nk}$是数据点和簇之间的关系:当$x_n$被归类到第$k$个簇时为1,否则为0。
机器学习40讲-19:非参数化的局部模型K近邻
在直方图上,第$i$个子区间上的概率可以表示成$$p_i=\dfrac{n_i}{N\Delta}$$其中$n_i$是落在这个子区间内的样本数,$N$是样本容量,$\Delta$是每个子区间的宽度,它决定了直方图的分辨率。在高维空间中,如果将数据$\bfx$的局部结构定义为$R$,那么其概率密度就可以表示为$$p({\bfx})=\dfrac{K}{NV}$$其中$K$表示$R$中的数据点数目,$V$表示$R$的体积,它们都是不确定的量。下图是$k$近邻算法的一个简单的例子。
机器学习40讲-18:从全局到局部核技巧
分享一个大牛的人工智能教程。零基础!通俗易懂!风趣幽默!希望你也加入到人工智能的队伍中来!请轻击人工智能教程https://www.captainai.net/troubleshooter俗话说得好:“支持向量机有三宝,间隔对偶核技巧”。在上一篇文章中我和你分享了间隔这个核心概念,今天就来看看对偶和核技巧的使用。对偶性主要应用在最优决策边界的求解中,其逻辑比较简单。但在介绍核技巧时,会先后涉及核函数、核方法、核技巧这些近似的概念。虽然从名字上看,它们都是“核”字辈的兄弟,但是在含义和用途上却不能一概而论,因
