要开心

人工智能基础课－01：数学基础－九层之台，起于累土线性代数
如果有一个集合，它的元素都是具有相同维数的向量（可以是有限个或无限个），并且定义了加法和数乘等结构化的运算，这样的集合就被称为线性空间（linearspace），定义了内积运算的线性空间则被称为内积空间（innerproductspace）。在线性空间中，变化的实现有两种方式：一是点本身的变化，二是参考系的变化。对一个给定向量，$L^1$范数计算的是向量所有元素绝对值的和，$L^2$范数计算的是通常意义上的向量长度，$L^{\infty}$范数计算的则是向量中最大元素的取值。

人工智能基础课－开篇词：人工智能新时代的必修课
人工智能的早期发展遵循的是符号主义学派的发展路径，但狭窄的应用领域让它在短暂的辉煌之后迅速走向沉寂。自此，人工智能不仅以如火如荼之势赚足了政策的关注、资本的涌入、以及吃瓜群众的眼球，其技术进展更是以令人瞠目结舌的速度狂飙突进，悄无声息地改造着普通人的生活。出于可读性的考虑，我在专栏里不会使用大量复杂的数学公式，而是力图以通俗的语言解释清楚公式背后的道理，起到入门的作用。你好，在未来的几个月中，我将通过“人工智能基础课”这个专栏和你分享人工智能的基础知识，以帮助你更好地理解人工智能的内涵。

机器学习40讲－结课：终有一天，你将为今天的付出骄傲
不知不觉间，又一个40期的机器学习专栏也走到了尾声。在专栏里，我从理解概率的两大流派入手，以每种流派中的各个模型为主线，对统计机器学习和贝叶斯机器学习做了系统的介绍，并从这些模型中梳理出它们之间关系的脉络，帮助你尽可能地从更加宏观的角度来理解模型内部的关联。和上一季的“人工智能基础课”相比，这一季专栏的内容聚焦于机器学习一点，力求更加深入地挖掘这个主题。增加深度意味着提升难度，无论是写作的我还是阅读的你，都需要投入更多的时间和精力去理解与消化。

机器学习40讲－总结课：贝叶斯学习的模型体系
比如在分析学生的成绩时，物理/化学/生物这几门课程之间会存在较强的相关性，政治/历史/地理这几门课程也会存在较强的相关性，物理/政治、化学/历史之间的相关性就会较弱，这样的相关关系就可以用理科和文科两个互不相关的公因子来刻画。在统计学习中，几乎所有模型都可以追溯到线性回归的演化，在贝叶斯学习里，起到万物之源作用的是具有最大不确定性的高斯分布，对高斯分布的不同处理方式决定了不同的数据生成方式。如果给高斯混合模型中的隐变量添加时序关系，让下一时刻的状态依赖于这一时刻的状态，就形成了隐马尔可夫模型。

机器学习40讲－40：结构学习基于约束与基于评分
具体的做法是判断选出的两个节点$i,j$在给定其他所有结点的条件下是否条件独立，如果存在让$i$和$j$满足$d$分离性的结点子集，那就把$i$和$j$之间的边去掉。基于评分的学习的首要任务是选择合适的评分函数。结构EM算法在具有结构和参数两个维度的假设空间内进行搜索，在每一轮次的搜索中，原始的EM算法是为固定的模型更新参数，结构EM算法则同时更新参数和模型，更新的方式是让模型的评分函数最大化，评分函数的选择是参数关于模型后验概率的信息熵，当然也可以使用贝叶斯信息量准则或者最小描述长度这类指标。

机器学习40讲－39：隐变量下的参数学习EM方法与混合模型
如果已知每个样本${\bfx}_n$所对应的隐变量$z_{nk}=1$，那就意味着第$n$个样本由第$k$个混合成分产生，上面的表达式就可以简化为$$L(\boldsymbol\theta|{\bfX},{\bfZ})=\sum\limits_{n=1}^N\log\pi_k\mathscr{N}({\bfx}_n|\boldsymbol\mu_k,\boldsymbol\Sigma_k)$$但隐变量本身也是随机变量，只能用概率描述。这里的硬币选择就是不能直接观测的隐变量。

机器学习40讲－38：完备数据下的参数学习有向图与无向图
在给定一组数据$a,b,c$时，这个实例的似然概率可以写成$$p(a,b,c)=\dfrac{\phi_1(a,b)\cdot\phi_2(b,c)}{Z}=\dfrac{\phi_1(a,b)\cdot\phi_2(b,c)}{\sum\limits_{a,b,c}\phi_1(a,b)\cdot\phi_2(b,c)}$$在对这个式子进行最大化时，就不能对$\phi_1(a,b)$和$\phi_2(b,c)$分开处理，各自求解最大值了。那就是简化参数估计的运算。

机器学习40讲－37：随机近似推断MCMC
但在具体问题中，任意选择的目标分布$p(x)$和起到转移矩阵作用的建议分布$q(x)$很难满足细致平稳性，这时就需要对它们做一些人为的修正，修正方式是引入参数$\alpha$，令它满足$$p(i)Q(i,j)\alpha(i,j)=p(j)Q(j,i)\alpha(j,i)$$不难看出，参数的引入使转移矩阵被修正为${\bfQ}(\cdot)\alpha(\cdot)$，这可以避免Metropolis算法对小概率样本的一刀切。有些时候，即使目标分布的形式是已知的，对它的求解也存在着困难。

机器学习40讲－36：确定近似推断变分贝叶斯
确定性近似的典型代表是变分贝叶斯推断（variationalBayesianinference），它解决的问题是对隐变量$\bfy$关于已知输入$\bfx$的后验概率$p({\bfy}|{\bfx})$的近似，近似的方式是利用最优的近似概率分布$q({\bfy})$来逼近$p({\bfy}|{\bfx})$。优化的目的是用简单的、容易计算的分布$q({\bfy})$来拟合复杂的、不容易计算的后验分布$p({\bfy}|{\bfx})$，优化的对象是变分下界。

机器学习40讲－35：精确推断变量消除及其拓展
fo$与$do$的关系已经由上面计算出的新因子所定义，与$lo$的关系则是纯粹的条件概率，两者结合可以表示为另一个新因子$$\psi_2(do,lo)=\sum\limits_{fo}\psi_1(fo,do)p(fo)p(lo|fo)$$变量$lo$只出现在新因子$\psi_2$中，消除这个变量的结果就是只和变量$do$有关的因子$\psi_3(do)=\sum_{lo}\psi_2(do,lo)$求和。从运算效率的角度对变量消去加以改进，得到的就是置信传播算法。

机器学习40讲－34：连续序列化模型线性动态系统
隐藏状态变量初始的取值${\bfX}^{(0)}$也满足高斯分布，其概率密度可以写成$$P({\bfX}^{(0)})=\mathscr{N}({\bfX}^{(0)}|\boldsymbol\mu_0,V_0)$$如果将线性动态系统放在状态空间表象（statespacerepresentation）下观察，上面的条件概率就可以改写成状态方程的形式$${\bfX}^{(n)}={\bfA}{\bfX}^{(n-1)}+{\bfw}$$

机器学习40讲－33：序列化建模隐马尔可夫模型
在隐马尔可夫模型中，罐子表示的是由概率模型生成的不可观测的随机序列，每个罐子都代表了系统的一种状态，所以这个隐藏的序列叫作状态序列（statesequence），也就是上图中圆圈的部分。这里的上层分布起到的就是前面无信息先验的作用，可以决定哪些状态更容易出现，它的浓度参数决定了状态的密度。假设所有可能的状态$q_i$总共有$N$个，所有可能的观测结果$v_j$总共有$M$个，所有抽取出的状态结果$i_t$构成长度为$T$的状态序列，所有状态生成的观测结果$o_t$则构成长度为$T$的观测序列。

机器学习40讲－32：从有限到无限高斯过程
要理解协方差函数在高斯过程中的作用，首先要明确高斯过程的一个主要特点，那就是它建模的对象不是自变量$\bfx$和因变量$y$之间的关系，而是不同的因变量$y$和$y’$之间的关系，正是这种思想决定了高斯过程的非参数特性。如果要将上面的参数化过程过渡为完全的非参数化过程，就要摆脱对于参数$\bfw$的依赖，最直接的方法是不定义$\bfw$的先验，而是直接定义在函数空间上的输出$y({\bfx})$的先验，也就是给出$y({\bfx})$取不同形式的概率。但在多元高斯分布中，变量的数目依然是有限的。

机器学习40讲－31：建模连续分布高斯网络
在这个顺连结构中，$X_1$和$X_3$之间并不存在直接的作用，而是以$X_2$作为媒介和中转。“如果一个线性高斯网络具有顺连结构$X_1\rightarrowX_2\rightarrowX_3$，其中$X_1$的概率密度${\mathscrN}(1,4)$，已知$X_1$时$X_2$的条件概率密度为${\mathscrN}(0.5X_1-3.5,4)$，已知$X_2$时$X_3$的条件概率密度为${\mathscrN}(-X_2+1,3)$，试求解整个网络所表示的联合分布。

机器学习40讲－30：无向图模型马尔可夫随机场
在上面的例子中，如果要计算四个随机变量分别等于$a^0,b^0,c^1,d^1$的概率，就需要先将反映它们之间的依赖关系的因子相乘$$\phi_1(a^0,b^0)\cdot\phi_2(b^0,c^1)\cdot\phi_3(c^1,d^1)\cdot\phi_4(d^1,a^0)=30\times1\times1\times1=30$$在计算中需要注意的是，在两个因子相乘时，将这两个因子联系起来的中间变量的取值必须是匹配的。上面求出的只是一种可能出现的取值。

机器学习40讲－29：有向图模型贝叶斯网络
在上面的例子中，随机变量的数目，也就是结点的数目是5个，每个随机变量又都只有2种可能的取值。不严谨地说，在给定一些证据（evidence），也就是某些结点的取值固定时，如果一个结点的变化会影响到另一个结点的变化，那它们就是$d$连通的（$d$-connected），它们之间存在着$d$连接路径（$d$-connectingpath）。将所有结点分成互斥的若干个子集，如果在给定集合$X$的条件下，集合$A$中的任何变量都和集合$B$条件独立，那么满足这一条件的最小集合$X$就是集合$A$的马尔可夫毯。

机器学习40讲－28：最简单的概率图朴素贝叶斯
从今天起，我们将进入概率图模型的模块，以贝叶斯的角度重新审视机器学习。在机器学习任务中，输入和输出之间并不是简单的一对一的决定关系，两者之间通常存在着一些可见或不可见的中间变量。要计算输出变量的概率分布，就得把这些中间变量纳入到建模的框架之中。要简洁明快地表达多个变量之间的复杂的相关关系，图模型无疑是理想的选择。将图模型和概率模型结合起来，就是这个模块的主题——概率图模型（probabilisticgraphicalmodel）。在“人工智能基础课”中，我曾用简短的篇幅粗略地介绍过概率图模型的概念和分类

机器学习40讲－总结课：机器学习的模型体系
结构化局部模型的代表是核函数，虽然它原本的目的不在于此，却在事实上起到了局部化的作用。这里我用参数的非线性化来指代属性不变但参数改变的模型，但由于参数本身是常量而非变量，因此参数的非线性化是以自适应调整的方式体现的。局部化是对数据样本所在的特征空间的切割，可分布式表示却是对特征空间的重组，将原来单个的数据点变出了多个分身，分别作为对数据不同角度的观察结果。一手遮天的全局特性限制了模型的灵活性，改进的方法在于将它改造成若干个局部模型的组合，其演进的过程可以描述为“结构化局部——非结构化局部——分布式表示”。

机器学习40讲－27：万能模型梯度提升与随机森林
在集成方法中，假定最终的输出结果$f(x)$是每个基学习器单独输出的线性组合$\sum_{i=1}^Nw_if_i(x)$，其中线性系数全部为正且和为1，那么每个基学习器的分歧就可以表示为$$a_i(x)=[f(x)-f_i(x)]^2$$集成模型的分歧是所有基学习器的分歧的线性组合$$a(x)=\sum\limits_{i=1}^Nw_ia_i(x)$$这个表达式可以看成是所有独立输出对加权平均求出的加权方差。通过增加个体的方差来减小集体的方差，这就是集成学习的奇妙之处。

机器学习40讲－26：集成化处理Boosting与Bagging
每当一个新的弱学习器加入后，数据的权重都会被重新分配（reweighting），被错误分类的样本占据更大的权重，被正确分类样本的权重则被相应地削减，这保证了未来的弱学习器会更多地以前车之覆作为后车之鉴。某种意义上说，堆叠法的训练数据不是原始的训练数据集，而是不同基学习器在训练数据集上的结果，起到的是模型平均（modelaveraging）的作用，提升法和装袋法都可以看成它的特例。需要注意的是，装袋法并没有降低偏差的效果，也就没法提升预测的准确性，因此在选择基学习器时，应当以偏差较小的优先。

欢迎留下您的脚印

Leave a Comment Cancel reply 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

Leave a Comment Cancel reply
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款