澳门新匍京客户端下载 15

贝叶斯方法的简单学习,数据挖掘之贝叶斯

香农在MIT电子工程系完成的硕士论文被誉为20世纪最重要的硕士论文:在这篇论文中,22岁的香农展示了如何使用继电器和开关的电子电路实现19世纪数学家乔治布尔(George
Boole)的逻辑代数。数字计算机设计的最基本的特征——将“真”和“假”、“0”和“1”表示为打开或关闭的开关,以及使用电子逻辑门来做决策和执行算术——可以追溯到香农论文中的见解。

3. 贝叶斯分类器

澳门新匍京客户端下载 1

澳门新匍京客户端下载 2

澳门新匍京客户端下载 3

澳门新匍京客户端下载 4

1.1一个例子:自然语言的二义性

1941年,香农去了贝尔实验室,在那里他从事战争事务,包括密码学。他还研究信息和通信背后的原始理论。1948年,贝尔实验室研究期刊发表了他的研究,也就是划时代的题为“通信的一个数学理论”论文。

2. 贝叶斯法则

2.1 基本术语

D :训练数据;

H : 假设空间;

h : 假设;

P(h):假设h的先验概率(Prior Probability)

        即没有训练数据前假设h拥有的初始概率

P(D):训练数据的先验概率

        即在没有确定某一假设成立时D的概率

P(D|h):似然度,在假设h成立的情况下,观察到D的概率;

P(h|D):后验概率,给定训练数据D时h成立的概率;

2.2 贝叶斯定理(条件概率的应用)

澳门新匍京客户端下载 5

公式

        后验概率正比于P(h)和P(D|h)

        反比于P(D):D独立于h出现的概率越大,则D对h的支持度越小

2.3 相关概念

极大后验假设MAP:给定数据D和H中假设的先验概率,具有最大后验概率的假设h:

澳门新匍京客户端下载 6

计算公式

极大似然假设ML:当H中的假设具有相同的先验概率时,给定h,使P(D|h)最大的假设hml:

澳门新匍京客户端下载 7

计算公式

4.1中文分词

给定假设是数据的长度。这是什么意思?

1. 贝叶斯推理

–提供了推理的一种概率手段

–两个基本假设:

(1)待考察的量遵循某概率分布

(2)可根据这些概率以及观察到的数据进行推理,以作作出最优的决策

–贝叶斯推理对机器学习十分重要:

        为衡量多个假设的置信度提供了定量的方法

        为直接操作概率的学习算法提供了基础

        为其他算法的分析提供了理论框架

–机器学习的任务:在给定训练数据D时,确定假设空间H中的最佳假设

        最佳假设:
在给定数据D以及H中不同假设的先验概率的有关知识下的最可能假设

–概率学习系统的一般框架

澳门新匍京客户端下载 8

问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢?”用刚才我们形式化的语言来叙述就是,我们需要求:

听起来十分简单而且直观是吧?很好。

贝叶斯推理

贝叶斯法则

朴素贝叶斯分类器

应用:文本分类

贝叶斯网络的建造是一个复杂的任务,需要知识工程师和领域专家的参与。在实际中可能是反复交叉进行而不断完善的。面向设备故障诊断应用的贝叶斯网络的建造所需要的信息来自多种渠道,如设备手册,生产过程,测试过程,维修资料以及专家经验等。首先将设备故障分为各个相互独立且完全包含的类别(各故障类别至少应该具有可以区分的界限),然后对各个故障类别分别建造贝叶斯网络模型,需要注意的是诊断模型只在发生故障时启动,因此无需对设备正常状态建模。通常设备故障由一个或几个原因造成的,这些原因又可能由一个或几个更低层次的原因造成。建立起网络的节点关系后,还需要进行概率估计。具体方法是假设在某故障原因出现的情况下,估计该故障原因的各个节点的条件概率,这种局部化概率估计的方法可以大大提高效率。

因此,我们可以说,在贝叶斯推理的世界中,最可能的假设取决于两个术语,它们引起长度感(sense
of length),而不是最小长度。

4. 文本分类

算法描述:

澳门新匍京客户端下载 9

澳门新匍京客户端下载 10

P(h+|D) = P(h+) * P(D|h+) / P(D)

1763年,贝叶斯的著作《机会问题的解法》(An
Essay toward solving a Problem in the Doctrine of
opportunities)被寄给英国皇家学会,但经过了他的朋友理查德·普莱斯(Richard
Price)的编辑和修改,发表在伦敦皇家学会哲学汇刊。在那篇文章中,贝叶斯以一种相当繁复的方法描述了关于联合概率的简单定理,该定理引起了逆概率的计算,即贝叶斯定理。

P(B|A) * P(A) = P(AB)

那是在18世纪下半叶,当时还没有一个数学科学的分支叫做“概率论”。人们知道概率论,是因为亚伯拉罕 ·
棣莫弗(Abraham de Moievre)写的《机遇论》(Doctrine of
Chances)一书。

现在我们回到问题的贝叶斯方面,我们要想最大化的后验概率是:

澳门新匍京客户端下载 11

3.2模型比较理论(Model Comparasion)与贝叶斯奥卡姆剃刀(Bayesian Occam’s
Razor)

香农将信息源产生的信息量(例如,信息中的信息量)通过一个类似于物理学中热力学熵的公式得到。用最基本的术语来说,香农的信息熵就是编码信息所需的二进制数字的数量。对于概率为p的信息或事件,它的最特殊(即最紧凑)编码将需要-log2(p)比特。

P(B|A) = P(AB) / P(A)

我们从最小描述长度(MDL)原理的分析中得出什么结论?

以上只是最大似然的一个问题,即并不能提供决策的全部信息。

牛顿说:“解释自然界的一切,应该追求使用最少的原理。”

7.贝叶斯网络

现在,我们应用以下数学技巧:

类似地,对于我们的猜测2,则是P(h2 | D)。不妨统一记为:

在统计推理的世界里,假设就是信念。这是一种关于过程本质(我们永远无法观察到)的信念,在一个随机变量的产生背后(我们可以观察或测量到随机变量,尽管可能有噪声)。在统计学中,它通常被称为概率分布。但在机器学习的背景下,它可以被认为是任何一套规则(或逻辑/过程),我们认为这些规则可以产生示例或训练数据,我们可以学习这个神秘过程的隐藏本质。

3.4最优贝叶斯推理

我们不妨先来看看MacKay在书中举的一个漂亮的例子:

原文链接:

这两个分词,到底哪个更靠谱呢?

总结和思考

首先是视觉系统提取图形的边角特征,然后使用这些特征自底向上地激活高层的抽象概念(比如是E还是F还是等号),然后使用一个自顶向下的验证来比较到底哪个概念最佳地解释了观察到的图像。

【新智元导读】当贝叶斯、奥卡姆和香农一起给机器学习下定义,将统计学、信息理论和自然哲学的一些核心概念结合起来,我们便会会发现,可以对监督机器学习的基本限制和目标进行深刻而简洁的描述。

收缩起来就是:

MDL表明,如果选择假设的表示(representation)使得h的大小为-log2
P(h),并且如果异常(错误)的表示被选择,那么给定h的D的编码长度等于-log2
P(D | h),然后MDL原则产生MAP假设。

很简单,你会说:要是真的有两个箱子那才怪了,怎么就那么巧这两个箱子刚刚好颜色相同,高度相同呢?

现在,一般来说,我们有一个很大的(通常是无限的)假设空间,也就是说,有许多假设可供选择。贝叶斯推理的本质是,我们想要检验数据以最大化一个假设的概率,这个假设最有可能产生观察数据(observed
data)。我们一般想要确定P(h|D)的argmax,也就是想知道哪个h的情况下,观察到的D是最有可能的。为了达到这个目的,我们可以把这个项放到分母P(D)中,因为它不依赖于假设。这个方案就是最大后验概率估计(maximum a posteriori,MAP)。

P(Y|X)∝P(Y)*P(X|Y)

  • 最大化对于对数与原始函数的作用类似,即采用对数不会改变最大化问题
  • 乘积的对数是各个对数的总和
  • 一个量的最大化等于负数量的最小化

然而,后面我们会逐渐发现,看似这么平凡的贝叶斯公式,背后却隐含着非常深刻的原理。

香农和信息熵

ln P(h | D)∝ln P(h) + ln P(D | h)

因此,让我们尝试用不同的符号重新定义贝叶斯定理——用与数据科学相关的符号。我们用D表示数据,用h表示假设,这意味着我们使用贝叶斯定理的公式来尝试确定数据来自什么假设,给定数据。我们把定理重新写成:


Why Machine Learning Works:

所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。

4.2统计机器翻译

实质上,它是错误分类(misclassication)或错误率(
error
rate)的概念。对于一个完美的假设,它是很短的,在极限情况下它为零。对于一个不能完美匹配数据的假设,它往往很长。

我们还是使用wikipedia上的一个例子:

Thomas Bayes

5.朴素贝叶斯方法

下面哪个决策树的长度更小?A还是B?

贝叶斯模型比较理论与信息论有一个有趣的关联:

这句话几乎涵盖了所有(有监督)机器学习

就有二义性:到底是参见这两本书的第12章,还是仅仅是第二本书的第12章呢?如果是这两本书的第12章那就是咄咄怪事了,怎么恰好两本书都有第12章,都是讲同一个问题,更诡异的是,标题还相同呢?

那么我们需要一个关于假设的长度的例子吗?

4.1中文分词

没有。

2.拼写纠正

然而,为了表明我们有这样一个表示,我们必须知道所有先验概率P(h),以及P(D
|
h)。没有理由相信MDL假设相对于假设和错误/错误分类的任意编码应该是首选。

一些认知科学的研究表明(《决策与判断》以及《Rationality for
Mortals》第12章:小孩也可以解决贝叶斯问题),我们对形式化的贝叶斯问题不擅长,但对于以频率形式呈现的等价问题却很擅长。在这里,我们不妨把问题重新叙述成:你在校园里面随机游走,遇到了N个穿长裤的人(仍然假设你无法直接观察到他们的性别),问这N个人里面有多少个女生多少个男生。

想想牛顿的运动定律。

一点注记:有人可能会疑惑,难道我们人类也是基于这些天真的假设来进行推理的?不是的。事实上,统计机器学习方法所统计的东西往往处于相当表层(shallow)的层面,在这个层面机器学习只能看到一些非常表面的现象,有一点科学研究的理念的人都知道:越是往表层去,世界就越是繁复多变。从机器学习的角度来说,特征(feature)就越多,成百上千维度都是可能的。特征一多,好了,高维诅咒就产生了,数据就稀疏得要命,不够用了。而我们人类的观察水平显然比机器学习的观察水平要更深入一些,为了避免数据稀疏我们不断地发明各种装置(最典型就是显微镜),来帮助我们直接深入到更深层的事物层面去观察更本质的联系,而不是在浅层对表面现象作统计归纳。举一个简单的例子,通过对大规模语料库的统计,机器学习可能会发现这样一个规律:所有的“他”都是不会穿bra的,所有的“她”则都是穿的。然而,作为一个男人,却完全无需进行任何统计学习,因为深层的规律就决定了我们根本不会去穿bra。至于机器学习能不能完成后者(像人类那样的)这个推理,则是人工智能领域的经典问题。至少在那之前,声称统计学习方法能够终结科学研究(原文)的说法是纯粹外行人说的话。

倒计时8**天**

我们假设直线对于坐标Xi给出的预测f(Xi)是最靠谱的预测,所有纵坐标偏离f(Xi)的那些数据点都含有噪音,是噪音使得它们偏离了完美的一条直线,一个合理的假设就是偏离路线越远的概率越小,具体小多少,可以用一个正态分布曲线来模拟,这个分布曲线以直线对Xi给出的预测f(Xi)为中心,实际纵坐标为Yi的点(Xi,
Yi)发生的概率就正比于EXP[-(ΔYi)^2]。(EXP(..)代表以常数e为底的多少次方)。

作者:Tirthajyoti Sarkar

6.层级贝叶斯模型

原标题:当贝叶斯,奥卡姆和香农一起来定义机器学习

介绍了贝叶斯拼写纠正之后,接下来的一个自然而然的问题就来了:“为什么?”为什么要用贝叶斯公式?为什么贝叶斯公式在这里可以用?我们可以很容易地领会为什么贝叶斯公式用在前面介绍的那个男生女生长裤裙子的问题里是正确的。但为什么这里?

澳门新匍京客户端下载 ,我们真正得出的结论是什么?

下面我们把这个答案形式化一下:我们要求的是P(Girl|Pants)(穿长裤的人里面有多少女生),我们计算的结果是U
* P(Girl) * P(Pants|Girl) / [U * P(Boy) * P(Pants|Boy) + U *
P(Girl) *
P(Pants|Girl)]。容易发现这里校园内人的总数是无关的,可以消去。于是得到

http://www.djansonLine.com ,如果要描述克劳德·香农的天才和奇特的一生,长篇大论也说不完。香农几乎是单枪匹马地奠定了信息论的基础,引领我们进入了现代高速通信和信息交流的时代。

这个式子的抽象含义是:对于给定观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior)”和“这个猜测生成我们观测到的数据的可能性大小”(似然,Likelihood)的乘积。具体到我们的那个thew例子上,含义就是,用户实际是想输入the的可能性大小取决于the本身在词汇表中被使用的可能性(频繁程度)大小(先验概率)和
想打the却打成thew的可能性大小(似然)的乘积。

http://www.zetaList.com ,牛顿运动定律第一次出现在《自然哲学的数学原理》上时,它们并没有任何严格的数学证明。它们不是定理。它们很像基于对自然物体运动的观察而做出的假设。但是它们对数据的描述非常好。因此它们就变成了物理定律。

我们用贝叶斯公式来形式化地描述这个问题,令X为字串(句子),Y为词串(一种特定的分词假设)。我们就是需要寻找使得P(Y|X)最大的Y,使用一次贝叶斯可得:

倒计时 8

贝叶斯公式是怎么来的?

让我们剥茧抽丝,看看这个术语多么有用……

下面的事情就很简单了,对于我们猜测为可能的每个单词计算一下P(h) * P(D |
h)这个值,然后取最大的,得到的就是最靠谱的猜测。

这就是知识表示和领域专业知识变得无比重要的地方。它使(通常)无限大的假设空间变小,并引导我们走向一组高度可能的假设,我们可以对其进行最优编码,并努力找到其中的一组MAP假设。

首先,我们需要询问的是:“问题是什么?”

澳门新匍京客户端下载 12

4.无处不在的贝叶斯

那么长度的概念是什么呢?

P(h|D)∝P(h) * P(D|h)

奥卡姆的威廉(William of
Ockham,约1287-1347)是一位英国圣方济会修士和神学家,也是一位有影响力的中世纪哲学家。他作为一个伟大的逻辑学家而享有盛名,名声来自他的被称为奥卡姆剃刀的格言。剃刀一词指的是通过“剔除”不必要的假设或分割两个相似的结论来区分两个假设。

就是其中的一种(最靠谱的)对齐,为什么要对齐,是因为一旦对齐了之后,就可以容易地计算在这个对齐之下的P(e|f)是多大,只需计算:

贝叶斯和他的理论

两边求对数,将右式的乘积变成相加:

而且,存在着权衡。

运用一次贝叶斯公式,我们得到:

澳门新匍京客户端下载 13

3.2模型比较理论(Model Comparasion)与贝叶斯奥卡姆剃刀(Bayesian Occam’s
Razor)

澳门新匍京客户端下载 14

4.4 EM算法与基于模型的聚类

人们总是喜欢更短的假设。

来比较哪个模型最为靠谱。前面提到,光靠P(D |
h)(即“似然”)是不够的,有时候还需要引入P(h)这个先验概率。奥卡姆剃刀就是说P(h)较大的模型有较大的优势,而最大似然则是说最符合观测数据的(即P(D
|
h)最大的)最有优势。整个模型比较就是这两方力量的拉锯。我们不妨再举一个简单的例子来说明这一精神:你随便找枚硬币,掷一下,观察一下结果。好,你观察到的结果要么是“正”,要么是“反”(不,不是少林足球那枚硬币:P),不妨假设你观察到的是“正”。现在你要去根据这个观测数据推断这枚硬币掷出“正”的概率是多大。根据最大似然估计的精神,我们应该猜测这枚硬币掷出“正”的概率是1,因为这个才是能最大化P(D
|
h)的那个猜测。然而每个人都会大摇其头——很显然,你随机摸出一枚硬币这枚硬币居然没有反面的概率是“不存在的”,我们对一枚随机硬币是否一枚有偏硬币,偏了多少,是有着一个先验的认识的,这个认识就是绝大多数硬币都是基本公平的,偏得越多的硬币越少见(可以用一个beta分布来表达这一先验概率)。将这个先验正态分布p(θ)(其中
θ
表示硬币掷出正面的比例,小写的p代表这是概率密度函数)结合到我们的问题中,我们便不是去最大化P(D
| h),而是去最大化P(D |θ) * p(θ),显然 θ=
1是不行的,因为P(θ=1)为0,导致整个乘积也为0。实际上,只要对这个式子求一个导数就可以得到最值点。

直观地说,它与假设的正确性或表示能力有关。给定一个假设,它支配着数据的“推断”能力。如果假设很好地生成了数据,并且我们可以无错误地测量数据,那么我们就根本不需要数据。

这个概率。并找出那个使得这个概率最大的猜测单词。显然,我们的猜测未必是唯一的,就像前面举的那个自然语言的歧义性的例子一样;这里,比如用户输入:thew,那么他到底是想输入the,还是想输入thaw?到底哪个猜测可能性更大呢?幸运的是我们可以用贝叶斯公式来直接出它们各自的概率,我们不妨将我们的多个猜测记为h1
h2
..(h代表hypothesis),它们都属于一个有限且离散的猜测空间H(单词总共就那么多而已),将用户实际输入的单词记为D(D代表Data,即观测数据),于是

这个公式实际上告诉你,在看到数据/证据(可能性)之后更新你的信念(先验概率),并将更新后的信念程度赋予后验概率。你可以从一个信念开始,但每个数据点要么加强要么削弱这个信念,你会一直更新你的假设

P(我们猜测他想输入的单词|他实际输入的单词)

自那以后,统计科学的两个派别——贝叶斯学派和频率学派(Frequentists)之间发生了许多争论。但为了回归本文的目的,让我们暂时忽略历史,集中于对贝叶斯推理的机制的简单解释。请看下面这个公式:

3.4最优贝叶斯推理

那么Length(D | h)是什么?

其实这个就等于:

但是如果数据与假设有很大的偏差,那么你需要对这些偏差是什么,它们可能的解释是什么等进行详细描述。

只不过实际上我们是基本不会使用这个框架的,因为计算模型可能非常费时间,二来模型空间可能是连续的,即有无穷多个模型(这个时候需要计算模型的概率分布)。结果还是非常费时间。所以这个被看作是一个理论基准。

http://www.forpipsake.com ,这就是为什么你不需要记住所有可能的加速度数字,你只需要相信一个简洁的假设,即F=ma,并相信所有你需要的数字都可以在必要时从这个假设中计算出来。它使得Length(D
| h) 非常小。

可以抽象地记为:

澳门新匍京客户端下载 15

当然,上面的概率不容易直接求出,于是我们可以间接地计算它。利用贝叶斯公式并且省掉一个常数项,可以把上述公式等价变换成

而且,它不是一个只有机器学习博士和专家懂得的晦涩术语,对于任何有兴趣探索的人来说,它都具有精确且易于理解的含义,对于ML和数据科学的从业者来说,它具有实用的价值。

层级贝叶斯模型是现代贝叶斯方法的标志性建筑之一。前面讲的贝叶斯,都是在同一个事物层次上的各个因素之间进行统计推理,然而层次贝叶斯模型在哲学上更深入了一层,将这些因素背后的因素(原因的原因,原因的原因,以此类推)囊括进来。一个教科书例子是:如果你手头有N枚硬币,它们是同一个工厂铸出来的,你把每一枚硬币掷出一个结果,然后基于这N个结果对这N个硬币的
θ (出现正面的比例)进行推理。如果根据最大似然,每个硬币的 θ
不是1就是0(这个前面提到过的),然而我们又知道每个硬币的p(θ)是有一个先验概率的,也许是一个beta分布。也就是说,每个硬币的实际投掷结果Xi服从以
θ 为中心的正态分布,而 θ 又服从另一个以 Ψ
为中心的beta分布。层层因果关系就体现出来了。进而 Ψ
还可能依赖于因果链上更上层的因素,以此类推。

返回搜狐,查看更多

图中有两个正态分布核心,生成了大致两堆点。我们的聚类算法就是需要根据给出来的那些点,算出这两个正态分布的核心在什么位置,以及分布的参数是多少。这很明显又是一个贝叶斯问题,但这次不同的是,答案是连续的且有无穷多种可能性,更糟的是,只有当我们知道了哪些点属于同一个正态分布圈的时候才能够对这个分布的参数作出靠谱的预测,现在两堆点混在一块我们又不知道哪些点属于第一个正态分布,哪些属于第二个。反过来,只有当我们对分布的参数作出了靠谱的预测时候,才能知道到底哪些点属于第一个分布,那些点属于第二个分布。这就成了一个先有鸡还是先有蛋的问题了。为了解决这个循环依赖,总有一方要先打破僵局,说,不管了,我先随便整一个值出来,看你怎么变,然后我再根据你的变化调整我的变化,然后如此迭代着不断互相推导,最终收敛到一个解。这就是EM算法。

因此,Length(D |
h)简洁地表达了“数据与给定假设的匹配程度”这个概念。

P(h-|D) = P(h-) * P(D|h-) / P(D)

发表评论

电子邮件地址不会被公开。 必填项已用*标注

标签:, ,

相关文章

网站地图xml地图