图片 13

话说集对分析中的势函数,机器学习实战笔记

话说集对分析中的势函数—集对分析与奇妙的联系数之37

四元数Quaternion为超复数Hypercomplex
number的一种,是复数的不可交换延伸,表示为Q = (a + bi + cj + dk),其中

引言

前面介绍的分类算法,我们都是期望这个分类算法能够给我们一个确定的分类。但是,有时候,分类器也像我们人类一样,对自己的判断并不是非常有把握。这时候,我们需要分类器告诉我们,它将样本x归为A类的“把握”有多大,即概率有多大。

本文介绍一个非常常见的基于概率框架的分类器:贝叶斯分类器。这个主题分为两个部分:这篇属于理论篇,下一篇文章属于实战篇。

这篇文章分四个部分:1. 贝叶斯决策论;2. 朴素贝叶斯分类器; 3.
半朴素贝叶斯分类器及4.贝叶斯网络

赵克勤(诸暨市联系数学研究所)

i^0=j^0=k^0=1
i^2 = j^2 = k^2 = ijk = -1

贝叶斯决策论

在介绍贝叶斯决策论之前,先介绍两个概念:先验概率(prior
probability)和后验概率(posterior probability)。

直观上来讲, 先验概率
是指在事件未发生时,估计该事件发生的概率。比如投掷一枚匀质硬币,“字”朝上的概率。后验概率是指基于某个发生的条件事件,估计某个事件的概率,它是一个条件概率。比如一个盒子里面有5个球,两个红球,三个白球,求在取出一个红球后,再取出白球的概率。
在wiki上, 先验概率的定义为:A prior probability is a marginal
probability, interpreted as a description of what is known about a
variable in the absence of some evidence。 后验概率的定义为:The
posterior probability is the conditional probability of the variable
taking the evidence into account. The probability is computed from the
prior and the likelihood function via Baye’s theorem.

现在以分类任务为例。 首先假设有N种可能的类别标签, 即y={c1, c2, …,
cN}, λij
表示将一个真实标记为cj的样本误分类为ci时产生的损失。后验概率p(ci|x)表示将样本x分类给ci是的概率。那么将样本x分类成ci产生的条件风险(conditional
risk)为:

图片 1

其中,P(cj|x) 表示样本x分类成cj类的概率,λij
表示将真实cj类误分类为ci类的损失。所以这个公式就是将x属于其他类(除ci类外)的概率与对应的误分类为ci的损失乘积之和。

我们的目标是寻找一个判定标准,以最小化总体的风险。这个判定准则也叫做贝叶斯判定准则(Bayes
decision rule):
为最小化总体风险,只需要在每个样本上选择那个能使条件风险R(c|x)最小的类别标记,即

图片 2

此时,h称为贝叶斯最优分类器(Bayes optional
classifier),与之对应的总体风险R(h
)称之为贝叶斯风险(Bayes risk).
1-R(h*)反映了分类器所能达到的最好性能,即理论上限。

如果把λij定义为:

图片 3

那么风险函数可以改写为:

图片 4

那么贝叶斯最优分类器的公式可以改写为:

图片 5

为了最优化上面的函数,我们必须要知道后验概率p(c|x).但是在现实任务中,很难直接知道这个概率值,所以需要我们使用现有的训练数据估计出这个后验概率。这时候就需要使用贝叶斯公式:

图片 6

其中,P(c)是类先验概率,表示在样本空间中,各类样本所占的比例。P(x|c)表示样本x相对于类标签c的类条件概率。直接通过样本计数的方式计算会有点麻烦。原因如下:
假设样本共有d个属性,且属性值都是二值的。那么样本空间至少有2^d个不同的样例。但是在现实生活中,样本空间的个数会远远小于这个数。所以通过计数的方式,直接算出这个概率的方式是不可靠的。

极大似然估计
一般估计类条件概率使用的是极大似然估计。首先我们假设样本符合某个确定的概率分布形式,然后使用极大似然法估计这个分布的参数θ。公式如下:

图片 7

其中,Dc表示样本空间中c类组成的样本集和。所以对参数θ的最大似然估计为:

图片 8

势函数是联系数μ=a+bi+cj的一种伴随函数,目前已应用于系统综合评估,系统风险分析,计算机与人工智能,管理与决策等等领域。势函数概念最早出现在赵克勤著《集对分析及其初步应用》(浙江科技出版社2000年)一书的第四章《集对势及其同异反分析》中,是针对归一化三元联系数μ=a+bi+cj(a,b,c都在区间内取值,a+b+c=1,j=-1,i在区间视不同情况取值,是一个待定系数,称a为同一度,称b为差异不确定度,称c为对立度)而定义的一个伴随函数,定义是shi=a/c,该章对势函数的解释是围绕两人下的棋局有“赢平输”展开,设甲乙共下10局棋,甲赢5局,平2局,输3局,这时可以选择从甲的角度写出三元联系数μ=0.5+0.2i+0.3j表示甲的“赢平输”,用shi=a/c=0.5/0.3=1.667表示甲赢棋局的“势”(也可选择从乙的角度写出三元联系数)。这些内容表明联系数的势函数shi=a/c只能用于归一化的三元联系数,不能用到四元μ=a+bi+cj+dk(a+b+c+d=1,i在区间视不同情况取值,j在区间视不同情况取值,k=-1)和更多元联系数中去,不能应用的理由十分显然,因为四元联系数有a,bi,cj,dk,4个联系分量,任意三个联系分量之和不归一.即使是对归一化的三元联系数,也只能用于其中的b不能再分解的场合(如棋局中的平局,由于平局是确定的结果,不需要再作不确定性分析)。

四元数虚数单位乘法不满足交换律:
ij = k;
jk = i;
ki = j;
ji = -k;
kj = -i;
ik = -j;

朴素贝叶斯

前面我们已经讲到,要估计条件概率P(c|x),我们必须得求得类条件概率P(x|c)。但是这个类条件概率很难从有限的训练样本中直接获得,为了避开这个假设,我们使用朴素贝叶斯分类器(naive
Bayes Classifier),朴素贝叶斯分类器采用了“属性条件独立性假设”(attribute
conditional independence assumption):
即对已知类别,假设所有的属性相互独立,那么P(c|x)可以重写为:

图片 9

对应的朴素贝叶斯判定准则为:

图片 10

但有不少文献,无视势函数的适用条件,对四元联系数、五元联系数等多元联系数计算其势函数,又没有同时对联系数做不确定性分析(一般需要对联系数中不确定取值的系数作取值分析,如对三元联系数中的i作取不同值的分析,对四元联系数中的i,j
作取不同值的分析,等等),降低了论文的学术价值,甚至诱导出不正确的结论;需要引起老师和同学们的高度重视,重视对集对分析基本概念的正确理解,对集对分析基本理论的正确理解,对集对分析基本方法的正确应用;要查看原著,明确势函数的原始定义,理解其内涵,正确应用联系数的势函数,有助于得出符合实际的科学结论,写出高水平的学术论文。

也可将四元数的实部与虚部分别表示,Q = (qs, qv)

半朴素贝叶斯分类器

前面讲到,
为了降低估计后验概率P(c|x)的难度,朴素贝叶斯分类器采用了属性条件独立性假设,但是在现实任务中这个假设往往不成立。于是,人们放松了这个假设的限制,提出了半朴素贝叶斯分类器的假设(semi-naive
Bayes classifiers)的学习方法。其中, 独依赖估计(one-Dependent Estimator
ODE)是半朴素贝叶斯分类器的一种常用的策略。独依赖估计假设所有的属性都依赖于某一个属性。这里介绍三种基于独依赖估计的半朴素贝叶斯分类器。第一种是SPODE(Super-Parent
ODE),即假设所有的属性都依赖于同一个属性,这个属性也被称之为超父。超父属性的确定通过交叉验证的方式确定。第二种是TAN(Tree
Augmented navie
Bayes)。这种方法的做法是先计算任意两个属性之间的条件互信息(conditional
mutual
information),这样就可以建立一个完全连接图。基于这个图,就可以生成一棵最大带权生成树。这棵树之间的连接关系便是属性之间的依赖关系。最后一种是AODE(Averaged
One-Dependent
Estimator),这种方法的做法是使用每个节点作为超父属性来构造SPODE,然后将具有足够训练数据支撑的SPODE集成起来作为最终的结果。

科学网上有关联系数的参考博文如下:

复数的绝对值定义为:若 z=a+ib,则 |z|=sqrt(a^2 + b^2) =sqrt(z · z*)
则四元数的绝对值|Q| = sqrt(a^2 + b^2 + c^2 + d^2) = sqrt(Q · Q*)

贝叶斯网

贝叶斯网(Bayesian network) 也称为信念网(belief network)
,它借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布。在贝叶斯网中三个变量之间的依赖关系共有三种情况:

图片 11

V型结构

V型结构也成冲撞结构,给定c的取值,a,b必不独立,但是当c的取值不知道时,a,b反而独立。

第二种结构是同父结构,示意图如下:

图片 12

同父结构

当c已知时,a和b独立。

最后一种是顺序结构,示意如下:

图片 13

顺序结构

如果已知C,那么a和b条件独立。

基于贝叶斯网,可以很容易分析出各个属性之间的条件独立关系。我们只需生成对应的道德图(moral

集对分析与奇妙的联系数1—–从罗素悖论说起

四元数的共轭conjugated复数可表示为Q* = ( a – bi – cj – dk ) = (qs,
-qv)
四元数的乘逆inverted复数可表示为Q^-1 = Q* / |Q|^2

graph)就行。具体的做法如下:1)找到图中所有的V型结构,在V型结构的两个父节点之间加上一条无向边;2)然后将所有的有向边改为无向边。假设在道德图中,有变量x,y和变量集合z

{zi},如果将z从变量集合中去除后,x和y分属两个连通分支,那么成变量x和y被z有向分离,记为x⊥y|z成立,即已知z,x和y相互独立。

如果要使用贝叶斯网络进行预测,一般包括两个步骤:1)学习;2)推断。即先通过学习来构建贝叶斯网络,再使用构建好的贝叶斯网络进行推断。对于学习过程,如果从所有的网络结构空间来搜索最优的贝叶斯网络,会是一个NP
hard的问题。通常有两个近似解决方法:一种是使用贪心算法,即从某个网络结构出发,每次调整一条边(增加,删除或调整方向),直到评分函数值不再下降为止。另一种是通过给网络结构施加约束来削减搜索空间。对于推断过程,如果是精确推断,也将会是NP
hard问题,常用的解决方法是吉布斯采样法(Gibbs sampling)来得到近似的答案。

这篇的理论主要介绍到这里,对于其中没有说明的细节问题,有兴趣的读者可以查询其他的资料。

集对分析与奇妙的联系数2—人为什么生2只眼睛?

四元数可改写为二阶复数矩阵
将 i 表示为
|0 -sqrt(-1)|
|-sqrt(-1) 0|
将 j 表示为
|0 -1|
|-1 0|
将 k 表示为
|-sqrt(-1) 0|
|0 sqrt(-1)|
则Qm =
|a- d·sqrt(-1) -c-b·sqrt(-1)|
|c- b·sqrt(-1) a+d·sqrt(-1)|

集对分析与奇妙的联系数3—-树上还剩几只鸟?

四元数的共轭为此二阶复数矩阵的共轭转置 Qm*^T

集对分析与奇妙的联系数4—如何用数学表示“行百里者半九十”?

或四元数可改写为四阶实数矩阵
Qm =
|a d -c b|
|-d a -b c|
|c b a -d|
|-b c d a|

集对分析与奇妙的联系数5—坐飞机是否安全?

四元数的共轭为此四阶实数矩阵的转置Qm^T

集对分析与奇妙的联系数6—随机性从哪里来与上帝掷骰子

四元数的格拉斯曼积
Q1 = (a1 + b1i + c1j + d1k) = (qs1, qv1)
Q2 = (a2 + b2i + c2j + d2k) = (qs2, qv2)
各部用分配律两两相乘,替代虚数单位积得到
Grassmann(Q1, Q2) = (qs1 · qs2 – qv1 · qv2, + qs1 · qv2 + qs2 · qv1 +
qv1 x qv2)
(如用虚数单位表示法又叫汉密尔顿积)

天津港爆炸与列车追尾概率的联系数-集对分析与奇妙的联系数之7

对于实部为0的四元数又称为纯四元数,格拉斯曼积可简化为
GrassmannPure(Q1, Q2) = (-qs1 · qs2, qv1 x qv2)

天津港爆炸与基金申请预期联系数–集对分析与奇妙的联系数之8

(在代码实现四元数时发现,如果将任意三维向量V(Xv, Yv, Zv)以纯四元数(0,
Xv, Yv,
Zv)表示,则两三维向量内积可视为两纯四元数汉密尔顿积的实部的相反数,两三维向量外积可视为两纯四元数汉密尔顿积的虚部的线性变换因子,推测下理论上完全可以不需要Vector3类来构建实时渲染所需的数学库,有待实现测试)

屠呦呦获诺奖与天津港爆炸–集对分析与奇妙的联系数之9

可将欧氏三维空间内的旋转描述为绕轴A(Xa, Ya, Za)旋转Θ度,
构建四元数Q(cos(Θ/2), Xa*Sin(Θ/2), Ya*Sin(Θ/2),
Za*Sin(Θ/2))表示此旋转变换,
则任意三维向量V以纯四元数(0, Xv, Yv,
Zv)表示后并依照此描述旋转后的结果可表示为:
V’ = Q · V · Q*

综合评价排序的失效与对策–集对分析与奇妙的联系数之10

此时若将Q归一化,即 Q =: Q /
|Q|,则可利用四元数的乘逆复数代替共轭复数,
则V’ = Q · V · Q^-1

发表评论

电子邮件地址不会被公开。 必填项已用*标注

标签:
网站地图xml地图