论统计推理中贝叶斯归纳的哲学研究

论统计推理中贝叶斯归纳的哲学研究2012年第5期第30卷（总第142期）NO.5，2012Vol.30GeneralNo.142毕节学院学报JOURNALOFBIJIEUNIVERSITY论统计推理中贝叶斯归纳的哲学研究程献礼1，牛翠波2(1.南开大学哲学院，天津300071；2.华南师范大学政治与行政学院，广州510631)摘要：贝叶斯归纳是通过后验概率的贝叶斯定理或从相关先验分布的密度分布，以获得新信息的运算。它以在两个“估计”过程中对贝叶斯归纳的成功运用，回应了所谓“主观性”不能在标榜&ldq...

2012年第5期第30卷（总第142期）NO.5，2012Vol.30GeneralNo.142毕节学院学报JOURNALOFBIJIEUNIVERSITY论统计推理中贝叶斯归纳的哲学研究程献礼1，牛翠波2(1.南开大学哲学院，天津300071；2.华南师范大学政治与行政学院，广州510631)摘要：贝叶斯归纳是通过后验概率的贝叶斯定理或从相关先验分布的密度分布，以获得新信息的运算。它以在两个“估计”过程中对贝叶斯归纳的成功运用，回应了所谓“主观性”不能在标榜“客观性”的科学过程中出现的质疑。平稳估计也称稳健性估计，保证贝叶斯估计相对于先验分布的相对独立性，无需为了做一个既准确又精确的贝叶斯估计付出巨大的准确度和精度方面的代价。通过对证据的刻画、对抽样的分析以及对因果假设的检验等分析认为：该研究避免了经典方法中对结局空间及停止规则等依赖的贝叶斯归纳方法，是一种与直观相吻合的、科学的推理方法。关键词：贝叶斯归纳；统计推理；平稳估计原理；临床试验分析；经典统计推理中图分类号：B81文献标识码：A文章编号：1673-7059（2012）05-0045-12一、对贝叶斯归纳主观性的质疑贝叶斯分析的先验分布，反映了实验结果出炉之前的个人信息。因此，这些主观信息在个体之间因人而异，存在着变化的趋势。前提的主观性或许会使人想到，由贝叶斯归纳所得出的结论也是“特殊的”、“主观的”和“反复和无规律性的”，这似乎就与以“客观”为标榜的科学理论相悖。学界已经用科学客观性方法做过很多尝试。例如，已经证明“主观性困境”可能来自其根源———即通过拒绝主观性，来支持所有科学家理性上可接受的纯客观先验概率。但事实上，尽管科学理论具有惟一性，客观上是正确的，但归纳概率却是倍受推崇、吸引人的思想方法，而且科学家们在调查的早期阶段也经常就某理论的可信性问题上持截然不同的观点。第二种方法尝试开发贝叶斯归纳理论的某些有限定理。这些定理反映的是，如在0先验概率假说等确定的、不严格约定前提下，不同的贝叶斯使用者无论先前的观点是什么，都会随着信息的无限增加最终达成一致性的后验观点。而迄今为止，这种有限定理的用途不是很大。究其原因，首先，由于它们仅在有限意义上处理后验概率函数的性质，然而随着数量的无限增加，对于其他有限信息之后真实的数量特征却闭口不谈，因而，它们也起不到规范性或解释性说明的作用。第三种方式也是本文所认可的方式。该方法认为科学观念即使在很少相关信息之后也常趋于雷同，并提出贝叶斯定理应为这一现象提供解释性框架结构，为具体事例提供具体的解释。如，华南师范大学陈晓平教授在评价豪森、康德的基础上，从哲学的角度给出指导性的论证。[1]而本文认为，一旦真正认识问题的本质，贝叶斯方法中的主观性就会被广泛接受。我们使用实际研究中统计推理文献中常遇到的两个例子来进行说明：第一个是正态总体均值的估计；第二个是二项比率的估计。本文试图表明，在这两种估计过程中最终将达成近似一致的看法。1.估计正态总体分布的均值收稿日期：2012-03-17作者简介：程献礼(1978－)，男，河南商丘人，南开大学逻辑学博士研究生。研究方向：哲学逻辑和科学方法论。牛翠波(1986－)，女，内蒙古呼伦贝尔人，华南师范大学政治与行政学院逻辑学硕士研究生。研究方向：哲学逻辑。45··已知，某个待估计总体的均值呈正态分布，其标准方差是，假定该认识在通常情况下或多或少是真实的。令夼为涵盖总体均值的可能值的一个变元。设，以正态分布夼的一个密度分布表示先验观念，夼的均值为μ0，其标准方差是σ0实际上，严格意义上的先验正态分布的例子是不存在的。这是因为，实际研究中，一般对参数的可能取值都会加以限制，而正态分布给每一个值域指派正概率，如，某总体中，人的平均身高，既不会是负值也不会是在5000米以上。无论怎样，正态分布时常提供一个充分精确、数学上合适的理性化描述。如果假定正态分布简化了使用中的贝叶斯归纳说明，而该假定可能因为过于宽泛从而对结果不能产生实质性的影响。设，一个随机样本的容量为n，由总体得出其均值是x。与该信息相关的夼的后验分布结果和先验分布一样是正态的μn，其均值和标准方差由：μn=nxσ2+μ0σ20nσ2+σ02和1σn2=nσ2+1σ02给出。该结果由Lindley于1965年证得，[2]如图1所示:图1Lindley(1965)：先验和后验分布由于分布的精度是由其变量的倒数来定义的，上述第二个等式是指，后验分布的精度随已估总体均值精度σ2的增加而增加。同样，测量值的精度随测量工具精度（其精度是其误差分布的变化的倒数）的增加而增加。估计越精确，该参数的值就越不确定。上述方程也解释了，当n增加时，后验分布的均值μn接近总体均值x，同样，σn2接近σ2n，σ2n的取值取决于样本总体，而非先验分布。这也就是说，当样本数量增加时，后验分布的作用、推理的主观部分的作用就越小，最终缩小至忽略不计。因此，充分信息的条件下，源于不同正态分布的两个人在任意接近的后验分布上的收敛。这是解释推理客观性至关重要的部分———样本包含的客观信息立刻转化为相关的主要因素。由上述公式可得出：观念的收敛是十分灵敏的。在该例中，一个人总体均值的正态先验分布的集中在10，标准差为10；而另一个人的则集中在100上，标准差为20。这种差异指出了，在第一个人看来几乎确定无疑认可的包含真实均值的范围却不包含第二个人所言的，是两个人的初始观念的迥异引起的，而如此大的分歧在相关观测资料不足的前提下仍能得到解决。下述表格解释了两人后验分布的均值和标准差、不同容量的随机样本，每个样本的均值各为50。我们选择先验分布中不常见的一个极端一致的例子作说明：表格的第一行，没有表示初始状态的相关信息。容量仅为20的样本已使两个后验分布十分接近，而容量为100的样本使得两者完全相同。起始的观点越接近，在已知相似性的范围内，获得相关后验观点所需要的证据就越少。因此，尽管所考察案例的贝叶斯分析必须出自大的主观先验分布，对结论影响最大的还是客观实验证据，同样也是更普遍、更真实的。后验分布先验分布σ0σ0μ0x→夼μ046··表1两人的后验分布的均值和标准差比较2.估计二项比例统计推理值的另一个标准问题是如何评价，如，掷出的硬币字面朝上（或者说纹面向上）的物理概率等。在掷币事件中，通过掷硬币，得出每掷一次硬币落地时正面朝上或正面朝下等相关数据。如果只有两种可能结果，即，概率夼和1-夼，且每次实验都保持不变，那么该数据生成过程就叫做伯努利过程，夼和1-夼被称为伯努利参数或二项比例。评价伯努利参数的贝叶斯方法，是从已有实验结果中通过刻画一个假定所谓β分布形式的先验分布开始的。这种限制简化了相关后验分布计算的说明实际上并非十分苛刻，因为取决于两个正值参数u和v的取值的β分布有着广泛的形式，使得能够选择一个最接近真实信念分布的β分布。由于使用充分的数据信息也不会对相关先验（分布）中的后验概率产生太大影响，那么，对具体说明的先验误差也将不会产生明显的作用。随机变量x有β分布，仅当其密度：P(x)=B(u,v)xu-1(1-x)v-10＜x＜1=0其它参数u和v均大于0，B=(u，v)=Γ(u+v)Γ(u)Γ(v)。我们这里无需写出具体的γ函数，仅指出当w是一个正整数时Γ(w-1)!（0！定义为1）；当w是一个非整数时，可从数学手册表中得到γ函数的值。下图刻画了当u和v取不同值时的一些β分布。图2β分布β分布的均值和方差为：均值=uu+v,方差=(uu+v)(vu+v)u+v+1样本容量第一个人第二个人Nμnσnμnσn01010100201307.1608.95434.1524.410463.0513.120482.2512.2100501.0501.0概率密度5432060.10.20.30.40.50.60.70.80.91.01u=v=1u=v=20u=v=0.5u=4.5,v=2.547··如果，伯努利系数上的先验分布具有β形式，那么，使用贝叶斯定理就相当简捷。设，由伯努利过程导出的n个观测结果中，有以一个“s表示成功，f表示失败”的随机样本，其后验分布也具有β的形式：u′=u+s，v′=v+f。因此，后验分布的均值为u+su+v+n，该数值趋向于sn；后验分布的变量，最终无限趋向于0。[3]因此，先验分布对后验分布的影响随着样本容量变化而稳步递减。3.可信区间和置信区间参数估计经常通过夼=夼*±ε概率的形式表达，即，具有夼真值的大概率值的集合。通常，如果用P表示夼在AB之间的概率，那么，区间（a，b）就是夼的100%可信区间。贝叶斯者推荐把可信区间作为后验分布的有益总结。使用第一个例子来解释这种思想，该例子关注正态总体均值的估计。证明了在假设条件下，一个其均值等于样本均值x，标准差σn等于σn姨的充分信息，决定一个后验分布。由于分布是正态的，域x±1.96σn姨以0.95的概率包含夼，那么，就构成一个95%的可信区间。当然，存在与此对应的后验分布不同区域的其它95%可信区间，例如，由夼＞x-1.46定义的值的无穷范围，以及延伸到后验分布尾部，而不包括其中心值周围狭长地带的区间。对于选择区间的选择会引发争论（如，Lindley，1965，第二卷，第24-25页）。严格来讲，在这一点上大多数人都存在误解，人们不应选择区间，因为选择意味着一种承诺，即超出许可的所有的区间共享95%的概率。从归纳的或科学的观点看来，所有的95%的可信区间在同一水平上。贝叶斯的可信区间类似经典统计的置信区间。实际上，尤其在我们先前的例子中，95%的可信区间在图中所描绘的和习惯上接近的95%的置信区间相一致。然而两种区间类型本质上是有差异的：第一种陈述的是与证据相关的概率，夼位于区间内；第二种没有提及任何的概率的信息，或者用“非概率项”表述任何关于夼的不确定性的程度。可信区间，为经典置信区间基础理论的直观知识提供了浅显而合理的解释。二、贝叶斯归纳中平稳估计原理的应用上述两个例子中给出的估计，对先验分布中的变化不是十分敏感。由于例子中所假定的先验分布在第一个例子中局限于正态分布，第二个例子局限于β分布。问题是———一旦这些限制不再受约束，这些“钝性”是否仍然持续，而平稳估计原理对其要求是持续的。Edwards,Lindman和Savage（1963）[3]，Blackwell和Dubins（1962）证明了广义结论的一个方面。[4]其思想是：假定先验参数夼，其概率密度分布为u（夼），对应的相关数据信息x的后验分布为u(夼|x)。当先验一致时，我们用w(夼|x)定义其后验分布。B是一个基于w(夼|x)上的可信区间，B軍乙w(夼|x)d夼燮αB乙w(夼|x)d夼B軍是B的补集，α小于等于104（即B是一个大于等于99.99%的可信区间）；其次，第二个条件所规定的设区间B内先验分布的实际变化，应当小；具体说，该条件规定存在正数φ（其确切的值在这里不重要）和β，后者＜0.05，对于B中所有的θ：φ燮u(夼)燮(1+β)φ最后，考察B外先验分布的变化。第三个条件规定：先验应当“与B中的近似常数值相比较”，具体地说，正数δ＜1000，且对于所有的θ：u(夼)燮δφ接着Edwards，Lindman和Savage指出：在此条件下，后验的真实分布和建立在一致的先验假设计算上的后验分布大致相同。此外，近似值越大，α，β和δ就越小。因此，不管不同人的先验信念48··如果阴影部分中的先验接近于常数，就要使用稳定估计真正的先验阴影部分覆盖绝大部分后验均匀先验基础上的后验e16次正面e26次正面，4次反面（实验设计抛10次硬币结束）e36次正面，4次反面（实验设计出现6次正面结束）e4序列：TTHTHHHHTHe5序列：TTHTHHHHTH（当实验者被喊去午餐时，实验设计终止时获得的）e66次正面，4次反面是什么，只要它们满足上述条件，定理就保证他们的后验信念都大致相同。图3Philips(1973)：稳定估计的应用[5]现实中，平稳估计原理的所述条件一般是可达的，人们可检查他们是否能在任意个案中成立。如果通过首先计算后验分布，先验分布是一致的，那么，检验一个99.99%的可信区间（图中阴影部分）以观察区间内真实的先验分布变化范围是否与原理要求的一样小，最后依据超标的量，来检查区间外实际先验分布。平稳估计原理保证，贝叶斯估计相对于我们的两个例子中提到的先验分布的相对独立性，不是被严格限制在属于某分布谱系的先验分布。该原理也告诉我们，提供的样本充分地大，无需为了做一个既准确又精确的贝叶斯估计花费巨大的准确度和精度，来刻画先验分布。这就回答了对贝叶斯估计的批评———即由于准确断定自己或他人的先验信念分布的实际困难，就很难摆脱背景的干扰。三、贝叶斯归纳对证据的刻画一方面，实验结果是一种物理状态，另一方面，科学证据是一种语言表征，问题是：物理状态的哪些方面应进入证据陈述？一个完整的刻画应当是无穷长，这显然是不可能的。甚至也不应当要求证据中应包含实验结果的各方面概要性的思想，因为有些方面是简单不相干的。证据无须涉及不相干的细节。当前，如果我们知道事实是如何影响假设评定的，那么事实就与假设相关。当评价使用的方法是贝叶斯的时，这就意味着，与事实的关联性是由其是否改变任何兴趣假设的概率决定的。用掷硬币事例中获得的证据，估计一个硬币落地时是正面还是背面朝上的物理概率的问题，我们说明证据关联性的定义。设，掷币10次，得到6次正面朝上，4次反面朝上，下图显示几种该结果的可能描述和可能得到的几种情况：表2得到6次正面朝上4次反面朝上结果的可能表述49··第一个描述e1，几乎没有给出实验解释的信息，甚至没有给出实验结果中有多少次反面朝上的相关信息，而由于这种信息的缺失，其证据价值就小得多且难以量化。证据陈述的贝叶斯推理不仅需要一个夼上的先验分布（硬币落地正面朝上的物理概率），而且还需要硬币抛掷次数的数字n。没有必要更进一步研究这个复杂的个案，与经典方法不同，本文认为贝叶斯方法并没有必要证明e1是信息充分的。第二个描述e2显示结果中正面和反面朝上落地的数目，并且给出了控制实验的停止规则。在贝叶斯定理中，能使用它计算后验分布P(夼|e)=P(夼|e)P(e)P(夼)。因为掷硬币的次数是根据停止规则预置的，其似然函数和证据以相同的方式由P(e2|夼)=nCr夼r(1-夼)n-r和P(e2)=10乙Cr夼r(1-夼)n-rP(夼)d夼给出。这里，r表示“正面朝上的次数”，n表示“掷的次数”，在该例中分别代表6和10。作为r和n函数独立于夼的二项因子nCr也从贝叶斯定理中抵消。显然，任意实验结果对P(e2|夼)=K夼(1-夼)n-r（K独立于夼产生相同的后验分布。在e3中情况也是如此，该情况给出了一个不同的停止规则。在e4的结果中，列出了正面和反面结果的精确数字序列。K=n-1Cr-1，而后面的K=1，因此，贝叶斯结论是不受或n次掷币后实验者是否有意停止，或在样本出现r次正面等实验因素的停止规则的影响。在经典方案中却并非如此。下一个e5，描述实验个案在何处停止，取决于一些外在事件而不是样本的任何特征。如果用l表示就餐时实验就终止，那么e5就对应于合取式1&e4，那么在运用贝叶斯定理时，我们就要考虑概率P(l&e4|夼)，它也可表示为P(l|e4&夼)P(e4|夼)。当l或然地独立于出现在e4中的夼时，那么是P(e5|夼)是K夼r(1-夼)n-r（K是一个与对应夼常数）。该常数从贝叶斯定理中消除，贝叶斯定理为e5提供了同e4一样的后验分布，即停止规则是归纳不相关的。尽管哲学家拒绝承认，这却是可以明显得出的。所给的标准信息没有提及停止规则，如，在e6中仅仅报告了实验中正面和反面出现的数目。这就出现了：由于该实验的概率取决于停止规则，而当P(e|夼)无法计算时，无论是贝叶斯定理还是经典显著性检验都不能适用。样本容量的大小已经预先确定，通常是计算概率所遇到的困境。在该例中，就意味着P(e|夼)被认为等同于nCr夼r(1-夼)n-r，而这似乎是主观的、错误的。但它实际上在贝叶斯分析中（尽管不是经典的）已修正过，因为r次正面的结果、n-r次反面必然以某序列的形式出现，无论该序列是什么，其夼上的条件概率是夼r(1-夼)n-r，我们正确地用它作为贝叶斯定理的导入。所以我们获得相同的后验分布夼。业已表明，在任何归纳推理中，停止规则都是不相关的。为说明第一个，重新考虑使用前面的停止规则：在第一个事件中，一旦午餐时间到了，实验将停止，假设实验的目的是用随机样本评估一群进行备餐厨师的平均身高。现在如果身材高大厨师的备餐速度比身体矮的快，在随机抽样之前所花费的时间则取决于未知参数，并且包含为任何贝叶斯分析所反映的有关抽样的相关信息。表面可能与事实相悖，它并没有支持经典理论的涉及停止规则的立场，因为这并不是说，在某一点上，依据实验者的主观意愿或计划，停止实验具有任何归纳显著性。提出的第二个有争论性的问题是：对于任意假设，只要它开始达到所预期的后验分布，不管它实际上偏离的什么样的真相，一个没有事先得知实验终止条件的贝叶斯主义者就能决定是否继续抽样。根据Mayo(1996)指出，确定的贝叶斯最终必将是成功的，也就是说，在有限的范围内，随着重复抽样以至无穷，或者像Mayo指出的那样，抽样过程能够“进行的时间足够长”。Mayo指出，该推理假定的属性（putativeproperty）把贝叶斯引入“歧途”，并导致任何形式的贝叶斯估计无效。[6]Mayo没有，其他人也没有证明，从“反复试验”的结果中得出的这种结论有误导性、不符合逻辑，也是错误的。因此，除非这种证明是既有的，那么，对任意贝叶斯主义者来说，都没有可辩护的。50··此外，反对意见的大前提是错的。Savage(1962)证得：不管抽样过程持续多久，使用贝叶斯定理也不能为所有的假设提供证据支持。[7]Kadane等(1999)也证明了：一个错误理论最终获得有力证据支持的概率是很小的，其大小取决于假设的先验概率和为之寻求的确认度。[8]充分性相关信息的贝叶斯概念是指，E与夼相关，当且仅当，已知E的夼的后验分布不同于其先验分布。上述表格中，证据e2到e6的项中最后一个包含的信息量最少。那么，在贝叶斯的意义上看，那几例证据中不同停止规则的信息是归纳不相关的。通过研究充分统计的概念，经典统计学家们也使用相关信息的思想。只有P(x|t)独立于夼，对应于数据x，统计值t才被定义为是对夼充分的，即解释为t包含与夼有关的x中的所有信息（这里的x和t是随机变元，充分性的定义是指实验结果空间中所有的可能取值）。由于后者是有停止规则决定的，统计推理是充分的，它强调经典推理中停止规则的中心地位。我们证明过e4序列TTHTHHHHTH和e6：6个正面和4个反面包含关于相同夼信息。如果掷币的次数是10000，而不是10，同样的论证可能不成立。如果，在序列中发现某种模式，如，所有的正面先于所有的反面出现，或者序列的前半部分中显示正面占多数而后半部分中反面占多数，那么证据就会显示硬币的重心改变了，如仅仅依赖正面和反面的次数，就应避免这种情况的出现。这里的经验之谈是科学家应尽可能细致地检查证据，而不要忽视任何有效信息。正面和反面排列次序或许是证据显著的，这种可能性在我们早期的讨论中没有出现，因为，我们实际上是把这种变异假说作为0概率处理的。但这是一种简化处理，而实践中科学家一般不把这种极端的看法应用到可能性的假设上。四、抽样为了从样本数据中获得后验分布的一个参数，需要计算贝叶斯定理中用数字表示的似然项。似然性也是经典推理所要求的。为确保每一个元素是精确地由样本中包含的同一个客观概率赋予的，实验样本应通过物理的随机化装置的方法创建。这就意味着，无规划或有意识地获得的样本，对于经典估计目的来说，将因无信息价值而加以拒绝；而通过随机化过程产生的类似样本，就能被接受。这就显得有点儿自相矛盾———的确，Stuart(1962)把它表述成“抽样悖论”（ParadoxofSampling），把所谓的“经典推理”看成唯一有效的估计方法。[9]实际上，由于数据的收集方式可能确实携带有用的信息，贝叶斯推理同样易受抽样方法的影响，就不存在悖论之类的指责。假设，为了估计一个总体中A的比例夼，取容量为1的一个样本A（即一个A）；并设，已选元素也具有一些其他特征B。目标是：总体中有多少比例的人口，倾向于投票给某一政党，该样本可能是由有此种倾向的个体组成，并且该个体特别提到是在60岁以上。鉴于该信息的后验分布如下：P(夼|AB)P(夼)=P(AB|夼)P(AB)=P(A|夼B)P(A|B)×P(B|夼)P(B)该样本可以多种方式进行收集。例如，它可以从全部总体中抽取的一个随机结果，也可以只从包含B的总体里的部分中抽取。如果是后者，那么，P(B)=P(B|夼)=1。如果是前者，P(B)和p(B|夼)相等，仅当B和夼是概率独立的，在这种情况下，这两种抽样方法即可产生同样的贝叶斯结论。但这是一个特例，而作为一个广义的规则，已给样本的归纳力并非独立于选择过程。（Korb，1994）[10]在我们看来以上直观上是正确的，包含为达到估计夼的目的而收集的随机样本中包含的B的个数，也是B的总体比例的一个尺度。如果后者是或然地取决于夼，那么它也将承载一些关于参数的信息。另一方面，你如果故意把样本限制在B，仅包含那种类型的元素的情形，样本将不能带有总体中关于其频率的任何信息，由此，就得不到关于夼认识的潜在来源。跟样本是归纳相关的一样，在抽样方法的问题上，贝叶斯和经典方法的立场是一致的。但两者51··在随机样本的角色定位上看法是有差别的。经典方法的立场是，只有使用随机机制建立起来随机抽样才是有信息价值的；另一方面，贝叶斯归纳方法能更好地进行有计划地、有判断地抽样。五、因果假设检验中贝叶斯归纳的使用尤其是在医学和农业实验中使用最广泛的统计方法，是由费舍（Fisher，1947）首创并扎根于经典推理的步骤之中的检验和估计因果假设法。[11]费舍方法的新颖之处在于它规定了一个所谓的“随机化”过程。除了作为“先决条件”的观念所承载的，实验中的随机化处理方式并未起到其预期作用，更何况在医学背景下，这种做法显然是有违医学职业伦理的。这里给出检验因果假设的贝叶斯路径的合理框架，[12]本文认为，这种方法比费舍尔方法（经典统计方法）在直观上更加令人满意。如假设发现一种新药，它因在结构上与已有的治疗沮丧的药物相似（也可能对该病有疗效），或者假设，该药在涉及小范围的患者的实验性研究中已经出现令人鼓舞的疗效（正如我们先前所说的，没有任何迹象表明，该药品好像有效，该药品或治疗实验的大规模实验是不可判定的，或者经济上或者伦理上。）。测试药品疗效的实验将规范地采用以下形式。实验由两组受试者组成：一组是测试组，将服用药物，而另外一组，控制组则不服用。实践中，实验将比这更为复杂。例如，控制组将服用“安慰剂”；患者不知道他们属于药品组还是安慰剂组。严格实施的实验会确保，甚至医生也不会意识到他所管理的是药品还是安慰剂（也被称为双盲实验，DoubleBlind）。更多的预防措施也将用来确保，医药专家所考虑到的其他任何可能影响康复的因素在每组中都平等出现，即所有这些因素都在控制之中。设计一个复杂实验：我们对康复机会上药品的因果反应感兴趣，那么，我们不仅需要知道患者服用药物后如何反应，还需知道当该药物缺失时患者如何反应，并且，比较组中的条件要有意模拟后者的情景。在某些方面，匹配或控制实验的要求也是直观的。临床试验中有选择地控制，不管怎样，的确有其合理性基础。下文给出的是由贝叶斯定理产生的分析。1.临床试验的贝叶斯分析为简化表述，我们将考查某一特定实验，该实验中，具体数目80%的测试组患者已经从讨论的疾病中康复，而控制组的康复率为40%：称之为证据e。该假设，以下用Hα表示，假设，服用药物人的康复（R）的物理概率为0.80左右，对于那些没有服用药品的人的则是0.40左右，已知他们也满足某条件，L，M和N。这些条件，或者我们前面所称的预期因素，如，能确切说明患者的年龄落入某一区域，即他已经到了疾病的某一阶段，等（在下面的公式中，用D和~D分别定义药品出现和不出现的状态/情况）。为用Hα解释e，实验的两组中的主体能满足条件L，M和N，并且，测试组服用药物，而控制组没有，这就是公式Hβ所给出的解释。那么，该药物引起的康复率中观察上的差异的假设主张，是Hα&Hβ的并，我们所标示的H和所称的药物假设：Hα：P(R|L，M，N，Drug)≈0.80&P(R|L，M，N，～Drug)≈0.40Hβ：满足L，M和N条件的实验组患者。而药物假设并非唯一能解释该实验发现的。另一种解释，可能把其归功于一种由于测试组患者比控制组患者更乐观所引起的心理效应。令H'α表示条件L，M和N下的假设，药品在该疾病上没有疗效，但乐观态度（O）促进了康复。同理，作为心理因素、自信效应的证据解释的假设，是H'α和H'β的组合，我们标为H'：H'α：P(R\L，M，N，Drug)≈0.80&P(R\L，M，N，～Drug)≈0.40(H')H'β：满足条件L，M，N和O的测试组患者；满足条件L，M，N，～O的控制组患者。贝叶斯方法致力于假设的概率以及鉴于新信息的出现，该概率如何通过贝叶斯定理更新的。让我们看一下当前例子中，这种更新工作是如何进行的。首先，为方便表述我们假定H和H'是任何机会为真的单独假设。在那个事件中，贝叶斯定理使用以下形式：52··P(H|e)=11+P(e|H')P(H')P(e|H)P(H)问题在于如何设计实验以达到部分证据e药品假设概率的最大化。从以上方程发现：只有使用P（H）和P(H')才可以达到这个目标，两者呈反比关系。现在，如果假设的这两个部分是独立的（合理的前提），它也简化了我们的论证，那么P(H)=P(Hα)P(Hβ)和p(H')＝P(H'α)P(H'β)。最小化P(H')的目的，是为了最小化P(H'β)。又因为可以通过修正实验条件使P(Hβ)发生变化，所以，P(H)的组合应最大化。现在H'β说的是：其他条件下，患者在测试组中对康复有信心，控制组则没有。我们可以减少这种情况的可能性———减少P(H'β)，即，通过给控制组服用安慰剂；如果安慰剂设计得合理，患者将不知道他们在哪一个实验组，那么两组中产生不同康复期望的因素数量就不存在。在许多情况下，通过保证———涉及实验的医生也不能在治疗中区分出安慰剂以进一步减小H'β的概率。通过不同的方式降低P(H'β)，所给证据e的概率H增加了。药物假设也能采用适当的措施来提高P(Hβ)，即用来提高药物假设所称的与康复相关机会的措施（称之为L，M和N）在两组中平等出现。在疾病的病毒毒性，或者是患者的强壮程度（抵抗疾病的免疫力），或者类似的难以测量而医生却能通过长期经验觉察到的考察因素中，我们把构建对比组的工作留给这些医生去完成。如果生成组包含数量不等的更容易受伤患者，那也不足为奇。因为医生应遵循“希波克拉底氏誓言”(HippocraticOath)，并保证其患者得到最好治疗。如果医生也采纳原实验治疗的结果，他们就会倾向于，而先入为主地根据某些医疗需要把患者分组在各实验组中。实验中也可能存在着喜欢或反对测试治疗的内在偏见，这也就是随机分配的目的之所在。并非每一个可接受因素都能通过组匹配；也并非一个综合匹配在任何意义上都是必须的或者是称心的。因为，假如一个可能预期因素，其因果影响在假设中Η″σ得以刻画并假设该假设不大可能发生，如果是这样的话，贝叶斯定理中的全体相关项已经变得极小（因为，一个在假设Η″σ因果影响的可能预期因素和假定该假设不大可能发生；在该事件中，贝叶斯定理中的整个相关项已经极小）。那么通过使用适当形式的控制进一步减少它的这种优势将相当小。并且，在绝大多数的情况下，这种微弱的优势将由于额外费用的增加以及更详尽实验设计所带来的麻烦抵消。例如，尽管能引入一种控制因素以减少临床人员处理两组有不同均值鞋码的概率，但这种预防措施对药物假设的后验分布的影响几乎可以忽略不计，因为鞋子的尺寸不大可能影响实验的结果。总之，贝叶斯理论解释了为何临床实验中的实验组要在某些方面匹配和为何不必在所有的方面匹配。这就与断定的常识一致：设计临床实验首先要关注的应当使之不可能，即实验组在趋于影响结果的因素上不同。在两组之间获得这种平衡的设计，尽管我们倾向于把他们看作是合理匹配或控制的，但却被Lindley(1982)冠之以“偶然事件”。实验中，对治疗对象的随机化分配中，显然把这条规则作为一种更优的平衡实验组的方法是有益的，某种意义上说，它阻止了根据患者患病的轻重情况的分配。而随机化分配并非不可或缺的，它也并非是临床试验构造治疗组过程中唯一、最优的一以贯之的方法。2.无随机化过程的临床实验临床试验解决方案中，贝叶斯和经典方法之间的差异有两个方面：首先，一个贝叶斯分析允许结果累加时对其进行持续的评估，允许实验治疗效果或其他方面一旦明朗，就终止实验。相比而言，如果不管该阶段的记录结果，仅仅恪守经典实验原则的要求，那么就无法对突发停止的临床实验做出解释。为使用经典技术，通过对试验结果进行临时分析而专门设计的序列临床试验是无效的。第二个差异与临床试验中与比较组的组成有关。从贝叶斯主义的观点来看，最基本的要求是各组应当尽量在预测因素的前提下充分匹配。贝叶斯原理所坚持的不受完全随机化要求的约束，却是其对手———经典方法所否定的，例如，关于药品治疗的决策性信息能从使用历史控制组（一定数量53··已经接受替代治疗或根本没有接受替代治疗的患者）的实验中获得。这种历史控制实验组能够通过医疗记录及其与测试组（有可能是历史控制组）在预测因素条件下充分匹配所提供的信息来构建。由于历史控制实验的这种“先天性”谬误，经典医药统计学家们已广泛摒弃该方法，同时他们把发生的随机化实验看作“评估新药的唯一途径”(McIntyre，1991)。[13]但这种观点不仅是认识上是站不住脚的，而且在日常医学实践中也是能被驳倒的，医生的部分知识和经验是持久地、非正式融入了对当前的和过去的患者的对比和总结。甚至一些经典统计学家如Byar等，（1990）[14]也承认，时序对照组在某些情况下更可取，尤其当获悉一个随机化实验在控制组中将给病危患者使用无任何疗效的安慰剂、其他的则给予有价值的实验治疗时。Byar及其同事解释说，一旦出现“患者的潜在收益将足够做出一个非随机化实验结果的无歧义性解释”的正当预期，标准的实验结构就应当终止。但他们并没有说明，推理的哪一个过程能产生结果的无歧义性解释。在Byar做出“正是随机化步骤才产生了显著性检验”的经典论断之后，经典显著实验就没有进一步拓展了。任何其他经典推理的工具都似乎是不可取的（似乎找不到任何其他有效的经典推理的工具）。更有可能的是，Byar等他们自己接受非规范的贝叶斯解释，因为他们说，历史控制实验是可接受的，只有实验方法才有很强的先验可信性：“实验方法的科学基本原理须充分坚定地致力于预期的正确结论。”历史控制实验原理的可容许性，不仅是贝叶斯观点有趣的理论意义的一个方面，而且也有重要的现实显著性。首先，该实验对新对象数量的要求不高，体现在把不常发生的医学条件作为研究受众时，这一点尤为重要。并且实验越小，通常费用就越低；其次，历史比较组不向受试者透露无实际疗效的安慰剂，且能达到临床人员所预期的较低层次的对比治疗结果，更强调人文关切，并缓和在参与实验的患者中普遍发现的不情愿情绪。历史控制实验，无论如何都不容易设置。对比组只能借助以前患者的详细医学记录的帮助形成，比日常保存的记录越详实，就越容易获得。不管怎样，历史控制实验不容易建立。结论同经典方法有明显的不同，贝叶斯定理为临床的和类似实验提供了一致的、直观的指导方针。二者之间的第一个显著差异是第二种方法仅认定限制的必要性。而第一种则解释那种需要以及以合理的方式在必须控制和不必控制因素之间做区分；另外一个差异是，贝叶斯方法没有给治疗的实验对象随机分配共同的硬性规定，本文把这一规定看作是一个重要指标，因为没有找到更合理的理由把随机分配看作不可或缺的，而倒是有更好的理由不这样看待。估计参数的贝叶斯路径将不同的置信度与不同的值及其取值范围相联系，尽管我们已经看到经典统计学家们所寻求的，在这一点上没有成功。通过单一原理———贝叶斯定理，应用于所有推理问题的贝叶斯定理做估计。因此，统计和决策理论的贝叶斯处理方案是相同的并承载着同样的哲学思想。贝叶斯估计也同我们的直观信息相吻合，它为直观真实的充分条件和估计量中最大精度的自然偏好作解释。而不为我们所讨论的、建立在误差基础上的“非偏见”和“一致性”的标准找一个合适的位置。贝叶斯方法也避免了经典方法中的不合理的特征，即对结局空间以及对主观停止规则的依赖。贝叶斯方法中存在着一部分人不接受，但却是我们认为完全实事求是的主观要素。拥有同样信息的不同的科学家，常以各自不同的方式评估理论。牛顿和莱布尼茨对引力理论的迥然不同的阐述；爱因斯坦在其《哥本哈根解释》中的量子论观点与他绝大多数同事的观点背道而驰；多年以来，杰出的天文学家捍卫大爆炸理论，而同样卓越的科学家则以同样的精力为其竞争的“稳态理论”辩护，类似的观点分歧一直出现在科学界，如医药学、生物学和心理学等分支学科中。贝叶斯理论预言：很多这样的分歧将随着通过新证据修正的概率得以解决，但也允许这样的可能性存在，即倾向于支54··持或反对某些理论的人们坚持的理由有时是怪异的，甚至获得大量相关信息后仍旧如此。你或许认为这种异常行为是“有毛病”，每一种理论都有与之相关的知识体系的单一价值，每个有责任心的科学家都不应让这种私人的、主观的因素影响其信念。这种看法其本身就存在偏见，因为没有人能给出清晰的辩护，更不用说给出完整的证明了。贝叶斯的思想和方法被轻视和抵制数10年后，他们的价值现在逐步为包括正统的统计学家广泛承认，以至于很多人想把贝叶斯主义（Bayesianism）和频率主义（Frequentistism）置于同一水平上，笔者（2012）在《贝叶斯方法和频率方法比较研究》一文[15]中也对二者的关系进行过简单比较，但以上这并不是我们满意的结论。我们团队当前的研究给出的理由是：前者（贝叶斯主义）是有充分根据的，而后者（频率主义）则不是；并且频率主义的研究方法最终会让位于贝叶斯主义方法。在以《动物饲养中的贝叶斯论战》为题的文章中，Blasco给出一个貌似“公平”的例子（本文并不认可）。他争辩道，现实中没有必要选择“站队”：如果动物饲养员对有关归纳的哲学问题不感兴趣，而只对解决问题的所使用的手段感兴趣，那么，不管是贝叶斯的还是频率派的推理都是有根据的，并且没有必要证明为什么选择这个或那一个学派。现在两者在处理一些复杂案例的例外上都不存在操作困难……选择一派或另一派与否，应与是否一个学派有而另一个没有问题的解决方案、解决问题的难易程度以及科学家使用某种方式表达结果的舒适程度有关。（Blasco，2001）[16]但，Blasco所谓的“与归纳相关的哲学问题”应是实用科学家感兴趣的，因为尽管频率和贝叶斯工具得出表面上相似的结果，且在一些实验中，推崇表面相似的实验，但二者在其他实验中也给出关键的不同建议。我们已经证明了频率工具不能解决任何问题。他们标榜的结论（“未知参数的最佳估计是某某”；“某某是一个99%的置信区间”；“h在5%的水平上被拒斥”，等等）并没有任何归纳显著性。诚然，一个人常能“轻易地”得出频率结论，但这并不重要，也不能使其赋以科学的含义。很多科学家也觉得使用频率的结论顺手，而我们认为，这因为他们曲解并且赋予该解释不可能承载的意义，如Lindley（1975）就统计的发展未来问题的讲话中开篇就说，“21世纪是贝叶斯的”。[17]参考文献:[1]陈晓平.贝叶斯方法与科学合理性:对休谟问题的思考[M].北京:人民出版社，2010:310-343.[2]LindleyD.V..IntroductiontoProbabilityandStatistics,fromaBayesianViewpoint[M].Cambridge:Cam-bridgeUniversityPress，1965:52.[3]EdwardsW.H.，LindmanL.J..Savage.BayesianStatisticalInferenceforPsychologicalResearch[J].Psy-chologicalReview，1963，(70):193-242.[4]BlackwellD.，Dubins.L..MergingofOpinionswithIncreasingInformation[J].AnnalsofMathematicalStatistics，1962，(33):882-887.[5]PhillipsL.D..BayesianStatisticsforSocialScientists[M].London:Nelson，1973:113.[6]MayoD.G..ErrorandtheGrowthofExperimentalKnowledge[M].Chicago:UniversityofChicagoPress，1996:98.[7]SavageL.J..SubjectiveProbabilityandStatisticalPractice.TheFoundationsofStatisticalInference,editedbyG.A.BarnardandD.R.Cox[M].NewYork:Wiley，1962:9-35.[8]KadaneJ.B.，SeidenfeldT..RandomizationinaBayesianPerspective[J].JournalofStatisticalPlanningandInference，1990，(25):329-134.[9]StuartA..TooGoodtoBeTrue[J].AppliedStatistics，1954，(3):12.[10]KorbK.B..InfinitelyManyResolutionsofHempel’sParadox.InTheoreticalAspectsofReasoningaboutKnowledge[M].R.Fagin.Asilomar:MorganKaufmann，1994:138-49,55··[11]FisherR.A..TheDesignofExperiments[M].Edinburgh:OliverandBoyd，1947:18.[12]UrbachP..RandomizationandtheDesignofExperiments[J].PhilosophyofScience，1985，(52):256-273.[13]MclntyreI.M.C..TribulationsforClinicalTrials[J].BritishMedicalJournal,1991(302):1099-1100.[14]ByarD.P..etal.(22co-authors).DesignConsiderationsforAIDSTrials[J].NewEnglandJournalofMedicine,1990，(323):1343-1348.[15]程献礼，牛翠波.贝叶斯方法和频率方法比较研究[J].山西高等社会科学，2012，(5)(待刊).[16]BlascoA..AnBayesianControversyinAnimalBreeding[J].JournalOfAnimalScience，2001，(79)：2023-2046.[17]LindleyD.V..TheFutureofStatistics:ABayesian21stCentury.AdvancesinAppliedProbability[M].Supplement:ProceedingsoftheConferenceonDirectionsforMathematicalStatistics，1975,(7):106.AnalysisontheBayesianInductioninStatisticInferenceCHENGXian-li1，NIUCui-bo2（1.FacultyofPhilosophy,NankaiUniversity,Tianjin300071,China;2.SouthChinaNormalUniversity,Guangzhou,Guangdong510631,China）Abstract:BayesianInductionisonekindofStatisticsInferencetouseBayesiantheoremtogetnewInformationfromthedata.Itsnatureofsubjectivitythatthebayesianistshaveduringtheprocessofinfer-enceisatargetforfrequentiststocritics.ByusingtheapplicationofBayesianinferenceintwokindsofes-timations(MNPandBP),Bayesianinductionanswereditsrivals.ThePrincipleofstableestimationguar-anteesitsindependenceofpriordistributionwithoutthepriceoftheestimations’unbiasnessandconsis-tency.Afterall,wecometoaconcludingthattheBayesianinductionnotonlymeetsourintuitionsbutalsoavoidthedependenceupontheout-spaceandthesubjectivestoppingrulewhichappearedintheclassicalinferencescheme.Keywords:BayesianInduction;StatisticInference;StabilityEstimation;ClinicalTrialAnalysis;ClassicalStatisticsInference（责编：任秀秀责校：张永光）56··

                    本文档为【论统计推理中贝叶斯归纳的哲学研究】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，
                    图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。 
 该文档来自用户分享，如有侵权行为请发邮件ishare@vip.sina.com联系网站客服，我们会及时删除。

                    [版权声明] 本站所有资料为用户分享产生，若发现您的权利被侵害，请联系客服邮件isharekefu@iask.cn，我们尽快处理。

                    本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用。

                    网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
                

下载需要：免费已有0 人下载

立即下载

论统计推理中贝叶斯归纳的哲学研究

你可能还喜欢