贝叶斯是18世纪英国的牧师与数学家。他关于概率的理论与方法的论文《机会学说中一个问题》在他1761年去世后第2年发表。
其经典公式是:
文字描述为在B条件下A事件发生的概率是由先验预估A事件发生的概率经过可能性函数调整后(修正)得到的概率。其中修正函数是在B事件总体概率空间中有A事件共生的那部分所占的比例。贝叶斯理论包含3部分:1)先验概率;2)新的信息;3)新信息对先验概率的影响程度。应用贝叶斯方法的认知过程,是由较粗的设想,开放地综合新信息,从而更新先前认知的过程。临床试验对药性的认知过程,与贝叶斯方法非常相似,经当代数学家统计学家们用数学语言阐述更为丰富精确。贝叶斯理论的思考方法也与电脑可执行的迭代收敛算法相通,从而在AI,精准医疗,临床试验设计领域产生深刻影响。当代面向机器学习版的贝叶斯数学表达式请见附录。本文为有临医药公众号所写,行文力求明白易懂。
先举个日常生活中的例子:若问甲,乙两人在上海江场路不期而遇的概率,那相遇的概率应很小,比如设作0.001(P(A))。但新的信息出现:甲,乙都在江场路市北一中心办公楼上班(P(B|A))。这下相遇的概率就大了,比如0.7。如果再有更细的信息,比如甲,乙都开车,或甲,乙都坐地铁,进一步修正后相遇概率提高到0.9;但甲开车,乙坐地铁,相遇概率降低到0.5。
那么这跟临床试验有哪些类似呢?
早期临床试验,有许多探索性的问题,比如剂量探索要解决最大耐受剂量,向二期推荐剂量问题。
还有,由Biomark标识出的多个亚组,或者设计单药和联合用药形成多个亚组,究竟哪几个亚组对药物反应好,这些亚组是一组一组分别分析,还是其中几个亚组合并起来分析?或者全部合起来分析?先验概率对拓展与否的决策是怎样规定的?新的药物靶点发现与引入临床试验后对试验药物成功率的影响如何?这些问题可以用贝叶斯理论来解决。
对于拓展,各个亚组可以用较小的样本量进行试验,如果反应率达到某个阈值,就入组更多的受试者,否则就停止入组。这样可以为申办方以较小的试验成本快速找到有苗头的亚组,关闭成功率小的亚组。
对于靶点引入对新药研发成功率的影响,会更易理解。化合物转化为药物的成功率很低,常识是千分之一甚至一万分之一的(先验概率)。但如果有研究展示某化合物对靶点蛋白有显著改变作用,而这种蛋白的改变有抑制癌症作用,动物试验结果也在影响力很大的期刊发表了(比如Nature上发表的有关SOUT1蛋白组与肝癌论文,见参考文献6)。那以此条信息为依据重估在研药品管线(PIPELINE)的投资重点,其行为结果作为后验概率使研发成功率提高到十分之一。这个的过程也隐含了贝叶斯方法。
对于多个亚组,如果其概率分布函数相似(Homogenicity),可以合并分析,就好比上面例子中交通方法一样的人相遇概率更大;合并分析增大样本量,得出的结论其统计效能(POWER)更高。但如果其概率分布不一样(Hetorogenicity),就要分开分析,因为它们有根本的区别,合在一起的话会增大偏倚(Bias)与错误。这里亚组间合并分析,增大样本,组间信息共用(有的文献用“借用”)等,充分利用并挖掘各组数据提供的信息,为临床试验设计提供更经济有效的方法。
贝叶斯方法,联用Propensity Score方法,为用外部数据/历史数据作对照组的试验提供理论依据。对罕见病,肿瘤等不宜采用随机双盲的试验另辟道路。
除了设计,贝叶斯方法在数据分析方面也有多种应用工具。比如Markov Chain Monte Carlo(MCMC)和线性混合模型。在SAS 应用软件的PROC 中都有选项供输入先验概率(PRIOR Statement)。
感兴趣的读者可以进一步阅读所列参考文献。
参考文献:
1.BLAST: Bayes latent subgroup design for basket trials accounting for patient heterogeneity
Yiyi Chu, Ying Yuan, Applied Statistics(2018):Journal of the Royal Statistical Society
2.A Bayesian basket trial design using a calibrated Bayesian hierarchical model. Clinical Trial,15(2) 149-158
3.上海统计协会2020年12月会议PPT: Application of BHM in basket design. Meiruo Liu; Bayesian hierarchical model in application of external controls in early phase trials. Wenxin Liu
4.SCUBA :Subgroup Cluster Umbrella Bayesian Analysis Ji Yuan et al at Laiya Consulting
5.Genetic Analysis of Complex Traits Using SAS Edited by Arnold M. Saxton Support.SAS.com/pubs
6.Pattern Recognition and Machine Learning: Christopher M Bishop PPT and Book
7.Proteomics identifies new therapeutic targets of early-stage hepatocellular carcinoma
Ying Jiang,Fuchu He, et al
Nature 2019 Mar;567(7747):257-261. doi: 10.1038/s41586-019-0987-8.Epub 2019 Feb 27.
附录1
当代学习模型版贝叶斯公式。源自Stanford机器学习笔记https://www.cnblogs.com/llhthinker/p/5351201.htm
在实际应用中我们常常是近似θ的后验概率。一种常用的近似方式就是一个点的估计来代替(2)式。The MAP(maximum a posteriori)估计如下:
我们发现(3)式相较于极大似然估计,只是后面乘了θ的先验概率。