康方生物的PD-1/VEGF 双抗(AK112)是一款挑战K药的抗癌药掘金配资,最近宣布了一项与K药“头对头”临床试验结果的更新,但是在美国的相关公司Summit,股票随之大跌36%,交易一度停盘。
究竟发生了什么事?很显然,股价下跌,是因为试验结果不及预期。根据官方的报道:
依沃西“头对头”帕博利珠单抗的随机、双盲、对照III期临床研究(AK112-303/HARMONi-2)中获得的显著阳性结果:
在ITT人群中,依沃西组和帕博利珠组的中位无进展生存期(PFS)分别为11.14个月和5.82个月,PFS HR=0.51(P<0.0001),依沃西治疗组的疾病进展/死亡风险降低49%;
在ITT人群中,在39%成熟度时进行的总生存期(OS)的期中分析(本次分析α分配值仅为0.0001)结果显示,依沃西对比帕博利珠单抗具有显著的临床生存获益,HR=0.777,降低死亡风险22.3%;
依沃西“头对头”帕博利珠单抗的随机、双盲、对照III期临床研究(AK112-303/HARMONi-2)中获得的显著阳性结果:
展开剩余79%在ITT人群中,依沃西组和帕博利珠组的中位无进展生存期(PFS)分别为11.14个月和5.82个月,PFS HR=0.51(P<0.0001),依沃西治疗组的疾病进展/死亡风险降低49%;
在ITT人群中,在39%成熟度时进行的总生存期(OS)的期中分析(本次分析α分配值仅为0.0001)结果显示,依沃西对比帕博利珠单抗具有显著的临床生存获益,HR=0.777,降低死亡风险22.3%;
这里提到临床试验结果达到“39% 的成熟度”,这到底啥意思?
1
临床试验中的OS数据:无法100%完成的数据
临床实验中的总生存数据OS ,是指从试验开始至某个时间内患者的生存时间或生存率。不管参试者因任何原因导致死亡,都要统计进来评估OS数据。
对于肿瘤治疗来说,OS是评估药物或治疗方案有效性的关键指标,能直接反映患者在接受治疗后的整体生存情况,是衡量治疗效果的重要依据。
很显然,评估OS的时间不能无穷长,因为时间能解决一切,也能解决一切人。肿瘤患者平均年龄60左右,若要比较30年OS,不管是哪一组参试者,OS都趋近于零了。
OS也并非等同于治疗时间。随着药物的效果越来越好,患者实际治疗时间或许仅为一两年,但为全面、精准评估药物或治疗方案对患者生存的长期影响,往往需要观察其五年甚至十年的生存率。
肿瘤患者的“生”是医生和患者都希望发生的事情,但是参试者的“死”却是临床试验需要记录的结果,生和死确实都是让人纠结的事。
为了不那么残忍,临床试验的报道中会使用“生存事件”这个词, 但是懂的人都懂,每出现一个“生存事件”,就意味着有一个参试者去世了。
数据充分,才会有一个明确的试验结果。所以,这就有了临床试验“成熟度”的问题。
所幸的是,因为有统计学的帮助,一个临床试验达到“成熟”掘金配资,并不需要所有参试者都发生“生存事件”。
只要一定数量的参试者发生“生存事件”,能够在统计学上区分治疗组和对照组的疗效,临床试验就达到了100%成熟。
因此可以肯定,临床试验达到“39% 的成熟度”,并不是说参试者有39%已经发生“生存事件”。
到底是多少?这取决于试验的预期,如果预期需要60%的参试者发生“生存事件”才能达到统计学的显著性,那么“39%的成熟度”便等同于只有24%的参试者出现“生存事件”。 (60% * 39% = 24%)
写到这,不得不感叹一下:统计学真重要!
不懂统计学,你看到别人赢了彩票,便觉得自己也能赢彩票!
不懂统计学,你看到美国有一个傻B,便觉得美国都是傻B!
不懂统计学,你也看不懂临床试验。
2
临床试验的P值,到底是0.05?还是0.0001?
怎样判断统计学上是否有显著区别?这就不得不提到科研界常用的P 值。
咱们平时说的P值= 0.05,对应的是5%,直白的解读,是结论有95% 的可能性是正确的。在科学研究里,只要P 值≤0.05,就可以认为两组数据(比如用药组和对照组)之间存在“显著差异”,也就认为药物是有效的。(这可能是从小便要求考试必拿100分的人难以接受的)
因为这个P 值很重要, 判断临床试验是否有效,也就成了“P大的事“!
问题来了,P 值0.05,这是在临床试验OS数据完全成熟之后的统计学标准。在临床试验没有完全成熟之前,是否可以通过统计学的方法判断显著性?
比如康方生物这次临床试验成熟度才39%,数据还远远不够完整。就像拼拼图,只拼了一小部分,这时候下结论很容易出错。怎么办呢?
答案是提高P值标准!常规P 值0.05 这时候已经不够用了,必须把结论的准确性大幅提升。新闻稿里提到的“assigned p value”(中文翻译成“分配值”不太准确,叫“指定P 值”更合适),把P 值定到了0.0001以下!这意味着结论在统计学上要有99.99% 的准确性,才能保证即便未来所发生的“生存事件”会影响试验结果,也不会颠覆整体的结论。
我们可以用高考打个不太恰当的比分。假设去年北大的录取分数线是700 分,如果今年高考700分,那么可能有95% 的机会能上线。
但是,如果还没到高考,只是一个模拟考,可否判断高考分能上线呢?也不是不可以,但可能得把考分提高到800 分。要是模拟考能考到800 分,说明你实力很强,有99.99% 的可能性在高考中也能取得好成绩,顺利考上北大。
如果模拟考还只是700分,那么真正高考时的成绩波动,可能就上不了北大分数线了。
因为这个标准是提高了,要是表达成“这次的模拟分数线仅为800分”,是不是感觉很奇怪?
3
股票掉,是因为HR还是P值?
康方生物新闻里还有一个数据,是HR值( 风险比)。目前所报道的 HR 值是0.777,意味着与对照组K药治疗相比,发生“生存事件”的风险降低了22.3% (1 - 0.777 = 0.223 = 22.3%) 。
有人说SMMT股票掉,是因为这个HR值不够好,只有0.777。这又是一个不专业的解读。
HR值超过1肯定是不好的,那意味着治疗组比对照组有更多的折损。
但是HR值低于1值算不算好?不能只看HR值本身,还要看这个值的可行度有多少,也要看P值是多少。
如果从统计上来看,虽然HR 是0.77,但是波动范围可能是 0.3 -1.2,那这个HR值就是不可信的。
到底HR值是否可信,取决于在目前的成熟度下,P值是否<0.0001。所以,这还是P大的问题。
随着临床试验数据的完善,治疗组可能比对照组更少一个“生存事件”,也可能会更多一个“生存事件”,HR 值也就会出现波动。但如果P< 0.0001,那么这个波动区域99.99%的可能性都不会超过1,也就是说治疗组会有更好的效果。
很多人觉得SMMT股票掉得一头雾水,可能是因为很多报道里大谈目前分配的P值是0.0001,谈得好像目前的结果已经达到了0.0001。这是被夸夸其谈的人或者人工智能带偏了。
这正如说模拟考的分数线是800分,跟模拟考考了800分是两个完全不同的概念。
我仔细看了官方的新闻,并没有说目前的p值具体是多少。但是可以推理出的是,它一定达不到0.0001的标准!如果达到了这个标准,那么统计学上就有显著性了。
P值到底是多少?未来在完整报道数据的时候,一定会出来。
在这个不确定的世界里,可以确定的事,AK112是否能挑战K药成功,一定会有一个说法。
但给出这个答案的时间不是现在。
模拟考没有达到800分,并不等于正式高考就不能考700分。
这事说清楚了吗?
(作者:张洪涛掘金配资,笔名“一节生姜”,著有科普读物:《吃什么呢?——舌尖上的思考》,《如果舌尖能思考》。可以谈最前沿的医学研究,也可以讲最通俗的故事。本文仅作为医学常识性科普,不作为任何医疗建议。若有不适,请尽快就医,遵医嘱对症治疗)
九龙证券配资提示:文章来自网络,不代表本站观点。