独立医学影像评估中不一致的控制-第二部分

有临
2019.12.27
4305

加强新病灶判定和非靶病灶定性评价的理解


在肿瘤临床试验中,非靶病灶的评估和新病灶的判定均是决定总体疗效重要的一环,但在常用的评估标准,如RECIST1.1、Lugano分类中,非靶病灶评估往往仅依托于定性评估、新病灶的判定也缺乏统一特定的标准,因此非靶病灶的评估和新病灶的判定很大程度取决于阅片人的个人主观判断,这也很容易导致阅片人评估结果间不一致的发生。


如下图所示,K. Borradaile等人[1]对多例采用了BICR的乳腺癌临床试验结果进行了汇总分析,数据显示,总计876名受试者中有459名受试者的阅片人间评估结果出现了不一致,对象包括最佳总体疗效、缓解日期、进展日期等。其中因非靶病灶评估导致的不一致有58例(占比13%),因新病灶判定导致的不一致则有139例(占比30%),两者共占导致不一致主要原因的43%。由此可见,加强阅片人对新病灶判定和非靶病灶定性评估的理解十分重要,可以有效减少评估结果不一致的发生。


17.png


但在第一部分的内容中也提到,现有评估标准在新病灶判定及非靶病灶评估方面的定义十分模糊,更多的依赖研究者自行在方案中进行规定,为了弥补研究者在影像方面经验或专业性的不足,IRC可更多的在阅片章程中对相关细节进行明确定义及补充,以RECIST 1.1为例,其缺乏新病灶判定的明确标准,阅片人碰到“疑似”新病灶时往往会难以判断,因此阅片章程中可对这些“疑似”新病灶作出定义,如设立将这些“疑似”新病灶判定为“明确”新病灶的阈值,从而对新病灶的判定更好的作出标准化定义;


在非靶病灶的定性评估上也同理,除了RECIST 1.1原文中建议的以“描述为肿瘤负荷增加相当于体积额外增加73%(相当于可测量病灶直径增加20%)”、“腹膜渗出从微量到大量”、“淋巴管病变从局部到广泛播散”作为非靶病灶进展标准外[2],阅片章程中仍可进一步增添相关描述,如规定当仅有腹水、胸水等渗出性病变进展时可收集细胞学检测结果以辅助阅片人更好的作出评估。


除了在阅片章程中明确定义外,IRC也可在模拟阅片中添加更多的相关案例以帮助阅片人尽可能的遵循统一化标准完成新病灶判定及非靶病灶评估,从而在这两方面减少不一致的发生。


研究中心

BICR中阅片人的评估结果与影像数据的质量密切相关,现阶段临床试验通常是由各研究中心负责影像采集及上传工作,而各中心的影像采集往往缺乏统一的标准和要求,很容易发生一位阅片人因上传的影像质量不佳或影像缺失导致基线选取的靶病灶无法评估(NE)、而另一位阅片人选取的靶病灶未受影响可以正常评估的现象,从而导致阅片人评估结果的不一致,下图就是一个较典型的案例[1] :


18.png


某研究中心基线期(图A)上传了一张质量较差的彩色骨扫描影像,在后续某访视中(图B)则上传了一张质量稍好的灰度骨扫描影像。


在后续访视中,阅片人2证实了骨扫描中有3处位置与CT无关联的摄取值增高,并因此判定为PD;阅片人1则因认为无法与基线期作出充分的比较而未作出相同的判定。


为了减少上述情况的出现,IRC为研究中心制定统一的影像采集及上传标准至关重要,这些标准可定义在阅片章程中,也可单独成册,其在影像采集方法/技术的选择、影像采集设备的要求、影像采集时间、影像采集人员资质、影像采集参数、造影剂的选择及使用、受试者的准备及体位、影像的上传步骤等方面都应该尽可能的作出细致的规定,以指导所有研究中心尽可能的进行“统一标准化”的影像采集及上传,从而减少IRC在收到上传的影像后QC过程中质询(query)的发生,确保这些影像达到了可供阅片人解读的最低标准。


在制定相应标准后,IRC可通过合适的途径对研究中心相应负责人员进行培训及指导,并配合申办方/CRO的临床监查员(CRA)定期检查研究中心对相应标准的遵从情况,可能的话,申办方可以提前让IRC参与研究中心筛选,让IRC协助核实研究中心影像采集设备性能、技术支持及遵从影像采集及上传标准的能力,这些IRC参与筛选的研究中心有着更高的依从性,能高效率高质量的完成影像采集及上传工作,从而在源头上减少阅片人评估结果不一致的发生。


受试者临床信息

BICR中除了影像数据本身外,必要的受试者临床信息也在不同程度上影响着阅片人的评估结果,在很多标准(如RECIST、IWG 2007等)的非靶病灶定性评估中,临床信息往往是阅片人作出判断的最主要依据,尤其是只有不可测量病灶作为非靶病灶时。


而当这些必要的临床信息未被提供时,阅片人也就很容易在评估结果判断方面产生不一致,下面就是一例因研究中心未提供必要的临床信息导致的不一致[1]:


19.png


阅片人1和阅片人2选择了相同的肝部病灶作为基线期靶病灶(图A-B,阅片人1选择001作为靶病灶,阅片人2选择002作为靶病灶),但阅片人1和阅片人2在基线及后续第3次访视中(图C-D)在图像的不同层面上对病灶进行了测量;在第4次访视(图E-F)中,可以看出病灶有明显增大,阅片人1通过测量病灶判定为PD,阅片人2则因怀疑受试者可能接受了局部射频消融治疗而判定为NE。


因此,IRC在制定针对研究中心的影像采集及上传标准的同时,也应根据不同临床试验的研究方案对BICR所必须的临床信息的采集及上传作出规定,并将这部分内容体现在相应的病例报告表(CRF)中,以保证独立阅片人能在阅片的同时获知必要的受试者临床信息[3]。


可能对肿瘤评估产生影响的临床信息包括(但不仅限于):

1 既往肿瘤放疗史

2 手术史

3 介入治疗史

4 细胞学检查结果

5 组织学检查结果


阅片人表现监测

在BICR过程中IRC应有完善的阅片人表现监测计划,以对阅片人评估结果及裁决触发情况进行统计,并定期对裁决触发率及触发原因进行总结,以此为依据同阅片人进行有效的沟通,必要时重新培训/更换阅片人,以保证阅片人阅片人按临床研究方案及影像评估章程完成评估。


在监测过程中,IRC可选择适当的参数对阅片人的表现进行可视化分析,其中应用最多、最直观的即为裁决率(Adjudication Rate),即发生裁决的例数占总阅片数(通常为受试者数x访视次数)的比例,对于影像的解读而言,了解裁决率高低的影响可能非常重要:在USFDA的《Guidance for Industry: Clinical Trial Imaging Endpoint Process Standards》中建议IRC和申办方在制定临床试验方案及阅片章程时应将阅片人评估结果的不一致对临床试验结果的潜在影响考虑在内,并在这些试验文件中预先规定这种裁决率的确定过程[4]。


需要指出的是,裁决率受临床试验适应症、病灶选择差异、非靶病灶定性评估差异、病灶测量差异、影像质量、临床信息等多种因素影响,阅片专家教育背景、擅长的瘤种及使用相应肿瘤评估标准经验的差异也很大程度影响着裁决率的高低,以RECIST1.1为例,当以任何总体疗效评估结果不一致为裁决触发点时,裁决率往往居高不下,但很多时候裁决率虽高,其实却并不影响主要/次要终点的计算,如以客观缓解率(ORR)为主要研究终点时,不同阅片人分别判定为CR和PR时虽然会触发裁决,但ORR值本身却并不受影响,因此可以说裁决率虽然直观但并不客观。


其他可参考的参数包括裁决同意率(Adjudicator Agreement Rate)、阅片专家不同意指数(Reader Disagreement Index, RDI)[5]等,各有各的优势及不足,IRC和申办方可采用多参数结合的方法以对阅片人的表现进行尽可能全面的评价


在统计学层面,阅片人评估结果的不一致可应用Kappa分析、P控制图(P-chart)[6]等进行具体分析,但尚且缺乏统一具体的定量化评价标准,IRC及申办方可根据临床研究方案的不同要求选择合适的方法。