解析电子递交数据说明文件(Define)与审阅说明(xDRG)

有临
2024.09.27
374



image.png

 


在药物临床试验的数据递交过程中,无论是面向中国国家药品监督管理局(NMPA)还是国外药品监管审评机构(如美国FDA、日本PMDA等),除了核心的数据集和详细的注释病历报告表(annotated Case Report Form, aCRF)外,数据说明文件(Define,数据的定义及阐释蓝图)及数据审阅说明【DRG(Data Reviewer's Guide),如cSDRG(Clinical Study Data Reviewer's Guide)和ADRG(Analysis Data Reviewer's Guide),分别对应不同数据集审阅阶段的审阅指南】在审评流程中同样扮演着至关重要的角色,它们不仅是审评员深入理解复杂数据集的桥梁,也是确保审评过程高效、透明、标准化的关键工具。本文将对Define和DRG的作用、文件格式、内容及其重要性进行专业化的阐述。


 


01.数据说明文件(Define):数据的精密解码器


1.Define是什么

临床试验递交的数据集一般包括从病历报告表(Case Report Form,CRF)和外部数据源中收集到的原始数据库以及为统计分析需求而衍生的分析数据库。如果项目数据是参照CDISC标准经过结构化处理的,则可以分别将原始数据标准模型(Study Data Tabulation Model, SDTM)数据库视为原始数据库及将分析数据标准模型(Analysis Data Model, ADaM)数据库视为分析数据库。Define文件是SDTM数据库和ADaM数据库的“说明书”,两个数据库都有其相对应的独立Define文件,它们详细描述了数据库中每个数据集的结构、名称、所包含的各种变量(变量名称、类型、来源或衍生逻辑)及变量之间的关系。Define文件对于监管机构审评人员来说至关重要,因为它们提供了必要的信息来准确理解数据的含义、来源和计算方法。

 

2.Define文件格式

Define文件一般为可扩展标记语言(Extensible Mark-up Language,XML)格式或PDF格式。XML格式是由World Wide Web Consortium (W3C)制定的,用于将文档编码为人类可读和机器可读的格式。如果递交的Define文件为XML格式,则需要同时递交对应的可扩展样式表语言(Extensible Stylesheet Language,XSL)文件,否则Define文件将无法正常打开(图1)。


image.pngimage.png 

图1 Define文件名称示例

 

3.Define文件内容

Define文件内容大致可分为以下四个核心部分(图2),针对ADaM的define文件,可能还会包含针对试验关键指标分析的额外说明模块。


 

2.png

图2 SDTM define.xml文件内容示例(左侧为内容分类)

 

3.1补充文档(Supplemental Documents)

此部分包含了一系列辅助文件,用于增强对递交数据的理解和解释。以SDTM Define为例,补充文档(图3)可能包括即将介绍的数据审阅说明和一些复杂的计算逻辑(比如实验室检查数据中对于原始单位与标准单位的转换规则等)。这些补充文件必须都以PDF格式和Define文件一同递交,并在Define文件中设有超链接功能,点击这些补充文件的名称可直接跳转打开对应链接的文件,方便审评人员快速、高效的对补充文件进行审阅。同时,这些补充文件也可能在某一个数据集中被某个变量引用以辅助说明该变量的衍生逻辑,帮助审评人员快速理解此变量的衍生过程。

 

3.png

图3 补充文档示例(左图出自SDTM define.xml,右图出自ADaM define.xml)

 

3.2数据集(Datasets)

数据集部分是Define文件的核心,它详细列出了递交的所有数据集及其相关信息。在图4的示例中,左侧呈现的是所有数据集清单(图5),右侧展示了各个数据集的基本信息,包括数据集的名称(Dataset)、数据存储内容(Description)、CDISC标准下的对应分类(Class)、数据集的结构(Structure)、数据集的用途(Purpose)、数据集的关键变量(Keys)、数据集的存储位置(Location)及其它需要描述的信息(Documentation)。


 

4.png

图4 数据集汇总信息示例

 

5.png 

图5 数据集清单示例

 

同时,审评人员通过点击左侧的数据集名称可直接跳转到相对应的数据集详细描述表格(图6),方便审阅和理解数据集中的各个变量信息(包含名称(Variable)、标签/描述(Label/Description)、类型(Type)、定位(Role)、长度或显示格式(Length or Display Format)、受控术语或ISO格式(Controlled Terms or ISO Format)、来源/衍生逻辑(Origin/Source/Method/Comment))及相关联数据集等。另外,变量信息会存在不同的来源,有些来源于CRF,审评人员通过点击CRF的页码可直接跳转到CRF的对应页面;有些是来源于衍生,在此会详细说明衍生的具体逻辑;有些来源于方案或者CDISC标准;有些来源于外部数据源。不论数据来源于哪里,文件中都会清楚呈现各个数据的出处,方便数据的可追溯性。

 6.png

图6 不良事件(AE)数据集详细信息示例

 

3.3受控术语(Controlled Terminology)

受控术语部分旨在确保数据集中使用的术语具有一致性和准确性,通常包含以下两个子部分:

·代码列表(Codelists):因不同临床试验的原始数据在收集时很难做到统一的收集标准,其所展示的值也会不一样,故CDISC对某些特定数据点的值做了统一的标准化处理。Define文件中的此模块就是用来呈现某些特定数据标准化后的提交值(图7),而对于CDISC并未规定标准值的数据点,也需要在此呈现对应项目该数据点统一后的可能值,便于审评人员快速理解。需注意的是对于中文项目,因受控术语的发展正在逐渐完善中,监管结构对于该部分的审阅相对没那么严格,因此中文项目中该部分的做法会依据申办方的要求或CRO的默认做法而有所不同。


7.png 

图7 代码列表(CodeLists)示例

 

·外部词典(External Dictionaries):该模块展示了数据集中所使用的外部词典及其版本信息,如常见的MedDRA和WHODrug词典(图8)。

8.png

图8 外部词典示例

 

3.4变量衍生方法(Methods)

此部分汇总列出了所有数据集中的变量涉及到的计算或衍生方法(图9),其在Define文件中的作用类似于衍生方法的“字典”,在数据集详细介绍模块中出现过的所有变量衍生方法都能在这个模块中找到。这有助于审评人员验证计算过程的正确性和合理性,确保分析结果的可靠性。


9.png 

图9 变量衍生方法示例

 

 


02.数据审阅说明(DRG):审评的智慧导航


1.DRG是什么

DRG(Data Reviewer's Guide)是对Define文件的进一步扩展和详细化解释,旨在为监管机构的审评人员提供更加全面、深入的数据理解和使用指导。每个Define文件,无论是针对SDTM的cSDRG(Clinical Study Data Reviewer's Guide)还是针对ADaM的ADRG(Analysis Data Reviewer's Guide),都配套有相应的DRG文件,以确保数据的完整性和透明度。其内容包括但不限于研究数据使用说明、临床总结报告与数据之间的关系、研究文档(如试验方案、统计分析计划、临床总结报告等)中部分关键信息、所递交程序代码的使用说明、数据集所用编码及其它特殊情形说明等。

 

2.DRG文件格式

无论是中文项目递交或是英文项目递交,DRG都应采用PDF文件格式。

 

3.DRG文件内容

cSDRG和ADRG所包含的内容有相同和不同的部分,两文件所包含的内容如下图(图10)。以下会对各部分内容做一个简要介绍。

 

10.png 

图10 cSDRG和ADRG各模块内容示例

 

·基本介绍

该部分会介绍文档的目的、首字母缩略词的含义、数据标准及版本和词典目录及版本。ADRG中还会涉及分析数据集的数据源,比如来源于SDTM、哪些条件的受试者会纳入统计分析范围等。

 

·方案描述

该部分内容介绍方案的一些简略信息,包括方案的编号、标题、试验设计等内容。对于cSDRG,除展示方案摘要信息之外还会额外展示试验设计数据集的一些关键信息;而对于ADRG,则会额外展示方案中与ADaM相关的概念,如人群集的定义划分等。

 

·与分析数据集相关的分析考量(ADRG独有)

该部分着重介绍和分析数据集相关的如下一些考虑要点:

1)分析数据集中有哪些核心变量(Core Variables);

2)治疗组信息在分析数据集中是如何处理的(图11);

3)是否有因受试者问题导致的特殊分析规则存在;

4)访视时间窗的使用和计划外访视记录的选择;

5)缺失数据填补方法/数据衍生方法(图12),如缺失日期填补,缺失数据填补和分析访视衍生规则等。

 

11.png 

图11 治疗组信息的处理示例

 

12.png 

图12 缺失数据填补示例

 

·分析数据的创建和处理的问题(ADRG独有)

法规中对数据集的大小有一定的要求,如果某些数据集大小超过递交上限,则需要进行拆分后再递交。此部分会介绍数据集的拆分情况、数据集之间的相关性、是否使用了中间数据集和是否有特殊的变量命名规则等问题。

 

·数据集描述

这部分涉及一些数据信息的描述。

1)概括的信息:包括试验是否还在进行、SDTM数据集是否是分析数据集的来源、提交的数据是否包括筛败、是否有方案计划要收集的数据但是并未收集到等等;

2)可追溯流程图体现递交数据的可追溯性(图13);

 

13.png 

图13 可追溯流程图示例

 

3)注释病例报告表(aCRF)的内容介绍,便于审评员快速理解;

4)SDTM/ADaM数据集的简单介绍:数据集的汇总分类(比如安全性/有效性/其他/补充数据集等,图14)及其关联数据集。ADRG数据集的描述中会列出每一个分析数据集中和统计分析指标有关的变量及其算法说明,尤其是和关键指标有关的分析数据集(图15)。

 

14.png 

图14 SDTM数据集的汇总分类示例

 

15.png 

图15 ADAE在ADRG中的数据集介绍示例

 

·数据一致性检查汇总

如果递交数据是依据CDISC标准制作,需通过一致性检查,且需列出递交数据的一致性验证结果,包括所使用的验证工具及版本、递交的数据标准及版本、验证问题及其对应的合理解释(图16)。

 

16.png 

图16 ADaM数据一致性检查汇总示例

·程序递交(ADRG独有)

根据国内外监管机构对于电子递交的要求,申办方需要递交的程序代码包括但不限于:分析数据集中衍生变量的衍生过程,疗效指标分析结果的生成过程等。ADRG中会列出和试验关键指标相关的分析数据集及表格图表程序的递交说明(图17)。

 

17.png 

图17 ADRG中递交程序说明示例

 

·附录

由于受限于递交数据集中变量的长度限制,入选/排除标准信息在整合到SDTM数据集的时候会进行适当的精简处理以满足变量的长度限制要求。根据cSDRG Completion Guidelines,如果入选/排除标准没有在SDTM数据集中被完整的描述,则cSDRG需要在附录中列出完整的入选/排除标准描述(图18)。

同样,ADRG可能会在附录中列出一些特殊的数据说明,比如不是来自SDTM数据集但是需要纳入到分析数据集中的数据等。


18.png 

图18 cSDRG中入选/排除标准的完整描述

 

综上是对电子递交中数据说明文件和数据审阅说明的简要解析。这两份不同的说明文件如同为监管机构的审评员绘制了一副详尽的数据审评地图,它们共同构成了药物审评过程中的重要信息基础设施,为药物更快通过审评、加速上市步伐提供了有力支持。

 

 

参考文献:

[1] 《CDISC Define-XML Specification》 Version 2.1 https://www.cdisc.org/standards/data-exchange/define-xml/define-xml-v2-1

[2] 《Study Data Tabulation Model Metadata Submission Guidelines (SDTM-MSG):  Human Clinical Trials》 Version 2.0 https://www.cdisc.org/standards/foundational/sdtm/sdtm-metadata-submission-guidelines-v2-0

[3] 《Analysis Data Model Metadata Submission Guidelines (ADaM MSG):  Human Clinical Trials》 Version 1.0 https://www.cdisc.org/standards/foundational/adam/adam-metadata-submission-guidelines-v1-0

[4] PHUSE Reviewer’s Guide Templates: https://advance.hub.phuse.global/wiki/spaces/WEL/pages/26804512/Deliverables

何志豪 章飞燕 撰写,张子豹 审核