近日,器审中心发布了IVD人工智能软件的3个审评要点,标志着对于IVD人工智能软件的规范化审评迈上了新台阶。我国企业也在IVD人工智能软件上做了非常多的研发工作,其中,做为第三类医疗器械管理的辅助决策类的2个产品已于去年和今年获得批准,包含1款病理图像分析软件。病理图像的辅助识别、辅助诊断决策是IVD人工智能软件应用的重要方面之一,下面介绍一款FDA批准的该类软件的非临床研究审评要点,为审评提供借鉴和思考。
2021年9月21日FDA首次批准IVD病理图像人工智能辅助决策软件——Paige Prostate,该产品是一种用于定性辅助决策的深度学习软件。批准类别:全新(De nove)自动分为III类,今后将作为II类特殊控制管理。
一、产品描述
(一)预期用途
该产品为专用软件,用于帮助病理医师对苏木精和伊红(H&E)染色的福尔马林固定-石蜡包埋(FFPE)的前列腺穿刺活检组织的全玻片数字扫描图像(WSI,以下简称“扫描图像”)做诊断时,识别可疑的癌症病灶。该软件在病理医师对扫描图像进行初诊之后使用,如果软件识别到可疑的癌症组织形态,则在图像上提供位置坐标(X,Y),供病理医师对该位置进一步诊断或修改初诊的结论。
该产品自动分析扫描图像后输出以下内容:
1. 基于神经网络输出的预定义阈值,对图像是否怀疑为癌症进行二元分类。
2. 如果切片被归类为“怀疑不是癌症”将没有额外的输出,图像软件查看器将显示“怀疑不是癌症——没有目标区域”。
该产品为计算机辅助方法,其输出结果不应用作最初的诊断,病理医师应只使用该软件结合完整的标准诊疗程序评估病理切片扫描图像。该软件不提供辅助测量(定量)或癌症病灶的分级诊断结果。
该软件配套使用的扫描仪为飞利浦扫描仪(Philips IntelliSite Ultra Fast Scanner),数字病理图像查看软件为本公司的软件(FullFocus image viewing software)。
(二)算法研究
算法研究是基于训练集、调优集和测试集的数据进行的。数据训练、调优和测试数据集,分别来自于相互独立病人的切片,以保证其在训练、调优、和测试数据集不重复使用。这些数据脱敏后被标注,并与验证集数据相互独立。
训练集数量:33543例,徕卡扫描仪(Leica),与预期用途配合扫描仪品牌不同;
调优集数量:5598例,徕卡扫描仪(Leica),同上;
测试集数量:5598例,飞利浦扫描仪(Philips),同预期用途配合扫描仪相同。
1.算法研究的3个数据集人种信息如下:白人占约80%左右,非洲族裔美国人或黑人占9%,印第安人占0.1%,亚裔和远东人种占3%,其他占约2%,没有种族信息的占5%左右,人种分布在三个数据集的比例基本相同。切片分别来源于公司内部(136例癌症,183例良性)和外部机构(175例癌症,234例良性)。
2.切片分类组成如下:
(1)非典型小腺泡增生(ASAP)、萎缩出现;
(2)高级别(PIN)前列腺上皮内肿瘤;
(3)接受过治疗的组织(治疗后组织有治疗相关的改变);
(4)癌组织:肿瘤大于0.5mm,其中PIN出现单独统计;
(5)癌组织:肿瘤小于等于0.5mm,其中PIN出现单独统计;
(6)良性组织(无萎缩、PIN和治疗)。
3.数据标注:是否为癌症的准确性由诊断报告来作为金标准确认,定位准确性由3位经过认证(有资质)的病理医师来确定。
(三)非临床研究
1.软件描述
依据FDA指导文件《医疗设备中包含的软件上市前提交内容指南》(2005年5月11日发布),该产品为中度风险考量。
申请人提交了危害分析,对该产品和网络安全分别进行了分析,并评估了缓解前后的风险。产品危害分析包括:危害的识别、造成危害的原因(危险情况)、发生危险的概率、危害严重程度、控制或缓解的方法、所采取的纠正措施,包括解释设备设计/要求中消除、减少或警告危险事件的方面,验证控制执行情况,并可通过列举的可追溯矩阵进行追踪。申请人提交了以下描述文档,包括软件需求规范(SRS)、软件架构设计图表、 软件设计规范(SDS)、可追溯分析/矩阵、软件开发环境、验证和验证测试、软件版本修订历史,其中软件版本(v)2.1.501在所有性能研究中使用之前发布,包括分析性能研究和临床研究。在上市后,软件版本将保持锁定状态,不会随着临床应用对算法持续训练和更新。未解决的异常:在软件验证之前,所有识别的异常都已解决,没有未解决的异常情况。
2.网络安全
网络安全文件与FDA指导文件《医疗设备网络安全管理上市前提交文件内容:工业和食品药品监督管理局工作人员指南》(2014年10月2日发布)中概述的上市前提交文件应包含的建议信息一致。与网络安全相关的信息包括:网络安全风险相关的危害分析,将网络安全控制与考虑的风险联系起来的可追溯性文件,在医疗设备的全生命周期中验证软件更新和补丁的概要计划,为确保医疗设备保持其完整性而采取的控制措施的摘要描述,与预期使用相适应的使用说明书中的推荐的网络安全控制措施。
数据传输方面:数据传输的各个环节都采用加密的方式。
3.分析性能评估
分析性能评估包括:算法定位(X,Y)坐标准确度研究和精密度研究。采用配套用的飞利浦扫描仪和本公司数字病理图像查看软件。
(1)算法定位(X,Y)坐标准确度研究
该研究评估了软件在鉴别诊断前列腺穿刺活检数字病理图像为可疑癌症组织的能力,以及定位一个高度疑似癌症病灶(X,Y)坐标的能力。
研究方法:对“该产品识别的坐标(X,Y)”与“3名对软件输出结果不知情的病理学家手工注释的区域”进行了比对评估,且这些参与研究的病理学家没有参与临床试验的阅片研究。所有的扫描图像(癌和良性组织混合穿插混合)提供给病理学家,由其审阅并给予了图像区域“有癌”的标记,3位病理医师间互为盲法,不知道彼此对切片的注释,也不知道该申报软件的结果输出。至少2-3名提供注释的病理医师对同一切片位置的同样标注,才能作为真值与软件输出结果进行比对。
所有的病理医师在注释选定区域之前要遵循以下原则:
a.标记癌症边缘要尽量的紧贴癌症区域,要画出最小癌症区域;
b.可以选择良性细胞和癌细胞混合呈现的区域进行标记,因为软件输出定位坐标(X,Y)的目的就是标出病理医师感兴趣的区域并引起注意。
为了避免因病例水平重叠而产生的偏倚,数据分析只使用了独立的患者病例,即:与研发数据集相比,所有切片在患者层面都是独立的。研究样本最终纳入了包括728个扫描图像(311个来自癌症组织切片,417个来自良性组织切片)。
主要终点数据:
真阳性(TP):算法将切片准确分类并且高度怀疑为癌症的区域定位坐标(X,Y)在预定义阈值范围内,294/311;
真阴性(TN):算法将切片准确分类并且怀疑不是癌症,392/417;
假阳性(FP):算法将怀疑为癌症的切片错误分类,25/417;
假阴性(FN):算法将怀疑为不是癌症的切片错误分类;或算法将切片准确分类为怀疑为癌症,但未将怀疑为癌症的坐标(X,Y)区域定位正确,17/311。
结果:敏感性:94.5%(95%CI:91.4%-96.6%);特异性:94.0%(95%CI:91.3%-95.9%)。
同时,也分别对来源于公司内部和外部机构(217个外部机构)的准确度结果进行了敏感性和特异性的统计。这些结果显示有些许差异,可能是由于病例人种机构分布差异和机构的切片制作方式差异性有关。
(2)精密度研究
该研究评估了高度怀疑为癌症的图像定位精密度(应在预期阈值范围内)。精密度研究的切片与算法训练、调优和测试集相互独立。研究包含来相互独立病例的35个癌症扫描图像和36个良性扫描图像。
a.扫描仪内精密度:同一切片扫描3次,重复用同一个扫描仪和一个操作者。
扫描仪内精密度结果:
总体:阳性符合率99.0%(97.1%-100%);
阴性符合率94.4%(88.9%-99.1%)。
所有3次结果都正确的重复性(按组计算):
癌症:97.1%(34/35);
良性:88.9%(32/36)。
总体重复性(按重复次数算):
癌症:99.0%(104/105)(95%CI:94.8%-99.8%);
良性:94.4%(102/108)(95%CI:88.4%-97.4%)。
结论:按照总体重复性(按重复次数算):癌症99.0%(104/105)(95%CI:94.8%-99.8%),良性94.4%(102/108)(95%CI:88.4%-97.4%)。
b.重现性研究(评估扫描仪间和操作者间变异):切片用3个不同扫描仪分别扫描1次,在不同的地点(内部研究地点),由3位不同的操作者(操作者1对应扫描仪1)进行。
重现性研究结果(按照总重复次数算):
癌症:100%(105/105)(95%CI:96.5%;100%);
良性:93.5%(101/108)(95%CI:87.2%;96.8%)。
c.定位精密度:玻片被扫描5次(3个扫描仪和3个操作者:操作者1和扫描仪1,重复3次扫描;操作者2和扫描仪2,1次扫描,操作者3和扫描仪3,1次扫描)。
从前述精密度a和b研究的35个癌症和36个良性扫描图像中随机选择19个癌症和4个良性扫描图像进行定位精密度评估。19个癌症切片共收录95个区域。(注:仅对癌组织切片的定位精密度数据进行了评估)
定位精密度结果:操作者1扫描仪1重复3次扫描,n=57(19×3),错误定位1次,正确56次,定位正确率为98.2%(56/57)(95%CI:90.7%-99.7%);3位操作者(1个操作者扫描1次),n=55(排除2例),错误定位2次,正确53次,定位正确率为96.4%(53/55)(95%CI:87.7%-99.0%)。
来源:CMDE