摘 要
截至2020 年6月12日,新冠肺炎感染已遍及200多个国家和地区,成为了全球性的大流行病。面向斩断新冠传播链的早筛过程和提高治疗水平的病变评估需求,人工智能的计算机辅助诊断系统可进行快速、智能、全天候地进行筛查和病变评估,对于缓解疫区放射科医生工作压力,提高诊断效率和水平具有重要意义。然而,新冠肺炎复杂和多样的CT影像学表现给辅助诊断系统的开发带来了巨大挑战。本文介绍了智能化新冠肺炎早筛和病变评估的难点和相关关键技术,以及开发的新冠肺炎早筛和病变评估平台。
关 键 字
新型冠状病毒;肺炎;CT影像;神经网络;诊断系统
0 引言
COVID-19(Coronavirus Disease 2019,COVID-19)已经成为自第二次世界大战以来,全世界面临的最大的公共健康危机。截至2020年6 月10 日,全球新型冠状病毒肺炎的总确诊人数已突破750 万,总死亡人数高达42 万,且确诊病例数和死亡病例数仍在快速增长。为了应对COVID-19,多国采取了包括居家令,以及停止生产和娱乐活动的措施,严重影响了世界各国经济发展,给世界经济造成了重大冲击。
COVID-19 具有多个特点使其难以控制:① COVID-19 是高度传染性的,可以通过直接传播、气溶胶传播和接触传播。一个新冠病人的传播力在3~4 之间,面对着新冠病人的快速增长,任何国家的医疗系统都将会承受巨大的压力。② 医生几乎不可能仅通过临床特征(例如发烧、干咳和呼吸困难)将感染COVID-19 的患者与由流感病毒、支原体、衣原体、呼吸道合胞病毒,以及细菌引起的间质性肺炎相区别;并且存在很多的无症状感染者。③ 如果发生细胞因子风暴,病情将快速恶化。现有的人工病变评估方式效率较低,使得COVID-19 病人难以得到及时治疗。
因此,我们提供:① 如何智能化地快速筛查新冠肺炎疑似病人以尽早隔离,打断新冠肺炎传播链。这对算法的效率、敏感性和特异性提出了很高的要求。② 怎样及时评估感染病人的病变程度,帮助医生快速判断病人的病变程度,这将能帮助病人获得更好的治疗,降低病人的致死率。
事实上, 核酸检测是目前公认的鉴别COVID-19 的金标准。但是, 核酸检测却有着检测耗时和假阴性高的缺点。与之相比,CT(Computed Tomography) 影像则是一个受欢迎的利用其详细的影像学特征,评估肺部疾病的模态,且COVID-19病人在肺部的CT 影像上有着相应的放射学表现。所以利用CT 可快速获取的特点,进行COVID-19 的早筛和病变评估,对于切断病毒传播链,降低病人的致死率有着重要的意义。
然而,开发新冠肺炎早筛和病变评估平台的过程中,如何解决好数据获取难、又快又准的新冠肺炎早筛和病变评估设计难,以及系统平台开发部署难的难点,成为了亟待解决的关键问题。下文介绍我们团队针对上述难点的解决方案,并对所开发的系统进行介绍。
1 难点与挑战
新冠肺炎疫情急迫,促使我们尽快实现一套准确且高效的诊断系统并部署到医院中。这项任务对我们整个团队提出了诸多挑战,难点主要集中在三个环节上。
1.1 数据收集难
在数据收集环节中,收集了新冠肺炎、其他肺炎和正常胸部CT 图片,并对图片进行标注和处理( 如图1 所示)。同时, 由于新冠肺炎自身特性,收集到的数据中,普通型、严重型COVID-19 样本分布并不均匀,这对我们算法的鲁棒性和类别间平衡性提出了很高要求。在数据标注过程中,我们面临了标注任务重、时间要求紧等问题。每个病人的CT 图像都包含数百张切片,为了实现病灶分割和疾病分类,必须勾画出每张切片的病灶区域,并赋予病人相应的分类标签——新冠肺炎(包含严重型COVID-19 和普通型COVID-19)、正常及其他肺炎,工作量庞大。我们需要培训一组能使用专业医学标注软件的队员,每当获得一批新的原始CT 图像数据时,标注小组成员将同步进行标注。另一方面,CT 图像还存在病灶区域与正常组织边界不明显、病灶类型难以判断等问题,容易导致标注质量不一致,需要对标注结果进行多次审核修正,对标注质量差的样本重新标注,减少输入数据中的噪声,确保输入数据的质量。在数据处理过程中,由于设备差异,获取的CT 图像格式可能不同,需要我们在数据读取和展示过程中做好对不同图像格式的兼容。更为关键的是,由于CT 图像包含复杂的信息,在模型运行时,数据中包含过多的信息量可能会超过GPU 显存的容纳能力,因此需要对每个病人的CT 图像数据预先进行肺部分割(可以观察到病灶区域复杂且不明显、新冠肺炎与其他肺炎难以区分等特点,这为数据标注、算法设计带来了很大的挑战),提取关键的肺部信息,去除肺部外的冗余信息,降低模型学习的复杂度,最后仅保留包含肺部信息的CT 切片。经过处理与去冗余信息后的CT 图像数据才可以作为合格的输入数据,保证了算法的可行性和兼容性。
图1 正常、新冠肺炎与普通肺炎患者胸部CT 切片示例
1.2 算法设计难
在人工智能算法模型开发环节,需要充分考虑数据与标注的特点,保证算法的准确性和高效性。在新冠肺炎分型任务中,针对数据的噪声和不一致性等难点,着重考虑加强模型的鲁棒性,力求模型在关键分型任务上取得高准确率。对于数据本身类别不均衡、样本量小的问题,我们设计了交叉验证流程,保证模型具有良好的泛化能力。在病灶分割任务中,由于病灶通常只占据肺部信息的较少部分,其信息容易被模型所忽视,为模型加入了注意力机制(Attention Mechanism),来强化模型对于稀疏的病灶特征消息的利用,提高了分割算法的精细程度。在模型的优化方面,主要关注丰富数据量和提升模型高效性两种途径。在系统开发期间,持续收集数据,跟进数据标注与处理,进一步丰富数据集,提升模型泛化性能。此外还在系统中加入了人工诊断结果修正功能,在系统的实际部署过程中,医生可以对诊断结果进行修正,诊断错误的样本经过正确标注后同样可以加入到数据集中。在实际使用过程中,系统需要尽快输出诊断结果,以节约医生和患者宝贵的时间。我们高度重视对于算法的效率优化。在初代模型训练完成后,对模型中的各个模块进行评估和缜密的测试,找到模型效率的瓶颈,解决算法设计中的痛点,并针对性地进行了优化。经过多次迭代,模型的分型和分割效率均得到了成倍提升。
1.3 系统部署难
在系统部署环节,需要完成整个系统包括前、后端,以及算法模块的开发和部署。我们需要对前、后端模块进行本地化,算法模块进行封装,同时编写详尽易懂的系统部署和使用手册,方便系统快速部署,降低医生学习系统的时间成本。我们对分型、分割及其他计算任务尽可能地进行了并行化处理,以进一步加快诊断速度。而另一方面,考虑到可能会同时发生多个病人的诊断请求,由于计算资源不足而导致任务排队,也设计了良好的诊断状态展示机制,保证医生使用系统开始诊断后可以及时得到任务状态的反馈。由于诊断平台系统需要尽快部署到医院中,并且仅在医院内部使用,需要尽可能快地开发出一套高质量的系统,保证按时交付的同时,确保系统在实际应用中的有效性和稳定性。这对整个项目组的统筹安排、开发人员的远程开发工作效率都提出了较高要求。我们对开发进度进行了科学的安排,项目的各个开发组互相协调,保证每一项任务能有条不紊的、高质量的完成。为了保障系统正式部署后的鲁棒性,安排了测试人员对系统的各个模块进行测试,尽早发现和解决问题。
2 新冠肺炎CT影像智能诊断关键算法
2.1 诊断流程
随着新冠病毒的快速传播,需要大量的医疗资源,并要根据病情轻重分配给最需要的病人。CT 影像能为医生的快速诊断提供非常丰富的信息,然而,每组CT 影像通常包含数百张切片,极大地增加了医生诊断的工作量。人工智能辅助诊断技术的快速发展给医生带来了巨大帮助。基于CT 影像的新冠肺炎主要诊断流程如图2 所示。
(1)早期筛查任务。CT 影像数据首先经过肺部分割网络,得到肺部区域轮廓,再将肺部区域同原CT 影像点乘得到原始肺部区域,然后通过分类网络得到COVID-19、其他疾病或健康的诊断结果。
(2)病变评估任务。将在早期筛查任务中诊断为COVID-19 的病人CT 影像通过病变评估分类网络, 得到普通型COVID-19 或严重型COVID-19。
图2 新冠肺炎疾病诊断流程图
2.2 注意力机制
注意力机制能网络帮助聚焦于感兴趣的区域,因此在医学图像处理中,有关注意力机制的研究越来越受到人们的重视。本团队在早期筛查和病变评估的分类网络中均使用了注意力机制,具体而言,使用了两种注意力机制来提升分类网络性能。
(1)切片间注意力机制,让分类网络能自适应地聚焦于对分类结果作用更大的切片,如图3所示,包含较大区域的影像学特征的切片具有较高的注意力权重得分。只有将尽可能多的包含病变的重要切片整合起来,才能计算出相关病变的体积,并将相关切片一起进行分析,这种切片间的注意力机制学习了专业放射科医生的先验知识和工作模式。
图3 切片间注意力对分类结果的权重评分
(2)切片内注意力机制,如图4 所示。这里有4组切片内注意力图,将注意力分数通过热力图显示,热力图中颜色越接近红色,相应的注意力权重分数越高。在图4(a) 和(b) 中,注意力机制能聚焦于单个病灶区域,即使在(b) 中损伤情况相当细微,切片内注意力机制仍然能注意到该区域;在图4(c) 和(d) 中,切片内注意力机制能注意到多个病灶,特别适用于包括COVID-19 在内的病毒性肺炎;尤其在图4(d) 中,切片内注意力机制可以区分红色边界框中的正常组织和黄色边界框中的毛玻璃阴影,这种情况下,网络能发现病变的重要细节,这有助于最终的诊断任务。结合切片内和切片间注意力机制可明显提升分类网络性能。
图4 切片内注意力机制
3 新冠肺炎CT影像智能诊断系统
如图5 所示,我们设计的新冠肺炎CT影像智能诊断系统包含早期筛查、病变评估、病灶分割和肺部及病灶像素分布直方图显示等功能。为了使系统的开发、维护和使用更为便捷,采用了B/S 架构(浏览器和服务器架构),其包括前端和后端两部分。将数据的上传和结果的展示放在前端(浏览器端)进行,而将数据的处理、算法的执行,以及任务的控制放在后端(服务器端)实现,这样使医生可以直接使用浏览器来访问诊断平台,而不需要安装任何复杂的软件,更易于上手。
图5 新冠肺炎CT 影像智能诊断系统
主要的操作流程为,打开网页,在信息录入界面上传病人的CT 影像到服务器,点击开始诊断,服务器执行算法,并将分析结果传回到网页上显示。诊断结果包括疾病分型、病灶分割和像素分布直方图三部分,其中,分型结果包含“正常”“其他肺炎”“普通型COVID-19”和“严重型COVID-19”4 类;病灶分割结果用浅红色区域表示,通过滑动滚轮,可以查看在不同切片上的分割结果;直方图统计了不同区间内肺部或病灶的像素数量,以及像素分布的均值、方差和病灶区域的总占比,以判断肺部的感染情况。
4 结束语
随着医疗资源缺乏的加剧和人工智能的不断发展,人工智能与医学结合是大势所趋。人工智能能大大节约医生的时间,提升诊断效率,同时也提高了诊断的质量。新冠肺炎疫情期间,人工智能的入场有效缓解医疗资源紧张的困境;同时,疫情也对人工智能医学应用提出了更高的准确性、时效性要求。本文介绍了新冠肺炎CT 影像智能诊断系统的开发难点、技术与现实成果。
(参考文献略)
选自《中国人工智能学会通讯》
2020年第10卷第6期 人工智能在抗疫中的应用专题
来源:oschina
链接:https://my.oschina.net/u/4407543/blog/4645268