皮肤影像大数据分析:斯坦福团队的研究

2019-05-28 16:20 来源:丁香园 作者:周航宁、谢凤英 、姜志国
字体大小
- | +

随着大数据时代的到来,深度学习技术在图像分类、检测等任务中相对传统模式识别方法均取得了令人瞩目的突破。

2017 年 1 月,斯坦福大学人工智能实验室与斯坦福医学院合作,采用深度学习方法对皮肤镜和临床皮损图像进行自动分类,并在《自然》杂志上发表了相关研究成果,受到人们广泛关注。

斯坦福团队的工作代表了皮肤影像自动分析领域的最新研究进展,本文将对该项工作进行介绍。

皮损分类高精度,他们是如何做到的?

1、数据集

1.1 足够的样本

大量样本对于深度学习至关重要。

没有充足的训练数据,卷积神经网络(CNN)很难从训练样本中学习到合适的特征,网络也很容易陷入「过拟合」的困境。为了让 CNN 拥有强大的泛化能力,必须提供足够多的训练样本。

斯坦福团队构建了一个庞大的皮肤影像数据库,影像数据达到了惊人的 129 450 幅,比以往同类任务所用的数据库大了数十倍甚至上百倍 11。该数据库不仅数据量大,标签信息还十分精细,包含多达 2032 种不同疾病。庞大的数据库和细粒度的标签信息给 CNN 的训练提供了强大助推力。

1.2 数据来源

该团队数据来源包括 ISIC 皮肤病数据库、爱丁堡皮肤病数据库、斯坦福医院数据库和一些公开的皮肤病数据库。其中前三者的数据均已经过活检验证且被精细分类。在数据准备阶段,该团队提出了一种简称为 PA 的自动递归算法,将 2032 种皮肤病依照图 1 所示的皮肤病分类树形结构图聚合成分布更均匀的 757 类(训练类),使每一类所包含的数据量均不超过 1000 幅,同时也不至于过小,在保证细粒度分类的同时让每一个类别均有充足的训练数据,更加有利于深度学习的训练。

1.jpg

在图 1 的树形结构中,大分支分别对应良性皮损、恶性皮损和非肿瘤性皮损 3 个一级分类。3 个一级分类中的每一类对应 2~4 个子分支,形成 9 个二级分类。每个二级分类进一步细分,逐步形成了最底层的叶子节点,而这些叶子节点则对应了具体的皮肤病名。

以往研究往往仅针对皮肤镜图像或组织学图像进行分类,这两类图像均是高度标准化的图像。而该团队构建的数据库包括 3374 幅皮肤镜图像和 126 076 幅临床图像,临床图像在相对尺寸、角度、光照等很多方面均不统一 12,给分类造成了很大困难。传统模式识别方法很难处理临床图像的分类问题,而该团队训练的 CNN 使皮损分类达到了很高的精度。

2、分类框架

除了数据集的构建,利用深度学习进行图像分类的另一个重要任务是分类网络的搭建。其对于分类精度起到了决定性作用。斯坦福团队选择了 GoogLeNet Inception-v3 8 作为其分类网络并将迁移学习技术应用到自己的数据库上。网络结构如图 2 所示。

2.jpg

GoogLeNet Inception-v3 是目前分类性能最强的 CNN 模型之一,通过 ImageNet 数据库中近 130 万幅的图像数据训练而成,具备极强的数据抽象能力、特征提取能力和图像分类能力。迁移学习技术可充分利用已训练好的网络参数,这比仅仅用自己的数据库从头开始训练精度更高。

迁移学习的目标是将从一个应用场景中学到的知识,用来帮助实现新的应用场景中的学习任务。斯坦福团队便利用了这一技术,用约 13 万幅皮损图像对已经训练好的 GoogLeNet Inception-v3 网络进行参数微调,得到了最终用于皮损分类的 CNN 模型。

该团队对皮损图像进行了 3 分类和 9 分类实验。

在训练网络时,将数据集划分为训练集、验证集和测试集,其中训练集和验证集包括 127 463 幅图像,测试集包括 1942 幅图像,且所有测试集图像均经过活检验证,这使该团队的实验结果具有很强的说服力。

在训练 CNN 时,往往训练数据的标签类别数和分类的目标类别数一致,故要将皮损图像分成 3 类或 9 类,往往选择利用 3 类或 9 类图像标签对 CNN 进行训练。

对于如何才能充分利用成百上千类的细粒度标签信息这一问题,该团队将分类树形结构图中每一个包含多个训练类的类别称为一个推理类,每一个推理类均能在分类树形结构图中找到对应节点(图 1)。

对于一幅输入图像,该网络可输出此图像属于 757 个训练类别中每一类的概率,要得到该图像属于某一推理类的概率,只需将其属于该推理类子类的概率求和即可,若子类也是推理类,则迭代该算法。该团队即是通过这种方式最终得到了 3 分类和 9 分类的结果,充分发挥了细粒度标签的优势,该算法被称作 CNN-PA。

3、分类性能

问:PK 一下,网络分类性能会比专业皮肤科医生准确率更高吗?

回答:肯定的。

例 1:斯坦福团队把 CNN-PA 的分类结果与使用 3 类或 9 类粗粒度标签进行训练得到的 CNN 及两名专业医生的分类结果进行了对比。

结果表明,CNN-PA 在 3 分类和 9 分类任务上的精度分别可达 72.1% 和 55.4%,而 CNN 则是 69.4% 和 48.9%,两名专业医生则分别是 65.6%、53.3% 和 66.0%、55.0%,因此,CNN-PA 在三者中拥有最好的分类能力。

例 2:在如下 3 个任务中,

A 区分角质形成细胞癌与脂溢性角化病

B 临床图像区分黑性色素瘤与良性色素痣

C 皮肤镜图像区分恶性黑色素瘤与良性色素痣

将网络分类性能与 21 名有专业资质的皮肤科医生进行对比,

统计结果显示: 对于每一个任务,超过 91% 的医生的分类敏感性和特异性在 CNN 分类网络之下,说明该网络对这 3 个任务的分类准确率也已超过大多数专业皮肤科医生。

以上两组试验表明,无论是 3 分类和 9 分类这样的粗粒度分类任务,还是判断具体皮肤病种类这样的细粒度分类任务,该团队设计的算法均能达到甚至超过专业医生的人眼判别水平。

4、未来应用空间

皮肤科医生在临床诊断过程中,需综合考虑皮损特征、位置以及患者年龄和性别等各种信息,而斯坦福团队当前的方法仅仅利用了皮肤镜图像和临床图像。

除了皮肤镜和临床图像外,皮肤影像还包括共聚焦如下技术:

QQ截图20190528134121.jpg

其各具不同成像机理,可反映皮肤病变不同维度的性质。

对于一些疑似病变,临床医生也通常会选择多种皮肤影像综合分析进而得到正确的诊断。而随着人工智能技术的发展,可把不同皮肤影像数据与患者个人信息相结合,采用深度学习的方法对这些多源、多维度的大数据进行融合分析,得到更为准确的自动分类结果,从而辅助医生作出更准确的诊断,并依此采取合适的方案为患者进行治疗。

预计到 2021 年,将会有大约 63 亿手机用户 13

斯坦福团队设想,如果在移动端配备相应的软硬件,届时用手机进行低成本的皮肤病检测将成为可能。

目前,CNN 虽然功能强大,但巨大的存储和计算代价也使其实用性特别是在移动设备上的应用受到很大限制。不过目前已有学者进行有关网络压缩的研究 14,使用网络剪枝、权重量化和霍夫曼编码等技术对 CNN 进行压缩,其目标就是降低存储和计算消耗,使其可在移动设备上运行,相信这一快速、可扩展的方法未来将应用在手机,使皮肤病患者足不出户也能将自己的疾病信息与诊疗体系对接。

深度学习是一种数据驱动技术,对于同一分类网络,提供不同种类的训练样本,可实现不同分类任务。如能提供充足的训练图像数据,该技术可扩展至其他领域,比如眼科、耳鼻喉科、放射学和病理学等。可以预见的是,深度学习与皮肤病领域及其他医学图像领域的碰撞必将对临床诊断产生广泛而深刻的影响。

5、结语

斯坦福团队构建了庞大的数据库,利用深度学习技术结合皮肤病分类树形结构图以及巧妙设计的 PA 算法,在多个分类任务上达到了与专业皮肤科医生相当甚至更好的水平。代表了皮肤影像大数据分析的最新研究进展。基于皮肤影像对各类皮肤疾病进行计算机辅助诊断可以为医生提供重要的参考,具有很大的现实意义和研究价值。

本文作者所在的北京航空航天大学图像处理中心实验室与北京协和医院、解放军空军总医院以及中日友好医院形成合作,将在皮肤影像大数据分析与计算机辅助诊断方面开展进一步的工作,以期推进黄色人种皮肤疾病的医疗诊断水平。

  • 参考文献略

第一作者简介

2222.jpg

周航宁

北京航空航天大学宇航学院模式识别与智能系统专业研究生

主要研究方向为基于深度学习的皮肤镜图像分类

通信作者简介

谢凤英 .jpg

谢凤英 

北京航空航天大学宇航学院图像中心,模式识别与智能系统教授,博士生导师,是中国体视学学会理事、中国图像图形学会医学影象专业委员会委员、中国人群皮肤影像资源库项目专家、中国医疗保健国际交流促进会皮肤科分会皮肤影像学组组员。

作者:周航宁 1,谢凤英 1,姜志国 1,刘洁 2,晋红中 2,孟如松 3,崔勇 4

单位:

1.北京航空航天大学宇航学院图像处理中心

2.北京协和医院皮肤科

3.解放军空军总医院皮肤科

4.中日友好医院皮肤病与性病科

通信作者:谢凤英

文章来源:协和医学杂志

《专家论坛|基于深度学习的皮肤影像分类》2018,9(1):15-18.

编辑: 李婷

版权声明

本网站所有注明“来源:丁香园”的文字、图片和音视频资料,版权均属于丁香园所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:丁香园”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。