粪便自动化检测技术（四）——AI在粪便形态学检验中的应用

当检验遇上AI...

近年来，AI应用于医疗研究已经成为现代科技的热点。AI可以在多个环节发挥作用，如医学影像识别、生物技术、辅助诊断等领域，目前应用最为广泛的当属医学影像识别。科域生物一直致力于AI在检验形态学的应用研究，目前已成功在多款仪器上采用深度学习的方法实现了图像的自动识别。

粪便样本对比血液和尿液样本，由于有形成分类别多，图片复杂干扰多，图像识别难度大。科域生物将深度学习方法成功应用于粪便分析仪，现在已取得非常好的效果。下面就科域生物在粪便形态学的深度学习应用做简单介绍。

传统机器学习与深度学习

在传统机器学习中，大多数应用的特征都需要专家确定然后编码为一种数据类型。特征可以是像素值、形状、纹理、位置和方向。大多数机器学习算法的性能依赖于所提取的特征的准确度。在形态学应用时，传统机器学会将问题分解为两步：物体检测和物体识别。首先，将一个个目标从图片中分割出来；然后使用物体识别算法(例如 SVM 结合 HOG )对上一步检测出来的物体进行识别。所以传统机器学习算法的性能取决于图片分割效果和特征值的提取以及算法。在对粪便样本图片进行目标分割时，由于目标差异大，干扰多，往往很难对目标进行有效分割，所以召回率不高，同理所提取的特征值不准确，使得识别率不高。目前，绝大多数厂家的粪便分析仪都采用的是传统机器学习方法。

深度学习提倡直接的端到端的解决问题，从数据中直接获取高等级的特征，这是深度学习与传统机器学习算法的主要的不同。基于此，深度学习削减了对每一个问题设计特征提取器的工作。深度学习会直接将输入数据进行运算得到输出结果。例如可以直接将图片传给 YOLO 网络(一种深度学习算法)，YOLO 网络会给出图片中的物体坐标和类别。

科域生物深度学习AI技术应用

深度学习算法、计算能力、大数据是人工智能的三大要素，在粪便形态学应用研究中，科域围绕这三个要素展开。

科域生物现已全国装机三级医院用户近二百家，另有病理性成分特别多的医院为科域生物提供长期的合作和特殊样本来源，因此，为AI提供了大量的样本来源作为数据。对于数据，科域建立了一套完整的数据处理程序。首先，在专家的指导下我们建立了类别清单，该类别清单涵盖了常见的粪便有形成分，以满足临床需求。我们还搭建了标注系统，该系统采用c/s架构，可以多客户端并行使用，能够自动进行标注，并提供筛选、统计、校正、复核等功能，每天可以处理几十万原始图片。该系统可以输出目前常见的深度学习框架所需要的数据格式。该标注系统的搭建，减少了人工标注的工作量，加快了数据的收集，同时保证了数据的质量。

对于计算能力，由于深度学习训练过程耗时长，在进行调优研究时过程就非常耗时，为此科域搭建了多台高性能服务器，可以同时进行不同参数下的模型训练，加快调优速度。同时，我们还为标注系统搭建了服务器，满足数据标注的需求。对于推理过程，我们对nvidia的多款GPU进行了比较研究，还对一些推理专用芯片进行了测试比较。

对于深度学习算法，我们对常见的物体检测算法进行了研究。对于图像中较大的目标，三种算法精度差异不大，但尺寸较小的目标，FRCNN精度最佳。图片尺寸也是影响精度的重要因素，因为图片尺寸大，意味着更多的小目标能被检测到，但图片越大，检测的速度越慢。为了提高精度/时间比，我们采用剪枝技术进一步改进了算法，使得推理过程可以达到实时检测。

未来展望

由于深度学习能够达到比传统机器学习更高的识别准确率，在形态学图像识别的应用必将取代传统机器学习。

图像识别是粪便检测中的难点，也是临床需求最重要的关注点，深度学习为粪便检测以及整个形态学检验提供了很好的技术途径，但也存在很多的困难。

首先，数据采集是一个长期的过程，拥有大量客户及样本数据来源会具有先发优势，该过程影响产品的上市时间。在进行数据采集时，如何从大量的图片中筛选出有效的图片，如何对不常见，有疑问的目标进行正确标注。针对这些问题，科域正建立一套完整的标注规则以保证数据质量。其次，有很多粪便有形成分不常见，无法收集足够的数据，针对这一问题，科域正尝试采用数据增强的方式处理。识别准确率是临床的核心诉求，追求高识别率，低硬件资源，高识别速度是没有止境的，科域将不断丰富现有客户数量与资源，不断增大样本数据，对现有算法进行改进，以达到最好的性能。

科域－科技服务人类健康！