遗传病致病变异

王凯教授AJHG发文：遗传病诊断需要更高效率的解读工具

生物探索编者按随着中国遗传病检测行业的快速发展，遗传病诊断和筛查的重要性受到关注。在了解遗传病的过程中，如何...

生物探索

编者按

随着中国遗传病检测行业的快速发展，遗传病诊断和筛查的重要性受到关注。在了解遗传病的过程中，如何保证遗传病数据解读和诊断符合一定的标准与指南，同时也能够满足越来越高的效率要求，这具有非常重要的实际意义。哥伦比亚大学生物医学信息学教授、北京希望组首席科学家王凯教授在AJHG杂志上展示了致病变异解读工具InterVar，这对于遗传病科研的发展、遗传病诊断行业的发展都将产生很好的推动。

本月初，哥伦比亚大学生物医学信息学教授、北京希望组首席科学家王凯教授在《The American Journal of Human Genetics》杂志上详细介绍了疾病变异分析解读工具InterVar及其在线版wInterVar如何帮助遗传病数据解读人员实现高效分析，更高效地根据ACMG（美国医学遗传学与基因组学学会）2015年发布的变异位点临床意义判读指南的28条评估标准，对海量变异位点信息进行半自动化分析，加快遗传病基因分析和诊断速度。

权威指南标准有了，实践却并不容易

根据2015年5月ACMG联合美国分子病理学学会（Association for Molecular Pathology，AMP）发布的疾病变异位点的分类及解读标准，变异位点主要分成五大类：致病、疑似致病、临床意义不明确、疑似良性、良性。同时将变异位点的所有相关证据细分为28种，从而根据这28条的综合判读将特定变异位点归类于上述五类之一。

由于指南本身并不能将每一项评判标准的细节和参数都明确指定，因此不同的数据解读人员在具体操作中可能存在一定的差异（例如选择什么样的疾病数据库进行注释，或者人群频率的阈值应该设为多少等），从而导致遗传病诊断结论的一致率不高。2016年，美国的一项针对9家临检实验室的99个变异位点的临床判读结果显示，结论一致率仅为34%，并且部分位点的争议性判定直接影响临床决策。指南标准的建立是重要的一步，但后面的路仍然很长。

另一方面，随着测序技术的发展普及，许多公共疾病数据库快速地积累数据，并在遗传病数据解读中得到大量应用。但是录入标准不一、准确度参差不齐等现况，在一定程度上影响了ACMG指南应用时的准确性。王凯教授于2016年合作发表的第一个三代测序组装的黄种人基因组“华夏一号”在对基因变异位点进行注释时，发现了两个被CinVar定义为致病的位点，但进一步人工排查却发现其引用的原始文献中并未定义为致病变异，数据库录入的数据信息有误。要解决这一瓶颈，必须对现有数据库进行定期的整理和更新，并且搭建更多像ClinGen这样的高质量疾病数据库；同时也需要人们不断积累实战经验，在指南的基础上摸索适合不同遗传病类型的参数设置。

遗传病诊断需要更高效率的解读工具

为了提高遗传病数据解读的效率，更好地应用ACMG指南，王凯教授带领团队开发了能够半自动化解读的InterVar，并对目前广泛应用的人群及疾病数据库（列举）进行信息筛选整理及格式标准化，令其能够更好地配合InterVar分析。InterVar可以实现对ACMG 28条判读标准中的18条进行自动化评分，其余10条由于需要后续证据输入或者参数调整（例如Sanger测序验证结果），因此自动判读完成后的第二步即为人工审校和调整，这对于得到最终判读结论是必不可少的。在使用InterVar时，既可以直接调用ANNOVAR来运行注释流程，也可以输入其它注释软件的结果文件。

图1：InterVar的工作流程图

真实数据验证InterVar的自动化判读优势

文中用InterVar分析了一组来自12个已发表文献的、神经发育相关疾病家系外显子测序数据的9305个新发突变位点，从InterVar自动化评分和分类结果来看，来自患病个体的新发突变位点中，致病或疑似致病的位点数量明显高于不患病个体。而如果仅用SIFT和PolyPhen-2这一类致病预测分析软件来预测致病性，其预测的致病或疑似致病位点在患者人群中并无显著富集，一方面表明仅靠生信手段来预测致病性是不充分的，另一方面也表明InterVar与其它疾病变异分析软件在工作原理上有着本质的不同。

另外，InterVar也对公共疾病数据库中的变异位点数据进行了分析，然后与数据库中的分类（致病或良性）进行比较。由于缺少部分证据细节（例如是否父母本中不存在的新发突变、是否家系共分离等），因此也只采用了InterVar的第一步（自动化）分析结果与数据库进行比较。

表1：将InterVar的自动化判读结果（尚未经人工审校）与ClinVar进行比较。在ClinVar判读为良性或可能良性的位点中，超过80%同样也在InterVar中获得良性结论，在没有进行人工审校的情况下，InterVar对不致病位点的判读已经有了一定的准确性；而致病或可能致病的这部分位点中，一致结论的仅为13.9%，其中大部分（82.6%）被InterVar归在了意义不明确这一分类中，如果后续进行证据补充和人工审校，将极有可能对意义不明确的位点进行更准确的判读。

表2：InterVar自动判读结果与ESP6500的比较。Amendola团队基于自己的变异位点判读标准对ESP6500中的部分变异位点重新进行了人工解读，发现总共616个被HGMD定义为致病的变异位点中，仅有70个是致病或可能致病，其余的大部分都只能定义为临床意义不明确。InterVar的自动判读结果从这616个位点中定义了33个位点为致病或可能致病，而43.2%被归为临床意义不明确，在一定程度上印证了Amendola团队的人工解读结论——这600多个位点有大量被错误地分类了。

表3：InterVar与CLINVITAE的比较。跟其它数据库不同，CLINVITAE在收录变异位点时基本遵循统一的判读标准。在InterVar的自动判读结果中，36.1%为良性或可能良性，1.9%为致病或可能致病，这与数据库录入的结果（46.2%和6.1%）在比例上基本保持一致。

从这些比较中可以看出，InterVar自动化判读能够帮助遗传病解读人员快速地依照ACMG指南进行初步评分，在此基础上再进行人工补充和审校，大大减少解读过程的人力投入，提高效率。

与此同时，文中也对InterVar的应用局限性有所阐述：1，变异类型判读是基于已知的变异位点相关信息进行分析，因此研究更深入的基因的结果可能更准确，这是软件本身无法改变的；2，InterVar主要针对孟德尔遗传病（包括罕见病型的复杂疾病）开发，并不适用于遗传+环境因素影响的常见疾病和复杂疾病；3，除此之外，王凯教授也强烈建议使用InterVar时不仅仅依靠其提供的数据库，同时也应该将解读团队自身积累的变异位点数据库灵活地应用进去。

另外，文中也探讨了一个不容忽视的问题。由于变异位点致病性的判断需要准确的普通人基因组数据库作为对照，而现有人群基因组数据库，例如ExAC和ESP6500，实际上包含了一部分患病成年人数据，这对于分析那些迟发性、外显率不全的遗传病时，会有明显干扰。虽然1000 Genome数据库就这一点来说更适合作为对照，但它的样本量规模太小。

作为一家创新应用三代测序解决遗传病检测难题的公司，希望组在基因组学的道路上不断探索和创新。新的一年，希望组·基因探路者人才招募计划仍在继续，敬请关注希望组！

参考文献：

癌症基因检测最新调查！JAMA得出了6个字

国际合作项目刊登两篇Cell分析17万人血细胞遗传差异与疾病关系