基因定位研究中的表型处理

 

你与周老师的距离,只差一个培训班...



表型-基因型关联分析,是寻找与性状相关基因的重要手段。在基因型检测的手段不断丰富(重测序、GBS、多重PCR、SNP芯片等)以及成本不断降低的时代背景下,表型检测和数据前处理,就显得尤为重要,因为这将直接影响关联(连锁)分析结果的准确性。

表型的类型

常见的表型性状,我们可以将其分为三种:数量性状,质量性状与分类性状(如下表)。数量性状在遗传育种研究中十分常见。此类性状由多基因控制,且可以用数字量化,例如产量、株高等,所以它们也比较容易量化且适用于大部分线性回归分析模型。

表1 三种类型性状的特点


质量性状是一种简单的离散型分类性状。严格意义上讲,单基因组控制的性状才可能被定义为质量性状,例如人类单基因家族遗传病,动植物突变体研究中单基因突变体。

以上的两种情况都是我们期望的理想情况。但自然界生物的表型比以上两种情况远为复杂,很多表型既不是质量性状又难以简单地用数字量化。

例如,某种植物不同品种的花颜色可能包括蓝、黄、红、紫等多种颜色,叶片形状可能三角形、圆形、椭圆形、长条形等。山羊角的数量,可能是无角、正常(二角)、三角、四角等。

对于这种情况,则需要我们对表型本质进行剖析,然后对性状进行分级,我们将这种通过人为观察而可以进行分类的离散型变量统称为分级性状

但要注意一点,分级性状最终的定义,还是部分依赖于我们的经验。例如,对于植物的抗病性,我们既可以按照叶片病斑的面积(0~100%),将其定义为连续型的数值型性状,也可以人为设定阈值将其定义为分级性状(高、中、低)。

对人类的血压,既可以按照血压的高低将其定义为连续型的数值型性状,也可以人为设定一个阈值,然后将人群分为高血压组(病例)和健康组(对照)。

而病例-对照研究,正是人类复杂疾病研究的常见模式。因此在实际应用中,符合简单离散分布的性状(例如分为两类),可以是单基因控制的性状,也可以是复杂的多基因组控制性状,只是我们通过一定的标准将样本进行了两类。

表型值的处理
1
分布类型的检验

对于符合一定遗传模式的性状,其性状分布模式也应该符合一定的特性。例如单基因控制的隐性性状,理论上符合3:1的分离比。我们则可以使用卡方检验来判断。对于多基因控制的数量性状,理论上其表型应该符合正态分布(又称作高斯分布)。当我们拿到一组性状的时候,如何判断其是否符合正态分布呢?
图1 多基因性状的正态分布


最简单的方法,可以R语言中自带的shapiro.test命令进行检验。如果P value > 5%,则说明数据分布近似正态分布。另外,也可以通过R语言hist命令对表型数据进行可视化(频率直方图),从更直观的角度观察其是否符合正态分布的特点。
图2 利用R语言绘制数据的分布模式


关于表型数据的正态性判断,也可以登录Omicshare论坛了解一下。

《数据正态性检验的方法》

http://www.omicshare.com/forum/forum.php?mod=viewthread&tid=790&fromuid=12

正态性检验的意义除了用于辅助判断一个性状是否为多基因控制的数量性状,还有一个意义在于大部分表型-基因型关联分析的模型属于线性模型。线性模型要求数据符合正态分布,从而保证结果可靠性。

在实际项目中,在样本量较大的情况下,我们一般直接忽略表型数据的正态性检验,而是直接通过观察频率直方图,判断性状值大体符合正态分布即可。

相比性状是否符合正态分布,另一种情况更值得我们注意:那就是离群异常值样本。

2


表型异常值(极端值)的处理

如果数量性状符合正态分布,理论上应该符合中间个体多,两端极端个体逐步减少的特点。但有时候,数据中可能依然会出现离开群体很远的位置,突然孤零零冒出几个数值异常的个体。

这种情况就非常值得我们注意了,这样的样本有大概率是表型检测的错误。例如,在mGWAS研究中(以代谢物为表型的关联分析),在进行代谢物液相色谱检测的时候,软件有可能在部分样本中会将相邻峰与目标峰混淆,导致部分样本目标代谢物的表达量被高估。

而这种情况,几乎只能靠人工去检查峰图文件才能发现问题。所以,对于这种离群的异常值,我们都有必要回头去检查原始数据,判断其是否准确。
图3 群体整体分布中的极端值个体


如果无法判断真伪,则要考虑将这些极端值个体去除。因为极端异常值的存在可能引起关联分析结果的异常。

例如下图,就来源我们一个项目的关联分析结果,曼哈图图中有大量关联的峰且这些峰的显著性相似。检查后,发现是由于群体中存在数个表型值“离奇”大的极端个体。由于这些个体表型值异常高,导致这几个个体特有的基因型无一例外地被软件判定为与性状强相关(P值显著,且显著性相似)。

很显然,这样的结果并不符合数量性状的特点。因此,我们将这几个个体剔除重新分析,结果果然就恢复正常了。
图4 极端值导致的关联分析假阳性


那么,异常值如何才能被找出并去除呢?异常值去除的主要方法包括:

1)排序观察法,即排序观察后手动去除我们认为异常的观测值;

2)3 sigma规则,即在均值加减3倍标准差范围内的值为正常值,其他值为异常值

如下图,在标准正态分布下,理论上落在3倍标准差外的样本数应该低于群体总样本数的0.3%。考虑到中小型GWAS研究的样本一般只有几百例,3倍标准差的样本如果过多,则显然是异常情况。
图5 标准正态分布的概率分布


3)箱线图方法,绘制箱线图,在触须以外的值均可以判断为异常值。

在实际关联分析中,如果表型种类较少,我们一般使用第一种方法,按照人工经验判断去除异常值即可。但如果表型种类过多(例如,检查了几十种数量性状),那么人眼一个一个看自然效率就太低了,则可以考虑用第二种方法,自动将异常样本去除。

好了,今天对遗传学研究中表型数据的处理方法,就介绍到这里。在下期的文章中,我们将会继续介绍表型数据的标准化、利用哑变量定义难以数值化的性状,以及利用BLUP处理多年多点的表型数据。

当然,以上这些内容,都是基迪奥2018暑期重测序培训班的课程内容。本次重测序培训班由基迪奥课程内容如下图,内容涵盖了连锁分析、关联分析、群体遗传分析,以及表型值处理的方法等。

本次培训理论紧密联系实操,将手把手指导你如何利用R语言、Tassel、Haploview等对群体数据进行处理。报名的学员,还将获得基迪奥独家编写的《重测序红宝书》一本。

课表:



报名方式:

① 发送邮件:

contact@genedenovo.com   主题:培训班  内容:姓名+单位+电话

② 拨打热线:

020-39341079 18054271626 小圆

报名截止日期:2018年7月23日

报名费:3500元/人

包含培训费、资料费、上机费及其他材料费,食宿费自理。

培训地点:华南理工大学 广州大学城校区

培训时间:2018年8月2日-8月4日




    关注 基迪奥生物


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册