基因定位研究中的表型处理（下）_【基迪奥生物】

基因定位理论与实战，都在这个培训班里。...

在上周文章《基因定位研究中的表型处理》（戳这里）中，我们介绍了表型的类型、分布类型的检验、表型异常值的处理等内容。那么如何进行表型数据的标准化、如何善用哑变量定义难以数值化的性状呢。以及如何利用BLUP处理多年多点的表型数据呢。以上这些内容都将在本文中跟大家探讨。

数据的标准化

数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间。例如，将数据统一映射到[0,1]区间上。在同时对各类表型开展关联分析的时候，不同类表型的数值以及变异范围可能非常巨大，甚至差了几个数量级。

例如，A表型变化范围可能是0.2~0.9，B表型的变化范围可能为20,000~80,000。那么，如此巨大的表型值差异就不利于在完成分析后进行不同表型的比较（例如，表型在某个关联SNP位点的遗传方差）。

为了解决这个问题，则可以对数据进行标准化。数据标准化的基本原则就是在不改变一组数值相对大小的情况下（自然也不影响关联分析的结果），对数据的整体进行调整。

常用的数据标准化方法有两种，一种是z-score标准化，另一种是min-max标准化。（1）z-score标准化

我们常说的数据中心化方法之一，公式为：z = （x - μ）/σ；

z为标准化后的值，x为原始表型，μ为这组表型的平均值，σ为这组表型的标准差。

在z-score标准化后，这组表型将变成均值为0，标准差为1的一组数，低于平均值的表型变为负数，反之则为正数。

如此处理后（如下图），数据的整体分布模式以及个体之间相对大小并没有改变（大哥依然是大哥），只是数据的变异范围被压缩到以0为中心的一个小区间。如此，将便于对不同类型的性状进行比较。

图5 Z score中心化前后的比较

类似的，在eGWAS分析中，是以基因表达量为表型。由于不同基因的表达量差异极大，也往往需要进行Zscore矫正后再开始后续的分析。

还有另外一个地方，也会用到Z score标准化，那就是绘制热图，相关内容可以查看以下帖子。

《Omishare Tools 中“热图”工具使用教程》

http://www.omicshare.com/forum/forum.php?mod=viewthread&tid=407&fromuid=12

（2）min-max标准化

一种将数据转换到0~1之间的方法。公式为y = (x – min(x))/(max(x) – min(x))； y为标准化后的值，x为原始值。如果矫正后，最小值将转化为0，最大值将转化为1，其他数值根据相对大小，被重新分布在0~1之间。

这种矫正效果也类似Z score矫正，但唯一的不足是个别极端值对矫正后的总体分布影响比较大，所以对于基因表达量等这类数据效果可能不大好。

利用哑变量定义难以数值化的性状

一些性状属于描述型的多分类性状，不好直接数字化。例如，群体花色有红、黄、蓝3种颜色。由于红、黄、蓝没有明显的线性梯度关系，那么就不能将它们简单赋值为1、2、3，而是需要将它们按照合理的逻辑重新进行归类。这就需要引入哑变量对它们进行归类。

哑变量，又称为虚拟变量，是一种人为定义的变量类型，通常取值0和1。如花色的例子，将可以类似下图，针对每种颜色进行分组并赋予0,1变量，那么原来的一组颜色变量就被拆分为了3组重新定义的变量。

图6 颜色分类的哑变量

然后就可以对3种方式赋值后的结果分别进行关联分析，获得与不同类型颜色关联的结果。赋值时需要注意1和0比例不要太悬殊，否则可能会降低检验的功效。

当然，哑变量本质是对性状的重新定义。还是花色的例子，如果我们颜色的理解更深刻，还可以用其他更好的方式定义它们。例如，我们如果确定了不同花色形成的本质原因是某些代谢物的含量或组成，那么我们就可以用代谢物含量或组成来代表花的颜色。

图7 利用代谢物进行花色的关联分析

多年多点表型的处理

多年多点表型处理，为获得可靠的关联结果，我们通常会对同一个性状观测多次，多次观测可能是相同年份不同地点，也可能是不同年份相同（或不同）地点。

对于此类数据，我们可以根据性状的遗传机制选择不同的处理方式。

如果性状遗传力高，受环境影响不大，我们可以根据多年多点的结果取均值或BLUP值作为该性状的代表值进行分析。

如果性状遗传力低，受环境影响大，我们可以每年每点单独分析后综合评判结果，在获得定位结果后（例如获得了10个关联位点），那么可以利用多元回归模型开展基因-环境互作的分析。

图8 受环境因素影响大的表型可以多次结果进行独立的分析和比较

关于BLUP分析（全称最佳线性无偏估计）可能是很多小伙伴关心的。

这个算法可以利用模型来估算年份、地点等效应对表型影响的效应值，从而我们可以计算剔除这些环境因素后剩下的基因型效应是多少，从而可以将多年多点的表型数据整合为一致的基因型效应数据（剔除环境效应后的表型值）来开展关联分析。

那么，BLUP更具体原理是什么？该如何操作呢？想了解更多内容，可以参加我们的暑期重测序培训班。

我们的培训班课程内容如下图,内容涵盖了连锁分析、关联分析、群体遗传分析，以及表型值处理的方法等。本次培训理论紧密联系实操，将手把手指导你如何利用R语言、Tassel、Haploview等对群体数据进行处理。所有报名的学员，还将获得基迪奥独家编写的《重测序红宝书》一本。

课表：

报名方式：

① 发送邮件：

contact@genedenovo.com 主题：培训班内容：姓名+单位+电话

② 拨打热线：

020-39341079 18054271626 小圆

报名截止日期：2018年7月23日

报名费：3500元/人

包含培训费、资料费、上机费及其他材料费，食宿费自理。

培训地点：华南理工大学广州大学城校区

培训时间：2018年8月2日-8月4日

今天的内容就到这里啦~