群体结构三剑客—structure入门
2016年11月Nature Genetics杂志发表了一项基于Structure(被引用接近20000次的牛文)开发的一种可以用于扫描大量的遗传数据集新的机器学习算法—TeraStructure,引起了不少学者的关注。...
新媒体管家
经验
| 文献
| 实验 | 工具 | SCI写作 | 国自然
作者:liufan
转载请注明:解螺旋·临床医生科研成长平台
Nature Genetics杂志曾发表了一项基于Structure(被引用接近20000次的牛文)开发的一种可以用于扫描大量的遗传数据集新的机器学习算法—TeraStructure,引起了不少学者的关注。该工具可以用于推断个人祖先的遗传组成,识别疾病相关的遗传突变。那么Structure又是何物呢?
Structure是由斯坦福大学Pritchard实验室开发的一款群体结构分析软件,通过该软件,我们直观了解个体间的分类关系—即可以将某个群体分为若干亚群、群体间是否存在基因交流以及每个个体混血程度是多少。
*图片引自Ryck等
Structure中群体的亚群数被称为K值。上图中分别列出了K=2和7时的结果。图中每一种颜色代表一个类群,每个个体代表图中的一个小柱状堆叠图,那么我们可以看出有些个体血统较为纯正,有些则出现了混杂。通过颜色我们便可以对种群中的个体进行不同亚群的划分。话不多说,接下来奉上软件安装包及教程,最新版本为v2.3.4,安装包可以向后台索要或自行下载,下载地址为:http://pritchardlab.stanford.edu/structure.html。
这里笔者会给出一个示例数据,万事俱备,打开软件,点击建立“new project”,输入项目的信息(注意这里数据文件要和select directory在一个文件夹中),点击输入个体信息、位点信息、缺失值等信息,完成数据读入。如果数据无误那么软件会显示输入的数据,有误则会报错。
这里设置K为1~9,重复次数为10次,可以看到点击start job后,project处于激活状态,软件此时已经开始运行。
运行完毕后,会得到一个result文件夹,里面包含有90次运行的结果,那么由于之前K取了1~9,哪一个K值是最佳的呢,这里采用Evanno等人的方法进行分析计算。在线分析的网址为http://taylor0.biology.ucla.edu/struct_harvest/ 。将result文件夹压缩上传即可一键分析。从而得出最佳的K值,最后将结果文件下载保存即可。但上述分析给出的只是最佳的亚群数与一些矩阵数据-—即每个样本的血统构成比例。要把上述数据变成漂亮的堆叠图形的话,还有绘图的步骤。这里需要再处理软件CLUMPP处理得到进一步的结果再进行绘图。绘图中最简单的画法便是使用excel将这个结果绘制为堆叠图,或者也可以使用其他专门的图形化软件,如Distruct,这里便不一一介绍,只给出Clumpp与Distruct的下载地址及软件安装包。
Clumpp下载地址为:http://rosenberglab.stanford.edu/clumpp.html 。
Distruct下载地址为:http://web.stanford.edu/group/rosenberglab/distructDownload.html 。
参考文献:
[1]Pritchard, J. K., Stephens, M., & Donnelly, P. (2000). Inference of population structure using multilocus genotype data. Genetics, 155(2), 945-959.
[2]Gopalan, P., Wei, H., Blei, D. M., & Storey, J. D. (2016). Scaling probabilistic models of genetic variation to millions of humans. Nature Genetics.
[3]Ryck, D. J. D., Koedam, N., Stocken, T. V. D., Ven, R. M. V. D., Adams, J., & Triest, L. (2016). Dispersal limitation of the mangrove avicennia marina at its south african range limit in strong contrast to connectivity in its core east african region. Marine Ecology Progress, 545, 123-134.
[4]Evanno G, Regnaut S, Goudet J. Detecting thenumber of clusters of individuals using the software STRUCTURE: a simulationstudy[J]. Molecular ecology, 2005, 14(8): 2611-2620.
欢迎投稿
tougao@helixlife.com.cn
合作微信:helixlife6
tougao@helixlife.com.cn
合作微信:helixlife6
关注 解螺旋
微信扫一扫关注公众号