转座子分析软件及用法

 

基因组转座子注释方法与步骤!...



一、基本方法在已知参考基因组转座子注释信息条件下:

1、通过T-lex2鉴定参考基因组中存在的转座子在测序样本群体中是否存在,并估计在样本群体中出现的频率以及修正参考基因组注释不完整的TE;

2、通过jigbug鉴定样本群体中有的而在参考基因组中不存在的TE

二、具体步骤1、T-lex2

1)应用范围:任何物种任何类型的TE

2)数据来源:重测序fastq数据。可以是一个个体的数据,也可以是一个群体的数据。群体可以是混库获得的;

3)文库大小:小文库,文章中默认使用250bp的文库,测序read长度100bp

4)鉴定的范围:参考基因组注释的TE;

5)鉴定方式:存在检测模块和缺失检测模块。



6)鉴定结果:

判定样本中是否有参考基因组注释的TE及其丰度。对于群体,能够估计TE的多态性;对参考基因组注释的TE可以进行进一步的纠正。

7)用法:

A、输入文件

1)参考基因组TE列表,仅包含TE的名字。

2)参考基因组TE列表,包含如下5列信息:

TE名字、染色体、起始位置、终止位置、链

3)参考基因组:注意其ID与2中的染色体ID一致

B、注意事项

1)测序数据文件存储格式, 注意数据的后缀read×.fastq

[input strain directory]/

[strain name]/

[strain name]_read1.fastq

[strain name]_read2.fastq

2) -f  参数此处应设置文库插入片段大小的长度 的一半。

3) -A    参数设置测序read长度

C、使用命令

perl tlex-open-v2.2.2.pl -T ../TAIR10_Transposable_Elements_id.txt -M ../TAIR10_Transposable_Elements_changed.txt -G AT.fa -R ../FASTQ/ -f 250

D、结果解读

strain
TE
absence_detection
presence_detection
combination
sample
AT1TE36770
present
present
present
sample
AT1TE43295
present
present
present
sample
AT1TE66710
present
present
present


最终结果采用两个模块结合后结果(combination列)

注:

present or absent:presence 模块和absent模块检测一致,且均成功;

polymorphic :presence 模块和absent模块检测不一致,且均成功;

present/polymorphic:presence 模块检测为present ,但absence 模块检测失败;

absent/polymorphic:absent模块检测为 absent 但 presence 模块检测失败

no_data:

presence 模块检测为absent,absent模块检测为present或者no_data;

absent 模块检测为present,present模块检测为absent或者no_data;

群体检测结果解读:

present:所有样本均为检出present频率为100%

absent:所有样本检出present频率为0;

polymorphic:50% frequency (100%(present) + 0% (polymorphic)/2)

present/polymorphic:75% frequency (100% + 50%/2)

absent/polymorphic: 25% frequency (0% + 50%/2).

2、jitterbug

1)应用范围:

目前已在拟南芥、甜瓜和人中应用;

单个重测序样本新的转座子鉴定;

肿瘤细胞与正常细胞转座子对比鉴定;杂合的TE(allelic frequency)预测。

2)数据来源:重测序fastq数据。

3)文库大小:小文库。

4)鉴定的范围:样本中具有的而参考基因组没有的TE;

5)使用及结果:

A、使用

需要参考基因组、参考基因组TE注释文件(gff3)样本测序数据比对的bam文件(bwa或者bowtie2)

1) ./jitterbug-master/jitterbug.py --numCPUs 8  --bin_size 50000 --output_prefix prefix  test.bam TAIR10_Henaff2014PlantJ_annot.gff3

注意:CPU使用必须配合—bin_size的使用;bam文件必须为按照位置排序的文件(samtools sort)然后用samtools index建索引

2)./jitterbug-master/tools/jitterbug_filter_results_func.py -g prefix.TE_insertions_paired_clusters.gff3 -c prefix.filter_config.txt -o prefix.TE_insertions_paired_clusters.filter.gff3

注意;此步过滤掉低支持度的TE; prefix.filter_config.txt 为第一步产生的结果。

3)intersectBed -a prefix.TE_insertions_paired_clusters.filter.gff3  -b N_annot.gff3 -v >prefix.TE_insertions_paired_clusters.filtered.noNs.gff3

注意:过滤含N的区域的TE;需要基因组中N的注释信息以及bedtools下面的脚本 intersectBed

B、结果示例:

chr3       jitterbug       TE_insertion    13587657        13587764        .       .       .       supporting_fwd_reads=2; supporting_rev_reads=3; cluster_pair_ID=0; lib=None; Inserted_TE_tags_fwd=AT4

6)甜瓜分析文献

Transposon insertion, structural variations and SNPs contribute to the evolution of the melon  genome. MBE,2015,7


    关注 生信人


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册