序列拼接界的超级玛丽——PANDAseq
PANDAseq序列拼接软件使用指南...
在无数种可能中,
将水管按正确顺序拼接在一起,
最终让水流通畅。
其实在测序拼接界,也有这样一位玛丽奥,他就是“PANDAseq”!
在对16S rDNA进行可变区测序的时候,往往选取多个可变区,但是Illumina测序长度不够,454测序数据量不够。所以一般采用Illumina双端测序,这就涉及到序列的拼接,PANDAseq可以快速拼接双端的reads并修正大部分的错误。
拼接原理软件的下载及安装
下载地址
https://github.com/neufeld/pandaseq/releases/tag/v2.8.1
安装步骤
(1)生成config文件./autogen.sh
(2)运行config脚本(需提供安装路径前缀):
./configure --prefix=/pandaseq-v2.8.1/
(3)创建make file并安装:
make (编译命令)
make istall (安装文件)
软件的使用
PANDAseq流程
1. 识别扩增引物的位置
2. 确定最佳的overlap
3. 重建完整的序列,校正错误,检测各种各样的条件,如长度和质量等。
使用方法示例
pandaseq -f forward.fastq -r reverse.fastq -p primer -q primer -F -T 3 -w sample.fq -g sample.log
Options:
-f 输入正向测序fataq文件
-r 输入反向测序fastq文件
-p 正向测序引物序列或者需除的碱基数目
-q 反向测序引物序列或者需去除的碱基数目
-F 输出fastq文件,若不设置则输出FASTA序列(如果后续还需要对测序序列质控,请加入该参数)
-g 输出日志文件(查看序列拼接过程的输出信息,包括对一些错误序列的去除,如ERR LOWQ 表示该条序列平均质量值小于设置的阈值,因此在拼接的过程中将其去除;INFO MISM表示在拼接的过程中发现错配等)
-T 线程数设置
-w 输出序列文件
此外其他的参数如下:
-A 算法:选择overlap区的算法
-L 长度:序列最大的长度
-l 长度:序列最小的长度
-o 长度:最小的overlap区长度
序列拼接界的玛丽奥
——PANDAseq
还有很多数据处理软件,——PANDAseq
锐翌的生信达人会陆续给大家介绍,
请持续关注我们的微信哦~
供稿:葛长丽
编辑:王雪婷
关注 锐翌基因
微信扫一扫关注公众号