序列拼接界的超级玛丽——PANDAseq

 

PANDAseq序列拼接软件使用指南...

大家玩过接水管游戏吗?


在无数种可能中,

将水管按正确顺序拼接在一起,

最终让水流通畅。

最鼎鼎有名的水管工人,当属超级玛丽。

其实在测序拼接界,也有这样一位玛丽奥,他就是“PANDAseq”



在对16S rDNA进行可变区测序的时候,往往选取多个可变区,但是Illumina测序长度不够,454测序数据量不够。所以一般采用Illumina双端测序,这就涉及到序列的拼接,PANDAseq可以快速拼接双端的reads并修正大部分的错误。

拼接原理
软件的下载及安装



下载地址

https://github.com/neufeld/pandaseq/releases/tag/v2.8.1

安装步骤

(1)生成config文件./autogen.sh

(2)运行config脚本(需提供安装路径前缀):

./configure --prefix=/pandaseq-v2.8.1/

(3)创建make file并安装:

make      (编译命令)

make istall (安装文件)

软件的使用



PANDAseq流程

1. 识别扩增引物的位置

2. 确定最佳的overlap

3. 重建完整的序列,校正错误,检测各种各样的条件,如长度和质量等。

使用方法示例

pandaseq -f forward.fastq -r reverse.fastq -p primer -q primer -F -T 3 -w sample.fq -g sample.log

Options:

-f 输入正向测序fataq文件

-r 输入反向测序fastq文件

-p 正向测序引物序列或者需除的碱基数目

-q 反向测序引物序列或者需去除的碱基数目

-F 输出fastq文件,若不设置则输出FASTA序列(如果后续还需要对测序序列质控,请加入该参数)

-g 输出日志文件(查看序列拼接过程的输出信息,包括对一些错误序列的去除,如ERR LOWQ 表示该条序列平均质量值小于设置的阈值,因此在拼接的过程中将其去除;INFO MISM表示在拼接的过程中发现错配等)

-T 线程数设置

-w 输出序列文件

此外其他的参数如下:

-A 算法:选择overlap区的算法

-L 长度:序列最大的长度

-l 长度:序列最小的长度

-o 长度:最小的overlap区长度

序列拼接界的玛丽奥

——PANDAseq
还有很多数据处理软件,

锐翌的生信达人会陆续给大家介绍,

请持续关注我们的微信哦~

供稿:葛长丽

编辑:王雪婷


    关注 锐翌基因


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册