序列拼接长度

序列拼接界的超级玛丽——PANDAseq

PANDAseq序列拼接软件使用指南...

大家玩过接水管游戏吗？

在无数种可能中，

将水管按正确顺序拼接在一起，

最终让水流通畅。

最鼎鼎有名的水管工人，当属超级玛丽。

其实在测序拼接界，也有这样一位玛丽奥，他就是“PANDAseq”！

在对16S rDNA进行可变区测序的时候，往往选取多个可变区，但是Illumina测序长度不够，454测序数据量不够。所以一般采用Illumina双端测序，这就涉及到序列的拼接，PANDAseq可以快速拼接双端的reads并修正大部分的错误。

拼接原理

软件的下载及安装

下载地址

https://github.com/neufeld/pandaseq/releases/tag/v2.8.1

安装步骤

（1）生成config文件./autogen.sh

（2）运行config脚本（需提供安装路径前缀）：

./configure --prefix=/pandaseq-v2.8.1/

（3）创建make file并安装：

make （编译命令）

make istall （安装文件）

软件的使用

PANDAseq流程

1. 识别扩增引物的位置

2. 确定最佳的overlap

3. 重建完整的序列，校正错误，检测各种各样的条件，如长度和质量等。

使用方法示例

pandaseq -f forward.fastq -r reverse.fastq -p primer -q primer -F -T 3 -w sample.fq -g sample.log

Options：

-f 输入正向测序fataq文件

-r 输入反向测序fastq文件

-p 正向测序引物序列或者需除的碱基数目

-q 反向测序引物序列或者需去除的碱基数目

-F 输出fastq文件，若不设置则输出FASTA序列（如果后续还需要对测序序列质控，请加入该参数）

-g 输出日志文件（查看序列拼接过程的输出信息，包括对一些错误序列的去除，如ERR LOWQ 表示该条序列平均质量值小于设置的阈值，因此在拼接的过程中将其去除；INFO MISM表示在拼接的过程中发现错配等）

-T 线程数设置

-w 输出序列文件

此外其他的参数如下：

-A 算法：选择overlap区的算法

-L 长度：序列最大的长度

-l 长度：序列最小的长度

-o 长度：最小的overlap区长度