双端序列链接: seqtk_join 和 fastq_join

本文介绍一个小工具: seqtk_join, 直接连接PE序列双端,序列中使用’N’和质量值通过’I’连接, 默认8个。
该程序主要使用场景为 metagenome PE序列合并,中间通过N并不影响 Kmer空间, 遇到N kmer会终止。

1. seqtk_join

命令行接口:

$ seqtk_join
Usage: seqtk_join [options] <in.fa/q>
Options:
  -n  INT  inserting padding number of 'N's, default:[8]
  -v       print version number

实例:

seqtk_join  -n  0  OS2_X_R1.fastq  OS2_X_R2.fastq | head
seqtk_join  -n  8  OS2_X_R1.fastq  OS2_X_R2.fastq | head

2. fastq_join

USEARCH 系统也有一个类似子命令:fastq_join

命令行模式:

usearch -fastq_join OS2_1.R1.fq -reverse  OS2_1.R2.fq   -join_padgap NNNNNNNN   -join_padgapq IIIIIIII  -fastqout join.fq

几点说明:

不支持gz压缩文件;
序列名称问题,合并序列名称使用fwd序列名称
必须有GAP,也就是seqtk_join的 -n 不能设置为0;

本文材料为 BASE (Biostack Applied bioinformatic SEies ) 课程 Linux Command Line Tools for Life Scientists 材料, 版权归 上海逻捷信息科技有限公司 所有。

Last Update: 2017/10/23 21:25

October 24th, 2017 | Tags: | Category: HowTo

Comments are closed.

March 2021
M T W T F S S
« Mar    
1234567
891011121314
15161718192021
22232425262728
293031