这篇文章主要介绍“soapdenovo2怎么安装配置”,在日常操作中,相信很多人在soapdenovo2怎么安装配置问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”soapdenovo2怎么安装配置”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
soapdenovo是由华大开发的组装工具,主要用于动植物基因组等大型基因组的组装,也可以用于细菌/真菌基因组组装。对于大型基因组装而言,需要的硬件资源特别多,建议内存在150G以上。
安装过程如下
wget https://github.com/aquaskyline/SOAPdenovo2/archive/r241.tar.gz tar xzvf r241.tar.gz cd SOAPdenovo2-r241/ make
编译成功后,会生成如下3个可执行文件
-
SOAPdenovo-63mer
-
SOAPdenovo-127mer
-
SOAPdenovo-fusion
前2个可执行文件用于组装, 63mer
代表支持的kmer最大长度为63,127mer
代表支持的kmer最大长度为127,除了支持的kmer长度不同外,其他用法完全
相同。
SOAPdenovo由以下几个子命令构成
-
pregraph
-
sparse_pregraph
-
contig
-
map
-
scaff
-
all
前5个子命令对应了soapdenovo组装的5个步骤,all
命令表示一次执行以上的5个步骤;在组装时,既可以依次执行每一个步骤,也可以直接使用all
命令,一次运行所有步骤。
soapdenovo需要一个配置文件,配置文件分成两个部分,全局配置和每个文库的配置。全局配置目前只有一个参数max_rd_len
, 如果序列大于该长度,会被切成该长度,然后在分析。
每个文库的配置以[LIB]
开头,主要指定输入文件的路径,支持多种格式的输入文件,用不同的前缀表示, q
代表输入序列为fastq格式;f
代笔输入序列为fasta格式,b
代表输入文件为bam格式,对于双端数据,分别用后缀1
和2
表示R1端和R2端的reads。
除了输入文件路径外,还包含以下几个参数的设置
-
avg_ins
文库插入片段的平均长度,在实际设置时,可以参考文库size分布图,取峰值即可 -
reverse_seq
是否需要将序列反向互补,对于pair-end数据,不需要反向互补,设置为0;对于mate-pair数据,需要反向互补,设置为1 -
asm_flags
1表示只组装contig. 2表示只组装scaffold,3表示同时组装contig和scaffold,4表示只补gap -
rd_len_cutof
序列长度阈值,作用和max_rd_len相同,大于该长度的序列会被切除到该长度 -
rank
设置不同文库数据的优先级顺序,取值范围为整数,rank值相同的多个文库,在组装scaffold时,会同时使用。 -
pair_num_cutoff
contig或者scaffold之前的最小overlap个数,对于pair-end数据,默认值为3;对于mate-paird数据,默认值为5 -
map_len
比对长度的最小阈值,对于pair-end数据,默认值为32;对于mate-pair数据,默认值为35
配置文件示例如下
max_rd_len=100 [LIB] avg_ins=200 reverse_seq=0 asm_flags=3 rd_len_cutoff=100 rank=1 q1=fastq1_read_1.fq q2=fastq1_read_2.fq
软件基本用法如下
SOAPdenovo-63mer all -s config_file -K 63 -R -o graph_prefix
运行成功后,会生成很多文件,其中有两个文件是组装的结果,后缀分别为contig
和scafSeq
,对应contig和scaffold。
到此,关于“soapdenovo2怎么安装配置”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注亿速云网站,小编会继续努力为大家带来更多实用的文章!
原创文章,作者:奋斗,如若转载,请注明出处:https://blog.ytso.com/tech/opensource/220191.html