HISAT2和StringTie实现转录组组装
迷之被安排了一波转录组组装的工作。本来用DNA序列denovo组装软件SWAP2强行跑了一次,然而看看输出的结果,一脸不靠谱的样子。
还是采用标准的操作流程吧。
HISAT由约翰霍普金斯大学开发。它取代Bowtie/TopHat程序,能够将RNA-Seq的读取与基因组进行快速比对。它利用大量FM索引,以覆盖整个基因组。小的索引结合几种比对策略,实现了RNA-Seq读取的高效比对,特别是那些跨越多个外显子的读取。这种应用程序支持任何规模的基因组,包括那些超过40亿个碱基的。
StringTie则由约翰霍普金斯大学联合德州大学西南医学中心开发,能够组装转录本并预计表达水平。它应用网络流算法和可选的de novo组装,将复杂的数据集组装成转录本。与Cufflinks等程序相比,在分析模拟和真实的数据集时,StringTie实现了更完整、更准确的基因重建,并更好地预测了表达水平。
HISAT2主页:http://ccb.jhu.edu/software/hisat2/index.shtml
StringTie主页:http://ccb.jhu.edu/software/stringtie/
可以直接下载编译好的文件
ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
http://ccb.jhu.edu/software/stringtie/dl/stringtie-1.3.3b.Linux_x86_64.tar.gz
输入:参考基因组.fasta文件,转录组pair-end测序文件R1.fq、R2.fq
#对参考基因组进行预处理 /work2/scbniu/workspace_zhu/hisat2-2.1.0/hisat2-build -p 12 /work2/scbniu/workspace_zhu/workspace_bwa/Nov1_scaffolds.fasta RefGene #对转录组read进行双端比对,生成sam文件 /work2/scbniu/workspace_zhu/hisat2-2.1.0/hisat2 -p 12 -x ./RefGene -1 /work2/scbniu/workspace_zhu/rawdata/6-430/6-430_R1.fq -2 /work2/scbniu/workspace_zhu/rawdata/6-430/6-430_R2.fq -S 6-430.sam #排序并生成bam文件 samtools view -Su 6-430.sam | samtools sort - 6-430.sorted #拼接生成gtf文件 /work2/scbniu/workspace_zhu/stringtie-1.3.3b.Linux_x86_64/stringtie 6-430.sorted.bam -p 12 -o 6-430.gtf -l 6-430
输出为gtf文件