FunnyWeb

据说这里有很多神奇的东西...

HISAT2和StringTie实现转录组组装

2017-10-20 09:59:243573 views

迷之被安排了一波转录组组装的工作。本来用DNA序列denovo组装软件SWAP2强行跑了一次,然而看看输出的结果,一脸不靠谱的样子。

还是采用标准的操作流程吧。

HISAT由约翰霍普金斯大学开发。它取代Bowtie/TopHat程序,能够将RNA-Seq的读取与基因组进行快速比对。它利用大量FM索引,以覆盖整个基因组。小的索引结合几种比对策略,实现了RNA-Seq读取的高效比对,特别是那些跨越多个外显子的读取。这种应用程序支持任何规模的基因组,包括那些超过40亿个碱基的。

StringTie则由约翰霍普金斯大学联合德州大学西南医学中心开发,能够组装转录本并预计表达水平。它应用网络流算法和可选的de novo组装,将复杂的数据集组装成转录本。与Cufflinks等程序相比,在分析模拟和真实的数据集时,StringTie实现了更完整、更准确的基因重建,并更好地预测了表达水平。

HISAT2主页:http://ccb.jhu.edu/software/hisat2/index.shtml

StringTie主页:http://ccb.jhu.edu/software/stringtie/

可以直接下载编译好的文件

ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip

http://ccb.jhu.edu/software/stringtie/dl/stringtie-1.3.3b.Linux_x86_64.tar.gz

输入:参考基因组.fasta文件,转录组pair-end测序文件R1.fq、R2.fq

#对参考基因组进行预处理
/work2/scbniu/workspace_zhu/hisat2-2.1.0/hisat2-build -p 12 /work2/scbniu/workspace_zhu/workspace_bwa/Nov1_scaffolds.fasta RefGene
#对转录组read进行双端比对,生成sam文件
/work2/scbniu/workspace_zhu/hisat2-2.1.0/hisat2 -p 12 -x ./RefGene -1 /work2/scbniu/workspace_zhu/rawdata/6-430/6-430_R1.fq -2 /work2/scbniu/workspace_zhu/rawdata/6-430/6-430_R2.fq -S 6-430.sam
#排序并生成bam文件
samtools view -Su 6-430.sam | samtools sort - 6-430.sorted
#拼接生成gtf文件
/work2/scbniu/workspace_zhu/stringtie-1.3.3b.Linux_x86_64/stringtie 6-430.sorted.bam -p 12 -o 6-430.gtf -l 6-430

输出为gtf文件

image.png