怎样从UCSC下载基因组的GTF文件,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
从UCSC下载基因组的GTF文件有两种方式,一种是利用table browser 浏览器,另外一种是通过FTP服务。
1. Table Browser
Table Browser提供了一个检索和下载的入口,支持多种格式的下载,下载gtf文件只是其中一个功能,网址如下
http://genome.ucsc.edu/cgi-bin/hgTables
第一行的3个标签用于确定确定物种和版本。clade
提供了物种分类,包括以下类型
-
Mammal 哺乳动物
-
Vertebrate 脊椎动物
-
Deuterostome 后口动物
-
Insect 昆虫
-
Nematode 线虫
-
Viruses 病毒
-
other 其他
从这里的类别也可以发现,UCSC主要提供了动物的基因组,如果想要下载植物基因组的相关文件,只能考虑NCBI,Ensembl了。根据clade
的类别,可以快速查找物种。genome
选择对应的物种名字,assembly
选择基因组版本。
group
用于选择文件保存信息的类型,提供了以下类型
-
Mapping and Sequencing
-
Genes and Gene Predictions
-
Phenotype and Literature
-
mRNA and EST
-
Expression
-
Regulation
-
Comparative Genomics
-
Variation
-
Repeats
-
All Tracks
-
All Tables
GTF文件保存的是基因和转录本的结构信息,所以选择2,track
选择对应的数据库和版本,通常选择NCBI RefSeq
。
table
选择数据,对于NCBI RefSeq, 提供了如下选择
-
RefSeq All
-
RefSeq Curated
-
RefSeq Predicted
-
UCSC RefSeq
RefSeq All代表RefSeq中所有的转录本信息,RefSeq Curated代表核对过的数据,可信度较高,以NM
, NR
, YP
开头,RefSeq Predicted代表预测的数据,以XM
, XR
开头;UCSC RefSeq 代表所有以NM
, NR
开头的转录本信息。通常选择UCSC RefSeq
即可。
region
选择下载的区域,是选择整个基因组,还是只是染色体上的部分区域。output format
选择输出文件格式,常用的有以下两种
-
GTF(limited)
-
BED
output file
指定输出文件的名字,如果不指定,默认会显示在浏览器中共,如果下载整个基因组的信息,建议填写输出文件的名字,file type returned
选择返回文件的格式,支持返回压缩文件。
通过简单的勾选,就可以下载到GTF文件了。但是这种方式下载的GTF文件是有限制的,只包含了转录本ID, 示例如下
chr1 hg38_refGene exon 11106531 11107500 0.000000 - . gene_id "NM_004958"; transcript_id "NM_004958";
转录本对应的基因名称时非常重要的信息,如果要解决这个问题,可以通过FTP服务器进行下载。
2. FTP
UCSC的FTP服务提供了物种的注释文件供下载,hg38的FTP地址如下
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/
但是FTP中并没有直接提供bed12, gtf 格式的文件,因为这些格式存在冗余信息,文件大小会比较大。为例节省磁盘空间,UCSC提出来genePred
这种格式。这种格式每一行代表一个转录本信息,冗余信息较少。更多的介绍可以参考官方文档
https://genome.ucsc.edu/FAQ/FAQformat.html#format9
UCSC RefSeq这种信息对应的文件为refGene.txt.gz
, 对于该文件,需要借助UCSC官方提供的格式转换工具转换为gtf格式。
其中genePredToGtf
就是把genepred格式转换为gtf格式的工具。使用方式如下
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gz gunzip refGene.txt.gz cut -f 2- refGene.txt | genePredToGtf file stdin -source=hg38_Ref hg38.gtf
refGene.txt的第一列信息是多余的,删除之后,整个文件就是genePred
格式了。最终生成的文件如下
chr20 hg19_Ref exon 63865228 63865384 . + . gene_id "TPD52L2"; transcript_id "NM_003288"; exon_number "1"; exon_id "NM_003288.1"; gene_name "TPD52L2";
可以看到,gene_id的信息是有了。但是还是有点不足之处,相比NCBI和Ensembl, UCSC提供的GTF文件中共缺少了gene_biotype的信息,无法确定基因类型。
关于怎样从UCSC下载基因组的GTF文件问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注亿速云行业资讯频道了解更多相关知识。
原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/tech/opensource/223084.html