怎样从UCSC下载基因组的GTF文件

怎样从UCSC下载基因组的GTF文件,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

从UCSC下载基因组的GTF文件有两种方式,一种是利用table browser 浏览器,另外一种是通过FTP服务。

1. Table Browser

Table Browser提供了一个检索和下载的入口,支持多种格式的下载,下载gtf文件只是其中一个功能,网址如下

http://genome.ucsc.edu/cgi-bin/hgTables

怎样从UCSC下载基因组的GTF文件

第一行的3个标签用于确定确定物种和版本。clade提供了物种分类,包括以下类型

  1. Mammal 哺乳动物

  2. Vertebrate 脊椎动物

  3. Deuterostome 后口动物

  4. Insect 昆虫

  5. Nematode 线虫

  6. Viruses 病毒

  7. other 其他

从这里的类别也可以发现,UCSC主要提供了动物的基因组,如果想要下载植物基因组的相关文件,只能考虑NCBI,Ensembl了。根据clade的类别,可以快速查找物种。genome选择对应的物种名字,assembly选择基因组版本。

group用于选择文件保存信息的类型,提供了以下类型

  1. Mapping and Sequencing

  2. Genes and Gene Predictions

  3. Phenotype and Literature

  4. mRNA and EST

  5. Expression

  6. Regulation

  7. Comparative Genomics

  8. Variation

  9. Repeats

  10. All Tracks

  11. All Tables

GTF文件保存的是基因和转录本的结构信息,所以选择2,track选择对应的数据库和版本,通常选择NCBI RefSeq

table选择数据,对于NCBI RefSeq, 提供了如下选择

  1. RefSeq All

  2. RefSeq Curated

  3. RefSeq Predicted

  4. UCSC RefSeq

RefSeq All代表RefSeq中所有的转录本信息,RefSeq Curated代表核对过的数据,可信度较高,以NM, NR, YP开头,RefSeq Predicted代表预测的数据,以XM, XR开头;UCSC RefSeq 代表所有以NM, NR开头的转录本信息。通常选择UCSC RefSeq即可。

region选择下载的区域,是选择整个基因组,还是只是染色体上的部分区域。
output format选择输出文件格式,常用的有以下两种

  1. GTF(limited)

  2. BED

output file指定输出文件的名字,如果不指定,默认会显示在浏览器中共,如果下载整个基因组的信息,建议填写输出文件的名字,file type returned选择返回文件的格式,支持返回压缩文件。

通过简单的勾选,就可以下载到GTF文件了。但是这种方式下载的GTF文件是有限制的,只包含了转录本ID, 示例如下

chr1 hg38_refGene exon 11106531 11107500 0.000000 - . gene_id "NM_004958"; transcript_id "NM_004958";

转录本对应的基因名称时非常重要的信息,如果要解决这个问题,可以通过FTP服务器进行下载。

2. FTP

UCSC的FTP服务提供了物种的注释文件供下载,hg38的FTP地址如下

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/

但是FTP中并没有直接提供bed12, gtf 格式的文件,因为这些格式存在冗余信息,文件大小会比较大。为例节省磁盘空间,UCSC提出来genePred这种格式。这种格式每一行代表一个转录本信息,冗余信息较少。更多的介绍可以参考官方文档
https://genome.ucsc.edu/FAQ/FAQformat.html#format9

UCSC RefSeq这种信息对应的文件为refGene.txt.gz, 对于该文件,需要借助UCSC官方提供的格式转换工具转换为gtf格式。

其中genePredToGtf就是把genepred格式转换为gtf格式的工具。使用方式如下

wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gz
gunzip refGene.txt.gz
cut -f 2- refGene.txt | genePredToGtf file stdin -source=hg38_Ref  hg38.gtf

refGene.txt的第一列信息是多余的,删除之后,整个文件就是genePred格式了。最终生成的文件如下

chr20   hg19_Ref        exon    63865228        63865384        .       +       .       gene_id "TPD52L2"; transcript_id "NM_003288"; exon_number "1"; exon_id "NM_003288.1"; gene_name "TPD52L2";

可以看到,gene_id的信息是有了。但是还是有点不足之处,相比NCBI和Ensembl, UCSC提供的GTF文件中共缺少了gene_biotype的信息,无法确定基因类型。

关于怎样从UCSC下载基因组的GTF文件问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注亿速云行业资讯频道了解更多相关知识。

原创文章,作者:Maggie-Hunter,如若转载,请注明出处:https://blog.ytso.com/223084.html

(0)
上一篇 2022年1月6日
下一篇 2022年1月6日

相关推荐

发表回复

登录后才能评论