python中统计基因组所含N碱基总个数


 

001、

(base) root@PC1:/home/test# ls
a.fasta  test.py
(base) root@PC1:/home/test# cat a.fasta            ## 测试数据
>scaffold_1
CCCGGGTAAAACGGGTCTTCAAGAAAACGCTCCTCCGTTAATGCCGGCCGATTCAAATAA
CCTCTGGCAACACCCGCTCCGGCAATGTATAGTTCACCGATACATCCAACAGGCAGCATC
GGCCCNN
>scaffold_2
CTGTTGCTCCTGTTGCTCCTGTTGATCCCGTTGCACCTGTTGGTCCAGTCGGTCCAATTC
nnn
>scaffold_3
TTGATCCAGTGGCTCCGGTTACTCCAGTTGATCCTGTTGCGCCTGTTGCTCCAGTTTCTC
CGGTTGGTCCGGTTGATCCGGTTGCACCTGTTACTCCAGTGGCTCCGGTTACTCCCGTCG
CTGTTGCTCCTGTTGCTCCTGTTGATCCCGTTGCACCTGTTGGTCCAGTCGGTCCAATTC
(base) root@PC1:/home/test# cat test.py           ## 测试脚本
#!/usr/bin/python

in_file = open("a.fasta", "r")
out_file = open("result.txt", "w")

import re
total_N = 0

for i in in_file:
    i = i.strip()
    if i[0] != ">":
        total_N += len(re.findall("[Nn]", i))

print("total_N:", total_N, file = out_file, sep = "/t")

in_file.close()
out_file.close()
(base) root@PC1:/home/test# python test.py        ## 执行脚本
(base) root@PC1:/home/test# ls
a.fasta  result.txt  test.py
(base) root@PC1:/home/test# cat result.txt        ## 查看统计结果
total_N:        5

 

参考:https://mp.weixin.qq.com/s?__biz=MzIxNzc1Mzk3NQ==&mid=2247491482&idx=1&sn=596fd0f0e7d41757e1e539f3223a8c8c&chksm=97f5af82a08226943da69bca8228480d4b708ca2c89f8008281f140682e8814b43cf49d60762&scene=178&cur_album_id=2403674812188688386#rd

 

原创文章,作者:ItWorker,如若转载,请注明出处:https://blog.ytso.com/279550.html

(0)
上一篇 2022年8月8日
下一篇 2022年8月8日

相关推荐

发表回复

登录后才能评论