之前介绍很多基于序列分析的数据库的时候,都会提到FASTA序列。之后也会遇到很多基于序列分析的数据库。所以今天就把基因序列的格式单独拎出来说一下。
基因序列由 DNA/RNA 序列或者蛋白序列组成。其中 DNA/RNA 序列由 AT (U) CG 这四类组成。而蛋白序列则是有 20 种氨基酸的不同字母排列组成。例如,TP53这个基因的序列就是下面这样的。
基因序列的字母除了一对一的关系之外,在核苷酸序列当中也还会需要一些简并序列的情况。==简并序列==是通过一个字母来代表多个核苷酸的情况。目前有的简并序列有:
简并序列的用途是方便来记录不同核苷酸序列但行使相似功能的组合。比如某一个氨基酸的密码子。一般来说前两位是不变的。但是第三位就会发生变化。例如: 丙氨酸的密码子就是GCN 其中,N就代表是A,T,C,G都可以。
在上面介绍基因序列的基本内容的的时候提到了基因的序列的核苷酸/氨基酸形式就是一堆字母的排列。例如 TP53 的一段 DNA 序列。
只是看