Fasta/Fastq格式记录

生信中,常用到Fasta和Fastq格式,这两种是比较基础和常见的序列保存文件。通过wiki和网上资料,对这两种格式进行说明和记录。

1. Fasta格式

Fasta格式文件可以存储DNA(ATCGN)或者Protein序列(Amino Acid)。每两行表示一个序列,其中第一行以 > 开头,后面为序列名称或描述信息;第二行为序列本身。对于DNA序列就是简单的Adenine (A), Guanine (G), Thymine (T), Cytosine (C)构成;对于Protein序列,序列是蛋白的英文简称,氨基酸的名称,比较详细的介绍在下面列出:
氨基酸简写

丙氨酸(Ala,A);精氨酸(Arg,R);天冬酰胺(Asn,N);天冬氨酸(Asp,D);半胱氨酸(Cys,C);谷氨酸(Glu,E);谷氨酰胺(Gln,Q);甘氨酸(Gly,G);组氨酸(His,H);异亮氨酸(Ile,I);亮氨酸(Leu,L);赖氨酸(Lys,K);甲硫氨酸(Met,M);苯丙氨酸(Phe,F);脯氨酸(Pro,P);丝氨酸(Ser,S);苏氨酸(Thr,T);色氨酸(Try,W);酪氨酸(Tyr,Y);缬氨酸(Val,V)----特别的,有两个天冬酰胺或天冬氨酸(Asx,B);谷氨酸或谷氨酰胺(Glx,Z)
氨基酸结构

在实际的序列中,会出现下面字母的情况,其中X代表任何氨基酸,星号(*)代表转录终止,短线(-)代表gap:

1
2
3
4
5
6
7
8
9
10
11
12
13
A  alanine              P  proline       
B aspartate/asparagine Q glutamine
C cystine R arginine
D aspartate S serine
E glutamate T threonine
F phenylalanine U selenocysteine
G glycine V valine
H histidine W tryptophan
I isoleucine Y tyrosine
K lysine Z glutamate/glutamine
L leucine X any
M methionine * translation stop
N asparagine - gap of indeterminate length

2. Fastq格式

Fastq格式最初由Wellcome Sanger Institute设计,每4行为一条序列信息,其中四行的含义如下:

  • 第一行:以@开头,例如 @A00783:439:HHG7TDSXY:3:1101:8377:1000,其中A00783:439:HHG7TDSXY代表测序仪、run id和flowcell id,3代表flowcell lane编号,1101代表lane中tile的编号,8377代表tile中的x坐标,1000代表tile中的y坐标。
  • 第二行:以AGCTN序列,N代表未测出是哪个碱基
  • 第三行:以+号开头,可以不接信息或者接第一行相同的序列信息
  • 第四行:存储ASCII码转换的质量值,该行与第二行序列是一一对应的关系,准确体现每个碱基的质量值。

有些Fastq的第一行会多出一些信息@A00783:439:HHG7TDSXY:3:1101:8377:1000 1:N:0:GGACTTCT+ACGTCCAT,其中1:N:0:GGACTTCT+ACGTCCAT的含义为1read1,N过滤通过(Y代表过滤未通过),0没有控制点被打开(否则是一个偶数),GGACTTCT+ACGTCCAT为index 序列

3. Phred Qulity Score (质量值)

依据测序仪给出的测序错误概率P,质量值的计算有两种方式:

Qsolexa = -10 × log10 (p/1-p)

Qsanger = -10 × log10 p

Qsolexa和Qsanger二者的质量曲线表明,当p<0.05或Q质量>13时没有明显区别,目前主要使用的是Qsanger计算方法。所以,可以计算:

  • p = 0.1 Qsanger = 10

  • p = 0.01 Qsanger = 20

  • p = 0.001 Qsanger = 30

  • p = 0.0001 Qsanger = 40

对于不同的平台,质量值的转换不同,现在主要以Sanger为准,多数为Phred+33(计算的Phred Quality Score + 33),也要注意部分数据可能是Phred+64:

1
2
3
4
5
6
7
S - Sanger        Phred+33,  raw reads typically (0, 40)
X - Solexa Solexa+64, raw reads typically (-5, 40)
I - Illumina 1.3+ Phred+64, raw reads typically (0, 40)
J - Illumina 1.5+ Phred+64, raw reads typically (3, 41)
with 0=unused, 1=unused, 2=Read Segment Quality Control Indicator (bold)
(Note: See discussion above).
L - Illumina 1.8+ Phred+33, raw reads typically (0, 41)

计算完Phred Quality Score,Fastq文件为了降低存储空间,将质量值转为ASCII对应的单字符,实现高效存储。ASCII表详细对应信息如下,以表格为例,A 代表质量值为65,F代表质量值为70:
ASCII Table

参考:

https://en.wikipedia.org/wiki/FASTA_format

https://en.wikipedia.org/wiki/FASTQ_format

https://zhuanlan.zhihu.com/p/20714540

https://zhuanlan.zhihu.com/p/190778779

https://molbiol-tools.ca/Amino_acid_abbreviations.htm

https://www.neb.com/tools-and-resources/usage-guidelines/amino-acid-structures

读书笔记-被讨厌的勇气

2020年,注定是不平凡的一年啊,年初到现在,新冠还在蔓延,幸好祖国强大,解决有力。期盼9月可以顺利开学。今年在家呆的时间有点久,从一月中下旬到六月初(到三月末一直在大庆和老爸呆在一起),似乎身心上多了更多的思考,但是自己被拖延症和学习的恐慌所包围,心里状态低沉,也想通过读书改变一下,所以才有了最近更博的想法。想借此养成记录的习惯,同时也记住此刻的感觉,希望自己活在当下。

|