SAM文件标签详解
编辑:本站更新:2024-12-24 07:59:33人气:227
由于"SAM"(Sequence Alignment/Map)文件是生物信息技术中用于存储高通量测序数据比对结果的关键格式,其内容丰富且技术性强。以下将详细解读SAM文件的各个标签及其含义:
在 SAM 文件格式中,每一行代表了一条序列片段与参考基因组的具体匹配情况或不配对的情况。每一条记录由多个字段组成,并以制表符分隔。
1. **QNAME**:查询名或者读段ID,在原始FASTQ/Fasta文件中的read ID标识符,对于paired-end reads来说通常会有"/1"和"/2"来区分两端reads。
2. **FLAG**:标志位字段,采用二进制表示法储存了诸如strand方向、是否为mate pair的第一个-read等重要信息。
3. **RNAME**:参照名称,即该read所映射到的染色体或其他线性分子区域的名字。
4. **POS**:位置坐标,指出read相对于参照序列开始的位置偏移值(0-based),也就是说第一位碱基位于这个索引上的位置。
5. **MAPQ**:mapping质量分数,反映的是这条read与其所在位置之间的可信度,数值范围从0-255,数字越大表明 mapping 质量越高。
6. **CIGAR字符串**:“Compact Idiosyncratic Gapped Alignments Report”,用来描述query read对比reference时精确的比对模式及插入删除操作,如`7M1I98M`意味着前七bp完全一致然后有一个insertion接着后面有98个连续match。
7. **RNEXT/RGAP** 和 **PNEXT/PNGAP**:分别对应于Mate Pair Read对应的下一个Read所在的Reference Name以及相对起始Position,这两个属性仅当当前read属于pair-ended sequencing的一半时有意义。
8. **TLEN**: Template Length,指示两个 mates 间的距离大小,如果是负数则mates反向排列。
9. **SEQ**:Query sequence本身的实际bases顺序。
10. **QUAL**:每个base的质量得分,使用ASCII字符编码进行压缩表达;它反映了测得每一个核苷酸准确性的概率估计。
此外,SAM还支持一系列可选TAGs,这些附加的信息用'AS’,'NM', 'MD'等形式存在,例如:
- `XS:A:-`: 标注交叉串接比对score。
- `NH:i:1`: 表示此read最佳比对次数。
- `MQ:i:` : Mapping Quality of the best alignment.
- `MD:Z:` :基于比较生成的距离矩阵,提供了有关错配和缺口的确切位置细节。
通过深入理解并解析上述各部分的内容,研究人员能够更有效地处理分析二代乃至三代DNA测序产生的海量数据,进而开展遗传变异检测、结构变异识别等多种生物学研究任务。
在 SAM 文件格式中,每一行代表了一条序列片段与参考基因组的具体匹配情况或不配对的情况。每一条记录由多个字段组成,并以制表符分隔。
1. **QNAME**:查询名或者读段ID,在原始FASTQ/Fasta文件中的read ID标识符,对于paired-end reads来说通常会有"/1"和"/2"来区分两端reads。
2. **FLAG**:标志位字段,采用二进制表示法储存了诸如strand方向、是否为mate pair的第一个-read等重要信息。
3. **RNAME**:参照名称,即该read所映射到的染色体或其他线性分子区域的名字。
4. **POS**:位置坐标,指出read相对于参照序列开始的位置偏移值(0-based),也就是说第一位碱基位于这个索引上的位置。
5. **MAPQ**:mapping质量分数,反映的是这条read与其所在位置之间的可信度,数值范围从0-255,数字越大表明 mapping 质量越高。
6. **CIGAR字符串**:“Compact Idiosyncratic Gapped Alignments Report”,用来描述query read对比reference时精确的比对模式及插入删除操作,如`7M1I98M`意味着前七bp完全一致然后有一个insertion接着后面有98个连续match。
7. **RNEXT/RGAP** 和 **PNEXT/PNGAP**:分别对应于Mate Pair Read对应的下一个Read所在的Reference Name以及相对起始Position,这两个属性仅当当前read属于pair-ended sequencing的一半时有意义。
8. **TLEN**: Template Length,指示两个 mates 间的距离大小,如果是负数则mates反向排列。
9. **SEQ**:Query sequence本身的实际bases顺序。
10. **QUAL**:每个base的质量得分,使用ASCII字符编码进行压缩表达;它反映了测得每一个核苷酸准确性的概率估计。
此外,SAM还支持一系列可选TAGs,这些附加的信息用'AS’,'NM', 'MD'等形式存在,例如:
- `XS:A:-`: 标注交叉串接比对score。
- `NH:i:1`: 表示此read最佳比对次数。
- `MQ:i:` : Mapping Quality of the best alignment.
- `MD:Z:` :基于比较生成的距离矩阵,提供了有关错配和缺口的确切位置细节。
通过深入理解并解析上述各部分的内容,研究人员能够更有效地处理分析二代乃至三代DNA测序产生的海量数据,进而开展遗传变异检测、结构变异识别等多种生物学研究任务。
www.php580.com PHP工作室 - 全面的PHP教程、实例、框架与实战资源
PHP学习网是专注于PHP技术学习的一站式在线平台,提供丰富全面的PHP教程、深入浅出的实例解析、主流PHP框架详解及实战应用,并涵盖PHP面试指南、最新资讯和活跃的PHP开发者社区。无论您是初学者还是进阶者,这里都有助于提升您的PHP编程技能。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。