생물정보 파일구조 - FASTA, FASTQ, BAM, SAM

Etc/생물정보 파일구조

gmta 2022. 1. 20. 15:03

FASTA

FASTQ

NGS(Next Generation Sequencing data)의 결과를 저장하는 데 주로 사용됩니다.
NGS 실험을 진행하면 결과로 cDNA library 서열을 읽어서 데이터로 얻을 수 있습니다. 즉, cDNA library 의 염기서열을 알 수 있습니다.
이 서열 하나를 'read' 라고 하며, fastq 파일은 여러 read 의 정보를 한 파일에 저장하게 됩니다.
이러한 파일은 직접 사용보다 reference genome 에 align 한 뒤에 활용됩니다.
fastq 파일은 대부분의 연구에서 raw data, 즉 가공되지 않은 원본 파일로 여겨집니다.
파일은 네 줄이 한 단위입니다. cDNA library 정보가 네 줄에 나눠서 표현되어 있습니다.
sequence ID: @ 로 시작하며, 해당 서열의 이름을 나타냅니다.
sequence: 실제로 읽은 염기서열 정보입니다.
description: '+' 글자로 시작하며 '+' 하나만 있기도 하고 sequence ID를 넣거나 설명을 넣는 부분입니다.
quality: 각 염기서열이 얼마나 정확히 읽혔는지를 나타냅니다.

BAM

SAM

BAM 파일과 SAM 파일은 동일한 정보를 가지고 있고, 서로 변환이 가능합니다.
SAM 파일은 header 부분과 alignment 부분으로 이루어져 있습니다.
header: 파일에 대한 설명을 주는 부분입니다. @로 시작하는 라인들입니다.
alignment: 각 read에 대한 alignment 정보를 제공하는 부분입니다. 필수적으로 11개의 컬럼으로 이루어져 있고, 추가로 몇 개의 컬럼이 더 있을 수 있습니다.

* 각 column 에 대한 설명