전사체 연구는 오늘날 생명과학에서 빼놓을 수 없는 중요한 방법이 되었습니다. 그중 RNA-seq은 기본 분석으로 체감될 정도로 많이 이루어지고 있습니다. 이미 직접 분석을 하시는 연구실도 많을 것으로 예상됩니다. RNA-seq 분석을 위한 기본적인 절차나 파이프라인은 잘 갖추어져 있습니다. 하지만 다양한 소프트웨어 설치와 설정, 분석 파라미터 조정, 결과 해석 등은 여전히 익숙하지 않은 부분으로 남아있죠.
QIAGEN RNA-seq Analysis Portal
QIAGEN의 RNA-seq Analysis Portal은 이런 부분들을 쉽게 해결할 수 있도록 하는 웹 및 클라우드 기반의 분석 프로그램입니다. 생명정보학 경험이 없는 생물학 연구자를 위해 간단하게 QC 및 DEG 분석을 할 수 있게 절차를 설계하였습니다. 그 결과를 QIAGEN IPA로 전송해 추가 분석을 진행하면 rawdata 서열에서부터 pathway 분석까지 수 시간 내에 완료할 수 있습니다. 보유 중인 서열뿐만 아니라 SRA 및 Illumina의 BaseSpace에서 클라우드-클라우드 전송도 가능합니다. 접속은 해당 링크를 통해 진행하거나, IPA Analysis Match Explorer 라이선스를 보유하신 분들이라면 IPA 화면 우측 상단 링크를 통해 접근할 수 있습니다.
IPA 화면 내의 RNA-seq Analysis Portal 링크
RNA-seq Analysis Portal은 크레딧이 존재하며, 샘플 당 이를 소모하여 분석을 진행합니다. 분석은 AWS에서 진행되며, QIAGEN과 Amazon에서 만든 CLC Genomics Workbench 기반의 workflow를 사용합니다. 현재 분석이 가능한 종은 Human, rat, mouse를 포함하여 20종이며, 지원하는 샘플 키트 리스트가 별도로 존재합니다. 관련하여 자세한 내용은 링크를 참조해 주세요.
분석을 지원하는 20종에 대한 리스트
RNA-seq Analysis Portal에서는 아래 화면과 같이 3단계 (1. Upload sequencing data, 2. Align and count, 3. Create experiment)로 차등 발현 분석을 진행합니다. 각 단계에 대해 알아보면서 얼마나 간단하게 사용할 수 있는지 확인해 보시죠.
RNA-seq Analysis Portal 메인 페이지
1. Upload sequencing data
연구자의 컴퓨터에 저장되어 있는 서열 파일을 업로드하는 단계입니다. 드래그 & 드롭 또는 browse 버튼을 눌러 직접 선택할 수 있습니다. FASTQ 파일 또는 BAM 파일을 업로드할 수 있으며, 한 파일당 최대 70GB까지 업로드가 가능합니다. 만약 paired-end 데이터라면, 우측에 2개의 FASTQ 파일이 하나의 샘플로 잘 묶였는지 확인 후 Upload 버튼을 눌러주세요.
데이터 업로드 화면
2가지의 주의 사항이 있습니다. 먼저, 업로드가 완료되기 전 창을 끄거나 새로고침을 하시면 업로드가 취소됩니다. 그리고 업로드한 데이터는 보안을 위해 72시간 후 자동으로 삭제된다는 점 참고 부탁드립니다. 만약 업로드 속도가 느리거나 대량의 데이터를 업로드하여 창을 켜놓은 시간이 길어지면, 자동으로 새로고침이 발생할 수 있습니다. 이렇게 새로고침이 발생할 경우 별도의 업로더 창을 띄울 수 있습니다. 이곳에서는 자동으로 재연결 및 세션 지속을 추가 20시간까지 지원합니다.
2. Align and count
이 단계는 데이터를 분석하고 각 샘플에서의 발현 레벨을 생성합니다. 업로드한 데이터뿐만 아니라 SRA에 업로드된 샘플 및 Illumina BaseSpace에 저장된 데이터도 클라우드-클라우드 기반으로 전송하여 선택한 후 분석을 진행할 수 있습니다.
Align and count 화면
(좌) SRA Samples 선택 시 화면 (우) BaseSpace 선택 시 Illumina 로그인 페이지로 이동한 화면
Uploaded를 선택 후 기존에 업로드했던 샘플을 선택할 수 있습니다. Create new project를 클릭하여 분석 결과를 저장할 새로운 폴더를 만들거나 기존의 프로젝트를 선택해 주세요. 이후 시퀀싱을 진행했을 때 사용했던 Sample kit 벤더, 키트의 종류, Spike-ins 사용 여부, Reference를 선택해 주세요. Next Step에서 자유롭게 선택한 후 Start 버튼을 눌러주면 분석이 진행됩니다.
3. Create experiment
이 단계는 차등 발현에 사용할 샘플 선택, QC 리포트 만들기, 차등 발현 분석을 위한 그룹 선택이 진행됩니다. 여기서 메타데이터 파일이 있다면 이를 업로드하고, 없다면 Manually add attributes를 클릭하여 수동으로 그룹을 만들 수 있습니다. 컴마(,)를 통해 그룹을 구분할 수 있습니다.
(좌) Create experiment 화면 (우) metadata 수동 작성 화면
메타데이터를 모두 작성하였다면 실험 디자인을 구성할 수 있습니다.
1) Test differential expression due to 항목에서 비교하고 싶은 metadata 그룹을 선택해 주세요(ex. Diet).
2) While controling for 항목은 옵션입니다. 예를 들어 아래 그림과 같이 샘플을 구분할 수 있는 다양한 항목이 있을 때, 특정 항목의 차이(ex. Gender)를 반영하지 않고 싶다면 선택해 주세요.
3) Experimental setup은 3가지 선택지로 나뉩니다.
- Across groups (ANOVA-like) : 세 개 이상의 그룹에 대해서 평균과 어떤 통계학적 차이가 있는지를 확인하여 A vs B vs C의 형태로 결과가 나옵니다.
- All group pairs : 1:1로 모든 그룹을 분석합니다. 예를 들어 A, B, C가 있다면 A vs B, A vs C, B vs C 각각의 결과를 얻을 수 있습니다.
- Against control group : control로 지정한 그룹과 나머지 그룹 간의 비교 분석을 진행합니다. 예를 들어 A가 control이라면 A vs B, A vs C의 결과를 얻을 수 있습니다.
이 중 하나를 선택하신 후 Start를 클릭해 주시면 차등 발현 분석이 시작됩니다.
Experimental design 선택 창
4. 분석 결과 확인
지금까지 3단계를 통해 업로드, 발현 분석, QC 및 차등발현 분석을 완료했습니다. 분석 결과는 2. Align and count 단계에서 생성한 프로젝트 또는 기존 프로젝트에 저장되어 있습니다. QC 결과, 차등 발현 분석 결과가 있으며, 우측 하단의 Compare Analyses를 클릭하면 각 차등 발현 분석 결과끼리의 비교를 벤 다이어그램으로 나타내는 결과를 추가로 얻을 수 있습니다.
분석 결과가 저장된 Project 선택 시 창
차등 발현 분석 결과
먼저 차등 발현 분석 결과를 살펴보면, 좌측 상단에는 유전자별 Fold change 및 p-value를 확인할 수 있습니다. Full Feature list를 다운로드 받을 수도 있습니다. 좌측 하단은 IPA 결과 중 일부를 Portal에서 확인할 수 있습니다. IPA의 주요 결과인 Canonical Pathway, Upstream Regulators, Diseases & Functions에 대한 Top 10 값을 표로 간략히 나타냅니다. 가운데와 우측의 Volcano Plot 및 Heatmap의 경우, 하단의 filter 값에 의해 자동으로 조절되며 변화합니다. 특히 Heatmap은 유전자가 1,000개 이하일 때 나타납니다.
차등 발현 분석 결과 클릭 시
실제 업로드한 데이터로 분석을 진행하면 IPA로 데이터를 바로 전송하는 버튼이 생성됩니다. 현재는 Demo project 결과 화면이라, 해당 버튼의 이미지를 추가 처리하였습니다.
QC 결과
Experiment summary and QC를 클릭하시면 QC 결과 및 PCA plot을 확인할 수 있습니다.
Samples 탭을 클릭했을 때의 PCA plot 이미지
Quality Control 탭을 클릭하시면 QC 결과, Mapping 결과 및 그 type, Biotype의 분포와 unmapped 된 read가 많을 시 대략적인 taxanomic profile을 확인할 수 있습니다.
(좌) QC 요약 결과 및 (우) Biotype distribution
Comparison
마지막으로 Compare Analyses를 클릭했을 때 그 결과가 Comparison이라는 형태로 나타납니다. 해당 항목을 클릭해 보면 좌측에는 유전자별 Fold Change 및 p-value를 그룹별로 확인할 수 있으며, 우측에는 벤 다이어그램으로 영역별 유전자 개수를 확인할 수 있습니다.
Comparison 결과 화면
마치며
지금까지 QIAGEN의 RNA-seq Analysis Portal에 대해 알아보았습니다.약 10개 이하의 선택지를 체크하는 것만으로 간단하게 서열 데이터로부터 DEG까지 분석할 수 있고, 그 결과를 IPA로 전송하여 pathway 분석도 바로 진행할 수 있습니다. 실제로 테스트했을 때에는 triplicate, 100 Mbps 인터넷 기준 case vs control의 IPA 분석까지 약 4시간 30분 정도에 이루어졌습니다. 분석 시간 단축뿐만 아니라 컴퓨터 기반 지식이 적어도 편리하게 사용할 수 있는 RNA-seq Analysis Portal을 통해 연구의 효율성을 높이세요!
EDITOR
김형민
iLAB · Senior Consultant
'STORAGE' 카테고리의 다른 글
더 이상 낯설지 않은 AI, 우리의 일상에 적용된 AI기술 (0) | 2024.12.10 |
---|---|
나만의 AI 도우미, Copilot (0) | 2024.11.27 |
비만의 숨은 비밀: 장내미생물이 결정한다! (0) | 2024.11.12 |
공기로 빵을 만들고 죽음을 선사한 매드사이언티스트 (0) | 2024.10.29 |
[LabStory] 차 의과학대학교 박준호 교수님 편 (0) | 2024.10.14 |
댓글