Sequencing Issues

From Koreangenome.org

Jump to: navigation, search

제임스 왓슨의 시퀀싱은 454시스템을 사용하여 시퀀싱을 하긴 하였지만 이것 역시 next generation sequencing을 이용한것입니다. read length(50)가 약간 차이 있는 것으로 알고 있습니다만... 최근에 중국에서 나온 solexa가지고 genome 시퀀싱 한결과를 보면 6-8배 정도 하면 커다란 차이가 없음이 발혀 졌습니다. 올린이 : BRIC, 왓슨 (2008-12-05 23:25:10) 

제임스 왓슨 지놈의 경우 454시스템으로 250bp정도로 시퀀싱해서 Solexa보다 비교적 정확하다고 알려져있습니다. 하지만 왓슨의 논문에서도 보면 알겠지만 SNP를 찾을때 에러가 매우 높게 나옵니다. 레퍼런스 서열과 다르면서 homozygous인 경우 95.1% heterozygous일 경우 75.8% 일치도를 보입니다. 여기에 해당하는 한국인은 homo일경우는 97.60% hetoro일 경우는 96.82%로 왓슨과 비교했을때 정확도에 문제가 없습니다. 물론 Venter와 비교했을때도 마찬가지로 정확도는 높습니다. 정확도로 치면 YH(BGI) > KSJ(Korea) > Venter > Watson 순이 됩니다. 그리고 SNP발굴을 위해서 high-quality 서열 5 read 이상이 cover를 해줘야지 그안에서 SNP발굴을 했습니다. 그리고 너무 반복해서 많이(50read이상) 붙을경우 이 또한 SNP 발굴하는 사이트에서 제외시켰습니다. 그래서 SNP발굴의 error률을 감소시킬수가 있었습니다.

인간 유전체에는 아무리 시퀀싱해도 시퀀싱되지 않는 hetero chromosomal영역이 존재함으로 인해서 그리고 많은 배수로 시퀀싱해도 시퀀싱이 잘 되지 않는 영역이 존재하여 인간의 DNA를 약 30억 bp라고 추정할뿐 현재까지 시퀀싱된 데이터는 2.8Gbp이며 모든 personal genome 논문에서 이 수치를 기준으로 나눠서 배수를 계산했습니다. 기존 문헌 어디에서도 30억 bp 기준으로 하는것은 보지 못한것 같습니다.

흑인의 경우 약  24.5%가 새로운 SNP이며 중국은 13.6%만이 새로운 SNP라고 합니다. 그 이유는 당연합니다. 흑인 개인 유전체 시퀀싱한 논문에 사용된 샘플 NA18507은 Internatioanl HapMap에서 흑인 대표로 선별한 나이지리아인 90명의 샘플중에 하나입니다. 그리고 이 샘플들에서 발굴된 SNP들은 dbSNP에 모두 등록되어있는 상태입니다. 그 숫자는 약 398만건에 해당합니다.  이미 dbSNP에 이만큼의 숫자가 등록이 되어있으니 24.5%로 한국인에 비해서 신규로 발굴되는 SNP가 비교적 작을수 밖에 없습니다. 그리고 이 HapMap프로젝트에서 발굴할때 이 나이지리아인 외에도 백인,중국인,일본인 이렇게 4인종에 대해서만 대대적인 SNP발굴이 진행되었습니다. 그래서 중국인의 경우에서도 13.6%로 신규 SNP가 작게 나온것도 당연한것입니다. 중국인에서 발굴된 SNP가 dbSNP에 405만건이 넘게 등록되어있습니다. 그 반면에 한국인의 경우는 dbSNP에 한번도 이와 같이 몇백만건이 한꺼번에 대량으로 등록된 사례가 없었습니다. 그래서 이번 KSJ 유전체 시퀀싱을 통해서 한국인의 최초로 새로운 SNP들이 대량으로 발굴된것으로 보입니다. 그리고 이 연구사례는 소수민족에 있어서도 개인유전체 표준 서열을 만들필요가 있다는것을 설명하는 좋은 예가 될것입니다. 

KoreaGenome.org 홈페이지에서는 유전체 시퀀싱을 통해 발굴된 SNP와 SNP칩과의 일치도를 공개하고 있습니다.  http://koreagenome.org/data.html
명확하게 설명할수 있는것은 다음과 같이 Affy 6.0 SNP칩을 이용하여 샘플에서 실험을 했습니다. 보통 SNP칩들의 정확도는 99.9%이상이기 때문에 이 데이터를 절대적은 genotype결과라고 보고 시퀀싱된 데이터에서 발견되는 SNP중 homozygous genotype와 heterozygous genotype에 대해서 각각 이 SNP칩과의 일치도를 확인해보면 다음과 같습니다. 즉  homozygous genotype은 약 97.21% 일치도를 보였으며 heterozygous genotype의 경우는 96.82%의 일치도를 보이고 있습니다. 이 수치는 Venter와 Watson에 비한다면 이들보다는 높은 정확도의 SNP발굴을 수행했음을 보여주고 있습니다.

 

 

Personal tools
Google AdSense