Enkelnukleotidpolymorfism - Single-nucleotide polymorphism
Inom genetik är en enkel-nukleotidpolymorfism ( SNP / s n ɪ p / ; flertalet SNPs / s n ɪ p s / ) en könslinjesubstitution av en enda nukleotid vid en specifik position i genomet . Även om vissa definitioner kräver att substitutionen finns i en tillräckligt stor del av befolkningen (t.ex. 1% eller mer), tillämpar många publikationer inte en sådan frekvensgräns.
Till exempel, vid en specifik basposition i det humana genomet, den G-nukleotid kan förekomma i de flesta individer, men i en minoritet av individer, är den position som upptas av en A . Detta betyder att det finns en SNP vid denna specifika position, och de två möjliga nukleotidvariationerna - G eller A - sägs vara alleler för denna specifika position.
SNP identifierar skillnader i vår mottaglighet för ett brett spektrum av sjukdomar (t.ex. sicklecellanemi , β-talassemi och cystisk fibros ). Sjukdomens svårighetsgrad och hur kroppen reagerar på behandlingar är också manifestationer av genetiska variationer orsakade av SNP. Till exempel är en enbasmutation i APOE ( apolipoprotein E ) -genen associerad med en lägre risk för Alzheimers sjukdom .
En enkel-nukleotidvariant ( SNV ) är en variation i en enda nukleotid. SNV skiljer sig från SNP genom att en SNV kan vara somatisk och kan orsakas av cancer, men en SNP måste segregera i en art population av organismer. SNV uppträder också vanligtvis vid molekylär diagnostik, till exempel design av PCR -primrar för att detektera virus, i vilka det virala RNA- eller DNA -provet kan innehålla SNV.
Typer
Typer av SNP: er |
---|
Single-nukleotid- polymorfismer kan falla inom kodande sekvenser av gener , icke-kodande regioner av gener , eller i de intergena regioner (regioner mellan gener). SNP i en kodande sekvens ändrar inte nödvändigtvis aminosyrasekvensen för det protein som produceras på grund av degenerering av den genetiska koden .
SNP i kodningsregionen är av två typer: synonyma och icke -synonyma SNP: er. Synonyma SNP påverkar inte proteinsekvensen, medan icke -synonyma SNP ändrar aminosyrasekvensen för protein.
- SNP i icke-kodande regioner kan manifestera sig i en högre risk för cancer och kan påverka mRNA-struktur och sjukdomskänslighet. Icke-kodande SNP: er kan också ändra expressionsnivån för en gen, som ett eQTL (uttryckskvantitativt draglokal).
- SNP i kodningsregioner :
- Synonyma substitutioner per definition resulterar inte i en förändring av aminosyra i proteinet, men kan ändå påverka dess funktion på andra sätt. Ett exempel skulle vara en till synes tyst mutation i multimedicinresistensgenen 1 ( MDR1 ), som kodar för en cellmembranpump som driver ut läkemedel från cellen, kan sakta ner translationen och tillåta peptidkedjan att fälla till en ovanlig konformation, vilket orsakar mutantpump för att vara mindre funktionell (i MDR1 -protein t ex C1236T -polymorfism ändrar ett GGC -kodon till GGT vid aminosyraläge 412 i polypeptiden (båda kodar glycin) och C3435T -polymorfismen ändrar ATC till ATT i position 1145 (båda kodar isoleucin)).
-
icke -synonyma substitutioner :
- missense - enda förändring i basen resulterar i förändring av proteinets aminosyra och dess funktionsfel vilket leder till sjukdom (t.ex.cg1580G> T SNP i LMNA -gen - position 1580 (nt) i DNA -sekvensen (CGT -kodon) som får guaninen att bytas ut med tyminet , vilket ger CTT -kodon i DNA -sekvensen, resulterar på proteinnivån i ersättningen av argininet med leucinet i position 527, på fenotypnivån manifesteras detta i överlappande mandibuloakral dysplasi och progeriasyndrom )
- nonsens - punktmutation i en DNA -sekvens som resulterar i ett för tidigt stoppkodon , eller ett nonsenskodon i det transkriberade mRNA , och i en stympad , ofullständig och vanligtvis icke -funktionell proteinprodukt (t.ex. cystisk fibros orsakad av G542X -mutationen i cystiken fibros transmembran konduktansregulatorgen ).
SNP som inte finns i proteinkodande regioner kan fortfarande påverka gen splitsning , transkriptionsfaktorbindning , messenger-RNA- nedbrytning eller sekvensen av icke-kodande RNA. Genuttryck som påverkas av denna typ av SNP kallas ett eSNP (uttryck SNP) och kan vara uppströms eller nedströms genen.
Frekvens
Mer än 335 miljoner SNP har hittats hos människor från flera populationer. Ett typiskt genom skiljer sig från det mänskliga referensgenomet på 4 till 5 miljoner platser, varav de flesta (mer än 99,9%) består av SNP och korta indeler .
Inom ett genom
Den genomiska fördelningen av SNP är inte homogen; SNP förekommer i icke-kodande regioner oftare än i kodningsregioner eller i allmänhet där naturligt urval verkar och "fixerar" allelen (eliminerar andra varianter) av SNP som utgör den mest gynnsamma genetiska anpassningen. Andra faktorer, som genetisk rekombination och mutationshastighet, kan också bestämma SNP -densitet.
SNP -densitet kan förutses av närvaron av mikrosatelliter : AT -mikrosatelliter är i synnerhet kraftfulla förutsägare för SNP -densitet, med långa (AT) (n) upprepningstrakter som tenderar att hittas i regioner med signifikant reducerad SNP -densitet och lågt GC -innehåll .
Inom en befolkning
Det finns variationer mellan mänskliga populationer, så en SNP -allel som är vanlig i en geografisk eller etnisk grupp kan vara mycket sällsynt i en annan. Detta variationsmönster är dock relativt sällsynt; i ett globalt urval av 67,3 miljoner SNP, Human Genome Diversity Project
hittade inga sådana privata varianter som är fixade i en viss kontinent eller storregion. De högsta frekvenserna uppnås av några tiotals varianter som finns> 70% (och några tusen> 50%) i Afrika, Amerika och Oceanien. Däremot når de högsta frekvensvarianterna privata för Europa, Östasien, Mellanöstern eller Central- och Sydasien bara 10 till 30%.
Inom en population kan SNPs tilldelas en mindre allelfrekvens - den lägsta allelfrekvensen på ett ställe som observeras i en viss population. Detta är helt enkelt den lägre av de två allelfrekvenserna för enkel-nukleotidpolymorfismer.
Med denna kunskap har forskare utvecklat nya metoder för att analysera befolkningsstrukturer hos mindre studerade arter. Genom att använda poolningstekniker sänks analyskostnaden avsevärt. Dessa tekniker är baserade på att sekvensera en population i ett sammanslaget prov istället för att sekvensera varje individ inom befolkningen själv. Med nya bioinformatikverktyg finns det möjlighet att undersöka befolkningsstruktur, genflöde och genmigration genom att observera allelfrekvenserna inom hela befolkningen. Med dessa protokoll finns det en möjlighet att kombinera fördelarna med SNP: er med mikrosatellitmarkörer. Det går dock förlorad information i processen, såsom kopplingsobalans och zygositetsinformation.
Ansökningar
- Föreningsstudier kan avgöra om en genetisk variant är associerad med en sjukdom eller egenskap.
- En tagg-SNP är en representativ enkel-nukleotidpolymorfism i en region i genomet med hög kopplingsobalans (den icke-slumpmässiga sammanslutningen av alleler på två eller flera loci). Tagg-SNP: er är användbara i SNP-associeringsstudier med helgenom, där hundratusentals SNP: er i hela genomet är genotypade.
- Haplotypkartläggning : uppsättningar av alleler eller DNA -sekvenser kan grupperas så att en enda SNP kan identifiera många länkade SNP: er.
- Linkage disequilibrium (LD), en term som används i populationsgenetik, indikerar icke-slumpmässig associering av alleler på två eller flera loci, inte nödvändigtvis på samma kromosom. Det hänvisar till fenomenet att SNP -allel eller DNA -sekvens som ligger nära varandra i genomet tenderar att ärvas tillsammans. LD kan påverkas av två parametrar (bland andra faktorer, såsom befolkningsskiktning): 1) Avståndet mellan SNP: erna [ju större avstånd, desto lägre LD]. 2) Rekombinationshastighet [ju lägre rekombinationshastighet, desto högre LD].
Betydelse
Variationer i människors DNA -sekvenser kan påverka hur människor utvecklar sjukdomar och reagerar på patogener , kemikalier , läkemedel , vacciner och andra medel. SNP är också avgörande för personlig medicin . Exempel inkluderar biomedicinsk forskning, kriminalteknik, farmakogenetik och sjukdomssamband, som beskrivs nedan.
Klinisk forskning
SNP: s största betydelse inom klinisk forskning är att jämföra regioner i genomet mellan kohorter (t.ex. med matchade kohorter med och utan sjukdom) i genomomfattande associeringsstudier . SNP har använts i genomomfattande associeringsstudier som markörer med hög upplösning vid genmappning relaterade till sjukdomar eller normala egenskaper. SNP utan observerbar inverkan på fenotypen (så kallade tysta mutationer ) är fortfarande användbara som genetiska markörer i genomomfattande associeringsstudier, på grund av deras kvantitet och det stabila arvet över generationer.
Kriminalteknik
SNP har historiskt använts för att matcha ett rättsmedicinskt DNA -prov med en misstänkt men har blivit föråldrad på grund av avancerade STR -baserade DNA -fingeravtryckstekniker . Utvecklingen av nästa generations sekvenseringsteknik (NGS) kan emellertid möjliggöra fler möjligheter för användning av SNP i fenotypiska ledtrådar som etnicitet, hårfärg och ögonfärg med god sannolikhet för matchning. Detta kan dessutom tillämpas för att öka noggrannheten i ansiktsrekonstruktioner genom att tillhandahålla information som annars kan vara okänd, och denna information kan användas för att identifiera misstänkta även utan en STR DNA -profilmatchning .
Några nackdelar med att använda SNP kontra STR är att SNP ger mindre information än STR, och därför behövs fler SNP för analys innan en profil av en misstänkt kan skapas. Dessutom är SNP: er starkt beroende av närvaron av en databas för jämförande analys av prover. Men i fall med försämrade eller små volymprover är SNP -tekniker ett utmärkt alternativ till STR -metoder. SNP (till skillnad från STR) har ett överflöd av potentiella markörer, kan vara helt automatiserade och en eventuell minskning av erforderlig fragmentlängd till mindre än 100bp. [26]
Farmakogenetik
Vissa SNP är associerade med metabolismen av olika läkemedel. SNP: er kan vara mutationer, såsom deletioner, som kan hämma eller främja enzymatisk aktivitet; sådan förändring i enzymatisk aktivitet kan leda till minskade hastigheter på läkemedelsmetabolism Sambandet mellan ett stort antal mänskliga sjukdomar som cancer , infektionssjukdomar ( AIDS , spetälska , hepatit , etc.) autoimmun , neuropsykiatrisk och många andra sjukdomar med olika SNP kan göras som relevanta farmakogenomiska mål för läkemedelsbehandling.
Sjukdom
En enda SNP kan orsaka en mendelsk sjukdom, men för komplexa sjukdomar fungerar SNP vanligtvis inte individuellt, snarare fungerar de i samordning med andra SNP för att manifestera en sjukdom som vid osteoporos. [33] En av de tidigaste framgångarna inom detta område var att hitta en enda basmutation i den icke-kodande regionen i APOC3 (apolipoprotein C3-genen) som förknippades med högre risker för hypertriglyceridemi och åderförkalkning . [34]. Vissa sjukdomar som orsakas av SNP inkluderar reumatoid artrit , Crohns sjukdom , bröstcancer , Alzheimers och vissa autoimmuna sjukdomar . Storskaliga associeringsstudier har utförts för att försöka upptäcka ytterligare sjukdomsframkallande SNP inom en befolkning, men ett stort antal av dem är fortfarande okända.
Exempel
- rs6311 och rs6313 är SNP i Serotonin 5-HT2A-receptorgenen på human kromosom 13.
- SNP - 3279C/A (rs3761548) är bland SNP: erna som finns i promotorregionen för Foxp3 -genen, kan vara inblandade i cancerprogression.
- En SNP i F5 -genen orsakar faktor V Leiden -trombofili.
- rs3091244 är ett exempel på en triallel SNP i CRP -genen på human kromosom 1.
- TAS2R38 koder för PTC -provningsförmåga och innehåller 6 annoterade SNP: er.
- rs148649884 och rs138055828 i FCN1- genen som kodar för M-fikolin förlamade den ligandbindande förmågan hos det rekombinanta M-fikolin.
- Ett intron SNP i DNA-felpamingsreparation genen PMS2 (rs1059060, Ser775Asn) är associerad med ökad spermie DNA-skada och risk för manlig infertilitet .
Databaser
Som det finns för gener, finns bioinformatikdatabaser för SNP: er.
- dbSNP är en SNP -databas från National Center for Biotechnology Information (NCBI). Från och med den 8 juni 2015 listade dbSNP 149 735 377 SNP hos människor.
- Kaviar är ett sammandrag av SNP från flera datakällor inklusive dbSNP.
- SNPedia är en databas i wiki-stil som stöder personlig genomkommentering, tolkning och analys.
- Den OMIM -databasen beskriver sambandet mellan polymorfismer och sjukdomar (t.ex., ger sjukdomar i textform)
- dbSAP-enkel aminosyrapolymorfismdatabas för detektion av proteinvariationer
- Human Gene Mutation Database tillhandahåller genmutationer som orsakar eller associeras med mänskliga ärftliga sjukdomar och funktionella SNP
- Den internationella HapMap Project , där forskare identifiera Tag SNPs att kunna bestämma insamling av haplotyper som finns i varje ämne.
- GWAS Central tillåter användare att visuellt förhöra de faktiska sammanfattningsnivåens associeringsdata i en eller flera genomomfattande associeringsstudier .
Den internationella SNP Map-arbetsgruppen kartlade sekvensen som flankerar varje SNP genom att anpassa den till den genomiska sekvensen för stora insatta kloner i Genebank. Dessa inriktningar konverterades till kromosomala koordinater som visas i tabell 1. Denna lista har ökat kraftigt sedan till exempel Kaviar -databasen som nu listar 162 miljoner enkla nukleotidvarianter (SNV).
Kromosom | Längd (bp) | Alla SNP: er | TSC SNP | ||
---|---|---|---|---|---|
Totalt SNP | kb per SNP | Totalt SNP | kb per SNP | ||
1 | 214 066 000 | 129 931 | 1,65 | 75 166 | 2,85 |
2 | 222 889 000 | 103 664 | 2.15 | 76 985 | 2,90 |
3 | 186 938 000 | 93 140 | 2.01 | 63 669 | 2,94 |
4 | 169 035 000 | 84 426 | 2,00 | 65 719 | 2.57 |
5 | 170 954 000 | 117 882 | 1.45 | 63 545 | 2,69 |
6 | 165 022 000 | 96 317 | 1,71 | 53.797 | 3.07 |
7 | 149 414 000 | 71 752 | 2,08 | 42 327 | 3.53 |
8 | 125 148 000 | 57 834 | 2.16 | 42 653 | 2,93 |
9 | 107.440.000 | 62 013 | 1,73 | 43 020 | 2,50 |
10 | 127 894 000 | 61 298 | 2.09 | 42 466 | 3.01 |
11 | 129.193.000 | 84 663 | 1.53 | 47 621 | 2,71 |
12 | 125.198.000 | 59 245 | 2.11 | 38 136 | 3,28 |
13 | 93 711 000 | 53 093 | 1,77 | 35 745 | 2,62 |
14 | 89 344 000 | 44,112 | 2.03 | 29 746 | 3,00 |
15 | 73 467 000 | 37 814 | 1,94 | 26 524 | 2,77 |
16 | 74.037.000 | 38 735 | 1,91 | 23 328 | 3.17 |
17 | 73 367 000 | 34 621 | 2.12 | 19 396 | 3,78 |
18 | 73.078.000 | 45,135 | 1,62 | 27 028 | 2,70 |
19 | 56 044 000 | 25 676 | 2.18 | 11 185 | 5.01 |
20 | 63 317 000 | 29 478 | 2.15 | 17 051 | 3,71 |
21 | 33 824 000 | 20 916 | 1,62 | 9 103 | 3,72 |
22 | 33 786 000 | 28 410 | 1.19 | 11 056 | 3.06 |
X | 131 245 000 | 34 842 | 3,77 | 20 400 | 6,43 |
Y | 21 753 000 | 4193 | 5.19 | 1 784 | 12.19 |
RefSeq | 15 696 674 | 14 534 | 1,08 | ||
Totaler | 2 710 164 000 | 1 419 190 | 1,91 | 887 450 | 3.05 |
Nomenklatur
Nomenklaturen för SNP innehåller flera variationer för en individuell SNP, utan att det saknas ett gemensamt samförstånd.
Rs ### standarden är den som har antagits av dbSNP och använder prefixet "rs", för "referens SNP", följt av ett unikt och godtyckligt nummer. SNP refereras ofta till med deras dbSNP rs -nummer, som i exemplen ovan.
Human Genome Variation Society (HGVS) använder en standard som förmedlar mer information om SNP. Exempel är:
- c.76A> T: "c." för kodningsregion , följt av ett tal för positionen för nukleotiden, följt av en förkortning på en bokstav för nukleotiden (A, C, G, T eller U), följt av ett större än tecken (">") för att indikera substitution, följt av förkortningen av nukleotiden som ersätter den förra
- p.Ser123Arg: "s." för protein, följt av en förkortning på tre bokstäver för aminosyran, följt av ett tal för aminosyrans position, följt av förkortningen av aminosyran som ersätter den förra.
SNP -analys
SNP kan enkelt analyseras på grund av att endast innehålla två möjliga alleler och tre möjliga genotyper som involverar de två allelerna: homozygot A, homozygot B och heterozygot AB, vilket leder till många möjliga tekniker för analys. Några inkluderar: DNA -sekvensering ; kapillärelektrofores ; masspektrometri ; enkelsträngad konformationspolymorfism (SSCP); enkel basförlängning ; elektrokemisk analys; denaturering av HPLC och gelelektrofores ; restriktionsfragmentlängdspolymorfism ; och hybridiseringsanalys .
Program för förutsägelse av SNP -effekter
En viktig grupp SNP är de som motsvarar missense -mutationer som orsakar aminosyraförändring på proteinnivå. Punktmutation av särskild rest kan ha olika effekt på proteinfunktionen (från ingen effekt till fullständig störning av dess funktion). Vanligtvis har förändring av aminosyror med liknande storlek och fysikalisk-kemiska egenskaper (t.ex. substitution från leucin till valin) en mild effekt, och motsatt. På samma sätt, om SNP stör de sekundära strukturelementen (t.ex. substitution till prolin i alfa -helixregionen ) kan en sådan mutation vanligtvis påverka hela proteinets struktur och funktion. Med hjälp av de enkla och många andra maskininlärningsreglerna utvecklades en grupp program för förutsägelse av SNP -effekt:
- SIFT Detta program ger inblick i hur en laboratorieinducerad missense eller icke -synonym mutation kommer att påverka proteinfunktionen baserat på fysiska egenskaper hos aminosyran och sekvenshomologi.
- LIST (Local Identity and Shared Taxa) uppskattar den potentiella skadan hos mutationer som kan uppstå till följd av att deras proteinfunktioner förändras. Det är baserat på antagandet att variationer som observerats i närbesläktade arter är mer signifikanta vid bedömning av bevarande jämfört med dem hos avlägset besläktade arter.
- SNAP2
- Misstänka
- PolyPhen-2
- PredictSNP
- MutationTaster : officiell webbplats
- Variant Effect Predictor från Ensembl -projektet
- SNPViz Detta program ger en 3D -representation av det påverkade proteinet, vilket belyser aminosyraförändringen så att läkare kan avgöra patogeniteten hos det mutanta proteinet.
- PROVEAN
- PhyreRisk är en databas som kartlägger varianter till experimentella och förutsagda proteinstrukturer.
- Missense3D är ett verktyg som tillhandahåller en stereokemisk rapport om effekten av missense -varianter på proteinstruktur.
Se även
Referenser
Vidare läsning
- "Ordlista" . Naturrecensioner .
- Projektinformation om mänskligt genom - SNP -faktablad
externa länkar
- NCBI -resurser - Introduktion till SNP från NCBI
- SNP Consortium LTD - SNP -sökning
- NCBI dbSNP -databas - "ett centralt förvar för både enkelbasnukleotidsubstitutioner och korta borttagnings- och infogningspolymorfismer"
- HGMD - Human Gene Mutation Database, innehåller sällsynta mutationer och funktionella SNP
- GWAS Central- en central databas över genetiska associeringsfynd på sammanfattande nivå
- 1000 Genomes Project - En djup katalog över mänsklig genetisk variation
- WatCut- ett onlineverktyg för design av SNP-RFLP-analyser
- SNPStats - SNPStats, ett webbverktyg för analys av genetiska associeringsstudier
- Restriction HomePage - en uppsättning verktyg för DNA -begränsning och SNP -detektion, inklusive design av mutagena primers
- American Association for Cancer Research Cancer Concepts Faktablad om SNP
- PharmGKB - kunskapsbasen för farmakogenetik och farmakogenomik, en resurs för SNP som är associerade med läkemedelsrespons och sjukdomsutfall.
- GEN-SNiP- Onlineverktyg som identifierar polymorfismer i test-DNA-sekvenser.
- Regler för nomenklatur för gener, genetiska markörer, alleler och mutationer hos mus och råtta
- HGNC -riktlinjer för mänsklig gen -nomenklatur
- SNP -effektprediktor med galaxintegration
- Öppna SNP - en portal för att dela egna SNP -testresultat
- dbSAP - SNP -databas för detektion av proteinvariationer