Sammanhållande teori - Coalescent theory

Sammanhållande teori är en modell för hur alleler som urval från en befolkning kan ha härstammat från en gemensam förfader . I det enklaste fallet förutsätter koalescent teori ingen rekombination , inget naturligt urval och inget genflöde eller befolkningsstruktur , vilket innebär att varje variant är lika sannolikt att ha överförts från en generation till nästa. Modellen ser bakåt i tiden och slår samman alleler till en enda förfaderlig kopia enligt en slumpmässig process vid koalescenshändelser. Enligt denna modell ökar den förväntade tiden mellan successiva koalescenshändelser nästan exponentiellt tillbaka i tiden (med stor variation ). Variation i modellen kommer från både slumpmässig överföring av alleler från en generation till nästa, och slumpmässig förekomst av mutationer i dessa alleler.

Den matematiska teorin om koalescenten utvecklades oberoende av flera grupper i början av 1980 -talet som en naturlig förlängning av klassisk befolkningsgenetisk teori och modeller, men kan främst tillskrivas John Kingman . Framsteg inom koalescent teori inkluderar rekombination, urval, överlappande generationer och praktiskt taget alla godtyckligt komplexa evolutionära eller demografiska modeller inom populationsgenetisk analys.

Modellen kan användas för att ta fram många teoretiska släktforskningar och sedan jämföra observerade data med dessa simuleringar för att testa antaganden om en befolknings demografiska historia. Sammanhållande teori kan användas för att dra slutsatser om befolkningsgenetiska parametrar, såsom migration, befolkningsstorlek och rekombination.

Teori

Dags att samsas

Tänk på ett enda genlokus ur två haploida individer i en population. Ursprunget till detta prov spåras bakåt i tiden till den punkt där dessa två släktlinjer sammanfaller i sin senaste gemensamma förfader (MRCA). Sammanhållande teori försöker uppskatta förväntningarna på denna tidsperiod och dess varians.

Sannolikheten för att två släktlinjer sammanfaller i den omedelbart föregående generationen är sannolikheten att de delar en föräldra -DNA -sekvens. I en befolkning med en konstant effektiv befolkningsstorlek med 2 N e kopior av varje lokus finns det 2 N e "potentiella föräldrar" i den föregående generationen. Under en slumpmässig parningsmodell är sannolikheten för att två alleler härstammar från samma föräldrakopia alltså 1/(2 N e ) och på motsvarande sätt är sannolikheten att de inte sammanfaller 1 - 1/(2 N e ).

Vid varje påföljande föregående generation är sannolikheten för koalescens geometriskt fördelad - det vill säga sannolikheten för icke -koalescens vid t  - 1 föregående generationer multiplicerat med sannolikheten för koalescens vid genereringen av intresse:

För tillräckligt stora värden på N e närmar sig denna fördelning väl av den kontinuerligt definierade exponentiella fördelningen

Detta är matematiskt bekvämt, eftersom standardexponentiell fördelning har både förväntat värde och standardavvikelse lika med 2 N e . Även om den förväntade tiden för koalescens är 2 N e har faktiska koalescens -tider därför ett brett spektrum av variationer. Observera att koalescenttid är antalet föregående generationer där koalescensen ägde rum och inte kalendertid, även om en uppskattning av den senare kan göras genom att multiplicera 2 N e med den genomsnittliga tiden mellan generationerna. Ovanstående beräkningar gäller lika mycket för en diploidpopulation av effektiv storlek N e (med andra ord, för ett icke-rekombinerande segment av DNA kan varje kromosom behandlas som likvärdig med en oberoende haploid individ; i avsaknad av inavel kan systerkromosomer i en enskild individ är inte närmare släkt än två kromosomer som slumpmässigt tas ur befolkningen). Vissa effektivt haploida DNA -element, såsom mitokondriellt DNA , överförs emellertid endast av ett kön och har därför en fjärdedel av den effektiva storleken på motsvarande diploidpopulation ( N e /2)

Neutral variation

Sammanhållande teori kan också användas för att modellera mängden variation i DNA -sekvenser som förväntas från genetisk drift och mutation. Detta värde kallas medel heterozygositet , representerad som . Genomsnittlig heterozygositet beräknas som sannolikheten för en mutation som inträffar vid en given generation dividerat med sannolikheten för någon "händelse" vid den generationen (antingen en mutation eller en koalescens). Sannolikheten att händelsen är en mutation är sannolikheten för en mutation i någon av de två linjerna: . Således är den genomsnittliga heterozygositeten lika med

För de allra flesta allelpar har minst en skillnad i nukleotidsekvens .

Grafisk representation

Coalescents kan visualiseras med hjälp av dendrogram som visar förhållandet mellan befolkningens grenar till varandra. Punkten där två grenar möts indikerar en sammanfallande händelse.

Ansökningar

Kartläggning av sjukdomsgener

Nyttan av sammanfogande teori vid kartläggning av sjukdomar får långsamt mer uppskattning; även om tillämpningen av teorin fortfarande är i sin linda, finns det ett antal forskare som aktivt utvecklar algoritmer för analys av mänskliga genetiska data som använder koalescent teori.

Ett stort antal mänskliga sjukdomar kan tillskrivas genetik, från enkla Mendeliska sjukdomar som sicklecellanemi och cystisk fibros , till mer komplicerade sjukdomar som cancer och psykiska sjukdomar. De senare är polygena sjukdomar, kontrollerade av flera gener som kan förekomma på olika kromosomer, men sjukdomar som utfälls av en enda abnormitet är relativt enkla att identifiera och spåra - även om de inte är så enkla att detta har uppnåtts för alla sjukdomar. Det är oerhört användbart för att förstå dessa sjukdomar och deras processer att veta var de finns på kromosomer , och hur de har ärvts genom generationer av en familj, vilket kan åstadkommas genom koalescent analys.

Genetiska sjukdomar överförs från en generation till en annan precis som andra gener. Även om någon gen kan blandas från en kromosom till en annan under homolog rekombination , är det osannolikt att en gen ensam kommer att skiftas. Således kan andra gener som är tillräckligt nära sjukdomsgenen för att kopplas till den användas för att spåra den.

Polygena sjukdomar har en genetisk grund även om de inte följer Mendels arvsmodeller, och dessa kan ha relativt hög förekomst i populationer och ha allvarliga hälsoeffekter. Sådana sjukdomar kan ha ofullständig penetration och tenderar att vara polygena , vilket komplicerar deras studie. Dessa egenskaper kan uppstå på grund av många små mutationer, som tillsammans har en allvarlig och skadlig effekt på individens hälsa.

Kopplingskartläggningsmetoder, inklusive Coalescent -teori kan sättas igång med dessa sjukdomar, eftersom de använder släktträd för att ta reda på vilka markörer som följer med en sjukdom och hur den ärvs. Åtminstone hjälper denna metod att begränsa den eller de delar av genomet som de skadliga mutationerna kan inträffa på. Komplikationer i dessa tillvägagångssätt inkluderar epistatiska effekter, mutationernas polygena karaktär och miljöfaktorer. Som sagt, gener vars effekter är additiva har en fast risk att utveckla sjukdomen, och när de finns i en sjukdomsgenotyp kan de användas för att förutsäga risk och kartlägga genen. Både regelbunden koalescent och splittrad koalescent (vilket gör att flera mutationer kan ha inträffat i grundandet, och att sjukdomen ibland kan utlösas av miljöfaktorer) har satts i arbete för att förstå sjukdomsgener.

Studier har utförts som korrelerar förekomsten av sjukdomar hos broder- och enäggstvillingar, och resultaten från dessa studier kan användas för att informera om koalescent modellering. Eftersom enäggstvillingar delar hela sitt genom, men broderliga tvillingar bara delar hälften av deras genom, kan skillnaden i samband mellan identiska och broderliga tvillingar användas för att räkna ut om en sjukdom är ärftlig, och i så fall hur starkt.

Den genomiska fördelningen av heterozygositet

Den mänskliga enkel-nukleotidpolymorfismen (SNP) -kartan har avslöjat stora regionala variationer i heterozygositet, mer än vad som kan förklaras utifrån ( Poisson-fördelad ) slumpmässig slump. Dels kan dessa variationer förklaras utifrån bedömningsmetoder, tillgängligheten av genomiska sekvenser och möjligen den standardiserade koalescenta populationsgenetiska modellen. Befolkningens genetiska influenser kan ha ett stort inflytande på denna variation: vissa platser skulle antagligen ha relativt nyligen gemensamma förfäder, andra kan ha mycket äldre släktforskningar, och så kan den regionala ackumuleringen av SNP över tid vara ganska annorlunda. Den lokala densiteten av SNP: er längs kromosomer verkar klusteras i enlighet med en varians för att betyda kraftlag och att lyda Tweedie -sammansatt Poisson -distribution . I denna modell skulle de regionala variationerna i SNP -kartan förklaras av ackumulering av flera små genomiska segment genom rekombination, där medelantalet SNP per segment skulle vara gamma fördelat i proportion till en gammadistribuerad tid till den senaste gemensamma förfadern för varje segment.

Historia

Sammanhållande teori är en naturlig förlängning av det mer klassiska befolkningsgenetiska begreppet neutral utveckling och är en approximation till Fisher – Wright (eller Wright – Fisher) modellen för stora populationer. Det upptäcktes oberoende av flera forskare på 1980 -talet.

programvara

Det finns en stor mängd programvara för både simulering av datamängder under koalesceringsprocessen såväl som för slutsatser av parametrar som befolkningsstorlek och migrationshastigheter från genetiska data.

  • BEAST - Bayesiansk inferenspaket via MCMC med ett brett utbud av koalescerande modeller inklusive användning av tidsmässigt samplade sekvenser.
  • BPP - mjukvarupaket för att dra slutsatser om fylogeni och divergens gånger bland befolkningen under en kooperationsprocess med flera arter.
  • CoaSim - programvara för att simulera genetiska data enligt den koalescenta modellen.
  • DIYABC- ett användarvänligt tillvägagångssätt för ABC för slutsatser om befolkningshistorik med hjälp av molekylära markörer.
  • DendroPy - ett Python -bibliotek för fylogenetisk beräkning, med klasser och metoder för att simulera rena (obegränsade) sammanslagande träd samt begränsade koalescenta träd under den multispeciala föreningsmodellen (dvs "genträd i artsträd").
  • GeneRecon- programvara för finskalig kartläggning av kopplingsobalansmappning av sjukdomsgener med hjälp av koalescent teori baserad på ett Bayesiansk MCMC- ramverk.
  • genetree mjukvara för uppskattning av populationsgenetiska parametrar med hjälp av koalescent teori och simulering ( R -paketet popgen). Se även Oxford Mathematical Genetics and Bioinformatics Group
  • GENOME- snabb koalescentbaserad helgenomsimulering
  • IBDSim - ett datorpaket för simulering av genotypiska data under allmän isolering av distansmodeller.
  • IMa - IMa implementerar samma Isolation with Migration -modell, men gör det med en ny metod som ger uppskattningar av den gemensamma posterior sannolikhetstätheten för modellparametrarna. IMa tillåter också test av logisk sannolikhet för kapslade demografiska modeller. IMa är baserat på en metod som beskrivs i Hey och Nielsen (2007 PNAS 104: 2785–2790). IMa är snabbare och bättre än IM (dvs genom att ge åtkomst till den gemensamma posterior densitetsfunktionen), och den kan användas för de flesta (men inte alla) av situationer och alternativ som IM kan användas för.
  • Lamarc - programvara för uppskattning av befolkningstillväxt, migration och rekombination.
  • Migrän - ett program som implementerar koalescerande algoritmer för maximal sannolikhetsanalys (med hjälp av algoritmer för viktsampling ) av genetiska data med fokus på rumsligt strukturerade populationer.
  • Migrera - maximum likelihood och Bayesian slutledning av migrationshastigheter under n -coalescent. Slutsatsen implementeras med MCMC
  • MaCS - Markovian Coalescent Simulator - simulerar släktforskning spatialt över kromosomer som en markovisk process. Liknar SMC -algoritmen för McVean och Cardin och stöder alla demografiska scenarier som finns i Hudsons ms.
  • ms & msHOT - Richard Hudsons ursprungliga program för att generera prover under neutrala modeller och en förlängning som möjliggör rekombinationshotspots .
  • msms - en utökad version av ms som innehåller selektiva svepningar.
  • msprime- en snabb och skalbar ms-kompatibel simulator som tillåter demografiska simuleringar och producerar kompakta utdatafiler för tusentals eller miljontals genomer.
  • Recodon och NetRecodon - programvara för att simulera kodningssekvenser med inter/intrakodon rekombination, migration, tillväxthastighet och longitudinell provtagning.
  • CoalEvol och SGWE - programvara för att simulera nukleotid-, kodnings- och aminosyrasekvenser under samförstånd med demografi, rekombination, befolkningsstruktur med migration och longitudinell provtagning.
  • SARG - struktur Ancestral Recombination Graph av Magnus Nordborg
  • simcoal2 - programvara för att simulera genetiska data enligt den koalescerande modellen med komplex demografi och rekombination
  • TreesimJ - framåt simuleringsprogramvara som möjliggör provtagning av släktforskningar och datamängder under olika selektiva och demografiska modeller.

Referenser

Källor

Artiklar

  • ^ Arenas, M. och Posada, D. (2014) Simulering av genomomfattande utveckling under heterogena substitutionsmodeller och komplexa multispeciala föreningshistorier. Molekylärbiologi och evolution 31 (5) : 1295–1301
  • ^ Arenas, M. och Posada, D. (2007) Recodon: Koalescent simulering av kodande DNA -sekvenser med rekombination, migration och demografi. BMC Bioinformatik 8 : 458
  • ^ Arenas, M. och Posada, D. (2010) Koalescent simulering av intrakodonrekombination. Genetik 184 (2) : 429–437
  • ^ Browning, SR (2006) Multilocus association mapping med markov-kedjor med variabel längd. American Journal of Human Genetics 78 : 903–913
  • ^ Cornuet J.-M., Pudlo P., Veyssier J., Dehne-Garcia A., Gautier M., Leblois R., Marin J.-M., Estoup A. (2014) DIYABC v2.0: en programvara att göra ungefärliga Bayesian -beräkningar av slutsatser om befolkningshistorik med hjälp av Single Nucleotide Polymorphism, DNA -sekvens och mikrosatellitdata. Bioinformatik ' 30' : 1187–1189
  • ^ Degnan, JH och LA Salter. 2005. Geneträdfördelningar under den koalescenta processen. Evolution 59 (1): 24–37. pdf från coaltree.net/
  • ^ Donnelly, P., Tavaré, S. (1995) Coalescents och genealogisk struktur under neutralitet. Årlig granskning av Genetics 29: 401–421
  • ^ Drummond A, Suchard MA, Xie D, Rambaut A (2012). "Bayesiansk fylogenetik med BEAUti och BEAST 1.7" . Molekylärbiologi och evolution . 29 (8): 1969–1973. doi : 10.1093/molbev/mss075 . PMC  3408070 . PMID  22367748 .
  • ^ Ewing, G. och Hermisson J. (2010), MSMS: ett koalescent simuleringsprogram inklusive rekombination, demografisk struktur och urval på ett enda ställe, Bioinformatik 26 : 15
  • ^ Hellenthal, G., Stephens M. (2006) msHOT: modifiera Hudsons ms -simulator för att införliva korsnings- och genomvandlingshotspots Bioinformatik AOP
  • ^ Hudson, Richard R. (1983a). "Testa den neutrala allelmodellen med konstant hastighet med proteinsekvensdata". Evolution . 37 (1): 203–17. doi : 10.2307/2408186 . ISSN  1558-5646 . JSTOR  2408186 . PMID  28568026 .
  • ^ Hudson RR (1983b) Egenskaper hos en neutral allelmodell med intragenisk rekombination. Teoretisk befolkningsbiologi 23: 183–201.
  • ^ Hudson RR (1991)Genealogier och sammanfogningsprocessen. Oxford Surveys in Evolutionary Biology 7: 1–44
  • ^ Hudson RR (2002) Generera prover under en Wright – Fisher neutral modell. Bioinformatik 18 : 337–338
  • ^ Kendal WS (2003) En exponentiell dispersionsmodell för distribution av humana enkla nukleotidpolymorfismer. Mol Biol Evol 20: 579–590
  • Hein, J., Schierup, M., Wiuf C. (2004) Gene Genealogies, Variation and Evolution: A Primer in Coalescent Theory Oxford University Press ISBN  978-0-19-852996-5
  • ^ Kaplan, NL, Darden, T., Hudson, RR (1988) Den koalescenta processen i modeller med urval. Genetik 120: 819–829
  • ^ Kingman, JFC (1982). "Om släktforskning över stora befolkningar". Journal of Applied Probability . 19 : 27–43. CiteSeerX  10.1.1.552.1429 . doi : 10.2307/3213548 . ISSN  0021-9002 . JSTOR  3213548 .
  • ^ Kingman, JFC (2000) Origins of the coalescent 1974–1982. Genetik 156 : 1461–1463
  • ^ Leblois R., Estoup A. och Rousset F. (2009) IBDSim: ett datorprogram för att simulera genotypiska data under isolering på distans Molecular Ecology Resources 9 : 107–109
  • ^ Liang L., Zöllner S., Abecasis GR (2007) GENOME: en snabb koalescentbaserad helgenomsimulator. Bioinformatik 23 : 1565–1567
  • ^ Mailund, T., Schierup, MH, Pedersen, CNS, Mechlenborg, PJM, Madsen, JN, Schauser, L. (2005) CoaSim: A Flexible Environment for Simulating Genetic Data under Coalescent Models BMC Bioinformatics 6 : 252
  • ^ Möhle, M., Sagitov, S. (2001) En klassificering av koalescenta processer för haploida utbytbara befolkningsmodellerThe Annals of Probability 29: 1547–1562
  • ^ Morris, AP, Whittaker, JC, Balding, DJ (2002) Finskalig kartläggning av sjukdomsplatser via krossad koalescent modellering av släktforskningar American Journal of Human Genetics 70 : 686–707
  • ^ Neuhauser, C., Krone, SM (1997) Genealogi av prover i modeller med urval Genetics 145 519–534
  • ^ Pitman, J. (1999) Koalescent med flera kollisionerThe Annals of Probability 27: 1870–1902
  • ^ Harding, Rosalind, M. 1998. Nya fylogenier: en inledande titt på koalescenten. s. 15–22, i Harvey, PH, Brown, AJL, Smith, JM, Nee, S. Nya användningsområden för nya fylogenier. Oxford University Press (ISBN 0198549849)
  • ^ Rosenberg, NA, Nordborg, M. (2002) Genealogiska träd, koalescent teori och analys av genetiska polymorfismer. Nature Reviews Genetics 3: 380–390
  • ^ Sagitov, S. (1999) Den allmänna sammansmältningen med asynkrona sammanslagningar av släktlinjerJournal of Applied Probability 36: 1116–1125
  • ^ Schweinsberg, J. (2000) Koalescent med samtidiga flera kollisionerElectronic Journal of Probability 5: 1–50
  • ^ Slatkin, M. (2001) Simulering av släktforskning av utvalda alleler i populationer av varierande storlekGenetisk forskning 145: 519–534
  • ^ Tajima, F. (1983) Evolutionär relation mellan DNA -sekvenser i ändliga populationer. Genetik 105: 437–460
  • ^ Tavare S, Balding DJ, Griffiths RC & Donnelly P. 1997. Slutar sammanfogningstider från DNA -sekvensdata. Genetik 145: 505–518.
  • ^ Den internationella SNP -kartgruppen. 2001. En karta över mänsklig genomvariation som innehåller 1,42 miljoner enkla nukleotidpolymorfismer. Natur 409: 928–933.
  • ^ Zöllner S. ochPritchard JK(2005) Coalescent-Based Association Mapping and Fine Mapping of Complex Trait Loci Genetics 169 : 1071–1092
  • ^ Rousset F. och Leblois R. (2007) Sannolikhet och ungefärliga sannolikhetsanalyser av genetisk struktur i en linjär livsmiljö: Prestanda och robusthet för att modellera felspecifikation Molekylärbiologi och utveckling 24 : 2730–2745

Böcker

externa länkar