Kvantitativ jämförande lingvistik - Quantitative comparative linguistics

Kvantitativ jämförande lingvistik är användningen av kvantitativ analys som tillämpas på jämförande lingvistik . Exempel inkluderar de statistiska områdena lexikostatistik och glottokronologi och lån av fylogenetik från biologin.

Historia

Statistiska metoder har använts för kvantitativ analys i jämförande lingvistik i mer än ett sekel. Under 1950 -talet framkom Swadesh -listan : en standardiserad uppsättning lexikaliska begrepp som finns på de flesta språk, som ord eller fraser, som gör att två eller flera språk kan jämföras och kontrasteras empiriskt.

Förmodligen var den första publicerade kvantitativa historiska lingvistikstudien av Sapir 1916, medan Kroeber och Chretien 1937 undersökte nio indoeuropeiska (IE) språk med 74 morfologiska och fonologiska drag (utvidgades 1939 genom införandet av hettiter). Ross utförde 1950 en undersökning av den teoretiska grunden för sådana studier. Swadesh, med hjälp av ordlistor, utvecklade lexikostatistik och glottokronologi i en serie artiklar som publicerades i början av 1950 -talet men dessa metoder kritiserades kraftigt även om en del av kritiken ansågs vara omotiverad av andra forskare. Embleton publicerade en bok om "Statistik i historisk lingvistik" 1986 som granskade tidigare arbete och utökade den glottokronologiska metoden. Dyen, Kruskal och Black genomförde 1992 en studie av den lexikostatistiska metoden på en stor IE -databas.

Under 1990 -talet blev intresset för ämnet förnyat, baserat på tillämpning av metoder för beräkning av fylogenetik och kladistik . Sådana projekt involverade ofta samarbete mellan språkforskare och kollegor med expertis inom informationsvetenskap och/eller biologisk antropologi . Dessa projekt försökte ofta komma fram till ett optimalt fylogenetiskt träd (eller nätverk), för att representera en hypotes om det evolutionära anor och kanske dess språkkontakter. Pionjärer inom dessa metoder inkluderade grundarna av CPHL: computational phylogenetics in historic linguistics (CPHL -projekt): Donald Ringe , Tandy Warnow , Luay Nakhleh och Steven N. Evans .

I mitten av 1990-talet datoriserade en grupp vid Pennsylvania University den jämförande metoden och använde en annan IE-databas med 20 forntida språk. Inom det biologiska området utvecklades sedan flera program som kan tillämpas på historisk lingvistik. I synnerhet utvecklade en grupp vid University of Auckland en metod som gav kontroversiellt gamla datum för IE -språk. En konferens om "Time-depth in Historical Lingistics" hölls i augusti 1999 där många tillämpningar av kvantitativa metoder diskuterades. Därefter har många artiklar publicerats om studier av olika språkgrupper samt jämförelser av metoderna.

Större medial uppmärksamhet genererades 2003 efter publiceringen av antropologer Russell Gray och Quentin Atkinson av en kort studie om indoeuropeiska språk i naturen . Gray och Atkinson försökte kvantifiera, i sannolikhets bemärkelse, åldern och släktskapen mellan moderna indoeuropeiska språk och ibland de föregående protospråken.

Arbetet vid en inflytelserik konferens 2004, Phylogenetic Methods and the Prehistory of Languages publicerades 2006, redigerat av Peter Forster och Colin Renfrew .

Studerade språkfamiljer

Beräknings fylogenetiska analyser har utförts för:

Bakgrund

Standardmetoden för att bedöma språkförhållanden har varit jämförande metod . Detta har dock ett antal begränsningar. Inte allt språkligt material är lämpligt som input och det finns frågor om de språkliga nivåer som metoden fungerar på. De rekonstruerade språken är idealiserade och olika forskare kan ge olika resultat. Språk släktträd används ofta i samband med metoden och "lån" måste uteslutas från data, vilket är svårt när lån är inom en familj. Det hävdas ofta att metoden är begränsad i det tidsdjup som den kan arbeta över. Metoden är svår att tillämpa och det finns inget oberoende test. Således har man sökt alternativa metoder som har en formaliserad metod, kvantifierar sambandet och kan testas.

Ett mål med jämförande historisk lingvistik är att identifiera fall av genetisk släktskap bland språk. Stegen i kvantitativ analys är (i) att utforma ett förfarande baserat på teoretiska grunder, på en viss modell eller på tidigare erfarenheter, etc. (ii) att verifiera förfarandet genom att tillämpa det på vissa data där det finns en stor mängd språkliga yttrande för jämförelse (detta kan leda till en översyn av förfarandet i steg (i) eller i yttersta fall av dess fullständiga övergivande) (iii) att tillämpa förfarandet på uppgifter där språkliga åsikter ännu inte har tagits fram, ännu inte har varit fasta etablerade eller kanske till och med är i konflikt.

Att tillämpa fylogenetiska metoder på språk är en flerstegsprocess: (a) kodningsstadiet - att komma från riktiga språk till något uttryck för relationerna mellan dem i form av numeriska eller statliga data, så att dessa data sedan kan användas som inmatning till fylogenetiska metoder (b) representationssteget - tillämpning av fylogenetiska metoder för att extrahera från dessa numeriska och/eller statliga data en signal som omvandlas till någon användbar representationsform, vanligtvis tvådimensionella grafiska sådana som träd eller nätverk, som syntetiserar och " kollapsa "vad som ofta är mycket komplexa flerdimensionella relationer i signalen (c) tolkningsstadiet - bedöma dessa träd- och nätverksrepresentationer för att extrahera från dem vad de egentligen betyder för riktiga språk och deras relationer genom tiden.

Typer av träd och nätverk

En utmatning av en kvantitativ historisk språklig analys är normalt ett träd eller ett nätverksdiagram. Detta tillåter sammanfattande visualisering av utdata men är inte det fullständiga resultatet. Ett träd är en ansluten acyklisk graf, som består av en uppsättning hörn (även känd som "noder") och en uppsättning kanter ("grenar") som var och en förbinder ett par hörn. En intern nod representerar en språklig förfader i ett fylogent träd eller nätverk. Varje språk representeras av en väg, vägarna visar de olika tillstånden när det utvecklas. Det finns bara en väg mellan varje hörnpar. Orotade träd plottar förhållandet mellan inmatade data utan antaganden om deras härkomst. Ett rotat träd identifierar uttryckligen en gemensam förfader, ofta genom att ange en utvecklingsriktning eller genom att inkludera en "utgrupp" som är känd för att endast vara fjärran relaterad till den uppsättning språk som klassificeras. De flesta träd är binära, det vill säga en förälder har två barn. Ett träd kan alltid produceras även om det inte alltid är lämpligt. En annan sorts träd är det bara baserat på språklikheter / skillnader. I detta fall representerar de interna noder i grafen inte förfäder utan introduceras för att representera konflikten mellan de olika delningarna ("bipartitioner") i dataanalysen. Det "fenetiska avståndet" är summan av vikterna (ofta representerade som längder) längs vägen mellan språk. Ibland görs ett ytterligare antagande om att dessa interna noder representerar förfäder.

När språk konvergerar, vanligtvis med ordet adoption ("lån"), är en nätverksmodell mer lämplig. Det kommer att finnas ytterligare kanter för att återspegla språkets dubbla föräldraskap. Dessa kanter kommer att vara dubbelriktade om båda språken lånar från varandra. Ett träd är alltså ett enkelt nätverk, men det finns många andra typer av nätverk. Ett fylogentiskt nätverk är ett där taxan representeras av noder och deras evolutionära samband representeras av grenar. En annan typ är den som är baserad på delningar, och är en kombinatorisk generalisering av det kluvna trädet. En given uppsättning splittringar kan ha mer än en representation, så interna noder är kanske inte förfäder och är bara en "implicit" representation av evolutionär historia som skiljer sig från den "uttryckliga" representationen av fylogenetiska nätverk. I ett delat nätverk är det frenetiska avståndet den för den kortaste vägen mellan två språk. En annan typ är det retikulära nätverket som visar oförenligheter (på grund av till exempel kontakt) eftersom retikulationer och dess interna noder representerar förfäder. Ett nätverk kan också konstrueras genom att lägga till kontaktkanter till ett träd. Den sista huvudtypen är konsensusnätverket som bildas av träd. Dessa träd kan vara ett resultat av bootstrap -analys eller prover från en posterior distribution.

Språkändring

Förändring sker kontinuerligt för språk, men vanligtvis inte i konstant takt, med dess kumulativa effekt som ger uppdelningar i dialekter, språk och språkfamiljer. Man tror generellt att morfologi förändras långsammast och fonologi snabbast. När förändringen sker, finns allt mindre bevis på originalspråket kvar. Slutligen kan det förlora alla bevis på samband. Ändringar av en typ kanske inte påverkar andra typer, till exempel påverkar ljudförändringar inte kognans. Till skillnad från biologi kan det inte antas att språk alla har ett gemensamt ursprung och att etablera släktskap är nödvändigt. I modelleringen antas det ofta för enkelhetens skull att karaktärerna ändras oberoende men så kanske inte är fallet. Förutom att låna kan det också finnas semantiska skift och polymorfism.

Analys ingång

Data

Analys kan utföras på språkens "tecken" eller på språkens "avstånd". I det förra fallet har inmatningen till en språkklassificering i allmänhet formen av en datamatris där raderna motsvarar de olika språken som analyseras och kolumnerna motsvarar olika funktioner eller tecken genom vilka varje språk kan beskrivas. Dessa funktioner är av två typer kognater eller typologiska data. Tecken kan ha en eller flera former (homoplasi) och kan vara lexikaliska, morfologiska eller fonologiska. Kognater är morfem (lexikaliska eller grammatiska) eller större konstruktioner. Typologiska tecken kan komma från någon del av grammatiken eller lexikonet. Om det finns luckor i data måste dessa kodas.

Förutom den ursprungliga databasen med (oskärmad) data, bildas undergrupper i många studier för särskilda ändamål (skärmad data).

Inom lexikostatistiken är funktionerna betydelsen av ord, eller snarare semantiska slots. Således är matrisposterna en serie glans. Som ursprungligen tänkt av Swadesh skulle det enskilt vanligaste ordet för en plats väljas, vilket kan vara svårt och subjektivt på grund av semantisk förskjutning. Senare metoder kan tillåta att mer än en mening införlivas.

Begränsningar

Vissa metoder gör att begränsningar kan läggas på språkkontaktgeografi (isolering efter avstånd) och på delgruppens delningstider.

Databaser

Swadesh publicerade ursprungligen en lista på 200 ord men förfinade den senare till en 100 ord. En vanlig IE -databas är den av Dyen, Kruskal och Black som innehåller data för 95 språk, även om originalet är känt för att innehålla några fel. Förutom rådata innehåller den också kognitiv bedömningar. Detta är tillgängligt online. Databasen för Ringe, Warnow och Taylor har information om 24 IE -språk, med 22 fonologiska tecken, 15 morfologiska tecken och 333 lexikaliska tecken. Gray och Atkinson använde en databas med 87 språk med 2449 lexikaliska objekt, baserat på Dyen -uppsättningen med tillägg av tre forntida språk. De införlivade kognitionsbedömningarna av ett antal forskare. Andra databaser har tagits fram för bland annat afrikanska, australiensiska och andinska språkfamiljer.

Kodning av data kan vara i binär form eller i flerstatlig form. Den förra används ofta men resulterar i en fördom. Det har hävdats att det finns en konstant skalfaktor mellan de två kodningsmetoderna, och att man kan ta hänsyn till detta. En annan studie tyder dock på att topologin kan förändras

Ordlistor

Ordet slots väljs för att vara så kultur- och lånefria som möjligt. De ursprungliga Swadesh -listorna används oftast men många andra har utformats för särskilda ändamål. Ofta är dessa kortare än Swadeshs lista över 100 artiklar. Kessler har skrivit en bok om "Betydelsen av ordlistor medan McMahon och McMahon genomfört studier om effekterna av rekonstruerbarhet och retentivitet. Effekten av att öka antalet slots har studerats och en lag med minskande avkastning hittats, med cirka 80 men vissa studier har använt mindre än hälften av detta antal.

I allmänhet representeras varje kopplad uppsättning som en annan karaktär men skillnader mellan ord kan också mätas som en avståndsmätning genom ljudförändringar. Avstånd kan också mätas bokstav för bokstav.

Morfologiska drag

Traditionellt har dessa betraktats som viktigare än lexikala och därför har vissa studier lagt ytterligare vikt på denna typ av karaktär. Sådana funktioner inkluderades till exempel i Ringe, Warnow och Taylor IE -databasen. Men andra studier har utelämnat dem.

Typologiska drag

Exempel på dessa funktioner inkluderar glottaliserade konstanter, tonsystem, ackusativ inriktning i substantiv, dubbelnummer, korrespondens för fallnummer, objekt-verb-ordning och första person singularpronom. Dessa kommer att listas i WALS -databasen, även om detta bara är glesbefolkat för många språk än.

Probabilistiska modeller

Vissa analysmetoder innehåller en statistisk modell för språkutveckling och använder modellens egenskaper för att uppskatta evolutionens historia. Statistiska modeller används också för simulering av data för teständamål. En stokastisk process kan användas för att beskriva hur en uppsättning karaktärer utvecklas inom ett språk. Sannolikheten för att ett tecken kommer att förändras kan bero på grenen men inte alla tecken utvecklas tillsammans, inte heller är hastigheten identisk för alla grenar. Det antas ofta att varje karaktär utvecklas oberoende men så är inte alltid fallet. Inom en modell kan lån och parallell utveckling (homoplasi) också modelleras, liksom polymorfismer.

Slumpens effekter

Slumpmässiga likheter ger en brusnivå mot vilken den nödvändiga signalen om närhet måste hittas. En studie genomfördes av Ringe av slumpens effekter på massjämförelsemetoden . Detta visade att slumpmässiga likheter var avgörande för tekniken och att Greenbergs slutsatser inte kunde motiveras, även om det matematiska förfarandet som Rimge använde senare kritiserades.

Med små databaser kan samplingsfel vara viktiga.

I vissa fall är en stor databas och uttömmande sökning efter alla möjliga träd eller nätverk inte genomförbar på grund av begränsningar i körtid. Således finns det en chans att den optimala lösningen inte hittas med heuristiska lösnings-rymd-sökmetoder.

Upptäckt av lån

Lånord kan allvarligt påverka trädets topologi så man försöker utesluta lån. Emellertid finns det fortfarande oupptäckta sådana. McMahon och McMahon visade att cirka 5% upplåning kan påverka topologin medan 10% har betydande effekter. I nätverk ger upplåning retikulationer. Minett och Wang undersökte sätt att upptäcka upplåning automatiskt.

Split dejting

Datering av språkdelningar kan bestämmas om det är känt hur karaktärerna utvecklas längs varje gren av ett träd. Det enklaste antagandet är att alla tecken utvecklas med en enda konstant takt med tiden och att detta är oberoende av trädgrenen. Detta var antagandet i glottokronologi. Studier visade dock snart att det fanns variation mellan språk, vissa troligen på grund av förekomsten av okänd lån. Ett bättre tillvägagångssätt är att tillåta hastighetsvariation, och gammafördelningen används vanligtvis på grund av dess matematiska bekvämlighet. Studier har också genomförts som visar att teckenutbytesfrekvensen beror på användningsfrekvensen. Utbredd upplåning kan snedvrida tidsskattningar genom att få språk att verka mer lika och därmed yngre. Detta gör dock också förfaderns grenlängd längre så att roten inte påverkas.

Denna aspekt är den mest kontroversiella delen av kvantitativ jämförande lingvistik.

Typer av analys

Det finns ett behov av att förstå hur en språkklassificeringsmetod fungerar för att fastställa dess antaganden och begränsningar. Det kan bara vara giltigt under vissa förutsättningar eller vara lämpligt för små databaser. Metoderna skiljer sig åt i datakrav, komplexitet och körtid. Metoderna skiljer sig också åt när det gäller optimeringskriterier.

Karaktärsbaserade modeller

Maximal parsimoni och maximal kompatibilitet

Dessa två metoder är likartade, men den maximala parsimonimetodens mål är att hitta trädet (eller nätverket) där det minsta antalet evolutionära förändringar sker. I vissa implementationer kan karaktärerna ges vikter och sedan är målet att minimera den sammanlagda viktade summan av förändringarna. Analysen producerar outrotade träd om inte en utgrupp används eller riktas tecken. Heuristik används för att hitta det bästa trädet men optimering garanteras inte. Metoden implementeras ofta med hjälp av programmen PAUP eller TNT .

Maximal kompatibilitet använder också tecken, med målet att hitta det träd på vilket det maximala antalet tecken utvecklas utan homoplasi. Återigen kan karaktärerna vägas och när detta inträffar är målet att maximera summan av vikterna på kompatibla tecken. Det producerar också träd utan rötter om inte ytterligare information införlivas. Det finns inga tillgängliga heuristik som är korrekta med stora databaser. Denna metod har endast använts av Ringes grupp.

I dessa två metoder finns det ofta flera träd med samma poäng så den vanliga praxisen är att hitta ett konsensusträd via en algoritm. En majoritetskonsensus har tvåpartier i mer än hälften av ingångsträden medan en girig konsensus lägger till tvåpartier i majoritetsträdet. Det strikta konsensusträdet är minst löst och innehåller de splittringar som finns i varje träd.

Bootstrapping (en statistisk resamplingsstrategi) används för att tillhandahålla filialstödsvärden. Tekniken plockar slumpmässigt tecken från indatamatrisen och sedan används samma analys. Stödvärdet är fraktionen av körningarna med den bipartitionen i det observerade trädet. Men bootstrapping är mycket tidskrävande.

Maximal sannolikhet och Bayesiansk analys

Båda dessa metoder använder explicita utvecklingsmodeller. Den maximala sannolikhetsmetoden optimerar sannolikheten för att producera de observerade data, medan Bayesiansk analys uppskattar sannolikheten för varje träd och ger därmed en sannolikhetsfördelning. En slumpmässig promenad görs genom "modell-trädrummet". Båda tar en obestämd tid att köra, och stopp kan vara godtyckligt så ett beslut är ett problem. Båda producerar dock supportinformation för varje gren.

Antagandena för dessa metoder är öppen och är verifierbara. Komplexiteten hos modellen kan ökas om det behövs. Modellparametrarna uppskattas direkt från inmatningsdata så antaganden om evolutionär hastighet undviks.

Perfekt fylogenetiska nätverk

Denna metod producerar ett uttryckligt fylogent nätverk med ett underliggande träd med ytterligare kontaktkanter. Tecken kan lånas men utvecklas utan homoplasi. För att producera sådana nätverk har en grafteoretisk algoritm använts.

Gray och Atkinsons metod

De inmatade lexikala data kodas i binär form, med ett tecken för varje tillstånd i det ursprungliga flerstatstecknet. Metoden tillåter homoplasi och begränsningar för delade tider. En sannolikhetsbaserad analysmetod används, med evolution uttryckt som en hastighetsmatris. Cognate gain and loss är modellerad med en gammadistribution för att möjliggöra hastighetsvariation och med hastighetsutjämning. På grund av det stora antalet möjliga träd med många språk används Bayesiansk slutsats för att söka efter det optimala trädet. En Monte Carlo -algoritm från Markov Chain genererar ett stickprov av träd som en approximation till den bakre sannolikhetsfördelningen. En sammanfattning av denna distribution kan tillhandahållas som ett girigt konsensusträd eller nätverk med stödvärden. Metoden ger också datumuppskattningar.

Metoden är korrekt när de ursprungliga tecknen är binära och utvecklas identiskt och oberoende av varandra under en rats-över-plats-modell med gamma-distribuerade hastigheter; datumen är korrekta när förändringstakten är konstant. Att förstå metodens prestanda när de ursprungliga tecknen är multi-state är mer komplicerat, eftersom den binära kodningen producerar tecken som inte är oberoende, medan metoden förutsätter oberoende.

Nicholls och Greys metod

Denna metod är en utväxt av Gray och Atkinson. I stället för att ha två parametrar för ett tecken använder den här metoden tre. Födelsekvoten, dödsfrekvensen för en närstående är specificerad och dess låneränta. Födelsetalen är en slumpmässig variabel från Poisson med en enstaka födelse av en besläktad klass men separata dödsfall av grenar är tillåtna (Dollo parsimony). Metoden tillåter inte homoplasi men tillåter polymorfism och begränsningar. Dess största problem är att den inte kan hantera saknade data (detta problem har sedan lösts av Ryder och Nicholls. Statistiska tekniker används för att anpassa modellen till data. Förhandsinformation kan införlivas och en MCMC -forskning görs om möjliga rekonstruktioner. metoden har tillämpats på Gray och Nichols databas och verkar ge liknande resultat.

Avståndsbaserade modeller

Dessa använder en triangulär matris av parvisa språkjämförelser. Inmatningsteckenmatrisen används för att beräkna avståndsmatrisen antingen med hjälp av Hamming -avståndet eller Levenshtein -avståndet . Den förstnämnda mäter andelen matchande tecken medan den senare tillåter att kostnaderna för de olika möjliga transformeringarna inkluderas. Dessa metoder är snabba jämfört med helt karaktärsbaserade. Dessa metoder leder dock till informationsförlust.

UPGMA

"Unweighted Pairwise Group Method with Arithmetic-mean" ( UPGMA ) är en grupperingsteknik som fungerar genom att upprepade gånger ansluta de två språk som har det minsta avståndet mellan dem. Det fungerar exakt med klockliknande utveckling men annars kan det vara fel. Detta är metoden som används i Swadeshs ursprungliga lexikostatistik.

Delad sönderdelning

Detta är en teknik för att dela upp data i naturliga grupper. Data kan vara tecken men är vanligtvis avståndsmått. Teckenantal eller avstånd används för att generera delningarna och för att beräkna vikter (grenlängder) för delningarna. De viktade delningarna representeras sedan i ett träd eller nätverk baserat på att minimera antalet ändringar mellan varje par taxa. Det finns snabba algoritmer för att generera samlingen av delningar. Vikterna bestäms från taxon till taxon avstånd. Delad sönderdelning är effektiv när antalet taxa är litet eller när signalen inte är för komplicerad.

Granne går med

Denna metod fungerar på distansdata, beräknar en transformation av ingångsmatrisen och beräknar sedan minimiavståndet för språkparen. Det fungerar korrekt även om språken inte utvecklas med en lexikal klocka. En vägd version av metoden kan också användas. Metoden producerar ett utmatningsträd. Det påstås vara den närmaste metoden för manuella tekniker för trädkonstruktion.

Grann-nät

Den använder en liknande algoritm som grannanslutning. Till skillnad från delad sönderdelning smälter den inte ihop noder direkt utan väntar tills en nod har kopplats ihop en andra gång. Trädnoderna ersätts sedan av två och avståndsmatrisen reduceras. Den kan hantera stora och komplicerade datamängder. Utmatningen är dock ett fenogram snarare än ett fylogram. Detta är den mest populära nätverksmetoden.

Nätverk

Detta var en tidig nätverksmetod som har använts för viss språkanalys. Det utvecklades ursprungligen för genetiska sekvenser med mer än ett möjligt ursprung. Nätverket kollapsar de alternativa träden till ett enda nätverk. Där det finns flera historier ritas en retikulation (en lådform). Det genererar en lista med tecken som är inkompatibla med ett träd.

ASP

Detta använder en deklarativ kunskapsrepresentationsformalism och metoderna för svaruppsättning. En sådan lösare är CMODELS som kan användas för små problem men större kräver heuristik. Förbehandling används för att bestämma de informativa tecknen. CMODELS förvandlar dem till en propositionell teori som använder en SAT -lösare för att beräkna modellerna för denna teori.

Fitch/Kitch

Fitch och Kitch är maximala sannolikhetsbaserade program i PHYLIP som gör att ett träd kan ordnas om efter varje tillägg, till skillnad från NJ. Kitch skiljer sig från Fitch genom att anta en konstant förändringshastighet i hela trädet medan Fitch tillåter olika hastigheter ner för varje gren.

Separationsnivåmetod

Holm introducerade en metod år 2000 för att hantera några kända problem med lexikostatistisk analys. Dessa är "symplesiomorphy trap", där delade arkaismer är svåra att skilja från delade innovationer, och "proportionalitets" fälla "när senare förändringar kan skymma tidiga. Senare introducerade han en förfinad metod, kallad SLD, för att ta hänsyn till variabeln ordfördelning över språk. Metoden förutsätter inte en konstant förändringstakt.

Snabba konvergensmetoder

Ett antal snabbkonvergerande analysmetoder har utvecklats för användning med stora databaser (> 200 språk). En av dessa är Disk Covering Method (DCM). Detta har kombinerats med befintliga metoder för att ge förbättrad prestanda. Ett papper om DCM-NJ+MP-metoden ges av samma författare i "Performance of Phylogenetic Methods on Trees of Bounded Diameter", där det jämförs med NJ-metoden.

Likhetsbaserade modeller

Dessa modeller jämför ordens bokstäver snarare än deras fonetik. Dunn et al. studerade 125 typologiska tecken på 16 austronesiska och 15 papuanska språk. De jämförde sina resultat med ett MP -träd och ett konstruerat av traditionell analys. Betydande skillnader hittades. På samma sätt använde Wichmann och Saunders 96 tecken för att studera 63 amerikanska språk.

Datoriserad massjämförelse

En metod som har föreslagits för första inspektion av en uppsättning språk för att se om de är relaterade var massjämförelse . Detta har dock kritiserats hårt och hamnat i oanvändning. Nyligen har Kessler återuppväckt en datoriserad version av metoden men med rigorös hypotesprovning. Syftet är att använda likheter på mer än två språk åt gången. I en annan uppsats utvärderas olika kriterier för att jämföra ordlistor. Det konstaterades att IE- och Uralic-familjerna kunde rekonstrueras men det fanns inga bevis för en gemensam superfamilj.

Nichols metod

Den här metoden använder stabila lexikaliska fält, till exempel stanceverb, för att försöka upprätta långdistansrelationer. Hänsyn tas till konvergens och semantiska skift för att söka efter gamla kognater. En modell skisseras och resultaten från en pilotstudie presenteras.

ASJP

Den Automated Likhet Dom Program (ASJP) liknar lexicostatistics , men dom likheter görs av ett datorprogram efter en konsekvent uppsättning regler. Träd genereras med standard fylogenetiska metoder. ASJP använder 7 vokalsymboler och 34 konsonantsymboler. Det finns också olika modifierare. Två ord bedöms lika om minst två på varandra följande konsonanter i respektive ord är identiska medan vokaler också beaktas. Andelen ord med samma betydelse som bedöms vara lika för ett par språk är Lexical Similarity Percentage (LSP). Den fonologiska likhetsprocenten (PSP) beräknas också. PSP subtraheras sedan från LSP vilket ger den subtraherade likhetsprocenten (SSP) och ASJP-avståndet är 100-SSP. För närvarande finns det data om över 4 500 språk och dialekter i ASJP -databasen från vilken ett träd av världens språk genererades.

Serva och Petronis metod

Detta mäter det ortografiska avståndet mellan ord för att undvika subjektiviteten i kognitivdomar. Den bestämmer det minsta antalet operationer som behövs för att omvandla ett ord till ett annat, normaliserat med längden på det längre ordet. Ett träd konstrueras från avståndsdata med UPGMA -tekniken.

Fonetiska utvärderingsmetoder

Heggarty har föreslagit ett sätt att ge ett mått på graden av skillnad mellan kognater, snarare än bara ja/nej svar. Detta är baserat på att undersöka många (> 30) funktioner i glonternas fonetik i jämförelse med protokollet. Detta kan kräva mycket arbete men Heggarty hävdar att endast ett representativt ljudprov är nödvändigt. Han undersökte också förändringstakten för fonetiken och fann en stor hastighetsvariation, så att den var olämplig för glottokronologi. En liknande utvärdering av fonetiken hade tidigare utförts av Grimes och Agard för romantiska språk, men detta använde endast sex jämförelsepunkter.

Utvärdering av metoder

Metrik

Det finns standardmatematiska tekniker för att mäta likheten/skillnaden mellan två träd. För konsensusträd är konsistensindex (CI) ett mått på homoplasi. För ett tecken är det förhållandet mellan det minsta tänkbara antalet steg på ett träd (= 1 för binära träd) dividerat med antalet rekonstruerade steg på trädet. CI för ett träd är summan av tecken CI dividerat med antalet tecken. Det representerar andelen mönster som är korrekt tilldelade.

Retention Index (RI) mäter mängden likhet i ett tecken. Det är förhållandet (g - s) / (g - m) där g är det största antalet steg i ett tecken på ett träd, m är det minsta antalet steg på alla träd, och s är minimistegen för ett visst träd träd. Det finns också en Rescaled CI som är produkten av CI och RI.

För binära träd är det vanliga sättet att jämföra deras topologi att använda Robinson-Foulds-mätvärdet . Detta avstånd är genomsnittet av antalet falska positiva och falska negativa när det gäller grenförekomst. RF -priser över 10% anses vara dåliga matchningar. För andra typer av träd och för nätverk finns det ännu ingen standard jämförelsemetod.

Listor över inkompatibla tecken produceras med vissa trädproducerande metoder. Dessa kan vara extremt hjälpsamma vid analys av utdata. Där heuristiska metoder används är repeterbarhet ett problem. Emellertid används matematiska standardtekniker för att övervinna detta problem.

Jämförelse med tidigare analyser

För att utvärdera metoderna väljs en väl förstådd språkfamilj med en tillförlitlig datamängd. Denna familj är ofta IE men andra har använts. Efter tillämpning av metoderna som ska jämföras med databasen jämförs de resulterande träden med referensträdet som bestäms med traditionella språkliga metoder. Syftet är att inte ha några konflikter inom topologi, till exempel inga saknade undergrupper och kompatibla datum. Familjerna som föreslås för denna analys av Nichols och Warnow är germanska, romantiska, slaviska, vanliga turkiska, kinesiska och Mixe Zoque samt äldre grupper som Oceanic och IE.

Användning av simuleringar

Även om användningen av riktiga språk tillför realism och ger verkliga problem, lider ovanstående valideringsmetod av det faktum att språkens sanna utveckling är okänd. Genom att generera en uppsättning data från en simulerad evolution är rätt träd känt. Det blir dock en förenklad version av verkligheten. Således bör båda utvärderingsteknikerna användas.

Känslighetsanalys

För att bedöma robustheten hos en lösning är det önskvärt att variera ingångsdata och begränsningar och observera utdata. Varje variabel ändras något i tur och ordning. Denna analys har utförts i ett antal fall och metoderna befanns vara robusta, till exempel av Atkinson och Gray.

Studier som jämför metoder

Under början av 1990 -talet började språkforskaren Donald Ringe , med datavetenskapliga forskare Luay Nakhleh och Tandy Warnow , statistiker Steven N. Evans och andra, samarbeta kring forskning i kvantitativa jämförande språkliga projekt. De grundade senare CHPL-projektet , vars mål inkluderar: "att producera och underhålla verkliga språkliga datamängder, särskilt av indoeuropeiska språk", "formulera statistiska modeller som fångar utvecklingen av historiska språkliga data", "utforma simuleringsverktyg och noggrannhet åtgärder för att generera syntetiska data för att studera prestanda för rekonstruktionsmetoder "och" utveckla och implementera statistiskt baserade såväl som kombinatoriska metoder för att rekonstruera språkfylogenier, inklusive fylogenetiska nätverk ".

En jämförelse av kodningsmetoder genomfördes av Rexova et al. (2003). De skapade en minskad datauppsättning från Dyen -databasen men med tillägg av Hittite. De producerade en standard multistatmatris där de 141 teckenstaterna motsvarar individuella kopplade klasser, vilket möjliggör polymorfism. De gick också med i några kända klasser, för att minska subjektiviteten och polymorfa tillstånd var inte tillåtna. Slutligen producerade de en binär matris där varje ordskikt behandlades som ett separat tecken. Matriserna analyserades med PAUP. Det visade sig att användningen av den binära matrisen gav förändringar nära roten av trädet.

McMahon och McMahon (2003) använde tre PHYLIP -program (NJ, Fitch och Kitch) på DKB -datasetet. De fann att resultaten som gjordes var mycket lika. Bootstrapping användes för att testa robustheten hos alla delar av trädet. Senare använde de delmängder av data för att bedöma dess retentivitet och rekonstruerbarhet. Resultaten visade topologiska skillnader som hänför sig till upplåning. De använde sedan även Network, Split Decomposition, Neighbor-net och SplitsTree på flera datamängder . Betydande skillnader hittades mellan de två sistnämnda metoderna. Grannnät ansågs vara optimalt för kräsna språkkontakter.

År 2005 genomförde Nakhleh, Warnow, Ringe och Evans en jämförelse av sex analysmetoder med en indoeuropeisk databas. De jämförda metoderna var UPGMA, NJ MP, MC, WMC och GA. PAUP -mjukvarupaketet användes för UPGMA, NJ och MC samt för att beräkna majoritetens konsensusträd. RWT -databasen användes men 40 tecken togs bort på grund av tecken på polymorfism. Därefter producerades en skärmad databas exklusive alla tecken som tydligt uppvisade parallell utveckling, vilket eliminerade 38 funktioner. Träden utvärderades utifrån antalet inkompatibla tecken och efter överenskommelse med fastställda undergrupperingsresultat. De fann att UPGMA var klart värst men det var inte så stor skillnad mellan de andra metoderna. Resultaten berodde på den datauppsättning som användes. Det visade sig att viktningen av karaktärerna var viktig, vilket kräver språkligt omdöme.

Saunders (2005) jämförde NJ, MP, GA och Neighbor-Net på en kombination av lexikal och typologisk data. Han rekommenderade att använda GA -metoden men Nichols och Warnow har vissa bekymmer om studiemetoden.

Cysouw et al. (2006) jämförde Holms ursprungliga metod med NJ, Fitch, MP och SD. De fann att Holms metod var mindre exakt än de andra.

2013 studerade François Barbancon, Warnow, Evans, Ringe och Nakleh (2013) olika trädrekonstruktionsmetoder med hjälp av simulerade data. Deras simulerade data varierade i antalet kontaktkanter, graden av homoplasi, avvikelsen från en lexikal klocka och avvikelsen från antagandet om priser över webbplatser. Det visade sig att noggrannheten hos de oviktade metoderna (MP, NJ, UPGMA och GA) var konsekvent i alla de studerade förhållandena, med MP som bäst. Noggrannheten hos de två vägda metoderna (WMC och WMP) berodde på lämpligheten av viktningssystemet. Med låg homoplasi gav de vägda metoderna i allmänhet de mer exakta resultaten men olämplig viktning kan göra dessa värre än MP eller GA under måttliga eller höga homoplasanivåer.

Att välja den bästa modellen

Val av lämplig modell är avgörande för framställning av bra fylogenetiska analyser. Både underparameteriserade eller alltför restriktiva modeller kan ge avvikande beteende när deras underliggande antaganden bryts, medan alltför komplexa eller överparameteriserade modeller kräver långa drifttider och deras parametrar kan vara överanpassade. Den vanligaste metoden för modellval är "Likelihood Ratio Test" som ger en uppskattning av passformen mellan modellen och data, men som ett alternativ kan Akaike Information Criterion eller Bayesian Information Criterion användas. Modellprogram finns tillgängliga.

Se även

Anteckningar

Bibliografi

externa länkar