Textkorpus - Text corpus

Inom lingvistik är en corpus (plural corpora ) eller text corpus en språkresurs som består av en stor och strukturerad uppsättning texter (numera vanligtvis lagras och bearbetas elektroniskt). I korpuslingvistik används de för att göra statistisk analys och hypotesprovning , kontrollera händelser eller validera språkliga regler inom ett specifikt språkområde.

Översikt

Ett korpus kan innehålla texter på ett enda språk ( enspråkigt korpus ) eller textdata på flera språk ( flerspråkigt korpus ).

För att göra korporna mer användbara för att göra språkforskning utsätts de ofta för en process som kallas kommentar . Ett exempel på att kommentera en corpus är taggning av tal eller POS-taggning , där information om varje ords ordsdel (verb, substantiv, adjektiv, etc.) läggs till corpus i form av taggar . Ett annat exempel är att indikera lemma (basform) för varje ord. När korpusspråket inte är ett arbetsspråk för forskarna som använder det används interlinjär glans för att göra anteckningen tvåspråkig.

Vissa korpor har ytterligare strukturerade analysnivåer tillämpade. I synnerhet kan ett antal mindre korpor analyseras helt . Sådana korpor kallas vanligtvis Treebanks eller Parsed Corpora . Svårigheten att se till att hela korpuset är helt och konsekvent antecknat betyder att dessa korpor vanligtvis är mindre och innehåller cirka en till tre miljoner ord. Andra nivåer av språklig strukturerad analys är möjliga, inklusive anteckningar för morfologi , semantik och pragmatik .

Applikationer

Corpora är den viktigaste kunskapsbasen inom korpuslingvistik . Andra anmärkningsvärda användningsområden inkluderar:

Språkteknik , naturlig språkbehandling , beräkningslingvistik
- Analys och bearbetning av olika typer av korpor är också föremål för mycket arbete inom beräkningslingvistik , taligenkänning och maskinöversättning , där de ofta används för att skapa dolda Markov-modeller för del av talmärkning och andra ändamål. Corpora och frekvenslistor härledda från dem är användbara för språkundervisning . Corpora kan betraktas som en typ av hjälpmedel för att skriva främmande språk eftersom den kontextualiserade grammatiska kunskapen som förvärvats av icke-modersmålsanvändare genom exponering för autentiska texter i corpora gör det möjligt för eleverna att förstå sättet med meningsbildning på målspråket, vilket möjliggör effektiv skrivning.

Maskinöversättning
- Flerspråkiga korpor som har formaterats speciellt för jämförelse sida vid sida kallas parallella korpor . Det finns två huvudtyper av parallella korpor som innehåller texter på två språk. I ett översättningskorpus är texterna på ett språk översättningar av texter på det andra språket. I ett jämförbart korpus är texterna av samma slag och täcker samma innehåll, men de är inte översättningar av varandra. För att kunna utnyttja en parallell text är någon form av textjustering som identifierar motsvarande textsegment (fraser eller meningar) en förutsättning för analys. Maskinöversättningsalgoritmer för att översätta mellan två språk tränas ofta med användning av parallella fragment innefattande ett första språk corpus och ett andraspråk corpus som är en element-för-element översättning av det första språket corpus.
Filologier
- Textkorpor används också i studien av historiska dokument , till exempel i försök att dechiffrera forntida manus eller i biblisk vetenskap . Vissa arkeologiska korpor kan vara så korta att de ger en ögonblicksbild i tid. En av de kortaste korporna i tiden kan vara de 15–30 år långa Amarna-brevtexterna ( 1350 f.Kr. ). Den corpus av en gammal stad, (till exempel " Kanesh Texter" Turkiet), kan gå igenom en serie av corpora, bestäms av deras fynd webbplats datum.

Några anmärkningsvärda textkorpor

Se även

Överensstämmelse
Corpus lingvistik
Distribution-relationsdatabas
Linguistic Data Consortium
Naturlig språkbehandling
Natural Language Toolkit
Parallell textjustering
Sökmotorer : de får tillgång till "webbkorpus".
Talkorpus
Översättningsminne
Treebank
Zipfs lag

Referenser

externa länkar

ACL SIGLEX resurslänkar: Text Corpora arkiverad 2013-08-13 på Wayback Machine
Developing Linguistic Corpora: a Guide to Good Practice
Gratisprover (inte gratis), webbaserad korpora (45-425 miljoner ord vardera): Amerikansk (COCA, COHA, TIME), Brittisk (BNC), Spansk, Portugisisk
Intercorp Building synkron parallellkorpor av de språk som undervisas vid fakulteten för konst vid Charles University.
Skissmotor: Öppna corpora med fri tillgång
TS Corpus - En turkisk Corpus som är fritt tillgänglig för akademisk forskning.
Turkish National Corpus - Ett allmänt korpus för samtida turkiskt
Corpus of Political Tales , fri tillgång till politiska tal av amerikanska och kinesiska politiker, utvecklat av Hong Kong Baptist University Library

Ryska National Corpus

Languages

In other projects