Textkorpus - Text corpus

Inom lingvistik är en corpus (plural corpora ) eller text corpus en språkresurs som består av en stor och strukturerad uppsättning texter (numera vanligtvis lagras och bearbetas elektroniskt). I korpuslingvistik används de för att göra statistisk analys och hypotesprovning , kontrollera händelser eller validera språkliga regler inom ett specifikt språkområde.

Översikt

Ett korpus kan innehålla texter på ett enda språk ( enspråkigt korpus ) eller textdata på flera språk ( flerspråkigt korpus ).

För att göra korporna mer användbara för att göra språkforskning utsätts de ofta för en process som kallas kommentar . Ett exempel på att kommentera en corpus är taggning av tal eller POS-taggning , där information om varje ords ordsdel (verb, substantiv, adjektiv, etc.) läggs till corpus i form av taggar . Ett annat exempel är att indikera lemma (basform) för varje ord. När korpusspråket inte är ett arbetsspråk för forskarna som använder det används interlinjär glans för att göra anteckningen tvåspråkig.

Vissa korpor har ytterligare strukturerade analysnivåer tillämpade. I synnerhet kan ett antal mindre korpor analyseras helt . Sådana korpor kallas vanligtvis Treebanks eller Parsed Corpora . Svårigheten att se till att hela korpuset är helt och konsekvent antecknat betyder att dessa korpor vanligtvis är mindre och innehåller cirka en till tre miljoner ord. Andra nivåer av språklig strukturerad analys är möjliga, inklusive anteckningar för morfologi , semantik och pragmatik .

Applikationer

Corpora är den viktigaste kunskapsbasen inom korpuslingvistik . Andra anmärkningsvärda användningsområden inkluderar:

  • Maskinöversättning
    • Flerspråkiga korpor som har formaterats speciellt för jämförelse sida vid sida kallas parallella korpor . Det finns två huvudtyper av parallella korpor som innehåller texter på två språk. I ett översättningskorpus är texterna på ett språk översättningar av texter på det andra språket. I ett jämförbart korpus är texterna av samma slag och täcker samma innehåll, men de är inte översättningar av varandra. För att kunna utnyttja en parallell text är någon form av textjustering som identifierar motsvarande textsegment (fraser eller meningar) en förutsättning för analys. Maskinöversättningsalgoritmer för att översätta mellan två språk tränas ofta med användning av parallella fragment innefattande ett första språk corpus och ett andraspråk corpus som är en element-för-element översättning av det första språket corpus.
  • Filologier

Några anmärkningsvärda textkorpor

Se även

Referenser

externa länkar