Maskinöversättning - Machine translation

  (Omdirigerad från MOLTO )

Maskinöversättning , ibland hänvisad till av förkortningen MT (inte att förväxla med datorstödd översättning , maskinassisterad mänsklig översättning ( MAHT ) eller interaktiv översättning ) är ett underfält i beräkningslingvistik som undersöker användningen av programvara för att översätta text eller tal från ett språk till ett annat.

På en grundläggande nivå utför MT enkel ersättning av ord på ett språk med ord på ett annat, men det enbart kan inte generera en bra översättning av en text eftersom igenkänning av hela fraser och deras närmaste motsvarigheter i målspråket behövs. Att lösa detta problem med corpusstatistik och neuraltekniker är ett snabbt växande fält som leder till bättre översättningar, hantering av skillnader i språklig typologi , översättning av idiomer och isolering av anomalier.

Nuvarande maskinöversättningsprogramvara tillåter ofta anpassning efter domän eller yrke (som väderrapporter ), vilket förbättrar produktionen genom att begränsa omfattningen av tillåtna ersättningar. Denna teknik är särskilt effektiv inom domäner där formellt eller formellt språk används. Av detta följer att maskinöversättning av myndigheter och juridiska dokument lättare ger användbar produktion än konversation eller mindre standardiserad text.

Förbättrad outputkvalitet kan också uppnås genom mänsklig intervention: till exempel kan vissa system översätta mer exakt om användaren otvetydigt har identifierat vilka ord i texten som är egna namn. Med hjälp av dessa tekniker har MT visat sig vara användbart som ett verktyg för att hjälpa mänskliga översättare och kan i ett mycket begränsat antal fall till och med producera output som kan användas som det är (t.ex. väderrapporter).

Maskinöversättningens framsteg och potential har diskuterats mycket genom dess historia. Sedan 1950-talet har ett antal forskare ifrågasatt möjligheten att uppnå helautomatisk maskinöversättning av hög kvalitet, först och framför allt av Yehoshua Bar-Hillel . Vissa kritiker hävdar att det i princip finns hinder för att automatisera översättningsprocessen.

Historia

Ursprunget till maskinöversättning kan spåras tillbaka till arbetet med Al-Kindi , en arabisk kryptograf från 900-talet som utvecklade tekniker för systemisk språköversättning, inklusive kryptanalys , frekvensanalys och sannolikhet och statistik , som används i modern maskinöversättning. Idén om maskinöversättning dök upp senare på 1600-talet. År 1629 föreslog René Descartes ett universellt språk, med motsvarande idéer i olika tungor som delar en symbol.

Området maskinöversättning bildades med Warren Weaver 's memorandum om Translation (1949). Den första forskaren på området, Yehosha Bar-Hillel, började sin forskning vid MIT (1951). Ett forskarteam från Georgetown University följde (1951) med en offentlig demonstration av sitt Georgetown-IBM-experimentsystem 1954. MT-forskningsprogram dök upp i Japan och Ryssland (1955), och den första MT-konferensen hölls i London (1956). Forskare fortsatte att gå med i fältet när Association for Machine Translation and Computational Linguistics bildades i USA (1962) och National Academy of Sciences bildade den rådgivande kommittén för automatisk språkbearbetning (ALPAC) för att studera MT (1964). De verkliga framstegen var dock mycket långsammare, och efter ALPAC-rapporten (1966), som fann att den tioåriga forskningen inte hade uppfyllt förväntningarna, minskades finansieringen kraftigt. Enligt en rapport från 1972 av Director of Defense Research and Engineering (DDR & E) återupprättades genomförbarheten av storskalig MT genom framgången med Logos MT-systemet när det gäller att översätta militära manualer till vietnamesiska under den konflikten.

Franska textilinstitutet använde även MT för att översätta sammanfattningar från och till franska, engelska, tyska och spanska (1970); Brigham Young University startade ett projekt för att översätta Mormon-texter genom automatiserad översättning (1971); och Xerox använde SYSTRAN för att översätta tekniska manualer (1978). Början i slutet av 1980-talet, när beräkningskraften ökade och blev billigare, visades mer intresse i statistiska modeller för maskinöversättning . MT blev mer populärt efter datorns tillkomst. SYSTRANs första implementeringssystem implementerades 1988 av onlinetjänsten för den franska posttjänsten, Minitel. Olika MT-företag startades också, inklusive Trados (1984), som var den första att utveckla och marknadsföra översättningsminneteknologi (1989). Det första kommersiella MT-systemet för ryska / engelska / tyska-ukrainska utvecklades vid Kharkov State University (1991).

MT på nätet började med att SYSTRAN erbjöd gratis översättning av små texter (1996) följt av AltaVista Babelfish, som gjorde 500 000 förfrågningar om dagen (1997). Franz Josef Och (framtida chef för översättningsutveckling hos Google) vann DARPA: s snabba MT-tävling (2003). Fler innovationer under denna tid inkluderade MOSES, den öppna källkods statistiska MT-motorn (2007), en text / SMS-översättningstjänst för mobiler i Japan (2008), och en mobiltelefon med inbyggd tal-till-tal-översättningsfunktion för engelska , Japanska och kinesiska (2009). Nyligen meddelade Google att Google Translate översätter ungefär tillräckligt med text för att fylla 1 miljon böcker på en dag (2012).

Idén att använda digitala datorer för översättning av naturliga språk föreslogs redan 1946 av AD Booth och eventuellt andra. Warren Weaver skrev ett viktigt memorandum " Översättning " 1949. Georgetown-experimentet var inte alls den första sådan ansökan, och en demonstration gjordes 1954 på APEXC- maskinen vid Birkbeck College ( University of London ) av en rudimentär översättning av engelska till franska. Flera artiklar om ämnet publicerades vid den tiden och till och med artiklar i populära tidskrifter (till exempel en artikel av Cleave och Zacharov i september 1955-numret av Wireless World ). En liknande applikation, också pionjär vid Birkbeck College vid den tiden, var att läsa och komponera punktskrifttexter via dator.

Översättningsprocess

Den mänskliga översättningsprocessen kan beskrivas som:

  1. Avkodning av innebörden av källtexten ; och
  2. Åter koda denna mening i målspråket.

Bakom denna uppenbart enkla procedur ligger en komplex kognitiv operation. För att avkoda innebörden av källtexten i sin helhet måste översättaren tolka och analysera alla funktioner i texten, en process som kräver djupgående kunskap om grammatiken , semantik , syntax , formspråk etc. i källspråket , liksom kulturen för dess högtalare. Översättaren behöver samma djupgående kunskap för att koda om betydelsen på målspråket.

Däri ligger utmaningen i maskinöversättning: hur man programmerar en dator som "förstår" en text som en person gör, och som "skapar" en ny text på målspråket som låter som om den har skrivits av en person .

I sin mest allmänna tillämpning är detta bortom dagens teknik. Även om det fungerar mycket snabbare, kan inget automatiserat översättningsprogram eller förfarande utan mänskligt deltagande producera produktion även nära den kvalitet som en mänsklig översättare kan producera. Vad det kan göra är dock att ge en allmän, men omöjlig, tillnärmning av originalteksten, att få "kärnan" i den (en process som kallas "gisting"). Detta är tillräckligt för många ändamål, inklusive att bäst utnyttja den begränsade och dyra tiden för en mänsklig översättare, reserverad för de fall där total noggrannhet är nödvändig.

Detta problem kan hanteras på ett antal sätt genom utvecklingen av vilken noggrannhet har förbättrats.

Approaches

Bernard Vauquois 'pyramid som visar jämförande djup av mellanliggande representation, interlingual maskinöversättning på toppen, följt av överföringsbaserad, sedan direkt översättning.

Maskinöversättning kan använda en metod baserad på språkliga regler , vilket innebär att ord kommer att översättas på ett språkligt sätt - de mest lämpliga (muntligt sett) orden i målspråket kommer att ersätta de som är på källspråket.

Det hävdas ofta att framgången för maskinöversättning kräver att problemet med naturligt språkförståelse först ska lösas.

I allmänhet analyserar regelbaserade metoder en text, vilket vanligtvis skapar en mellanliggande, symbolisk representation, från vilken texten på målspråket genereras. Enligt karaktären av mellanhandrepresentationen beskrivs en metod som interlingual maskinöversättning eller överföringsbaserad maskinöversättning . Dessa metoder kräver omfattande lexikoner med morfologisk , syntaktisk och semantisk information och stora uppsättningar regler.

Med tillräckligt med data fungerar maskinöversättningsprogram ofta tillräckligt bra för att en modersmål på ett språk ska få den ungefärliga betydelsen av vad som skrivs av den andra modersmålaren. Svårigheten är att få tillräckligt med data av rätt typ för att stödja den specifika metoden. Det stora flerspråkiga korpuset med data som behövs för att statistiska metoder ska fungera är till exempel inte nödvändigt för de grammatikbaserade metoderna. Men då behöver grammatikmetoderna en skicklig språkforskare för att noggrant utforma grammatiken som de använder.

För att översätta mellan nära besläktade språk kan den teknik som kallas regelbaserad maskinöversättning användas.

Regelbaserad

Det regelbaserade maskinöversättningsparadigmet inkluderar överföringsbaserad maskinöversättning, interlingual maskinöversättning och ordboksbaserad maskinöversättningsparadigm. Denna typ av översättning används mest för att skapa ordböcker och grammatiska program. Till skillnad från andra metoder involverar RBMT mer information om lingvistiken i källspråket och målspråken, med hjälp av de morfologiska och syntaktiska reglerna och semantisk analys av båda språken. Det grundläggande tillvägagångssättet innebär att man kopplar in ingångssatsens struktur med utgångsmenningens struktur med hjälp av en parser och en analysator för källspråket, en generator för målspråket och ett överföringsleksikon för den faktiska översättningen. RBMT: s största undergång är att allt måste göras uttryckligt: ​​ortografisk variation och felaktiga inmatningar måste göras till en del av källspråkanalysatorn för att hantera det, och lexikala urvalsregler måste skrivas för alla instanser av tvetydighet. Att anpassa sig till nya domäner i sig är inte så svårt, eftersom kärngrammatiken är densamma mellan domäner och den domänspecifika justeringen är begränsad till leksikalisk justering av val.

Överföringsbaserad maskinöversättning

Överföringsbaserad maskinöversättning liknar interlingual maskinöversättning genom att den skapar en översättning från en mellanrepresentation som simulerar betydelsen av den ursprungliga meningen. Till skillnad från interlingual MT beror det delvis på det språkpar som är involverat i översättningen.

interlingual

Interlingual maskinöversättning är ett exempel på regelbaserade maskinöversättningstrategier. I detta tillvägagångssätt omvandlas källspråket, det vill säga texten som ska översättas, till ett flerspråkigt språk, dvs. en "språkneutral" representation som är oberoende av vilket språk som helst. Målspråket genereras sedan ur interlingua . En av de största fördelarna med detta system är att interlingua blir mer värdefullt eftersom antalet målspråk det kan förvandlas till ökar. Det enda interlinguala maskinöversättningssystemet som har tagits i drift på kommersiell nivå är dock KANT-systemet (Nyberg och Mitamura, 1992), som är utformat för att översätta Caterpillar Technical English (CTE) till andra språk.

Dictionary-baserade

Maskinöversättning kan använda en metod baserad på ordboksposter , vilket betyder att orden kommer att översättas som de är av en ordlista.

Statistisk

Statistiska försök maskinöversättning för att generera översättningar som använder statistiska metoder baserade på tvåspråkig textkorpusar, såsom kanadensiska Hansard corpus, den engelsk franska rekord av det kanadensiska parlamentet och EUROPARL är rekord i Europaparlamentet . Där sådana företag finns tillgängliga, kan goda resultat uppnås genom att översätta liknande texter, men sådana företag är fortfarande sällsynta för många språkpar. Den första statistiska maskinöversättningsprogramvaran var CANDIDE från IBM . Google använde SYSTRAN under flera år, men bytte till en statistisk översättningsmetod i oktober 2007. Google förbättrade 2005 sina interna översättningsfunktioner genom att använda cirka 200 miljarder ord från FN: s material för att utbilda sitt system; översättningsnoggrannheten förbättrades. Google Translate och liknande statistiska översättningsprogram fungerar genom att upptäcka mönster i hundratals miljoner dokument som tidigare har översatts av människor och göra intelligenta gissningar baserade på resultaten. Generellt sett, desto mer sannolikt är det att översättningen är av god kvalitet, ju mer mänskligt översatta dokument som finns tillgängliga på ett visst språk. Nyare tillvägagångssätt i statistisk maskinöversättning som METIS II och PRESEMT använder minimal korpusstorlek och fokuserar istället på härledning av syntaktisk struktur genom mönsterigenkänning. Med vidareutveckling kan detta göra det möjligt för statistisk maskinöversättning att fungera från ett enspråkigt textkorpus. SMT: s största undergång inkluderar att det är beroende av enorma mängder av parallella texter, dess problem med morfologirika språk (särskilt med att översätta till sådana språk) och dess oförmåga att korrigera singleton-fel.

Exempel-baserade

Exempelbaserad maskinöversättning (EBMT) -metod föreslogs av Makoto Nagao 1984. Exempelbaserad maskinöversättning är baserad på idéen om analogi. I detta tillvägagångssätt är det korpus som används en som innehåller texter som redan har översatts. Med tanke på en mening som ska översättas väljs meningar från detta korpus som innehåller liknande sub sentimentala komponenter. De liknande meningarna används sedan för att översätta de sub sentimentala komponenterna i den ursprungliga meningen till målspråket, och dessa fraser sätts samman för att bilda en fullständig översättning.

Hybrid MT

Hybrid maskinöversättning (HMT) utnyttjar styrkorna i statistiska och regelbaserade översättningsmetoder. Flera MT-organisationer hävdar en hybridstrategi som använder både regler och statistik. Tillvägagångssätten skiljer sig på flera sätt:

  • Regler som efterbehandlas av statistik : Översättningar utförs med en reglerbaserad motor. Statistik används sedan i ett försök att justera / korrigera utgången från reglermotorn.
  • Statistik styrd av regler : Regler används för att förbereda data i ett försök att bättre vägleda den statistiska motorn. Regler används också för att efterbehandla den statistiska utgången för att utföra funktioner som normalisering. Denna metod har mycket mer kraft, flexibilitet och kontroll när du översätter. Det ger också omfattande kontroll över hur innehållet bearbetas under både föröversättning (t.ex. markering av innehåll och icke-översättningsbara termer) och efteröversättning (t.ex. korrigeringar och justeringar efter översättning efter översättning).

På senare tid, med tillkomsten av Neural MT, kommer en ny version av hybridmaskinöversättning fram som kombinerar fördelarna med regler, statistisk och neural maskinöversättning. Tillvägagångssättet gör det möjligt att dra nytta av för- och efterbehandling i ett regelstyrt arbetsflöde samt dra nytta av NMT och SMT. Nackdelen är den inneboende komplexiteten som gör metoden endast lämplig för specifika användningsfall. Omniscien Technologies är en av förespråkarna för denna metod för fall med komplex användning.

Neural MT

En djup inlärningsbaserad metod för MT, neural maskinöversättning har gjort snabba framsteg under de senaste åren, och Google har meddelat att sina översättningstjänster nu använder denna teknik i stället för tidigare statistiska metoder. Microsofts team nådde mänsklig paritet på WMT-2017 2018 och detta var en historisk milstolpe.

Stora frågor

Maskinöversättning kan producera några icke-förståelige fraser.
Trasig kinesisk "沒有 進入" från maskinöversättning på Bali, Indonesien . Den trasiga kinesiska meningen låter som "det finns ingen post" eller "har inte skrivit in ännu"

disambiguation

Ordet känsla för otvetydighet handlar om att hitta en lämplig översättning när ett ord kan ha mer än en betydelse. Problemet togs först upp på 1950-talet av Yehoshua Bar-Hillel . Han påpekade att utan en "universal encyklopedi" skulle en maskin aldrig kunna skilja mellan de två betydelserna av ett ord. Idag finns det många tillvägagångssätt för att övervinna detta problem. De kan ungefär delas in i "grunda" tillvägagångssätt och "djupa" tillvägagångssätt.

Grunt tillvägagångssätt antar ingen kunskap om texten. De tillämpar helt enkelt statistiska metoder på orden som omger det tvetydiga ordet. Djupa tillvägagångssätt förutsätter en omfattande kunskap om ordet. Hittills har grunt tillvägagångssätt varit mer framgångsrika.

Claude Piron , en länge översättare för FN och Världshälsoorganisationen , skrev att maskinöversättningen, som bäst, automatiserar den enklare delen av en översättares jobb; den hårdare och mer tidskrävande delen innebär vanligtvis att göra omfattande forskning för att lösa tvetydigheter i källtexten , som de grammatiska och lexikala exigencen på målspråket behöver lösas:

Varför behöver en översättare en hel arbetsdag för att översätta fem sidor och inte en timme eller två? ..... Cirka 90% av en genomsnittlig text motsvarar dessa enkla förhållanden. Men tyvärr finns det de andra 10%. Det är den delen som kräver sex [fler] arbetstimmar. Det är oklarheter man måste lösa. Till exempel citerade författaren till källtexten, en australisk läkare, exemplet på en epidemi som förklarades under andra världskriget i en "japansk krigsfånge". Talade han om ett amerikanskt läger med japanska fångar eller ett japanskt läger med amerikanska fångar? Engelska har två sinnen. Det är därför nödvändigt att undersöka, kanske i omfattning av ett telefonsamtal till Australien.

Den ideala djupa metoden skulle kräva att översättningsprogramvaran på egen hand gör all forskning som behövs för denna typ av disambiguering; men detta kräver en högre grad av AI än vad som ännu har uppnåtts. Ett grunt tillvägagångssätt som helt enkelt gissat känslan av den tvetydiga engelska frasen som Piron nämner (kanske baserat på vilken typ av krigsfangare som ofta nämns i ett givet korpus) skulle ha en rimlig chans att gissa fel rätt ofta. Ett grunt tillvägagångssätt som involverar "fråga användaren om varje tvetydighet" skulle enligt Pirons uppskattning bara automatisera cirka 25% av en professionell översättares jobb, vilket gör att de svårare 75% fortfarande ska göras av en människa.

Icke-standardtal

En av MT: s stora fallgropar är dess oförmåga att översätta icke-standardspråk med samma noggrannhet som standardspråk. Heuristisk eller statistiskt baserad MT tar input från olika källor i standardform av ett språk. Regelbaserad översättning, av naturen, inkluderar inte vanliga icke-standardiserade användningar. Detta orsakar fel i översättningen från en språklig källa eller till språkligt språk. Begränsningar för översättning från vardagligt tal presenterar problem i användningen av maskinöversättning på mobila enheter.

Namngivna enheter

Relaterat till namngiven enhetsigenkänning vid informationsextraktion .

Namngivare hänvisar i smal bemärkelse till konkreta eller abstrakta enheter i den verkliga världen inklusive människor, organisationer, företag, platser etc. Det hänvisar också till att uttrycka tid, rum, kvantitet som 1 juli 2011, 79,99 dollar och så vidare.

Namngivna enheter förekommer i texten som analyseras i statistisk maskinöversättning. Den initiala svårigheten som uppstår när man hanterar namngivna enheter är helt enkelt att identifiera dem i texten. Tänk på listan med vanliga namn på ett visst språk för att illustrera detta - de vanligaste namnen är olika för varje språk och förändras också ständigt. Om namngivna enheter inte kan kännas igen av maskinöversättaren, kan de felaktigt översättas som vanliga substantiv, vilket troligen inte skulle påverka översättningen för BLEU- klassificeringen men ändrar textens mänskliga läsbarhet. Det är också möjligt att när de inte identifieras kommer namngivna enheter att utelämnas från utgångsöversättningen, vilket också skulle ha konsekvenser för textens läsbarhet och meddelande.

Ett annat sätt att hantera namngivna enheter är att använda transliteration istället för översättning, vilket innebär att du hittar bokstäverna på målspråket som bäst motsvarar namnet på källspråket. Det har gjorts försök att införliva detta i maskinöversättning genom att lägga till ett transliterationssteg i översättningsförfarandet. Dessa försök har emellertid fortfarande sina problem och har till och med citerats som förvärrade kvaliteten på översättningen. Namngivna enheter identifierades fortfarande felaktigt, med ord som inte skulle översättas när de borde eller omskrivs när de inte borde göra det. Till exempel, för "södra Kalifornien", bör det första ordet översättas direkt, medan det andra ordet ska översättas. Maskiner skulle emellertid ofta translitterera båda eftersom de behandlade dem som en enhet. Ord som dessa är svåra för maskinöversättare, även de med en translitterationskomponent, att bearbeta.

Bristen på uppmärksamhet på frågan om namngiven enhetsöversättning har erkänts som potentiellt härrör från bristen på resurser att ägna åt uppgiften utöver komplexiteten i att skapa ett bra system för namngiven enhetsöversättning. En metod för namngiven enhetsöversättning har varit att omskriva och inte översätta dessa ord. En andra är att skapa en "inte-översätta" -lista, som har samma slutmål - transliteration i motsats till översättning. Båda dessa tillvägagångssätt förlitar sig fortfarande på korrekt identifiering av namngivna enheter.

En tredje metod för framgångsrik namngiven enhetsöversättning är en klassbaserad modell. I den här metoden ersätts namngivna enheter med ett symbol för att representera klassen de tillhör. Till exempel "Ted" och "Erica" ​​skulle båda ersättas med "person" klass token. På detta sätt kan den statistiska fördelningen och användningen av personnamn i allmänhet analyseras istället för att titta på fördelningarna av "Ted" och "Erica" ​​individuellt. Ett problem som den klassbaserade modellen löser är att sannolikheten för ett givet namn på ett specifikt språk inte kommer att påverka den tilldelade sannolikheten för en översättning. En studie av Stanford om att förbättra detta översättningsområde ger exemplen på att olika sannolikheter kommer att tilldelas "David går en promenad" och "Ankit går en promenad" för engelska som målspråk på grund av olika antal händelser för varje namn i träningsdata. Ett frustrerande resultat av samma studie av Stanford (och andra försök att förbättra namngiven igenkänningsöversättning) är att många gånger, en minskning av BLEU- poäng för översättning kommer att resultera från införandet av metoder för namngiven enhetsöversättning.

Översättning från multipla parallella källor

En del arbete har gjorts för att använda multiparallel corpora , det vill säga en texttext som har översatts till 3 eller fler språk. Med hjälp av dessa metoder kan en text som har översatts till två eller flera språk användas i kombination för att ge en mer exakt översättning till ett tredje språk jämfört med om bara ett av dessa källspråk användes ensam.

Ontologier i MT

En ontologi är en formell representation av kunskap som inkluderar begreppen (såsom objekt, processer etc.) i ett domän och vissa relationer mellan dem. Om den lagrade informationen är av språklig natur kan man tala om ett lexikon. I NLP kan ontologier användas som en källa till kunskap för maskinöversättningssystem. Med tillgång till en stor kunskapsbas kan system aktiveras för att lösa många (särskilt lexikala) oklarheter på egen hand. I följande klassiska exempel, som människor, kan vi tolka prepositionsfrasen enligt sammanhanget eftersom vi använder vår världskunskap, lagrad i våra lexikoner:

"Jag såg en man / stjärna / molekyl med ett mikroskop / teleskop / kikare."

Ett maskinöversättningssystem skulle initialt inte kunna skilja mellan betydelserna eftersom syntaxen inte förändras. Med en tillräckligt stor ontologi som källa till kunskap kan emellertid de möjliga tolkningarna av tvetydiga ord i ett specifikt sammanhang minskas. Andra användningsområden för ontologier inom NLP inkluderar informationshämtning , utvinning av information och sammanfattning av texter .

Bygga ontologier

Den ontologi som genererades för det kunskapsbaserade maskinöversättningssystemet PANGLOSS 1993 kan fungera som ett exempel på hur en ontologi för NLP- syften kan sammanställas:

  • En storskalig ontologi är nödvändig för att hjälpa till att analysera i de aktiva modulerna i maskinöversättningssystemet.
  • I PANGLOSS-exemplet var cirka 50 000 noder avsedda att sänkas under den mindre, manuellt byggda övre (abstrakta) regionen av ontologin. På grund av sin storlek måste den skapas automatiskt.
  • Målet var att slå samman de två resurserna LDOCE online och WordNet för att kombinera fördelarna med båda: kortfattade definitioner från Longman och semantiska relationer som möjliggör halvautomatisk taxonomisering till ontologin från WordNet.
    • En definition match algoritm skapades för att automatiskt slå samman de korrekta betydelsen av tvetydiga ord mellan de två online-resurser, baserat på de ord som definitionerna av dessa betydelser har gemensamt i LDOCE och WordNet. Med hjälp av en likhetsmatris matchar algoritmen leveranser mellan betydelser inklusive en konfidensfaktor. Denna algoritm ensam matchade dock inte alla betydelser på egen hand.
    • En andra hierarki-matchningsalgoritm skapades därför som använder de taxonomiska hierarkierna som finns i WordNet (djupa hierarkier) och delvis i LDOCE (platta hierarkier). Detta fungerar genom att först matcha otvetydiga betydelser och sedan begränsa sökutrymmet till endast respektive förfäder och ättlingar till de matchade betydelserna. Således matchade algoritmen lokalt otvetydiga betydelser (till exempel, medan ordet tätning som sådan är tvetydigt, finns det bara en betydelse av "tätning" i djurens subhierarki).
  • Båda algoritmerna kompletterade varandra och hjälpte till att konstruera en storskalig ontologi för maskinöversättningssystemet. WordNet-hierarkierna, i kombination med de matchande definitionerna av LDOCE, underordnades ontologiens övre region . Som ett resultat kunde PANGLOSS MT-systemet utnyttja denna kunskapsbas, främst i sitt generationselement.

tillämpningar

Även om inget system tillhandahåller den heliga gralen för helautomatisk maskinöversättning av hög kvalitet av obegränsad text, ger många helautomatiska system rimliga resultat. Kvaliteten på maskinöversättningen förbättras väsentligt om domänen är begränsad och kontrollerad.

Trots deras inneboende begränsningar används MT-program runt om i världen. Förmodligen den största institutionella användaren är Europeiska kommissionen . Den MOLTO -projektet, till exempel, som samordnas av Göteborgs universitet , fick mer än 2,375 miljoner euro projektstöd från EU för att skapa ett pålitligt översättningsverktyg som täcker en majoritet av EU-språk. Vidareutvecklingen av MT-system kommer vid en tidpunkt då budgetnedskärningar i mänsklig översättning kan öka EU: s beroende av pålitliga MT-program. Europeiska kommissionen bidrog med 3.072 miljoner euro (via sitt ISA-program) för skapandet av MT @ EC, ett statistiskt maskinöversättningsprogram som är anpassat till EU: s administrativa behov, för att ersätta ett tidigare regelbaserat maskinöversättningssystem.

2005 hävdade Google att lovande resultat uppnåddes med hjälp av en egen statistisk maskinöversättningsmotor. Den statistiska översättningsmotorn som användes i Googles språkverktyg för arabiska <-> engelska och kinesiska <-> engelska hade en total poäng på 0,4281 jämfört med den senaste plats IBMs BLEU-4-poäng på 0,3954 (sommaren 2006) i tester utförda av National Institutet för standarder och teknik.

Med det senaste fokuset på terrorism har de militära källorna i USA investerat betydande mängder pengar i naturligt språkteknik. In-Q-Tel (en riskkapitalfond , till stor del finansierad av US Intelligence Community, för att stimulera ny teknik genom privata företagare) skapade företag som Language Weaver . För närvarande är det militära samhället intresserat av översättning och bearbetning av språk som arabiska , pashto och Dari . Inom dessa språk är fokus på nyckelfraser och snabb kommunikation mellan militära medlemmar och civila genom användning av mobiltelefonappar. Information Processing Technology Office i DARPA är värd för program som TIDES och Babylon-översättare . US Air Force har tilldelat ett kontrakt på 1 miljon dollar för att utveckla en språköversättningsteknologi.

Den anmärkningsvärda ökningen av sociala nätverk på webben under de senaste åren har skapat ytterligare en nisch för tillämpning av maskinöversättningsprogramvara - i verktyg som Facebook, eller snabbmeddelandeklienter som Skype, GoogleTalk, MSN Messenger, etc. - så att användare kan tala olika språk för att kommunicera med varandra. Maskinöversättningstillämpningar har också släppts för de flesta mobila enheter, inklusive mobiltelefoner, fickdatorer, handdatorer, etc. På grund av deras portabilitet har sådana instrument kommit att betecknas som mobila översättningsverktyg som möjliggör mobil affärsnätverk mellan partners som talar olika språk, eller underlätta både främmande språkinlärning och ensamresa till främmande länder utan behov av förmedling av en mänsklig översättare.

Trots att de har betecknats som en ovärdig konkurrent till mänsklig översättning 1966 av den rådgivande kommittén för automatiserad språkbearbetning, sammansatt av USA: s regering, har kvaliteten på maskinöversättning nu förbättrats till sådana nivåer att dess tillämpning i online-samarbete och inom det medicinska området undersöks. Tillämpningen av denna teknik i medicinska miljöer där mänskliga översättare är frånvarande är ett annat ämne för forskning, men svårigheter uppstår på grund av vikten av korrekta översättningar i medicinska diagnoser.

Utvärdering

Det finns många faktorer som påverkar hur maskinöversättningssystem utvärderas. Dessa faktorer inkluderar den avsedda användningen av översättningen, karaktären av maskinöversättningsprogramvaran och arten av översättningsprocessen.

Olika program kan fungera bra för olika ändamål. Till exempel överträffar statistisk maskinöversättning (SMT) vanligtvis exempelbaserad maskinöversättning (EBMT), men forskare fann att vid utvärdering av engelska till franska översättning presterar EBMT bättre. Samma koncept gäller för tekniska dokument, som lättare kan översättas av SMT på grund av deras formella språk.

I vissa applikationer, till exempel, produktbeskrivningar skrivna på ett kontrollerat språk , har ett ordbokbaserat maskinöversättningssystem producerat tillfredsställande översättningar som inte kräver någon mänsklig intervention förutom kvalitetskontroll.

Det finns olika medel för att utvärdera outputkvaliteten för maskinöversättningssystem. Den äldsta är användningen av mänskliga domare för att bedöma kvaliteten på en översättning. Även om mänsklig utvärdering är tidskrävande, är det fortfarande den mest pålitliga metoden att jämföra olika system som regelbaserade och statistiska system. Automatiserade utvärderingsmedel inkluderar BLEU , NIST , METEOR och LEPOR .

Att uteslutande förlita sig på oredigerad maskinöversättning ignorerar det faktum att kommunikation på mänskligt språk är inbäddat i kontext och att det krävs för en person att förstå sammanhanget för originalteksten med en rimlig grad av sannolikhet. Det är verkligen sant att även rent mänskligt genererade översättningar är benägna att göra fel. För att säkerställa att en maskingenererad översättning är användbar för en människa och att översättningar av publicerbar kvalitet uppnås måste sådana översättningar granskas och redigeras av en människa. Den sena Claude Piron skrev att maskinöversättning automatiserar i bästa fall den enklare delen av en översättarjobb; den hårdare och mer tidskrävande delen innebär vanligtvis att göra omfattande forskning för att lösa tvetydigheter i källtexten , som de grammatiska och lexikala exigencen på målspråket behöver lösas. Sådan forskning är ett nödvändigt förspel till förredigering som är nödvändig för att tillhandahålla input för maskinöversättningsprogramvara så att utdata inte blir meningslös .

Förutom problem med förväxling kan minskad noggrannhet uppstå på grund av olika nivåer av träningsdata för maskinöversättningsprogram. Både exempelbaserad och statistisk maskinöversättning förlitar sig på en mängd riktiga exempelmeningar som en bas för översättning, och när för många eller för få meningar analyseras noggrannheten äventyras. Forskare fann att när ett program tränas på 203.529 meningsföreningar minskar noggrannheten. Den optimala nivån på träningsdata verkar vara drygt 100 000 meningar, kanske för att när träningsdata ökar ökar antalet möjliga meningar, vilket gör det svårare att hitta en exakt översättningsmatch.

Använda maskinöversättning som ett lärande verktyg

Trots att det har varit farhågor om maskinöversättningens noggrannhet har Dr. Ana Nino från University of Manchester undersökt några av fördelarna med att använda maskinöversättning i klassrummet. En sådan pedagogisk metod kallas att använda "MT som en dålig modell." MT som en dålig modell tvingar språkstudenten att identifiera inkonsekvenser eller felaktiga aspekter av en översättning; i sin tur kommer individen (förhoppningsvis) att ha ett bättre grepp om språket. Dr. Nino citerar att detta undervisningsverktyg implementerades i slutet av 1980-talet. I slutet av olika semestrar kunde Dr. Nino få undersökningsresultat från studenter som hade använt MT som en dålig modell (liksom andra modeller.) Överväldigande kände studenterna att de hade observerat förbättrad förståelse, lexikalisk återhämtning och ökat förtroende för sitt målspråk.

Maskinöversättning och signerade språk

I början av 2000-talet var alternativen för maskinöversättning mellan talade och undertecknade språk starkt begränsade. Det var en vanlig övertygelse att döva individer kunde använda traditionella översättare. Men stress, intonation, tonhöjd och timing förmedlas mycket annorlunda på talade språk jämfört med undertecknade språk. Därför kan en döv individ misstolkas eller bli förvirrad över betydelsen av skriftlig text som är baserad på ett talat språk.

Forskarna Zhao et al. (2000), utvecklade en prototyp som heter TEAM (översättning från engelska till ASL per maskin) som slutförde översättningar från engelska till amerikanska teckenspråk (ASL). Programmet skulle först analysera de syntaktiska, grammatiska och morfologiska aspekterna av den engelska texten. Efter detta steg öppnade programmet en teckensynthesizer, som fungerade som en ordbok för ASL. Denna synthesizer höll in processen man måste följa för att fullborda ASL-tecken, liksom betydelsen av dessa tecken. När hela texten har analyserats och de tecken som krävs för att slutföra översättningen finns i synthesizern dök en datorgenererad människa ut och skulle använda ASL för att underteckna den engelska texten till användaren.

upphovsrätt

Endast verk som är originella omfattas av upphovsrättsskydd , så vissa forskare hävdar att maskinöversättningens resultat inte har rätt till upphovsrättsskydd eftersom MT inte innebär kreativitet . Upphovsrätten i fråga är för ett derivatverk ; författaren till originalverket på originalspråket förlorar inte sina rättigheter när ett verk översätts: en översättare måste ha tillstånd att publicera en översättning.

Se även

anteckningar

Vidare läsning

externa länkar