Politički neispravni strojevi

Objavljeno na Listopad 25, 2008pored Microsoft Prevoditelj

Dok smo mi u tim strojnim prijevodima vidjeli sve veće prometne ponude u proteklih nekoliko mjeseci, primijetili smo iznenadnu prepreku u prometu jučer. Nakon što su odrasli na Agathi Christie i Sherlock Holmes, takve misterije su neodoljive za mene-i brojni drugi ljudi u ekipi bili su jednako znatiželjni da saznaju što je uzrokovalo ovaj nagli udarac. Mislili smo da je IE8 aktivnost/Akcelerator, Robot glasnik, Pretraživanje prijevoda, Prijevod sustava Office Svi su pokazali isti uzlazni trend kao i dani prije i stoga nisu bili određeni razlog za ovu kvrgu.

Na kraju smo uspjeli identificirati jedan potencijalni razlog zašto smo vidjeli ovaj šiljak. Naša korisnička zajednica našla je neobičnost u načinu na koji je stroj za strojno prevođenje obradio prijevod za nekoliko imena s engleskog na njemački. Trebalo je očekivati da kada motor prevodi ime kandidata jedne stranke nekome iz druge stranke, s obzirom na trenutnu političku atmosferu u bijegu na američkim izborima, da će završiti kao novost. Iako svakako pozdravljamo sve nove korisnike koji su došli provjeriti ovaj fenomen-htjeli smo podijeliti s našim korisnicima razlog zašto se takve stvari čini da se događaju s vremena na vrijeme s statistički obučeni strojni prijevod sustava od nas i drugih.

Motor za statistički stroj za prevođenje trenirao je na brojnim i puno paralelnih podataka, odnosno podataka koji postoje na izvornom jeziku (npr., engleskom jeziku) i ciljanom jeziku (npr. njemačkom), gdje su izvor i cilj prijevodi jedni drugima. Naš motor je obučen na milijune rečenica za svaki jezični par koji podržavamo. Kako bi se osposobio određeni korpus podataka – možda veliki broj novina na engleskom jeziku koji su prevedeni na njemački — prvo moramo razbiti taj korpus u rečenice. Nakon što je korpus slomljena presuda, mi hrane nastale rečenice u rečenicu Aligner, jedini cilj koji je pronaći što rečenice na izvornoj strani poravnati s rečenicama na ciljanoj strani. To nije trivijalan zadatak, budući da se rečenica na jednoj strani može uskladiti s jednom ili više rečenica na metu (ili možda ništa!). Ortodonski će ponekad pogriješiti i pogrešno poravnati jednu rečenicu s drugom koja zapravo nije prijevod. To može dovesti do nekih pogrešno protumačenja, pogotovo ako postoje riječi u izvoru i cilj koji se rijetko javljaju. Budući da je naš prijevod statističkog modula, on se vrlo oslanja na učestalost nuspojava između riječi u izvornim i ciljanim podacima. Ako se određene riječi rijetko javljaju – imena ljudi, na primjer, mogu se pojaviti samo nekoliko puta preko korpusa milijuna rečenica – nedostatak učestalosti može dovesti do netočnih "nagađanja" između izvora i cilja (tj. niskog mogućnosti dodijeljene određenim izvornim i ciljanim riječima). To može dovesti do nekih komičnim gaffama u našem prevoditeljskom sustavu.

Dakle, to je kako je "stroj" odlučio prevesti na način koji je završio s zajednicom ga pripisuje smisao za humor našeg tima. Dok nastavljamo naporno raditi kako bismo osigurali odgovarajuće poravnanje, to se očekuje od statističkog sustava koji je izgrađen na milijunima do milijardi riječi koje bi takva situacija mogla ponoviti.

Trenutni problem s usklađivanjem sada bi trebao biti riješen, ali pozivamo našu zajednicu korisnika da nam nastavi pomagati identificirati takve situacije tako da nas kontaktirate putem ovog bloga.

-Vikram

Blog Microsoft prevoditelj

Politički neispravni strojevi

Vikram Dendi vodi poslovnu strategiju i planiranje proizvoda za Microsoft Translator tim