Ovu stranicu automatski prevodi prevođenje mašine za prevodioca Microsoft prevoditelja. Naučiti više

Microsoft blog za prevodjenje

Politički neispravni strojevi

Dok smo mi u timu za prevođenje stroja vidjeli smo povećavajući saobraćaj za naše različite ponude u proteklih par mjeseci, primijetili smo iznenadni porast saobraćaja jučer. Kad sam odrastao na Agathi Christie i Sherlocku Holmesu, takve misterije su neodoljivi za mene-a i broj drugih ljudi u timu je isto tako radoznao da sazna šta je izazvalo ovu iznenadnu čvorugu. Mislili smo da je IE8 aktivnost/Prečica, u Glasnik, Preprijeti pretrage, Prijeme ureda Svi su pokazivali isti trend nagore kao i dani ranije i to nije bio poseban razlog za ovu čvorugu.

Na kraju smo uspjeli identificirati jedan mogući razlog zašto smo vidjeli ovaj šiljak. Naša korisnička zajednica je pronašla neobidnost kako je mašina za prevođenje mašine procesuirali Prijevod za nekoliko imena sa engleskog na njemački. Trebalo je očekivati da kad taj motor prevodi naziv kandidata za jednu stranku nekome iz druge stranke, s obzirom na trenutnu političku atmosferu u bijegu na američke izbore, da će to završiti kao novost. Iako svakako pozdravljamo sve nove korisnike koji su došli da provjere ovaj fenomen--htjeli smo podijeliti s našim korisnicima razlog zašto se takve stvari dešavaju s vremena na vrijeme s statistiékim sistemom prevođenja mašina od nas i drugih.

Uređaj za prevođenje statističke mašine obučavan je na mnogo paralelnih podataka, to jest, podatci koji postoje i na izvornom jeziku (npr., engleski) i na ciljani jezik (npr., njemački), gdje su izvor i meta prevode jedni druge. Naš motor je obučen na milione rečenica za svaki par koji podržavamo. Da bi se obučili na određeni korpus podataka, možda je veliki broj novinskih članaka na engleskom, koji su prevedene u Nemački, prvo moramo da razbijemo taj korpus u rečenice. Nakon što je Corpus osuđen na kaznu, nahranimo rečenice koje su rezultirali u poravnati rečenice, a jedina svrha je da otkrijemo koje rečenice na izvornom stranom poravnaju sa rečenicama na meti. Ovo nije Trivijalni zadatak, jer bi se rečenica sa jedne strane mogla lako poravnati sa jednom ili više rečenica na meti (ili možda ni u čemu!). Poravnanje će ponekad praviti greške, i pogrešno poravnati jednu rečenicu sa drugom koja zapravo nije prijevod. Ovo može dovesti do nekih kleveta, posebno ako postoje riječi u izvoru i metu koja se nečesto dešavaju. S obzirom da je naš Prijevod statističan, veoma se oslanjamo na frekvencije koja se nalaze između riječi u izvoru i ciljnim podacima. Ako se određene riječi ne dešavaju često. imena ljudi, na primjer, mogu se pojaviti samo nekoliko puta preko milion rečenica. nedostatak frekvencije može dovesti do potiska od neispravnih "pokušaja" između izvora i mete (tj. verovatnoća dodijeljena posebnim izvorima i ciljnim rečima). Ovo može dovesti do nekih komicskih gaffesa u našem prevoditeličkom sistemu.

Tako je "Mašina" odlučila da prevede na način koji je završio sa zajednicom koji je pripisivanje smislu humora našeg tima. Dok mi i dalje vrijedno radimo na osiguravanju odgovarajućih poravnanja, treba se očekivati od statističkog sistema koji je izgrađen na milione na milijarde riječi koje bi takva situacija mogla ponoviti.

Trenutna pitanja sa poravnanjem bi se sad trebala rješavati, ali mi pozivamo našu zajednicu korisnika da nam pomažu da identificiramo takve situacije tako da nas kontaktiraju kroz ovaj blog.

-Vikram

Vikram Dendi vodi poslovnu strategiju i planiranje proizvoda za Microsoft tim za prevodioca