Prijevod statističke mašine – gost blog (ažuriran sa dodatnim papirom)

Posted on 22. avgust, 2008.by Microsoft Prevodilac

Vil Luis je menadžer programa u programu za prevodioca Microsoft tima, radi na kvalitetu jezika i prikupljanja podataka. Današnji blog za goste je visoko objašnjenje kako motor funkcionira.

Kao što mnogi od vas znaju, pod prevodioca Microsoftovog prevoda pokreće se pokretač statističke mašine (SMT). Statistički sistemi su drugačiji od pravila u kojima se "pravila" mapiranje riječi i fraze sa jednog jezika na drugi se učile u sistemu a ne kao ručno kodirane. Obuka za "SMT" zahtijeva veliku količinu paralelnih podataka za obuku, nadam se dobrom kvalitetu i od heterogena izvora i da trenira motor na tim podacima. (Paralelno, mislimo na izvor podataka gdje je sadržaj za jedan jezik isti kao sadržaj za drugi.) Motor uči između riječi i fraza na jednom jeziku i one u drugoj, koje se često ojačava ponavljačima istih riječi i fraza po svim informacijama. Na primjer, u obuci englesko-njemaиki sistem recimo, ako motor vidi frazu Sva prava rezervisana sa Engleske strane i primećuje Alle Rechte vorbehalten na Njemačkoj strani, to može poravnati te dvije fraze, i dodijeliti vjerovatnost na ovo poravnanje. Ponavljajuće pojave izvornog i ciljanog izraza u podacima obuke će samo pojačati poravnanje.

Generalno, imati paralelne podatke za par jezika znači da možemo trenirati motore u oba pravca (tj., i engleski-njemački i njemački-engleski sistemi mogu biti obučeni na iste ulazne rečenice). Neki od vas su imali neka pitanja u vezi toga zašto smo pustili engleski-španski sistem pre nego što smo objavili španski-engleski. Bilo je stvarno dva razloga. Prvo, engleski-španski je bio prvi par jezika koji smo objavili. Puštanje jednog jezika nam je omogućilo da testiramo infrastrukturu pre nego što počnemo da puštamo više. Drugo, tehnologija za španski-engleski je bila malo drugačija od one koja se koristi za engleski-španski, i potrebno nam je dodatno vrijeme da uradimo neophodne infrastrukturne izmjene na kojima se može udovoljiti. Ubuduće, planiramo da oslobodimo nove sisteme za prevođenje u parovima (sa nekoliko izuzetka). Ne mogu otkriti koje jezike smo planirali sljedece, ali ocekujemo neke nove uskoro!

Za one koji su zainteresirani za tehničke razgovore vezane za motore i kako rade, molim vas da se javite nekim novinama od strane istraživača koji su ih razvili. Tri skorašnja dokumenta su:

Kris Quirk, Arul Menezes. Trebaju li nam fraze? Izazivajući konvencionalnu mudrost u prevodu statističke mašine Maj 2006 New York, New York, sad Postupak HLT-NAACL 2006

Kris Quirk, Arul Menezes. Prevod: konvergencija za statistički i primjerni Prevod? Prijevod 2006 mašina 43-65 (Priložena datoteka)

Kris Quirk, Arul Menezes. Korištenje veze sa ovisnošću u prevodu za poboljšanje Generalnosti Jula 2007 Udruženje za Komputacione lingvistiku

Zavisnosti od Trembocita konvergencije u vezi sa statistikom i primjerom mašinemom. PDF

Microsoft blog za prevodjenje