Microsoft prekladateľ blog

Štatistický strojový preklad-hosť blog (aktualizované s dodatočným papierom)

Zverejnené na 22. augusta 2008od Microsoft Translator

Will Lewis je programový manažér v tíme Microsoft Translator, ktorý pracuje na kvalite jazyka a získavaní dát. Dnešný hosť blog je na vysokej úrovni vysvetlenie, ako funguje motor:

Ako mnohí z vás vedia, pod kapotu Microsoft Translator je poháňaný štatistický stroj Translation (SMT) motora. Štatistické systémy sú odlišné od pravidla-založené tie v tom, že "pravidlá" mapovanie slov a fráz z jedného jazyka do druhého sa naučil v systéme, skôr než byť ruka-kódované. Školenie SMT vyžaduje hromadiť veľké množstvo paralelných vzdelávacích dát-dúfajme, že dobrej kvality a z heterogénnych zdrojov-a výcvik motora na tieto dáta. (Paralelne máme na mysli zdroj dát, kde je obsah pre jeden jazyk rovnaký ako obsah pre ostatné.) Motor sa dozvie korešpondencie medzi slovami a frázy v jednom jazyku a tie v inej, ktoré sú často zosilnené opakované výskyty rovnaké slová a frázy v celom vstupe. Napríklad, v odbornej príprave Anglicko-nemecký systém povedzme, ak motor vidí frázu Všetky práva vyhradené na anglickej strane a tiež oznámenia Alle Rechte vorbehalten na nemeckej strane, môže zladiť tieto dve frázy, a priradiť určitú pravdepodobnosť, že toto zarovnanie. Opakované výskyty zdrojových a cieľových fráz v údajoch o výcviku posilnia Toto zarovnanie.

Všeobecne platí, že s paralelnými dátami pre jazykový pár znamená, že môžeme trénovať motory v oboch smeroch (tj ako angličtina-nemčina a nemčina-anglickej systémy môžu byť vyškolení na rovnaké vstupné vety). Niektorí z vás mali niekoľko otázok ohľadom toho, prečo to bolo, že sme vydali Anglicko-španielsky systém, ako sme vydali španielsky-anglický. Tam boli naozaj dva dôvody. Po prvé, angličtina-španielčina bola prvá všeobecná doména jazyk pár sme vydali. Uvoľnenie jedného jazyka dvojica nám umožnilo otestovať infraštruktúru, ako sme začali uvoľňovať viac. Po druhé, technológia pre španielsky-anglický bol mierne odlišný, než sa používa pre angličtinu-španielsky, a potrebujeme nejaký dodatočný čas urobiť potrebné infraštruktúrne zmeny ubytovať. V budúcnosti plánujeme uvoľniť nové prekladateľské systémy vo dvojiciach (s niekoľkými výnimkami). Nemôžem odhaliť, aké jazyky máme naplánované ďalšie, ale očakávajú, že niektoré nové čoskoro!

Pre tých z vás záujem o technické diskusie o našich motorov a ako fungujú, pozrite sa na niektoré z dokumentov vedci, ktorí ich vyvinuli. Tri Nedávne dokumenty z poznámky sú:

Chris quirk, Arul Menezes. Potrebujeme frázy? Spochybnenie konvenčnej múdrosti v štatistickej strojový preklad Máj 2006 New York, New York, Spojené štáty americké Konanie HLT-NAACL 2006

Chris quirk, Arul Menezes. Závislosť Treelet preklad: konvergencia štatistických a príklad-založené strojový preklad? Marec 2006 strojový preklad 43-65 (priložený súbor)

Chris quirk, Arul Menezes. Použitie šablón poradia závislostí na zlepšenie všeobecnosti v preklade Júl 2007 Združenie pre výpočtové lingvistika

Závislosť Treelet preklad konvergencie štatistických a príklad-založené machinetranslation. PDF