Politicky nesprávné stroje

Zveřejněno dne 25. října 2008vedle Microsoft Translator

Zatímco my u strojového Překladatelského týmu vidíme v posledních několika měsících nárůst provozu na naše nabídky, všimli jsme si, že včera došlo k náhlému nárazu v dopravě. Když jsme vyrostli na Agatha Christie a Sherlocku Holmesovi, takové záhady jsou pro mne neodolatelné – a řada dalších lidí v týmu byla stejně zvědavá, jak zjistit, co způsobilo ten náhlý bouli. Zjistili jsme, že Aktivita IE8/AcceleratorTá Messenger bot, Hledání překladů, Kancelářské překlady všechny vykazovaly stejný vzestupný trend jako dny předtím, a proto nebyly konkrétním důvodem pro tuto ránu.

Nakonec jsme byli schopni identifikovat jeden potenciální důvod, proč jsme se scházeli s tímhle bodcem. Naše komunita uživatelů nalezla zvláštnost v tom, jak modul strojového překladu zpracoval překlad několika jmen z angličtiny do němčiny. Bylo třeba očekávat, že když motor přeloží jméno kandidáta jedné strany na někoho z druhé strany, vzhledem k současné politické atmosféře v běhu na americké volby, že skončí jako zpráva. I když uvítáme všechny nové uživatele, kteří se k tomuto jevu přišli podívat – chtěli jsme se s našimi uživateli podělit o důvod, proč se takové věci stávají čas od času s statisticky vycvičenými systémy strojového překladu od nás a od ostatních.

Modul statistického strojového překladu je vyškolen na mnoha a mnoha paralelních datech, tedy na údajích, které existují ve zdrojovém jazyce (např. v angličtině) a v cílovém jazyce (např. v němčině), kde se zdroj a cíl vzájemně překládou. Náš motor trénuje na milióny vět za každou dvojici jazyků, kterou podporujeme. Aby se dalo trénovat na konkrétní korpus dat – možná velké množství novinního zboží v angličtině, které bylo přeloženo do němčiny – nejprve musíme prolomit tento korpus na věty. Poté, co je korpus porušen, se výsledné věty krmí jako Aligner, jehož jediným účelem je zjistit, jaké věty na zdrojové straně se zarovnají s větami na cílové straně. To není triviální úkol, protože věta na jedné straně by se mohla vyrovnat s jednou nebo více větami na cíli (nebo vůbec vůbec ne!). Aligner někdy dělá chyby a špatně Zarovná jednu větu s jinou, která vlastně není překladem. To může vést k nějakým mistranslacím, zejména pokud existují slova ve zdroji a cíli, které se zřídka vyskytují. Vzhledem k tomu, že náš překladový modul je statistický, je vysoce závislý na četnosti jednotlivých výskytů mezi slovy ve zdrojových a cílových datech. Pokud se určitá slova vyskytují zřídka, například jména lidí se mohou vyskytnout pouze několikrát v průběhu několika milionů vět – nedostatek četnosti může vést k mistranslacím, které vyplývají z nesprávných "odhadů" mezi zdrojem a cílem (tj. nízkým pravděpodobnosti přiřazené určitým zdrojovým a cílovým slovům. To může vést k nějakým komickým gaffům v našem překladové soustavě.

Tak se tedy "stroj" rozhodl přeložit způsobem, který skončil s komunitou, která ho připisuje pocitu humoru našeho týmu. I když i nadále tvrdě pracujeme na zajištění správného zarovnání, je třeba se od statistického systému, který je postaven na milióny až miliard slov, očekávat, že se taková situace může opakovat.

Aktuální problém se zarovnáním by nyní měl být vyřešen, ale žádáme uživatele, aby nám pomohli identifikovat takové situace tím, že nás kontaktujete prostřednictvím tohoto blogu.

-Vikram

Blog aplikace Microsoft Translator

Politicky nesprávné stroje

Vikram dendi vedoucí obchodní strategie & plánování produktů pro tým Microsoft Translator