Többnyelvű fordítás méretarányban: 10000 nyelvi pár és azon túl
A Microsoft AI nagy léptékben nagy ambícióval, hogy lehetővé tegye az AI-élmények következő generációját. A Microsoft Fordító ZCode A csapat együttműködik a Microsoft Project Turing és a Microsoft Research Asia a kezdeményezés középpontjában álló nyelvi és többnyelvű támogatás előmozdítása érdekében. Továbbra is a többnyelvű modellekkel határos határokat feszejük, hogy támogassuk a különböző nyelvi forgatókönyveket a Microsoftban. Tavaly nyáron bejelentettük nagyszabású A szakértő többnyelvű keveréke modell DeepSpeed amelyek felülmúlhatják az egyes nagyszabású kétnyelvű modelleket. A közelmúltban a legújabb Turing univerzális nyelvi reprezentációs modell (T-ULRv5), a Microsoft által létrehozott modell ismét a legkorszerűbb, és a Google tetején XTREME nyilvános ranglista abban az időben. A Microsoft bejelentette a legnagyobb Megatron-Turing NLG 530B paraméterek modelljét.
Az éves gépi fordítási konferencia (más néven WMT 2021) a múlt héten zárult a dominikai Köztársaság gyönyörű Punta Canában. A WMT összehozza a teljes gépi fordítási terület kutatóit, mind az ipart, mind az akadémiát, hogy részt vegyenek egy sor megosztott feladatban, amelyek mindegyike meghatározza a referenciaértéket a gépi fordítás fontos területén, hogy a területet új határokra tolja.
A Microsoft Translator ZCode csapata a Turing csapatával és a Microsoft Research Asia-val együttműködve részt vett a "Nagyszabású többnyelvű fordítás" sávban, amely a 101 nyelven mind a 10 000 irány közötti fordítás teljes feladatából és két kis feladatból állt: az egyik 5 közép- és dél-európai nyelvre, a másik pedig 5 délkelet-ázsiai nyelvre összpontosított. A Microsoft ZCode-DeltaLM modell mindhárom feladatot hatalmas különbséggel nyerte meg, beleértve az M2M100 modell hihetetlen 10+ pontnövekedését a hatalmas, 10 000 nyelvi páron értékelt nagy feladatban. (A WMT 2021 megosztott feladatának megállapításai a nagyméretű többnyelvű gépi fordításról, Wenzek et al, WMT 2021).
1. ábra: Hivatalos eredmények (BLEU pontszámok) a teljes feladatról és a kis feladatról1 a WMT 2021 nagyszabású többnyelvű fordítás megosztott feladatán
A ZCode-DeltaLM megközelítés
Ebben a blogbejegyzésben vessünk egy pillantást a nyertes Microsoft ZCode-DeltaLM modell motorháztetője alá. Kiindulópontunk a DeltaLM volt (DeltaLM: Kódoló-dekóder előképzés a nyelvigeneráláshoz és fordításhoz az előképzett többnyelvű kódolók bővítésével), a microsofttól származó, masszívan többnyelvű, előképzett nyelvi modellek egyre erősebb sorozatának legújabb része.
A DeltaLM egy kódoló-dekóder modell, de ahelyett, hogy a semmiből betanulna, egy korábban előre képzett, csak korszerű kódoló modellből inicializálódik , különösen (TULRv3). Míg a kódoló inicializálása egyszerű, a dekóder kevésbé, mivel keresztfigyelmet ad a kódoló önfigyelmének. A DeltaLM ezt a problémát egy új, összefonódott architektúrával oldja meg, ahol az önfigyelem és a keresztfigyelem váltakozik a rétegek között, a páratlan rétegekben használt önfigyelem és a páros rétegekben használt keresztfigyelem. Ezzel az interleaving, a dekóder szerkezet megfelel a kódoló, és így azt is inicializálható ugyanúgy TULRv3.
A DeltaLM-et a ZCode erőteljes többfeladatos tanulás egészíti ki: Többfeladatos tanulás többnyelvű neurális gépi fordításhoz. Modelljeink azt mutatják, hogy a többfeladatos és többnyelvű tanulás kombinálása jelentősen javíthatja a nagyléptékű előképzett nyelvi modellek képzését. Az ilyen többfeladatos többnyelvű tanulási paradigma egyszerre több feladat és nyelv induktív elfogultságát és szabályszerűségét használja ki, hogy jobban teljesítsen a különböző downstream feladatokon. Fordítási feladatot használunk, denoizáljuk az automatikus kódoló feladatot és a fordítási időszakot a korrupciós feladattal, amint azt az alábbi ábra mutatja.
A masszívan többnyelvű fordítási pálya megnyerése
A nyertes, masszívan többnyelvű fordítási rendszerünk kiépítése (Többnyelvű gépi fordítási rendszerek a Microsofttól a WMT21 megosztott feladathoz), zCode-DeltaLM-kel kezdtük, és hozzáadtunk néhány trükköt.
Progresszív tanulást alkalmazunk, először egy 24 kódoló réteggel és 12 dekóderréteggel rendelkező modellt képezünk be, majd folytatjuk a képzést 12 hozzáadott kódoló réteggel, ami mély 36 rétegű kódolót eredményez. Az összes nyelvi pár lefedése érdekében kettős pszeudo-párhuzamos adatokat hozunk létre, ahol a párhuzamos adatok mindkét oldala szintetikus, a modell által angolról lefordítva. Iteratív visszafordítást is alkalmazunk szintetikus adatok előállításához. Tantervi tanulást alkalmazunk, kezdve a teljes zajos képzési adattal, majd tiszta részhalmazra csökkentjük. A fordítási célt újrasúlyozónak tesszük, hogy előnyben részesítsük a párhuzamos adatokat a visszafordítással és a kettős pszeudo-párhuzamos adatokkal szemben. Hőmérséklet-mintavételt alkalmazunk a nyelvi párok közötti egyensúlyra. Minden egyes nyelvi párhoz a fejlesztői készlet alapján választjuk ki, hogy a közvetlen fordítást vagy az angol nyelvű fordítást részesítjük előnyben.
Mindent egybevetve tudtuk, hogy elképesztően többnyelvű rendszerünk van, de a vak tesztkészlet hivatalos eredményei meghaladták várakozásainkat. A következő versenyző előtt 2,5-9 BLEU-t szereztünk, és 10-21 BLEU pontot az alapvonal M2M-175 modell előtt. A fejlesztői teszten összehasonlítottuk a nagyobb M2M-615 modellt, amelyet szintén 10-18 ponttal vertünk.
Beyond Translation: Universal Language Generation
Bár izgatottak vagyunk a WMT 2021 nagy győzelme miatt, ami még izgalmasabb, hogy a többi versenytárssal ellentétben a ZCode-DeltaLM modellünk nem csak egy fordítási modell, hanem egy általános előképzett kódoló-dekóder nyelvi modell, amely a fordításon túl mindenféle generációs feladathoz használható. Ez valóban lehetővé teszi modelljeink számára, hogy elég jól teljesítsen a különböző többnyelvű természetes nyelvi generációs feladatokban.
Új SOTA-t értünk el számos népszerű generációs feladatban a GEM Benchmark, beleértve a Wikilingua (összegzés), a szöveg egyszerűsítését (WikiAuto) és a struktúra-szöveg (WebNLG). A DeltaLM-ZCode modell széles körben felülmúlja a sokkal nagyobb modelleket, például az mT5 XL-t (3.7B), amelyet sokkal nagyobb adatokra is betanítottak. Ez megmutatta a modellek hatékonyságát és sokoldalúságát, ami számos feladatban erős teljesítményt eredményezett.
2. ábra. A ZCode-DeltaLM teljesítménye (RL pontszámok) a GEM benchmark összegzési és szövegegyszerűsítési feladatairól
Előretekintve
A többnyelvű gépi fordítás elérte azt a pontot, ahol nagyon jól teljesít, meghaladva a kétnyelvű rendszereket, mind az alacsony, mind a magas erőforrású nyelveken. A szakértők (MoE) modellek keveréke nagyon jól illeszkedik az ilyen modellek felskálázására, amint azt a GShard kimutatta. Megvizsgáljuk, hogyan lehet hatékonyan méretezni az ilyen modelleket a szakértők keverékével: Skálázható és hatékony MoE képzés többfeladatos többnyelvű modellekhez. A hatalmas többnyelvű adatokkal és felügyelet nélküli többfeladatos képzéssel rendelkező MoE modellek előre nem látható lehetőséget biztosítanak az ilyen modellek számára, hogy valóban univerzális rendszereket biztosítsanak, amelyek lehetővé teszik a Microsoft Translator csapat számára, hogy megszüntesse a nyelvi akadályokat szerte a világon, valamint támogassa a különböző természetes nyelvi generációs feladatokat.
Köszönetnyilvánítás
Szeretnénk elismerni és köszönetet mondani Francisco Guzmannak és csapatának, akik összegyűjtötték a masszívan többnyelvű FLORES tesztkészletet, és ilyen nagyszabású értékeléssel szervezték meg ezt a WMT pályát.