Microsoft Translator ' i masintõlke teenus on selle lehe automaatselt tõlkinud. Lisateave

Microsofti tõlkija blogi

Skannitud PDF-dokumentide tõlkimine dokumenditõlke abil

Telefon, mida kasutatakse dokumendi kujutise jäädvustamiseks.

Täna on Dokumendi tõlge Microsoft Azure'i kognitiivse teenuse Translator funktsioon lisab võimaluse tõlkida skannitud pildisisu sisaldavaid PDF-dokumente, kõrvaldades klientide vajaduse neid enne tõlkimist OCR-mootori kaudu eeltöötlemiseks.

Dokumenditõlge tehti üldiselt kättesaadavaks eelmisel aastal, 25. mail 2021, võimaldades klientidel tõlkida terveid dokumente ja dokumentide partiisid rohkem kui 110 keelt ja murret säilitades samal ajal algse faili paigutuse ja vormingu. Dokumenditõlge toetab mitmesuguseid failitüüpe (sh Word, PowerPoint ja PDF) ning kliendid saavad kasutada kas eelehitatud või kohandatud masintõlke mudeleid. Dokumenditõlge on Azure Active Directory autentimisega ettevõtte jaoks valmis, pakkudes hallatava identiteedi kaudu turvalist juurdepääsu teenuse ja salvestusruumi vahel.

Pdf-failide tõlkimine skannitud pildisisuga on dokumenditõlke klientidelt väga nõutud funktsioon. Klientidel on raske automatiseerimise kaudu eraldada PDF-dokumente, millel on regulaarne tekst või skannitud pildisisu. See tekitab töövooprobleeme, kuna kliendid peavad enne dokumendi tõlkimiseks saatmist esmalt suunama skannitud pildisisuga PDF-dokumendid OCR-mootorisse.

Dokumenditõlketeenistustel on nüüd luureandmed

  • et teha kindlaks, kas PDF-dokument sisaldab skannitud pildisisu või mitte,
  • suunata skannitud pildisisu sisaldavad PDF-failid sisemiselt OCR-mootorisse teksti ekstraktimiseks;
  • rekonstrueerida tõlgitud sisu tavalise tekstina PDF, säilitades samal ajal algse paigutuse ja struktuuri.

Skannitud PDF-sisu jaoks ei säilitata fontide vormingut, nagu paksus kirjas, kursiiv, allakriipsutus, esiletõstmine jne, kuna OCR-tehnoloogia neid praegu ei jäädvusta. Fondivorming säilitatakse siiski tavaliste PDF-dokumentide tõlkimisel.

Dokumenditõlge toetab praegu skannitud pildisisu sisaldavaid PDF-dokumente 68 lähtekeelest 87 sihtkeelse. Õigeaegselt lisatakse täiendavate lähte- ja sihtkeelte tugi.

Nüüd on klientidel lihtsam saata kõik PDF-dokumendid otse dokumenditõlkesse ja lasta tal otsustada, millal ja kuidas OCR-mootorit tõhusalt kasutada.

Klientidele, kes juba kasutavad dokumendi tõlget, ei ole selle uue funktsiooni kasutamiseks vaja koodi muuta. Skannitud sisuga PDF-dokumente saab tõlkimiseks esitada nagu mis tahes muud toetatud dokumendivormingud.

Samuti on meil hea meel teatada, et dokumendi tõlge lisab tuge skannitud PDF-dokumendi sisule ilma klientidele lisatasudeta. Azure'i kaudu dokumendi tõlkimiseks on saadaval kaks hinnaplaani – pay-as-you-go plaan ja D3-köiteline allahindlusplaan suurema hulga dokumentide tõlkimiseks. Hinnakujunduse üksikasjad leiate aadressilt aka.ms/TranslatorPricing.

Lugege, kuidas dokumenditõlkega alustada aadressil aka.ms/DocumentTranslationDocs.
Saada oma tagasiside mtfb@microsoft.com.