Lompati ke konten utama
Penerjemah
Halaman ini telah diterjemahkan secara otomatis oleh layanan penerjemahan mesin Microsoft Translator. Pelajari lebih lanjut

Microsoft Translator blog

Statistik mesin terjemahan-Guest blog (diperbarui dengan kertas tambahan)

Will Lewis adalah manajer program di tim Microsoft Translator, yang bekerja pada kualitas bahasa dan akuisisi data.  Blog tamu hari ini adalah penjelasan tingkat tinggi tentang bagaimana mesin bekerja:  

Seperti banyak dari Anda tahu, di bawah kap Microsoft Translator didukung oleh mesin statistik mesin terjemahan (SMT).  Sistem statistik yang berbeda dari aturan-based yang dalam bahwa "aturan" pemetaan kata dan frase dari satu bahasa yang lain dipelajari oleh sistem daripada menjadi tangan-kode.  Pelatihan SMT memerlukan mengumpulkan sejumlah besar data pelatihan paralel-mudah-mudahan berkualitas baik dan dari sumber heterogen-dan pelatihan mesin pada data tersebut.  (Secara paralel, kita berarti sumber data di mana isi untuk satu bahasa adalah sama dengan konten yang lain.)  Mesin mempelajari korespondensi antara kata dan frasa dalam satu bahasa dan yang lainnya, yang sering diperkuat oleh pengulangan kata dan frasa yang sama di seluruh masukan.  Misalnya, dalam pelatihan sistem bahasa Inggris-Jerman katakanlah, jika mesin melihat frase Semua hak dilindungi di sisi Inggris dan juga pemberitahuan Oleh-oleh di sisi Jerman, mungkin menyelaraskan kedua frase, dan menetapkan beberapa probabilitas untuk keselarasan ini.  Pengulangan kejadian sumber dan target frase dalam data pelatihan hanya akan memperkuat keselarasan ini.

Umumnya, memiliki data paralel untuk pasangan bahasa berarti kita dapat melatih mesin di kedua arah (yaitu, baik Inggris-Jerman dan sistem Jerman-Inggris dapat dilatih pada kalimat masukan yang sama).  Beberapa dari Anda punya beberapa pertanyaan tentang mengapa itu bahwa kami merilis sistem Inggris-Spanyol sebelum kami merilis Spanyol-Inggris.  Sebenarnya ada dua alasan.  Pertama, bahasa Spanyol adalah pasangan bahasa domain umum pertama yang kami rilis.  Melepaskan satu pasangan bahasa memungkinkan kita untuk menguji infrastruktur sebelum kita mulai melepaskan lebih.  Kedua, teknologi untuk Spanyol-Inggris sedikit berbeda dari yang digunakan untuk bahasa Inggris-Spanyol, dan kita perlu beberapa waktu tambahan untuk melakukan perubahan infrastruktur yang diperlukan untuk mengakomodasi.  Di masa depan, kami berencana untuk merilis sistem terjemahan baru berpasangan (dengan beberapa pengecualian).  Saya tidak dapat mengungkapkan bahasa apa yang telah kami rencanakan selanjutnya, tetapi jangan berharap beberapa yang baru segera!

Bagi Anda yang tertarik pada diskusi teknis mengenai mesin kami dan bagaimana mereka bekerja, silakan merujuk ke beberapa makalah oleh para peneliti yang mengembangkan mereka.  Tiga makalah yang baru diketahui adalah:

Chris Quirk, Arul Menezes. Apakah kita membutuhkan ungkapan? Menantang kebijaksanaan konvensional dalam penerjemahan mesin Statistik Mei 2006 New York, New York, Amerika Serikat Prosiding HLT-NAACL 2006

Chris Quirk, Arul Menezes. Ketergantungan Treelet terjemahan: konvergensi Statistik dan contoh mesin berbasis terjemahan? Mesin 2006 Maret terjemahan 43-65 (Attached file)


Chris Quirk, Arul Menezes. Menggunakan template order ketergantungan untuk meningkatkan Generalitas dalam penerjemahan Juli 2007 Asosiasi untuk linguistik komputasional

Ketergantungan Treelet penerjemahan konvergensi Statistik dan berbasis contoh machinetranslation. pdf