เฟซบุ๊กโอเพนซอร์สโมเดล AI แปลภาษารองรับ 100 ภาษา ใช้ข้อมูลภาษายอดนิยมเสริมคุณภาพการแปล

เฟซบุ๊กประกาศเปิดซอร์ส M2M-100 โมเดล AI ที่สามารถแปลภาษาระหว่างคู่ภาษาต่างๆ จากจำนวนภาษา 100 ภาษา โดยไม่ต้องแปลผ่านภาษาอังกฤษเป็นหลัก

โมเดลปัญญาประดิษฐ์สำหรับแปลภาษาที่ต้องรองรับภาษาจำนวนมากๆ มักฝึกโมเดลโดยอาศัยภาษาอังกฤษเป็นภาษากลาง เช่น การแปลภาษาฝรั่งเศสไปยังภาษาจีน ก็มักจะฝึกแปลภาษาฝรั่งเศสไปยังภาษาอังกฤษ และฝึกแปลภาษาอังกฤษไปยังภาษาจีนอีกครั้งเนื่องจากชุดข้อมูลทั้งสองแบบมีปริมาณมากเพียงพอ แต่การแปลสองรอบก็ทำให้คุณภาพการแปลลดลงมาก

การฝึก M2M-100 อาศัยชุดข้อมูลที่เฟซบุ๊กสร้างขึ้นโดยจับกลุ่มภาษาเป็นภาษาที่อยู่ในตระกูลเดียวกัน เช่น ภาษาไทยและภาษาลาว, ภาษาฝรั่งเศสและภาษาสเปน รวมทั้งหมด 100 ภาษาจับกลุ่มได้ 14 กลุ่มภาษา แต่บางกลุ่มภาษาก็ยังมีข้อมูลน้อยมาก ทำให้เฟซบุ๊กกำหนดภาษาเชื่อม (bridge language) มาอีก 26 ภาษา แล้วพยายามหาข้อมูลที่มีการแปลจากภาษาต่างๆ ไปยังภาษาเชื่อมเหล่านั้น เช่นภาษาสเปนเมื่อรวมเอาชุดข้อมูลจากภาษาในกลุ่มเดียวกันและภาษาเชื่อมแล้ว ปริมาณข้อมูลการแปลไปยังภาษาต่างๆ ก็แทบจะเท่ากับภาษาอังกฤษเลยทีเดียว โดยรวมแล้วชุดข้อมูลของ M2M-100 มี 7,500 ล้านคู่ประโยคที่แปลไปมา 2,200 ทิศทางการแปล แนวทางการหาข้อมูลการแปลภาษาในกลุ่มและการแปลไปยังภาษาเชื่อมเช่นนี้ทำให้ชุดข้อมูลมากกว่าการใช้เฉพาะข้อมูลการแปลไปยังภาษาอังกฤษประมาณ 5-10 เท่าตัว

โมเดลที่เฟซบุ๊กใช้งานมีขนาด 12,000 ล้านพารามิเตอร์ เฟซบุ๊กแสดงคุณภาพการแปลเทียบกับโมเดลเดิมที่เช่นชุดข้อมูลแปลภาษาผ่านภาษาอังกฤษเป็นหลัก การแปลในกลุ่มภาษาเดียวกันคะแนนดีขึ้นเฉลี่ย 7.6 BLEU และคะแนน BLEU โดยเฉลี่ยก็ยังดีกว่าโมเดล mBART ที่เฟซบุ๊กเสนอไว้เมื่อกลางปีที่ผ่านมาอยู่ 0.7 BLEU

เผื่อใครสงสัย แม้ความก้าวหน้าของเทคโนโลยีการแปลด้วยปัญญาประดิษฐ์ยังเดินหน้าอย่างต่อเนื่อง โดยเฉพาะความพยายามในการแปลภาษาที่มีข้อมูลน้อย แต่ควรตระหนักกว่าการฝึกปัญญาประดิษฐ์ด้วยข้อมูลน้อยก็ยังเป็นข้อจำกัดคุณภาพการแปลโดยรวม หลายครั้งชุดข้อมูลที่ได้จากการ mining นั้นผิดพลาดจนฝึกปัญญาประดิษฐ์ให้แปลข้อความบางประเภทผิดไปได้เสมอ แม้ว่าคะแนน BLEU โดยรวมจะดีขึ้นก็ตาม

ที่มา – Facebook

No Description

Topics: 
Facebook
Artificial Intelligence
Translation