เฟซบุ๊กสร้าง AI แปลงเสียงเป็นข้อความ ฝึกด้วยการใส่เสียงคนพูดและข้อความแยกกัน ไม่ต้องแปลงให้ดู

เฟซบุ๊กรายงานความสำเร็จในการสร้างปัญญาประดิษฐ์แปลงเสียงเป็นข้อความ (speech recognition) ในชื่อ wav2vec-U โดยมีจุดเด่นคือเป็นปัญญาประดิษฐ์ที่ฝึกแบบ unsupervised ที่เป็นการฝึกปัญญาประดิษฐ์โดบไม่ต้องการข้อมูลตัวอย่างโดยตรง

การสร้างปัญญาประดิษฐ์แปลงเสียงเป็นข้อความโดยปกติแล้วจะต้องใช้ชุดข้อมูลคู่กันระหว่างเสียงและข้อความที่แปลงไว้ก่อนหน้า (labeled data) เพื่อให้ปัญญาประดิษฐ์พยายามเลียนแบบ กระบวนการสร้างชุดข้อมูลนี้มีต้นทุนสูงที่ต้องแปลงข้อมูลเสียงเป็นข้อความนับพันชั่วโมง และในภาษาที่มีชุดข้อมูลอยู่น้อยก็สามารถฝึกปัญญาประดิษฐ์ได้ยาก

wav2vec-U ต้องการข้อมูลสำหรับฝึกเป็นเพียงเสียงพูดของแต่ละภาษาโดยไม่ต้องมีข้อความประกบแต่อย่างใด อีกทางหนึ่งคือข้อความในภาษาเดียวกันแต่อาจจะเป็นคนละเรื่องราวกันเลยก็ได้ (unlabeled data) ข้อมูลทั้งสองชุดสามารถนำมาสร้างปัญญาประดิษฐ์ที่แปลงเสียงเป็นข้อความออกมาได้

กระบวนการทำงานภายในของ wav2vec-U เป็นการสร้างปัญญาประดิษฐ์เพื่อแปลงเสียงออกมาเป็นคำอ่าน (phonemize) และแปลงข้อความออกมาเป็นคำอ่านเช่นกัน จากนั้นอาศัยปัญญาประดิษฐ์ discriminator พยายามตัดสินว่าคำอ่านที่ได้นั้นมาจากข้อความจริงหรือมาจากการแปลงเสียง ระหว่างการฝึกปัญญาประดิษฐ์เมื่อ discriminator เก่งขึ้นเรื่อยๆ ตัวปัญญาประดิษฐ์ที่แปลงเสียงเป็นคำอ่านก็ต้องพยายามสร้างข้อความที่สมจริงขึ้นเรื่อยๆ จนได้เป็นการแปลงเสียงเป็นข้อความ

การทดสอบประสิทธิภาพของ wav2vec-U ด้วยชุดทดสอบ Librispeech ได้คะแนน word error rate (WER) อยู่ที่ 5.9 ระดับเดียวกับปัญญาประดิษฐ์ที่ใช้ข้อมูลแปลงเสียงเป็นข้อความโดยตรงที่ดีที่สุดในปี 2019

ที่มา – Facebook AI Blog

No Description

Topics: 
Facebook
Artificial Intelligence