เฟซบุ๊กรายงานความสำเร็จในการสร้างปัญญาประดิษฐ์แปลงเสียงเป็นข้อความ (speech recognition) ในชื่อ wav2vec-U โดยมีจุดเด่นคือเป็นปัญญาประดิษฐ์ที่ฝึกแบบ unsupervised ที่เป็นการฝึกปัญญาประดิษฐ์โดบไม่ต้องการข้อมูลตัวอย่างโดยตรง
การสร้างปัญญาประดิษฐ์แปลงเสียงเป็นข้อความโดยปกติแล้วจะต้องใช้ชุดข้อมูลคู่กันระหว่างเสียงและข้อความที่แปลงไว้ก่อนหน้า (labeled data) เพื่อให้ปัญญาประดิษฐ์พยายามเลียนแบบ กระบวนการสร้างชุดข้อมูลนี้มีต้นทุนสูงที่ต้องแปลงข้อมูลเสียงเป็นข้อความนับพันชั่วโมง และในภาษาที่มีชุดข้อมูลอยู่น้อยก็สามารถฝึกปัญญาประดิษฐ์ได้ยาก
wav2vec-U ต้องการข้อมูลสำหรับฝึกเป็นเพียงเสียงพูดของแต่ละภาษาโดยไม่ต้องมีข้อความประกบแต่อย่างใด อีกทางหนึ่งคือข้อความในภาษาเดียวกันแต่อาจจะเป็นคนละเรื่องราวกันเลยก็ได้ (unlabeled data) ข้อมูลทั้งสองชุดสามารถนำมาสร้างปัญญาประดิษฐ์ที่แปลงเสียงเป็นข้อความออกมาได้
กระบวนการทำงานภายในของ wav2vec-U เป็นการสร้างปัญญาประดิษฐ์เพื่อแปลงเสียงออกมาเป็นคำอ่าน (phonemize) และแปลงข้อความออกมาเป็นคำอ่านเช่นกัน จากนั้นอาศัยปัญญาประดิษฐ์ discriminator พยายามตัดสินว่าคำอ่านที่ได้นั้นมาจากข้อความจริงหรือมาจากการแปลงเสียง ระหว่างการฝึกปัญญาประดิษฐ์เมื่อ discriminator เก่งขึ้นเรื่อยๆ ตัวปัญญาประดิษฐ์ที่แปลงเสียงเป็นคำอ่านก็ต้องพยายามสร้างข้อความที่สมจริงขึ้นเรื่อยๆ จนได้เป็นการแปลงเสียงเป็นข้อความ
การทดสอบประสิทธิภาพของ wav2vec-U ด้วยชุดทดสอบ Librispeech ได้คะแนน word error rate (WER) อยู่ที่ 5.9 ระดับเดียวกับปัญญาประดิษฐ์ที่ใช้ข้อมูลแปลงเสียงเป็นข้อความโดยตรงที่ดีที่สุดในปี 2019
ที่มา – Facebook AI Blog
It also works in languages other than English, see the Swahili demo below. So far we tried it on Kyrgyz, Tatar, German, Dutch, French, Spanish, Portuguese, Italian. pic.twitter.com/rdgQhmQtrd
— Michael Auli (@MichaelAuli) May 21, 2021