กูเกิลพัฒนาเทคนิคสร้างปัญญาประดิษฐ์สรุปบทความ โดยอาศัยตัวอย่างการสรุปบทความเพียง 1,000 ตัวอย่าง

by lew
9 June 2020 - 18:15

ปัญญาประดิษฐ์กลุ่มหนึ่งที่เป็นที่สนใจในช่วงหลังคือการสรุปบทความ (text summarization) ที่สร้างปัญญาประดิษฐ์ที่รับอินพุตเป็นบทความขนาดยาว แต่สามารถสรุปใจความสำคัญออกมาได้ภายในประโยคเดียว ปัญหาสำคัญคือการสร้างตัวอย่างการสรุปบทความนั้นทำได้ยาก และต้องใช้แรงงานสูง ตอนนี้กูเกิลก็นำเสนองานวิจัย PEGASUS (Pre-training with Extracted Gap-sentences for Abstractive SUmmarization Sequence-to-sequence models) ที่สามารถสรุปบทความได้ใกล้เคียงกับปัญญาประดิษฐ์อื่นๆ โดยใช้ตัวอย่างการสรุปบทความเพียงเล็กน้อยเท่านั้น

เทคนิคของกูเกิลอาศัยอินพุตเป็นบทความอื่นๆ โดยไม่มีสรุปซึ่งหาชุดข้อมูลได้ง่ายโดยทั่วไป แล้วสร้างปัญญาประดิษฐ์ด้วยการลบบางประโยคออกจากบทความ จากนั้นฝึกปัญญาประดิษฐ์ให้พยายามสร้างประโยคนั้นๆ กลับขึ้นมาใหม่ เรียกเทคนิคนี้ว่าการสร้างประโยคที่หายไป (gap sentences generation - GSG) โดยชุดข้อมูลที่ใช้ฝึกเบื้องต้นนี้มีสองชุดข้อมูล ได้แก่ C4 บทความจากเว็บที่ดูดมาขนาด 750GB จาก 350 ล้านเว็บ และ HugeNews บทความข่าวที่ดูดมาขนาด 3.8TB รวม 1,500 ล้านบทความ โดยบทความเหล่านี้ไม่มีสรุปแต่อย่างใด หลังจากนั้นจึงมาฝึกกับชุดข้อมูลสรุปบทความโดยเฉพาะที่มีขนาดเล็กกว่า โดยชุดข้อมูล Gigaword ที่ใหญ่ที่สุดมีจำนวน 4 ล้านบทความเท่านั้น

ทีมวิจัยวัดคะแนนสุดท้ายด้วยการจ้างคนมาให้คะแนนการสรุปแบบ 1-5 คะแนน จากตัวอย่างสรุป 4 ชุดโดยมีตัวอย่างจากการสรุปของคนจริงๆ ผสมไปด้วย และพบว่าการฝึกเพิ่มเติมกับตัวอย่างที่มีข้อมูลสรุปมาเป็นเฉลยเพียง 1,000 ชุดก็สามารถทำคะแนนได้ดีกว่าการสรุปของคนจริงๆ ไป 6 ชุดข้อมูล จาก 12 ชุดข้อมูล

ตัวโค้ดและ snapshot ของโมเดลมีแจกใน GitHub

ที่มา - Google AI Blog

รูปแบบการฝึก GSG ที่ปัญญาประดิษฐ์ฝึกสร้างประโยคที่หายไปในชุดข้อมูลที่ไม่มีบทสรุปตัวอย่างให้

Blognone Jobs Premium