DeepMind พัฒนา AlphaGo Zero ไม่ต้องใช้ข้อมูลการเล่นของมนุษย์

by lew
18 October 2017 - 18:04

แม้ว่า DeepMind จะประกาศไม่จัดแข่งโกะระหว่างมนุษย์กับ AlphaGo อีกแล้ว แต่บริษัทก็ยังพัฒนาความสามารถของมันต่อไป โดยเวอร์ชั่นล่าสุด AlphaGo Zero มีความสามารถในการพัฒนาฝีมือได้อย่างรวดเร็วโดยไม่ต้องอาศัยข้อมูลการเล่นของมนุษย์แม้แต่น้อย (เป็นที่มาของชื่อ Zero)

AlphaGo Zero มองกระดานตรงๆ ด้วยเครือข่ายนิวรอนเครือข่ายเดียวจากที่เวอร์ชั่นก่อนหน้านี้แยกนิวรอนสำหรับวิเคราะห์โอกาสชนะออกมา และในเวอร์ชั่นนี้อาศัยข้อมูลการเล่นกับตัวเองอย่างเดียว ไม่มีฟีเจอร์ใดๆ ที่วิศวกรของ DeepMind ปรับแก้ด้วยมือให้ก่อนหน้า การปรับปรุงเหล่านี้ทำให้ประสิทธิภาพในแง่พลังงานของ Zero ดีกว่าเวอร์ชั่นก่อนๆ มาก โดยเวอร์ชั่นนี้ใช้ชิป TPU ของกูเกิลเองเพียง 4 ตัว

เนื่องจากไม่มีฟีเจอร์พื้นฐานที่วิศวกรใส่ด้วยมือให้เลย AlphaGo Zero จึงต้องเรียนรู้กฎพื้นฐานจากศูนย์ช่วงแรกมันเล่นมั่วไปเรื่อยๆ แต่ใช้เวลาเพียงสามชั่วโมงในการฝึกก็สามารถเรียนรู้กฎได้เหมือนผู้เล่นมือใหม่ และ 19 ชั่วโมงก็สามารถเล่นได้เหมือนมนุษย์ โดยเข้าใจหลักการของ Go เช่น การครองพื้นที่ หรือกลุ่มที่มีชีวิตและกลุ่มหมากที่ตายแล้ว ภายใน 70 ชั่วโมงก็มีความสามารถเกินมนุษย์ทั่วไปอย่างชัดเจนโดยไปถึงระดับเดียวกับ AlphaGo เวอร์ชั่นที่เล่นกับ Lee Sedol จนกระทั่งวันที่ 21 มันก็เอาชนะ AlphaGo Master ที่ใช้แข่งกับ Ke Jie ไปได้ และเมื่อฝึกไป 40 วันก็เอาชนะ AlphaGo Master 89 กระดานจาก 100 กระดาน

ทีมงานปล่อยให้ AlphaGo Zero ฝึกตัวเองไป 40 วัน มันสามารถทำคะแนน Elo rating ได้ถึง 5,185 น่าจะเป็นผู้เล่นโกะที่เก่งที่สุดที่โลกมีตอนนี้ โดยเวอร์ชั่น Lee Sedol มีคะแนน 3,739 และเวอร์ชั่น Ke Jie มีคะแนน 4,858

DeepMind ระบุว่าความสามารถในการเรียนรู้โดยไม่ต้องใช้ข้อมูลเดิมมีความสำคัญมากเพราะแสดงว่าเราสามารถออกแบบระบบที่เรียนรู้เรื่องอื่นๆ โดยไม่ต้องมีฐานข้อมูลของมนุษย์ไว้ก่อนหน้า และปัญญาประดิษฐ์สามารถค้นพบความรู้ใหม่ๆ ได้เองในปัญหาอื่นๆ ด้วย

ที่มา - DeepMind

Blognone Jobs Premium