ทีมวิจัยฮ่องกงสร้าง LLM สำหรับ decompile โค้ดโดยเฉพาะ มุ่งวัดเป้ารันได้เหมือนโค้ดเดิม

by lew

18 March 2024 - 14:53

ทีมวิจัยจาก Hong Kong Polytechnic University รายงานถึงการพัฒนาโมเดลปัญญาประดิษฐ์ LLM4Decompile โมเดลเฉพาะทางสำหรับการแปลงไฟล์ assembly ให้กลับมาเป็นโค้ดภาษา C อีกครั้ง จากเดิมที่เคยมีรายงานกันก่อนหน้านี้แล้วว่า LLM ทั่วไป เช่น GPT-4 ก็สามารถ decompile โค้ดได้

LLM4Decompile เป็นโมเดลเฉพาะทาง มี 3 ขนาด คือ 1.3B, 6.7B, และ 33B ฝึกด้วยโค้ดภาษา C ขนาด 4 พันล้านโทเค็น โดยทีมงานสร้างชุดทดสอบ Decompile-Eval เพื่อวัดผลสุดท้ายคือโค้ดที่ได้สามารถคอมไพล์ได้ (re-compilability) และรันได้เหมือนกับโค้ดตั้งต้นเดิม (re-executability) คล้ายกับชุดทดสอบ HumanEval ที่มักใช้ทดสอบการเขียนโปรแกรมปกติ แต่เปลี่ยนจากการใช้โจทย์การเขียนโปรแกรมเป็นอินพุต มาใช้โปรแกรม assembly แทน

ผลทดสอบ LLM4Decompile ยังพบว่า GPT-4 ยังทำคะแนนได้ดีกว่าแทบทุกกรณี แต่พอมาถึงการทดสอบการรัน LLM4Decompile สามารถทำคะแนนได้ดีกว่า โดยสามารถ decompile โค้ดในชุดทดสอบจนรันได้ถูกต้อง 21% ขณะที่ GPT-4 ทำได้ประมาณ 14%

ที่มา - LLM4Decompile

Read on Full Site

Blognone Jobs Premium