กูเกิลเปิดตัว Imagen งานวิจัย AI สร้างรูปภาพเสมือนจริงที่ใช้ input เป็นคำบรรยาย แบบเดียวกับ DALL·E ของ OpenAI โดยมีขั้นตอนการทำงานคือแปลงข้อมูล text ออกมาเป็นภาพความละเอียดต่ำ จากนั้นใช้เครื่องมือแปลงให้เป็นภาพที่มีความละเอียดมากขึ้น
จุดเด่นที่กูเกิลระบุว่า Imagen เหนือกว่าเครื่องมือประเภทเดียวกัน คือการพัฒนาเครื่องมือวัดผลที่ชื่อ DrawBench ซึ่งใช้การเทียบข้อมูล text แบบเดียวกัน สร้างรูปภาพจากเครื่องมือหรือโมเดลอื่นมาเปรียบเทียบได้แก่ VQ-GAN+CLIP, Latent Diffusion Models และ DALL-E 2 ซึ่งประเมินคุณภาพของรูปโดยใช้คนตัดสิน พบว่า Imagen มีคะแนนที่ดีกว่า
อย่างไรก็ตามงานวิจัยและเครื่องมือนี้ กูเกิลบอกว่ายังไม่เหมาะสมที่จะเปิดรายละเอียดทั้งหมดต่อสาธารณะ (เช่นเดียวกับ DALL·E) เนื่องจากชุดข้อมูลรูปภาพตั้งต้นที่ใช้ ต้องประมวลผลและตรวจสอบอีกมาก ว่าไม่มีความลำเอียงของข้อมูล หรือประเด็นที่อ่อนไหว