ภายหลังการเปิดตัว “Sora” โมเดล AI สร้างวิดีโอจากข้อความของ OpenAI ผู้สร้าง ChatGPT และ Dall-E ดูเหมือนว่า แซม อัลต์แมน จะดึงความสนใจทั่วโลกกลับมาสู่บริษัทได้อีกครั้ง สืบเนื่องจากช่วงที่ผ่านมา Google ได้เผยโฉมทิศทางใหม่ของ “Gemini”
แต่รู้หรือไม่ก่อนหน้านั้นสองสัปดาห์ยักษ์ใหญ่อย่าง Google เองก็ได้ตีพิมพ์บทความเกี่ยวกับโมเดล Text-to-Video ที่สามารถสร้างวิดีโออันซับซ้อนจากข้อความชื่อว่า “ลูมีเยร์” (Lumiere) ที่มาพร้อมกับฟังก์ชันผลิตและตัดต่อวิดีโอหลากหลาย อีกทั้งผลลัพธ์ของวิชวลโดยรวมยังน่าประทับใจไม่แพ้ Sora เลยก็ว่าได้ อย่างไรก็ตามการเปิดตัวบทวิจัยและโครงสร้างการทำงานของโมเดลออกมาในครั้งนี้กลับไม่เป็นกระแสสั่นกระพือวงการเท่ากับ Sora
Text-to-Video : สร้างวิดีโอจากข้อความที่กำหนด
Image-to-Video : เปลี่ยนภาพนิ่งให้เป็นวิดีโอตามรายละเอียดที่กำหนด
Stylised Generation : สร้างภาพเคลื่อนไหวใหม่โดยคัดลอกคอนเซปต์ดีไซน์หรือสไตล์ของภาพเคลื่อนไหวเดิม เช่น ภาพลายเส้น รูปทรง 3D ภาพวาดจากสีน้ำ
Video Stylization : สร้างภาพเคลื่อนไหวตามวิดีโอตัวอย่าง
Video Inpainting : ปรับแต่งรายละเอียดหรือเพิ่มสิ่งใหม่ที่ต้องการในวิดีโอ โดยการเลือกพื้นที่เฉพาะของวิดีโอนั้นๆ
Cinemagraphs : เลือกจุดใดจุดหนึ่งของภาพนิ่งที่อยากให้เคลื่อนไหว
จากการเปิดตัวของทั้งสองรายจะเห็นว่า Google Lumiere สามารถปรับแต่งรายละเอียดบนวิดีโอ เช่น สามารถสร้างส่วนที่ขาดหายไปของวิดีโอ หรือทำให้ส่วนเฉพาะของรูปภาพเคลื่อนไหวได้ โดยรวมมีความสามารถในการสร้างวิดีโอที่มีความซับซ้อนได้ในสไตล์ต่างๆ ตามคำสั่ง ใกล้เคียงกันกับ Sora
โดยบทความที่เปิดเผยออกมาเป็นเพียงการอธิบายรูปแบบการทำงานของโมเดลและคลิปวิดีโอสั้นๆ ไม่กี่วิ ยังไม่มีการพูดถึงว่า Google Lumiere สร้างวิดีโอได้ระยะเวลาเท่าใด หรือเผยแพร่วิดีโอที่มีความยาวที่เทียบกับ Sora
ทีมวิจัย Google ระบุว่า Google Lumiere เป็น Diffusion Model ซึ่งเป็นหนึ่งในโมเดล Generative AI ที่มีความสามารถในการสร้างภาพและวิดีโอความละเอียดสูงจากการป้อนคำสั่งในรูปแบบข้อความหรือคำสั่งภาพโดยตรง โดยผลลัพธ์ที่ได้นั้นจะเป็นรูปแบบคอนเซปต์อาร์ตหลากหลายสไตล์ขึ้นอยู่กับชุดข้อมูลของคำสั่งนั้นๆ
นอกจากนี้ยังขับเคลื่อนด้วย Space-Time-U-Net (STUNet) โครงสร้างการประมวลผลแบบใหม่ที่สามารถคาดการณ์การเคลื่อนไหวของวัตถุในเฟรม และยังสร้างรายละเอียดต่างๆ ของวิดีโอแบบเต็มเฟรมด้วยการประมวลในครั้งเดียว ทำให้ผลลัพธ์ที่ได้ราบรื่น สมูทมากกว่าเดิม
แม้จะเป็นที่แน่ชัดแล้วว่าสนามนี้ไม่ได้มีแค่ OpenAI ในครั้งนี้ Google ได้ก้าวสู่ตลาด Text-to-Video เช่นเดียวกัน และทำให้การแข่งขันในการสร้าง GenAI สำหรับงานวิชวลจะคึกคักมากยิ่งขึ้น และเราเองต้องจับตาดูกันต่อเนื่อง โดยในตอนนี้ทั้ง Sora และ Google Lumiere ล้วนแล้วยังไม่มีโมเดลทดลองที่เปิดใช้งานหรือมีแผนจะเปิดตัวในเร็วๆ นี้
ในส่วนปิดท้าย Google ยังได้กล่าวถึง ความกังวลด้านความปลอดภัยของเครื่องมือดังกล่าว ซึ่ง Google กังวลว่า เทคโนโลยีสร้างวิดีโอประเภทนี้จะถูกนำไปใช้ในทางที่ผิดได้ โดยบริษัทดำเนินการตรวจสอบวิธีการต่างๆ ที่สามารถกำหนดได้เพื่อให้แน่ใจว่า เครื่องมือเหล่านี้ถูกใช้อย่างปลอดภัยโดยไม่เสี่ยงต่ออันตรายต่อประชากรโดยรวม ซึ่งเป็นเหตุผลให้ Google ค่อนข้างที่จะเปิดตัวโปรดักต์ AI ใหม่ๆ สู่สาธารณะอย่างค่อยเป็นค่อยไป ไม่ค่อยสร้างการรับรู้บ่อยครั้งในช่วงที่ผ่านมานั่นเอง
อ้างอิง Lumiere
ติดตามเพจ Facebook : Thairath Money ได้ที่ลิงก์นี้ - https://www.facebook.com/ThairathMoney