แม้เปิดตัวก่อน แต่ไม่ดังเท่า รู้จัก 'Lumiere' โมเดล AI สร้างวิดีโอ ของ Google ความเก่งไม่แพ้ Sora

Tech & Innovation

Tech Companies

กองบรรณาธิการ

กองบรรณาธิการ

Tag

แม้เปิดตัวก่อน แต่ไม่ดังเท่า รู้จัก 'Lumiere' โมเดล AI สร้างวิดีโอ ของ Google ความเก่งไม่แพ้ Sora

Date Time: 20 ก.พ. 2567 18:14 น.

Video

วิธีเอาตัวรอดของ Wikipedia ไม่พึ่งโฆษณา ไม่มีค่าสมาชิก แต่อยู่มาได้ 23 ปี | Digital Frontiers

Summary

  • เพราะโลก AI กว้างเกินกว่าจะรู้จักแค่ ChatGPT ทำความรู้จัก “ลูมีเยร์” โมเดล Text-to-Video ที่สามารถสร้างวิดีโออันซับซ้อนจากข้อความที่มาพร้อมกับฟังก์ชันผลิตและตัดต่อวิดีโอหลากหลาย น่าประทับใจไม่แพ้ Sora ของ OpenAI

Latest


ภายหลังการเปิดตัว “Sora” โมเดล AI สร้างวิดีโอจากข้อความของ OpenAI ผู้สร้าง ChatGPT และ Dall-E ดูเหมือนว่า แซม อัลต์แมน จะดึงความสนใจทั่วโลกกลับมาสู่บริษัทได้อีกครั้ง สืบเนื่องจากช่วงที่ผ่านมา Google ได้เผยโฉมทิศทางใหม่ของ “Gemini” 

แต่รู้หรือไม่ก่อนหน้านั้นสองสัปดาห์ยักษ์ใหญ่อย่าง Google เองก็ได้ตีพิมพ์บทความเกี่ยวกับโมเดล Text-to-Video ที่สามารถสร้างวิดีโออันซับซ้อนจากข้อความชื่อว่า “ลูมีเยร์” (Lumiere) ที่มาพร้อมกับฟังก์ชันผลิตและตัดต่อวิดีโอหลากหลาย อีกทั้งผลลัพธ์ของวิชวลโดยรวมยังน่าประทับใจไม่แพ้ Sora เลยก็ว่าได้ อย่างไรก็ตามการเปิดตัวบทวิจัยและโครงสร้างการทำงานของโมเดลออกมาในครั้งนี้กลับไม่เป็นกระแสสั่นกระพือวงการเท่ากับ Sora 

Google Lumiere ทำอะไรได้บ้าง? 

Text-to-Video : สร้างวิดีโอจากข้อความที่กำหนด

Image-to-Video : เปลี่ยนภาพนิ่งให้เป็นวิดีโอตามรายละเอียดที่กำหนด 

Stylised Generation : สร้างภาพเคลื่อนไหวใหม่โดยคัดลอกคอนเซปต์ดีไซน์หรือสไตล์ของภาพเคลื่อนไหวเดิม เช่น ภาพลายเส้น รูปทรง 3D ภาพวาดจากสีน้ำ 

Video Stylization : สร้างภาพเคลื่อนไหวตามวิดีโอตัวอย่าง 

Video Inpainting : ปรับแต่งรายละเอียดหรือเพิ่มสิ่งใหม่ที่ต้องการในวิดีโอ โดยการเลือกพื้นที่เฉพาะของวิดีโอนั้นๆ 

Cinemagraphs : เลือกจุดใดจุดหนึ่งของภาพนิ่งที่อยากให้เคลื่อนไหว

จากการเปิดตัวของทั้งสองรายจะเห็นว่า Google Lumiere สามารถปรับแต่งรายละเอียดบนวิดีโอ เช่น สามารถสร้างส่วนที่ขาดหายไปของวิดีโอ หรือทำให้ส่วนเฉพาะของรูปภาพเคลื่อนไหวได้ โดยรวมมีความสามารถในการสร้างวิดีโอที่มีความซับซ้อนได้ในสไตล์ต่างๆ ตามคำสั่ง ใกล้เคียงกันกับ Sora 

โดยบทความที่เปิดเผยออกมาเป็นเพียงการอธิบายรูปแบบการทำงานของโมเดลและคลิปวิดีโอสั้นๆ ไม่กี่วิ ยังไม่มีการพูดถึงว่า Google Lumiere สร้างวิดีโอได้ระยะเวลาเท่าใด หรือเผยแพร่วิดีโอที่มีความยาวที่เทียบกับ Sora 

ทีมวิจัย Google ระบุว่า Google Lumiere เป็น Diffusion Model ซึ่งเป็นหนึ่งในโมเดล Generative AI ที่มีความสามารถในการสร้างภาพและวิดีโอความละเอียดสูงจากการป้อนคำสั่งในรูปแบบข้อความหรือคำสั่งภาพโดยตรง โดยผลลัพธ์ที่ได้นั้นจะเป็นรูปแบบคอนเซปต์อาร์ตหลากหลายสไตล์ขึ้นอยู่กับชุดข้อมูลของคำสั่งนั้นๆ 

นอกจากนี้ยังขับเคลื่อนด้วย Space-Time-U-Net (STUNet) โครงสร้างการประมวลผลแบบใหม่ที่สามารถคาดการณ์การเคลื่อนไหวของวัตถุในเฟรม และยังสร้างรายละเอียดต่างๆ ของวิดีโอแบบเต็มเฟรมด้วยการประมวลในครั้งเดียว ทำให้ผลลัพธ์ที่ได้ราบรื่น สมูทมากกว่าเดิม 

แม้จะเป็นที่แน่ชัดแล้วว่าสนามนี้ไม่ได้มีแค่ OpenAI ในครั้งนี้ Google ได้ก้าวสู่ตลาด Text-to-Video เช่นเดียวกัน และทำให้การแข่งขันในการสร้าง GenAI สำหรับงานวิชวลจะคึกคักมากยิ่งขึ้น และเราเองต้องจับตาดูกันต่อเนื่อง โดยในตอนนี้ทั้ง Sora และ Google Lumiere ล้วนแล้วยังไม่มีโมเดลทดลองที่เปิดใช้งานหรือมีแผนจะเปิดตัวในเร็วๆ นี้

ในส่วนปิดท้าย Google ยังได้กล่าวถึง ความกังวลด้านความปลอดภัยของเครื่องมือดังกล่าว ซึ่ง Google กังวลว่า เทคโนโลยีสร้างวิดีโอประเภทนี้จะถูกนำไปใช้ในทางที่ผิดได้ โดยบริษัทดำเนินการตรวจสอบวิธีการต่างๆ ที่สามารถกำหนดได้เพื่อให้แน่ใจว่า เครื่องมือเหล่านี้ถูกใช้อย่างปลอดภัยโดยไม่เสี่ยงต่ออันตรายต่อประชากรโดยรวม ซึ่งเป็นเหตุผลให้ Google ค่อนข้างที่จะเปิดตัวโปรดักต์ AI ใหม่ๆ สู่สาธารณะอย่างค่อยเป็นค่อยไป ไม่ค่อยสร้างการรับรู้บ่อยครั้งในช่วงที่ผ่านมานั่นเอง

อ้างอิง Lumiere 

ติดตามเพจ Facebook : Thairath Money ได้ที่ลิงก์นี้ - https://www.facebook.com/ThairathMoney 


Author

กองบรรณาธิการ

กองบรรณาธิการ