Google DeepMind از یک مدل ویدیویی جدید برای رقیب سورا رونمایی کرد

Google DeepMind، آزمایشگاه تحقیقاتی هوش مصنوعی گوگل، می‌خواهد OpenAI را در بازی نسل ویدیو شکست دهد – و ممکن است حداقل برای مدتی کوتاه.

روز دوشنبه، DeepMind Veo 2 را معرفی کرد، یک نسل بعدی هوش مصنوعی تولید کننده ویدیو و جانشین Veo، که تعداد فزاینده‌ای از محصولات را در مجموعه گوگل تامین می‌کند. Veo 2 می‌تواند کلیپ‌های دو دقیقه‌ای و با رزولوشن تا 4k (4096 x 2160 پیکسل) ایجاد کند.

قابل ذکر است که 4 برابر وضوح – و بیش از 6 برابر مدت زمان – که OpenAI’s Sora می تواند به آن دست یابد.

این یک مزیت نظری در حال حاضر است، اعطا شده است. در ابزار آزمایشی ایجاد ویدیوی گوگل، VideoFX، جایی که Veo 2 اکنون به طور انحصاری در دسترس است، ویدیوها با کیفیت 720p و طول هشت ثانیه محدود می شوند. (سورا می تواند تا 1080p کلیپ های 20 ثانیه ای تولید کند.)

VideoFX پشت لیست انتظار است، اما گوگل می گوید تعداد کاربرانی را که می توانند در این هفته به آن دسترسی داشته باشند را افزایش می دهد.

الی کالینز، معاون محصول در DeepMind، همچنین به TechCrunch گفت که Google Veo 2 را از طریق پلتفرم توسعه‌دهنده Vertex AI خود در دسترس قرار می‌دهد «در حالی که مدل برای استفاده در مقیاس آماده می‌شود».

کالینز گفت: «در ماه‌های آینده، بر اساس بازخورد کاربران به تکرار ادامه می‌دهیم، و [ما] به دنبال ادغام قابلیت‌های به‌روزرسانی شده Veo 2 در موارد استفاده قانع‌کننده در سراسر اکوسیستم Google هستیم… [ما انتظار داریم] برای اشتراک‌گذاری به‌روزرسانی‌های بیشتر در سال آینده.»

قابل کنترل تر
مانند Veo، Veo 2 می‌تواند ویدیوهایی را با یک پیام متنی (به عنوان مثال، “ماشین در حال مسابقه در بزرگراه”) یا متن و یک تصویر مرجع تولید کند.

بنابراین چه چیز جدیدی در Veo 2 وجود دارد؟ خوب، DeepMind می‌گوید این مدل که می‌تواند کلیپ‌ها را در طیف وسیعی از سبک‌ها تولید کند، «درک» بهبود یافته‌ای از فیزیک و کنترل‌های دوربین دارد و فیلم‌های «واضح‌تری» تولید می‌کند.

با واضح تر، DeepMind به این معنی است که بافت ها و تصاویر در کلیپ ها واضح تر هستند – به خصوص در صحنه هایی با حرکت زیاد. در مورد کنترل‌های بهبودیافته دوربین، Veo 2 را قادر می‌سازد تا دوربین مجازی را در فیلم‌هایی که تولید می‌کند با دقت بیشتری قرار دهد و آن دوربین را برای گرفتن اشیا و افراد از زوایای مختلف حرکت دهد.

DeepMind همچنین ادعا می‌کند که Veo 2 می‌تواند حرکت، دینامیک سیال (مانند ریختن قهوه در لیوان) و ویژگی‌های نور (مانند سایه‌ها و بازتاب‌ها) را به‌طور واقعی‌تر مدل‌سازی کند. DeepMind می‌گوید که این شامل لنزهای مختلف و جلوه‌های سینمایی، و همچنین بیان انسان «نیز» می‌شود.

DeepMind هفته گذشته چند نمونه انتخاب شده از Veo 2 را با TechCrunch به اشتراک گذاشت. برای ویدیوهای تولید شده توسط هوش مصنوعی، آنها بسیار خوب به نظر می رسیدند – حتی فوق العاده خوب. به نظر می رسد Veo 2 درک قوی از انکسار و مایعات مشکل دار، مانند شربت افرا، و مهارت در تقلید از انیمیشن های سبک Pixar دارد.

اما علی‌رغم اصرار DeepMind مبنی بر اینکه مدل کمتر احتمال دارد عناصری مانند انگشت‌های اضافی یا «اشیاء غیرمنتظره» را توهم کند، Veo 2 نمی‌تواند این دره عجیب را کاملاً پاک کند.

منبع:techcrunch

مطالب مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *