Google DeepMind از یک مدل ویدیویی جدید برای رقیب سورا رونمایی کرد
Google DeepMind، آزمایشگاه تحقیقاتی هوش مصنوعی گوگل، میخواهد OpenAI را در بازی نسل ویدیو شکست دهد – و ممکن است حداقل برای مدتی کوتاه.
روز دوشنبه، DeepMind Veo 2 را معرفی کرد، یک نسل بعدی هوش مصنوعی تولید کننده ویدیو و جانشین Veo، که تعداد فزایندهای از محصولات را در مجموعه گوگل تامین میکند. Veo 2 میتواند کلیپهای دو دقیقهای و با رزولوشن تا 4k (4096 x 2160 پیکسل) ایجاد کند.
قابل ذکر است که 4 برابر وضوح – و بیش از 6 برابر مدت زمان – که OpenAI’s Sora می تواند به آن دست یابد.
این یک مزیت نظری در حال حاضر است، اعطا شده است. در ابزار آزمایشی ایجاد ویدیوی گوگل، VideoFX، جایی که Veo 2 اکنون به طور انحصاری در دسترس است، ویدیوها با کیفیت 720p و طول هشت ثانیه محدود می شوند. (سورا می تواند تا 1080p کلیپ های 20 ثانیه ای تولید کند.)
VideoFX پشت لیست انتظار است، اما گوگل می گوید تعداد کاربرانی را که می توانند در این هفته به آن دسترسی داشته باشند را افزایش می دهد.
الی کالینز، معاون محصول در DeepMind، همچنین به TechCrunch گفت که Google Veo 2 را از طریق پلتفرم توسعهدهنده Vertex AI خود در دسترس قرار میدهد «در حالی که مدل برای استفاده در مقیاس آماده میشود».
کالینز گفت: «در ماههای آینده، بر اساس بازخورد کاربران به تکرار ادامه میدهیم، و [ما] به دنبال ادغام قابلیتهای بهروزرسانی شده Veo 2 در موارد استفاده قانعکننده در سراسر اکوسیستم Google هستیم… [ما انتظار داریم] برای اشتراکگذاری بهروزرسانیهای بیشتر در سال آینده.»
قابل کنترل تر
مانند Veo، Veo 2 میتواند ویدیوهایی را با یک پیام متنی (به عنوان مثال، “ماشین در حال مسابقه در بزرگراه”) یا متن و یک تصویر مرجع تولید کند.
بنابراین چه چیز جدیدی در Veo 2 وجود دارد؟ خوب، DeepMind میگوید این مدل که میتواند کلیپها را در طیف وسیعی از سبکها تولید کند، «درک» بهبود یافتهای از فیزیک و کنترلهای دوربین دارد و فیلمهای «واضحتری» تولید میکند.
با واضح تر، DeepMind به این معنی است که بافت ها و تصاویر در کلیپ ها واضح تر هستند – به خصوص در صحنه هایی با حرکت زیاد. در مورد کنترلهای بهبودیافته دوربین، Veo 2 را قادر میسازد تا دوربین مجازی را در فیلمهایی که تولید میکند با دقت بیشتری قرار دهد و آن دوربین را برای گرفتن اشیا و افراد از زوایای مختلف حرکت دهد.
DeepMind همچنین ادعا میکند که Veo 2 میتواند حرکت، دینامیک سیال (مانند ریختن قهوه در لیوان) و ویژگیهای نور (مانند سایهها و بازتابها) را بهطور واقعیتر مدلسازی کند. DeepMind میگوید که این شامل لنزهای مختلف و جلوههای سینمایی، و همچنین بیان انسان «نیز» میشود.
DeepMind هفته گذشته چند نمونه انتخاب شده از Veo 2 را با TechCrunch به اشتراک گذاشت. برای ویدیوهای تولید شده توسط هوش مصنوعی، آنها بسیار خوب به نظر می رسیدند – حتی فوق العاده خوب. به نظر می رسد Veo 2 درک قوی از انکسار و مایعات مشکل دار، مانند شربت افرا، و مهارت در تقلید از انیمیشن های سبک Pixar دارد.
اما علیرغم اصرار DeepMind مبنی بر اینکه مدل کمتر احتمال دارد عناصری مانند انگشتهای اضافی یا «اشیاء غیرمنتظره» را توهم کند، Veo 2 نمیتواند این دره عجیب را کاملاً پاک کند.
منبع:techcrunch