زلزله OpenAI در ۱۱ دسامبر؛ رونمایی ناگهانی از «Sora 2» با قابلیت تولید صدا و موسیقی! (پایان دوران ویدیوهای صامت)

این مقاله در زبان‌های زیر موجود است:

برای خواندن این مقاله به زبان دیگر کلیک کنید

۱. مقدمه: هدیه کریسمس سم آلتمن

امروز پنج‌شنبه ۱۱ دسامبر ۲۰۲۵، در حالی که دنیای تکنولوژی مشغول بحث درباره حفره‌های امنیتی و بازی‌های جدید بود، شرکت OpenAI بمب خبری پایان سال خود را منفجر کرد.
بدون هیچ رویداد زنده یا کنفرانس پر زرق و برقی، یک پست وبلاگی ساده با عنوان "Sora 2: دیدن، شنیدن و خلق کردن" منتشر شد.
اگر Sora 1 (که دو سال پیش معرفی شد) معادل "اختراع دوربین فیلمبرداری" برای هوش مصنوعی بود، Sora 2 حکم فیلم "خواننده جاز" (اولین فیلم ناطق تاریخ) را دارد. ما رسماً از دوران "ویدیوهای صامت AI" عبور کردیم. حالا وقتی از هوش مصنوعی می‌خواهید ویدیوی شکستن امواج در ساحل را بسازد، صدای غرش آب و فریاد مرغان دریایی را هم می‌شنوید.

۲. بررسی فنی Sora 2: وقتی پیکسل‌ها صدا دارند

۲.۱. تکنولوژی Sonic-Sync

مهم‌ترین ویژگی Sora 2، موتوری است که OpenAI آن را Sonic-Sync نامیده است. برخلاف روش‌های قدیمی که صدا جداگانه تولید و روی ویدیو "چسبانده" می‌شد، Sora 2 صدا و تصویر را به صورت همزمان (Simultaneously) پردازش می‌کند.
این مدل می‌فهمد که:

اگر یک لیوان شیشه‌ای روی کف چوبی بیفتد، صدایش با افتادن روی فرش متفاوت است (فیزیک صوت).

اگر دوربین دور شود، صدا باید حالت "محیطی" (Spatial) بگیرد و ضعیف‌تر شود.

این سطح از درک فیزیک، مرز بین رندر CGI و واقعیت را باریک‌تر کرده است.

۲.۲. معجزه لیپ‌سینک (Lip-Sync)

یکی از بزرگترین ضعف‌های مدل‌های قبلی (مثل Runway Gen-3 یا Pika)، ناهماهنگی حرکت لب کاراکترها با دیالوگ بود.
در Sora 2، شما می‌توانید دیالوگ را تایپ کنید (یا فایل صوتی خودتان را آپلود کنید) و مدل، حرکت ماهیچه‌های صورت و لب کاراکتر را دقیقاً با کلمات هماهنگ می‌کند. در یکی از دموها، یک کاراکتر انیمیشنی با لهجه غلیظ اسکاتلندی صحبت می‌کند و حرکت لب‌ها کاملاً طبیعی است.

۲.۳. موسیقی متن هوشمند (Adaptive Score)

علاوه بر افکت‌های صوتی (Foley)، این مدل می‌تواند موسیقی متن بسازد. نکته جالب اینجاست که موسیقی با "تدوین" ویدیو تغییر می‌کند. اگر صحنه از حالت آرام به اکشن تبدیل شود، موسیقی هم اوج می‌گیرد (Crescendo) و تمپوی آن سریع می‌شود. این یعنی شما دیگر نیازی به گشتن در سایت‌های استوک موزیک ندارید.

۳. دموهای منتشر شده: جادوی ۱۱ دسامبر

۳.۱. سناریوی "کافه جاز در نیویورک"

در یکی از ویدیوهای منتشر شده، دوربین وارد یک کافه جاز در دهه ۱۹۵۰ می‌شود.
چیزی که می‌بینیم: دود سیگار، نورهای ملایم، نوازنده ساکسیفون.
چیزی که می‌شنویم: صدای برخورد لیوان‌ها در پس‌زمینه، همهمه خفیف مشتریان و نوای زنده ساکسیفون که دقیقاً با انگشتان نوازنده هماهنگ است. کیفیت صدا استریو و با جزئیات حیرت‌انگیز است.

۳.۲. سناریوی "تعقیب و گریز سایبرپانک"

ویدیوی دوم یک تعقیب و گریز ماشینی در شهری نئونی است. صدای موتورها با شتاب گرفتن ماشین تغییر می‌کند (Doppler Effect رعایت شده است). وقتی ماشین به مانع برخورد می‌کند، صدای خرد شدن فلز و شیشه دقیقاً در لحظه ایمپکت شنیده می‌شود.

۴. تاثیر بر صنایع خلاق: هالیوود می‌لرزد؟

۴.۱. خطر برای طراحان صدا

تا دیروز، فیلمسازان مستقل برای پروژه‌های AI خود نیاز به ادیتور صدا و آهنگساز داشتند. امروز، Sora 2 این نیاز را حذف کرده است.
اتحادیه‌های هالیوود که سال گذشته نگران بازیگران و نویسندگان بودند، حالا باید نگران مهندسان صدا (Sound Engineers) باشند. اگر یک مدل می‌تواند صدای "قدم زدن روی برگ‌های خشک پاییزی" را بدون نیاز به استودیو تولید کند، صنعت Foley (صداگذاری استودیویی) با چالش بزرگی روبرو است.

۴.۲. ظهور "وان‌من استودیو"

برای یوتیوبرها و تولیدکنندگان محتوا، این بهترین خبر ممکن است. حالا یک نفر در اتاق خوابش می‌تواند انیمیشن کوتاه یا فیلم تبلیغاتی بسازد که هم تصویرش هالیوودی است و هم صدایش استودیویی. این یعنی انفجار محتوای خلاقانه (و البته محتوای زباله!) در ماه‌های آینده.

۵. ایمنی و اخلاق: روی دیگر سکه

۵.۱. کابوس دیپ‌فیک

قابلیت Lip-Sync دقیق، نگرانی‌های امنیتی که صبح در موردش صحبت کردیم را تشدید می‌کند. اگر کسی بتواند ویدیوی یک سیاستمدار را بسازد که حرف‌های دروغ می‌زند و لب‌خوانی‌اش هم دقیق است، تشخیص حقیقت غیرممکن می‌شود.
OpenAI اعلام کرده که تمام خروجی‌های Sora 2 (هم تصویر و هم صدا) دارای واترمارک نامرئی C2PA هستند که منشأ مصنوعی آن‌ها را تایید می‌کند. همچنین، تولید صدای افراد مشهور و سیاستمداران در این مدل قفل شده است.

۶. دسترسی و قیمت

۶.۱. کی می‌توانیم تست کنیم؟

طبق اعلام OpenAI، نسخه آزمایشی (Alpha) از امروز برای کاربران سطح ChatGPT Pro (اشتراک ۲۰۰ دلاری) و برخی از استودیوهای فیلمسازی پارتنر فعال شده است.
کاربران عادی (Plus) احتمالاً باید تا اوایل ۲۰۲۶ صبر کنند. دلیل این تاخیر، هزینه پردازشی بسیار سنگین است. رندر همزمان صدا و تصویر، فشار وحشتناکی به سرورهای GPU وارد می‌کند.

۷. جمع‌بندی تکین پلاس

۱۱ دسامبر ۲۰۲۵ به عنوان روزی که هوش مصنوعی "صدا" پیدا کرد در تاریخ ثبت می‌شود.
Sora 2 فقط یک ابزار جدید نیست؛ یک تغییر پارادایم است. حالا تخیل ما تنها محدودیت است. اما سوال بزرگ اینجاست: آیا ما آمادگی شنیدن صداهایی را داریم که هرگز وجود نداشته‌اند؟
نظر شما چیست؟ آیا این تکنولوژی فیلمسازی را دموکراتیک می‌کند یا هنر را می‌کشد؟ در کامنت‌ها بنویسید.

نویسنده مقاله

مجید قربانی‌نژاد

مجید قربانی‌نژاد، طراح و تحلیل‌گر دنیای تکنولوژی و گیمینگ در TekinGame. عاشق ترکیب خلاقیت با تکنولوژی و ساده‌سازی تجربه‌های پیچیده برای کاربران. تمرکز اصلی او روی بررسی سخت‌افزار، آموزش‌های کاربردی و ساخت تجربه‌های کاربری متمایز است.

دنبال کردن نویسنده

telegram whatsapp

اشتراک‌گذاری مقاله

توییتر تلگرام واتساپ