هوش مصنوعی جدید می‌تواند صدای شما را تقلید کند!

شرکت OpenAI سیستم مدل هوش مصنوعی جدید خود به نام GPT-4o را منتشر کرد که جزئیات محدودیت‌های مدل و مراحل آزمایش ایمنی را ارائه می‌دهد. در میان مدل های دیگر، این اسناد نشان می‌دهد که در موارد نادری در طول آزمایش، حالت صدای پیشرفته مدل به طور ناخواسته از صدای کاربران بدون اجازه تقلید کزده است. در حال حاضر، OpenAI تدابیر امنیتی را اعمال کرده است تا از وقوع این اتفاق جلوگیری کند، اما این مورد نشان‌دهنده پیچیدگی روزافزون طراحی ایمن یک چت‌بات هوش مصنوعی است که می‌تواند به طور بالقوه صدای هر فردی را از یک کلیپ کوچک تقلید کند.

هوش مصنوعی

به گزارش سرویس اخبار تکنولوژی تکنا، حالت صدای پیشرفته ویژگی ChatGPT است که به کاربران امکان می‌دهد مکالمات گفتاری با دستیار هوش مصنوعی داشته باشند. در بخش کارت سیستم GPT-4o با عنوان “تولید صدای غیرمجاز”، OpenAI جزئیاتی از یک قسمت را ارائه می‌دهد که در آن یک ورودی پر سر و صدا به نوعی باعث می‌شود مدل ناگهان صدای کاربر را تقلید کند. OpenAI می‌نویسد: “تولید صدا همچنین می‌تواند در شرایط غیر خصمانه رخ دهد، مانند استفاده ما از آن توانایی برای تولید صدا برای حالت صدای پیشرفته ChatGPT. در طول آزمایش، ما همچنین موارد نادری را مشاهده کردیم که در آن مدل به طور ناخواسته به جای خروجی تقلید کننده، صدای کاربر را تولید می‌کرد.”

مطمئناً صحبت کردن با یک ماشین و سپس شروع ناگهانی آن به صحبت کردن با شما با صدای خودتان ترسناک خواهد بود. به طور معمول، OpenAI تدابیری برای جلوگیری از این امر دارد، به همین دلیل است که این شرکت می‌گوید این اتفاق حتی قبل از اینکه راه‌هایی برای جلوگیری کامل از آن پیدا کند، نادر بوده است. اما این مثال باعث شد مکس ولف، دانشمند داده BuzzFeed، در پست خود در شبکه اجتماعی ایکس اعلام کند: OpenAI طرح فصل بعدی Black Mirror را فاش کرد.

چگونه تقلید صدا با مدل جدید OpenAI ممکن است؟ سرنخ اصلی در جای دیگری از کارت سیستم GPT-4o قرار دارد. GPT-4o برای ایجاد صدا می‌تواند تقریباً هر نوع صدایی را که در داده‌های آموزشی خود یافت می‌شود، از جمله افکت‌های صوتی و موسیقی، ترکیب کند. همانطور که در کارت سیستم ذکر شده است، این مدل می‌تواند اساساً صدای هر فرد را بر اساس یک کلیپ صوتی کوتاه تقلید کند. OpenAI این قابلیت را با ارائه یک نمونه صدای مجاز (از یک بازیگر صدا استخدام شده) که دستور داده شده است تقلید کند، به صورت ایمن هدایت می‌کند. این نمونه را در پیام سیستم مدل هوش مصنوعی (آنچه OpenAI آن را “پیام سیستم” می‌نامد) در ابتدای یک مکالمه ارائه می‌دهد.

در مدل‌های زبانی بزرگ مبتنی بر متن، پیام سیستم مجموعه‌ای پنهان از دستورالعمل‌های متنی است که رفتار چت‌بات را هدایت می‌کند و به طور بی‌صدا درست قبل از شروع جلسه چت به تاریخچه گفتگو اضافه می‌شود. تعاملات متوالی به همان تاریخچه چت ضمیمه می‌شوند و کل زمینه هر بار که کاربر ورودی جدیدی ارائه می‌دهد، به مدل هوش مصنوعی بازگردانده می‌شود.

از آنجایی که GPT-4o چند وجهی است و می‌تواند ورودی‌های صوتی را پردازش کند، OpenAI می‌تواند از ورودی‌های صوتی نیز به عنوان بخشی از پیام سیستم مدل استفاده کند، و این همان کاری است که هنگام ارائه یک نمونه صدای مجاز برای تقلید مدل انجام می‌دهد. این شرکت همچنین از سیستم دیگری برای تشخیص اینکه آیا مدل در حال تولید صدای غیرمجاز است استفاده می‌کند. OpenAI می‌نویسد: ما فقط به مدل اجازه می‌دهیم از برخی صداهای از پیش انتخاب شده استفاده کند و از یک طبقه‌بندی‌کننده خروجی برای تشخیص اینکه آیا مدل از آن منحرف می‌شود یا خیر استفاده می‌کنیم.