Новый инструмент от OpenAI , который может создать убедительную копию чьего-либо голоса, используя всего лишь 15 секунд записанного звука, был сочтен слишком рискованным для выпуска в массы, поскольку лаборатория искусственного интеллекта стремится свести к минимуму угрозу дезинформации в глобальный год выборов.
Осознание ответственности
Voice Engine был впервые разработан в 2022 году, и первоначальная версия использовалась для функции преобразования текста в речь, встроенной в ChatGPT , ведущий инструмент искусственного интеллекта организации. Но его возможности никогда не раскрывались публично, отчасти из-за «осторожного и информированного» подхода, который OpenAI использует для его более широкого распространения.
Мы надеемся начать диалог об ответственном использовании синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям. На основании этих разговоров и результатов этих небольших испытаний мы примем более обоснованное решение о том, стоит ли и как развертывать эту технологию в больших масштабах,
говорится в заявлении OpenAI на блоге компании.
В своем сообщении компания поделилась примерами реального использования технологии от различных партнеров , которым был предоставлен доступ к ней для использования в своих собственных приложениях и продуктах.
Голос перестал быть средством идентификации
Так, компания Age of Learning, занимающаяся образовательными технологиями, использует его для создания закадрового голоса, а приложение HeyGen для «визуального повествования с использованием искусственного интеллекта» предлагает пользователям возможность создавать переводы записанного контента бегло, но сохраняя акцент и голос оригинального говорящего. Например, генерация английского языка с использованием аудиообразца франкоговорящего человека приводит к появлению речи с французским акцентом.
Примечательно, что исследователи из Института нейробиологии Нормана Принца в Род-Айленде использовали некачественный 15-секундный ролик молодой женщины, выступающей с презентацией в рамках школьного проекта, чтобы «восстановить голос», который она потеряла из-за сосудистой опухоли головного мозга.
В настоящее время мы предпочитаем предварительно просмотреть, но не выпускать широко эту технологию, чтобы повысить устойчивость общества к вызовам, создаваемым все более убедительными генеративными моделями. В ближайшем будущем мы поощряем такие шаги, как поэтапный отказ от голосовой аутентификации в качестве меры безопасности для доступа к банковским счетам и другой конфиденциальной информации,
заявили в OpenAI.
OpenAI также призвала изучить «политику защиты использования голосов людей в ИИ» и «обучать общественность пониманию возможностей и ограничений технологий ИИ, включая возможность вводящего в заблуждение контента ИИ».
По словам OpenAI, поколения Voice Engine имеют водяные знаки, что позволяет организации отслеживать происхождение любого сгенерированного звука. В настоящее время, добавил он, «наши условия с этими партнерами требуют явного и осознанного согласия от первоначального докладчика, и мы не позволяем разработчикам создавать способы для отдельных пользователей создавать свои собственные голоса».
Но хотя инструмент OpenAI отличается технической простотой и небольшим количеством оригинального аудио, необходимого для создания убедительного клона, конкуренты уже доступны публике.
Всего за «несколько минут аудио» такие компании, как ElevenLabs, могут создать полный голосовой клон. Чтобы попытаться смягчить ущерб, компания ввела защиту «непроходимых голосов», предназначенную для обнаружения и предотвращения создания голосовых клонов,
которые имитируют политических кандидатов, активно участвующих в выборах президента или премьер-министра, начиная с кандидатов в США и Великобритании.