ИИ Voice Engine: по 15-секундному образцу он клонирует ваш голос

ИИ Voice Engine: по 15-секундному образцу он клонирует ваш голос

OpenAI объявила о запуске Voice Engine — искусственного интеллекта для преобразования текста в речь, который позволяет создавать синтетические голоса на основе пятнадцатисекундного аудиофрагмента. На своем веб-сайте компания предоставила аудиопримеры работы Voice Engine.

После клонирования голоса пользователь может вводить текст в Voice Engine и получать результат в виде голоса, сгенерированного искусственным интеллектом. Однако компания OpenAI не готова дать доступ к этой технологии для широкой аудитории. После дополнительных размышлений о этических аспектах компания приняла решение пока что сократить свои амбиции.

"Соответствуя нашему подходу к безопасности и нашим добровольным обязательствам, мы решили пока что представить эту технологию в виде превью, но не выпускать ее на широкий рынок", — пишет компания. "Мы надеемся, что это превью Voice Engine не только подчеркнет его потенциал, но и способствует повышению устойчивости общества к проблемам, которые возникают в связи с все более убедительными генеративными моделями".

Технологии клонирования голоса в целом не являются особой новинкой — с 2022 года существует несколько моделей синтеза речи на основе искусственного интеллекта, и технология активно развивается в сообществе открытого исходного кода с пакетами вроде OpenVoice и XTTSv2.

OpenAI утверждает, что преимущества их голосовой технологии включают помощь в чтении посредством естественно звучащих голосов, расширение международной доступности для создателей контента путём перевода материалов с сохранением родных акцентов, поддержка людей с безречевым общением за счёт персонализированных вариантов речи, а также помощь пациентам в восстановлении их собственного голоса.

Однако это также означает, что любой человек, имеющий 15 секунд записанного голоса другого человека, может эффективно клонировать его, и это имеет очевидные последствия для возможного неправомерного использования. Даже если OpenAI никогда не предоставит широкий доступ к своему Voice Engine, способность клонировать голоса уже привела к проблемам в обществе через телефонные мошенничества, при которых кто-то имитирует голос близкого человека.

Кроме того, исследователи и журналисты продемонстрировали, что технология клонирования голосов может быть использована для взлома банковских счетов, использующих голосовую аутентификацию.

OpenAI признает, что технология может вызвать проблемы при широком распространении, поэтому изначально пытается решить эти вопросы с помощью набора правил. Технология тестируется компаниями-партнерами с прошлого года. Например, компания по синтезу видео HeyGen использует эту модель для перевода голоса диктора на другие языки, сохраняя при этом оригинальное звучание голоса.

Для использования Voice Engine каждый партнер должен согласиться с условиями использования, которые запрещают «подделку личности другого человека или организации без их согласия или законного права». Условия также требуют, чтобы партнеры получали согласие людей, чьи голоса клонируются, и они также должны ясно указывать, что создаваемые ими голоса являются генерируемыми ИИ. OpenAI также внедряет в каждую звуковую дорожку водяной знак, который поможет отследить происхождение любого голоса, сгенерированного их моделью Voice Engine.

Таким образом, сейчас OpenAI демонстрирует свою технологию, но компания пока не готова выставлять себя на удар (по крайней мере, пока) из-за потенциального социального хаоса, который может вызвать широкое распространение этой технологии. Вместо этого компания пересмотрела свой маркетинговый подход, чтобы представиться как будто она ответственно предупреждает всех нас о уже существующей технологии.

«Мы принимаем осторожный и обоснованный подход к более широкому распространению из-за потенциала неправильного использования синтезированных голосов», - сказали в компании в заявлении. «Мы надеемся начать диалог о ответственном использовании синтезированных голосов и о том, как общество может адаптироваться к этим новым возможностям. На основе этих обсуждений и результатов испытаний мы примем более обоснованное решение о том, следует ли и как реализовывать эту технологию в большом масштабе».

В соответствии со своей миссией осторожно внедрять технологии, OpenAI предоставила три рекомендации относительно того, как обществу следует адаптироваться к их технологии в своем блоге. Эти шаги включают в себя постепенное отказ от аутентификации по голосу для банковских счетов, обучение общественности пониманию "возможности обманчивого содержимого, создаваемого искусственным интеллектом," и ускорение разработки технологий, которые могли бы отслеживать происхождение аудиоконтента, "чтобы всегда было понятно, взаимодействуете ли вы с реальным человеком или с искусственным интеллектом."

OpenAI также отмечает, что будущие технологии клонирования голоса должны требовать подтверждения от оригинального говорящего о "сознательном добавлении своего голоса в сервис" и создание списка голосов, которые запрещено клонировать, таких как голоса, "слишком схожие с голосами известных личностей."