Инженеры научили ИИ флиртовать и признаваться в любви

Люди невероятно сложны по своей природе, а голос играет решающую роль, помогая нам общаться с окружающим миром. В среднем у человека возникает более 6200 мыслей в день и более 27 категорий эмоций, чтобы понять, что мы чувствуем. Именно это делает речь такой глубоко динамичной.

Какие первые слова приходят на ум при мысли об искусственном интеллекте? Возможно, логика, холод и бесчувственность? Вопреки всему, системы ИИ могут стать новыми Ромео или Джульеттой.

Команда разработчиков, работающих в Sonantic — технологической компании, занимающейся инновациями в области голосовой платформы ИИ — улучшила игру флирта ИИ, наделив его способностью дышать, вздыхать и смеяться. Эти звуки, похожие на человеческие, могут просто добавить немного эмоциональной связи, которой требует любой процветающий роман.

«В Sonantic мы стремимся имитировать человеческий голос. Наши голосовые модели, созданные искусственным интеллектом, могут выражать широкий спектр смелых эмоций. И все же так много словесного общения состоит из тонкостей. Лучшие выступления демонстрируют истинную сложность, уязвимость и подлинность, а тонкость является важнейшим компонентом искусного общения. Как говорится в старой поговорке, «важно не то, что вы говорите, а то, как вы это говорите». Никто не понимает эту концепцию лучше, чем рассказчики и актеры. Наши самые последние достижения — тонкие эмоции и неречевые звуки — создают неограниченный потенциал для наших клиентов, как никогда раньше», — сообщили в компании. 

Хотя эти добавленные естественные звуки являются новыми достижениями, Sonantic уже умеет говорить игриво и дразняще, что важно для любого начинающего Ромео или Джульетты.

Для того, чтобы поближе познакомиться с этой впечатляющей разработкой, стоит посмотреть рекламный ролик Sonantic на YouTube. Это день святого Валентина. Голос девушки звучит совершенно естественно и очень успокаивающе, особенно со вздохами и смехом, которые так красиво включены в ее речь.

Вот почему так шокирует, когда девушка вдруг делает свое откровение: «Я не настоящая. Я никогда не рождалась. И я никогда не умру. Потому что я не существую».

Sonantic также продемонстрировала интерфейс программы, используемой для генерации голоса. В ней пользователь может менять темп речи, регулировать интонацию, стиль и скорость, а также добавлять различные звуки между словами.

Совершенствовать тонкие эмоции сложнее с технологической точки зрения. Голосовые модели ИИ, как правило, заставляют эмоции звучать приглушенно. Чем тоньше они, тем больше шансов, что они заглушатся и будут звучать роботизированно. Инженеры исследовали методы, чтобы гарантировать, что их голосовые модели противодействуют этому эффекту приглушения, сохраняя нетронутой тонкость эмоций. Компания представила клиентам новые стили, такие как «кокетливый», «застенчивый» и «дразнящий».

Если подумать, общение — это гораздо больше, чем слова. Есть паузы, глубокие вдохи, охи и ахи, которые дают дополнительное представление о том, что мы думаем и чувствуем в любой момент. Именно эти неречевые звуки оживляют наши разговоры. Даже такая простая вещь, как дыхание, которое кажется для нас обычным, влияет на то, как звучит естественный человеческий голос. Без этих мелких деталей наши разговоры звучали бы механически и монотонно.

В Sonantic сообщили, что их голосовые модели ИИ теперь могут дышать, смеяться и даже насмехаться. Компания всегда работала с самыми талантливыми актерами озвучивания, чтобы обучить свой голосовой движок, и эта последняя эволюция ничем не отличалась. Но тонкие эмоции могут быть сложными даже для самых опытных исполнителей, часто требуется несколько дублей, чтобы передать их правильно. 

Инженеры переработали сценарии, потратили больше времени на подготовку, записали больше дублей и предоставили актерам максимальную свободу творчества. В конечном итоге это дало динамичный, универсальный и многослойный материал для работы.

Улавливание неречевых звуков было непростым делом, и исследователям приходилось экспериментировать с новыми алгоритмами, пока они не добились нужного результата. При первых нескольких попытках все звучало искаженно и роботизированно. Но благодаря отличной совместной работе и сотрудничеству между исследовательскими, информационными и инженерными командами они разработали новые запатентованные алгоритмы, которые позволили улавливать эти тонкости.

Чтобы продемонстрировать свои инновационные достижения, инженеры сняли видео под названием «В чем ее секрет?». Это самая реалистичная демонстрация продукта, которую когда-либо создавала Sonantic.

«Когда мы придумали концепцию видео, мы решили сосредоточиться на теме любви, потому что именно тогда мы чувствуем себя наиболее уязвимыми. Спокойный, успокаивающий голос девушки слегка колеблется, когда она спрашивает: «Что нужно, чтобы ты влюбился в меня?». Слушая монолог, обратите внимание, когда она смеется, дышит или вздыхает в нужные моменты. Видео удивляет зрителей, когда выясняется, что женщина на экране — реальный человек, а говорящий главный герой — искусственный интеллект», — сообщили в компании. 

Эти достижения в области синтеза речи делают платформу Sonantic более полной. Компания рада предложить новые возможности своим клиентам. Инженеры заявили, что создают действительно мощные инструменты для актеров озвучивания и развлекательных студий, чтобы продолжать развивать голосовые инновации в будущем.

Синтез голоса от компании уже используется в производстве голливудских фильмов и видеоигр. Они могут выражать радость и печаль, а теперь и флирт. В августе 2021 года Sonantic применила свои разработки для того, чтобы воссоздать голос актера Вэла Килмера, который потерял возможность говорить в результате лечения рака гортани.