Игра на синтезаторе…речи

Красивый голос – это редкость, и его обладатели щедрый подарок природы берегут как ценный инструмент. Приятный тембр и грамотная речь – вообще сказочный коктейль, редкая удача и настоящая суперсила, когда речь идет о работе с людьми, особенно в продажах, публичных выступлениях.

Говорит машина

Голоса роботов, автоматически скомпилированные или сгенерированные аудиотексты, мы регулярно слышим в транспорте, ответах контакт-центра, объявлениях в городе, из навигатора в автомобиле, динамиков «умного радио». И сразу понимаем – говорит не человек. Интонации, паузы, определенный порядок слов в предложении с первых секунд выдают робота с головой. Фраза правильная, смысл ясен, но жизни, как говорится, нет. На подсознательном уровне многих это раздражает. А недовольный человек (читай – клиент) – это человек, менее расположенный договариваться, понимать, покупать и т.д.

Встречайте натуральную «синтетику»

Цифровая трансформация, процесс, который подразумевает непрерывный анализ потребностей клиента, активно развивается в области производства видео и аудиоконтента всех разновидностей. Существуют старт-апы, которые занимаются разработкой софта, моделирующего приятный голоса. Причем настолько виртуозно, что редкий человек поймет, что говорит робот, а не миловидная девушка.

С помощью технологий искусственного интеллекта люди уже научились создавать «синтетические» голоса, которые звучат очень приятно для большинства ушей. В основе лежат голоса множества актеров. Программное обеспечение анализирует манеру их речи, а потом самостоятельно «начитывает» любой текст. Манеру, с которой ИИ это делает, можно назвать не просто естественной, но и даже местами расслабленной. Дело в том, что программа не устанавливает для себя жестких правил: например, что паузы между словами должны быть строго определенными, или что скорость речи должна быть постоянной. Она импровизирует, и в этом ее главная «фишка». Результат получается выразительным и реалистичным.

Тем не менее, Alexa, Siri, Google Assistant и другие мобильные помощники, которые вы, вероятно, услышите, по-прежнему склонны говорить «топорными», роботизированными голосами. Заметное исключение - Google Duplex с впечатляюще по-человечески звучащим голосом с поддержкой AI.

Эмоции искусственного интеллекта

Как будет меняться рынок голосовых ассистентов, мы доподлинно не знаем, можем только предположить некую эволюцию, свойственную технологии в целом. Красивые голоса, создаваемые с помощью ИИ, будут продвигаться и продаваться компаниям, занимающимися рекламой, маркетингом и созданием курсов электронного обучения. Больше не нужно будет нанимать профессиональных дикторов; понадобится только грамотно написанный текст.

А выбрать будет из чего! Определившись с тем, какой эффект требуется произвести на аудиторию, заказчик сможет выбирать наиболее подходящий тембр синтетического голоса, передающий тот или иной тонкий оттенок значения. Голос может быть воодушевляющим, энергичным, удовлетворенным, успокаивающим, «материнским», юным или пожилым, быстрым или размеренным. Как звучат «богатая женщина», «уверенный молодой профессионал», «работяга-ремонтник», «не по годам умный ребенок»? Подсознательно мы все это знаем – и искусственный интеллект нам это и докажет, и подтвердит. Так же, как и фотографии в стоках, голоса вскорости можно будет покупать онлайн в голосовых банках.

Интересно, что ИИ сам будет догадываться о том, какие слова стоит подчеркнуть интонационно. Если прогнать через голосогенератор один и тот же текст два раза, оба варианта будут звучать немного по-разному. Это и есть проявление того самого функционала импровизации в речи.

Пока что техники искусственного интеллекта не умеют «наговаривать» длинные монологи. Точнее, они просто получаются недостаточно убедительными. А вот короткие тексты – идеальны. Обычно это 1-2 предложения. Для того, чтобы выдать одну фразу, программе требует порядка 4 секунд. Для озвучивания бОльшего фрагмента, например, текстового абзаца, его следует нарезать на куски и дать ИИ больше времени для анализа.

Достаточно трудно дать синтезатору речи нужное количество информации, чтобы он мог реагировать с нужным количеством чувств. Актерам приходится начитывать огромные текстовые массивы, в том числе, например, Википедию. Но когда ИИ в результате проговаривает фразу так, что ее не отличишь от реального человеческого голоса – это ли не чудо?!

А это не обман?

Тут появляется еще одна значительная заметка на полях – этического толка. Хорошо ли, что люди не будут понимать, кто с ними говорит, робот или человек?

После того, как Google продемонстрировал работу своего Дуплекса в 2018 году с помощью телефонного звонка, который ИИ сделал, забронировав в ресторане Bay Area столик, корпорацию подвергли критике за эксперимент. Но создатели робоголосов считают, что при достижении положительного задуманного эффекта раскрытие информации совершенно необязательно. По крайней мере, в рекламном контексте точно.