МТС научила нейросети работать с вариантами выбора эмоций при синтезе речи с технологией Audiogram

Сейчас они могут воспроизвести пять ключевых эмоций, наиболее необходимых в колл-центрах: спокойствие, радость, злость, грусть и удивление.

«Речь роботов должна быть не только близкой по смыслу к человеческой, но и по эмоциональному наполнению. Главное все верно указать в настройках — правила произношения слов, управлять скоростью и высотой тона голоса, а также добавлять паузы, или вообще загрузить голос своего бренда», — рассказал эксперт Иван Дулов.

Эмоции в дальнейшем можно будет внедрять в диалогах с чат-ботами. Использование эмоций в синтезированной речи поможет сделать диалог с виртуальным ассистентом более естественным и логичным. Например, о предоставленной услуге или вовремя закрытой заявке бот будет сообщать с радостью, а принимать новую заявку будет деловито и коротко.

Эмоциональная синтезированная речь востребована в колл-центрах банков, ритейлеров, телеком-операторов и других крупных компаний, которые активно используют голосовых ботов для общения с потребителями. Также технология синтеза эмоционального голоса будет нужна, например, для создания виртуальных ассистентов и персонажей видеоигр.

Также технология актуальна в образовательных процессах — например, для подготовки аудиолекций, озвучивания статей и для создания материалов для людей с ограниченными возможностями здоровья, в том числе слабовидящих.

«Искусственный интеллект уже во многом помогает в разных сферах жизни. Голосовой помощник предупреждает о подозрении на мошенничество, если у вас по телефону спрашивают о персональных данных в массовых обзвонах. Скоро появится функция голосового поиска во время телефонных разговоров, когда цифровому собеседнику можно будет задать вопрос или даже дать поручение», — рассказал директор филиала МТС в Брянской области Максим Митькин.