Группа компаний ЦРТ (входит в экосистему Сбера) показала выдающиеся результаты в тестировании голосовой биометрии — алгоритмов распознавания человека по голосу — Национальным институтом стандартов и технологий США (NIST).

Качественное распознавание человека по голосу позволяет совершенствовать бизнес и государственные сервисы, упрощая нашу жизнь. Высококлассные речевые технологии помогают создавать лучших диалоговых ассистентов — оптимизируют работу контактных центров, офисов продаж и обслуживания. Речевая аналитика помогает делать выводы об удовлетворенности клиента и качестве диалога, а значит — непрерывно совершенствовать пользовательский опыт. И шире — идентификация людей по голосу востребована в биометрических системах национального масштаба.

NIST SRE 21 — пятый конкурс 2021 года, где технологии ЦРТ получают высокий балл от компетентного международного жюри. Признание ЦРТ в международных конкурсах — не только личная победа, но знаковое событие для всей индустрии. Мы рады выводить решение задач в области голосовой биометрии, над которыми работают сильнейшие команды со всего мира, на новый уровень, достойно представляя свои ключевые компетенции на глобальном рынке

Дмитрий Дырмовский

Генеральный директор группы компаний ЦРТ

Технология группы компаний ЦРТ показала выдающийся результат в конкурсе NISTSRE21 (Speaker Recognition Evaluation). В конкурсе решалось несколько задач:

  • распознавание говорящего по аудио разных источников: телефонных звонков (conversational telephone speech, CTS), звука из видео (audio from video, AfV). Для решения использовался алгоритм распознавания человека по голосу;
  • распознавание говорящего по аудио и видео из разных источников: телефонных звонков (CTS), звука из видео (AfV) и просто видео. Для решения использовалась комбинация алгоритмов распознавания человека по голосу и по лицу.

Особенность конкурса в этом году — два варианта обучения алгоритмов: вариант Fixed допускал использование только звуковых данных от организаторов. Вариант Open допускал использование любых данных. Сложность заключалась в том, что данные записывались как через телефон (обычные телефонные разговоры), так и в микрофонном канале (записи с видеокамер), а люди на записях разговаривали на различных языках: английском, китайском, арабском и других.

Научная команда ЦРТ для решения задачи распознавания человека одна из первых успешно применила комбинацию архитектур нейронных сетей типа transformer, которая популярна в задачах компьютерного зрения, понимания естественного языка, и wav2vec, которая применяется в задачах распознавания речи. Такой подход позволил достичь низкого уровня ошибки верификации человека по голосу.

Также команда группы ЦРТ принимает участие в еще одном конкурсе — NIST CTS Speaker Recognition Challenge — это конкурс в формате ongoing: соревнования длятся нон-стоп, периодически подводятся промежуточные результаты. В этом соревновании команда группы ЦРТ также демонстрирует высокие результаты. Основная задача CTS Challenge — распознать говорящего по записям в телефонном канале, при этом человек может говорить на разных языках — английском, французском, арабском, и с разных моделей смартфонов. В соревновании принимают участие 33 команды из ведущих университетов и коммерческих компаний.

Среди участников соревнований — сильнейшие научные команды ведущих университетов мира, команды коммерческих компаний — исследователи из Китая, США, Японии, Италии, Франции, Испании, Израиля, Сингапура, Чехии.

Группа компаний ЦРТ (входит в экосистему Сбера) — глобальный разработчик продуктов и решений на основе разговорного искусственного интеллекта, машинного обучения и компьютерного зрения c 30-летним опытом. Технологически эксперт в области речевых технологий, лицевой и голосовой биометрии. Группа ЦРТ фокусируется на создании AI-решений для сегментов B2B и B2G: реализовано более 5 тыс. AI-проектов по всему миру, в том числе — национального масштаба — в Мексике, Эквадоре, Ближнем Востоке. В России решения ЦРТ работают в крупнейших банках, телеком-компаниях, ТЭК, госсекторе, применяют для реализации концепции Safe&Smart сity. Технологии выявления подделок голоса и распознавания речи от группы ЦРТ занимают лидирующие позиции в мировых рейтингах NIST, VOiCES, CHiME.