SOTA VOX Kit ASR Распознавание речи

Транскрибируйте аудио- и видеозаписи с максимальной точностью и на высокой скорости.

Скорость обработки аудиозаписей до х50 раз быстрее, чем исходное звучание
Пунктуация и числа - Знаки препинания расставляются автоматически. Числа отображаются в числовом формате, а не прописью.
Точность распознавания
Точность распознавания на русском языке до 95%.
Обработка «на лету»
Поддержка стрим-режима по протоколам gRPC и MRCP.
Разметка диалогов
Речь клиента и сотрудника будет структурирована в хронологическом порядке.
Пополняемый словарь
Возможность быстрого пополнения словаря новой лексикой по любой тематике и предметной области.

Доступные речевые модели

Мы можем адаптировать существующие языковые и акустические модели под любую предметную область для повышения качества распознавания

Теле- и радиовещание
Модель оптимизирована для обработки ТВ-эфиров, новостных сюжетов, радиопередач, подкастов и фильмов.
Телефония
Данная модель предназначена для обработки записей телефонных разговоров на произвольные темы.
Микрофон
Модель оптимизирована для обработки аудиозаписей, сделанных на внешний микрофон, например, интервью.
Извлечение знаний
Движок текстовой аналитики (NLP|NLU) для понимания смысла и извлечения необходимых данных с учетом контекста.

Технические особенности

- Русский язык (Cloud/On-Premis)
- Английский язык (Cloud/On-Premis)
- Казахский язык (Cloud/On-Premis)
- Узбекский язык (Cloud/On-Premis)

Русский язык:
‍Телефония до 95%
Медиа до 98%

‍Английский язык:
‍Телефония до 85%
Медиа до 87%

‍Казахский язык:
‍Телефония до 95%
Медиа до 97%

‍Узбекский язык:
‍Телефония до 95%
Медиа до 98%

Телефония (phone): Wav PCM, 8 кГц /16 бит
Медиа (broadcast): Wav PCM, 16 кГц /16 бит

Поддерживаются все основные форматы и кодеки WAV, AAC, OGG, MP3, WMA, MuLaw, ALaw, Linear16, RawOpus - автоматически конвертируются в WAV