Система поддержки принятия решения на основе автоматического распознавания голоса для Службы-112

Описание проекта

Не так давно началась работа над биометрическими данными, которые призваны сделать нашу жизнь лучше и показать привычные вещи совершенно с другой стороны. Безусловно, все они играют ключевую роль, но сегодня выделим один из них- это голос или систему распознавания человеческой речи.

Актуальность проекта

Где же можно использовать вышеупомянутые технологии? Ответом же будет одно слово- везде. Но наша команда остановилась на таком аспекте, как службы экстренного реагирования и системы оказания услуг с большим уровнем цифровизации.

Данная область выбрана не случайно, ведь каждый день сотни тысяч людей нуждаются в экстренной, высококлассной и незамедлительной помощи, а что или кто может организовать выбранный процесс лучше, чем машина, которая в режиме реального времени формата 24/7 сможет выступать «рукой помощи», правильно никто. Разберемся немного с системой 112 и ее составляющей.

Это федеральный проект, за обработку звонков которого отвечают структурные подразделения муниципалитета, где организована единая дежурно-диспетчерская служба (ЕДДС). В нее стекаются все звонки и в зависимости от ситуации подбирается служба. Каждый оператор-112 может соединить с каждым, оставаясь на линии или отключившись. В регламенте взаимодействия описано, какие службы подключать в той или иной ситуации и на какие случаи реагировать, а на какие – нет. Например, какие-то субъекты принимают обращения по ЖКХ, а какие-то нет. Но практически в любом случае оператору-112 легче сориентироваться в нужных действиях, чем абоненту.

Исходя из выше сказанного, можно с уверенностью сказать, что описанное подразделение генерирует огромные объемы информации, что так же может подтвердить и статистика. Количество обработанных вызовов в системах-112 за 11 месяцев 2020 года составило более 63,8 млн. (что на 6 % превышает аналогичный показатель за 2019 год).

Основной причиной обращения за помощью в систему-112 является переход психо-физического состояния заявителя из устойчивого в неустойчивое и невозможность или неспособность самостоятельного разрешения спровоцировавших такое состояние проблем.

Основными факторами, обуславливающими возникновение такого рода проблем являются, как связанные с жизнедеятельностью человека в био и техносферной среде обитания, так и с изменяющимися, а в ряде случаев неудовлетворительными социальными, экономическими, информационными условиями существования человека, а также связанные с несоответствующим, в полной мере потребностям человека, существующим положением дел в сферах обеспечения безопасности жизнедеятельности и правопорядка, предотвращения угроз жизни или здоровью, предупреждения происшествий и чрезвычайных ситуаций и ликвидации их последствий, а также в области образования и просвещения населения.

В результате, в базах данных систем-112 формируется значительный объем информации, характеризующей состояние общественной безопасности на территории муниципальных образований, регионов и Российской Федерации в целом. В целях государственного управления в сфере обеспечения общественной безопасности и выработке управленческих решений для повышения её эффективности возникает необходимость в координирующем органе. И это может обеспечить «унифицированная система распознавания голоса с автоматическим заполнением полей».

В настоящее время ввод данных в систему-112 осуществляется операторами ручным способом, при этом один из критериев скорости реагирования на происшествия является скорость приема и обработки вызова.

Операторы системы-112, в число которых входят операторы центров обработки вызовов, диспетчера ЕДДС муниципальных образований региона работают в условиях, при которых получение информации от заявителя бывает затруднительным в виду ряда объективных причин:

- высокий уровень шума и помех, в том числе помехи связи;

- несвязная речь заявителя;

- отсутствие ориентации в пространстве в критической ситуации;

- заявитель находится в состоянии алкогольного, наркотического, токсилогического опьянения;

- заявитель не является русскоязычным гражданином РФ или приезжий.

Помимо прочего возраст диспетчеров ЕДДС является достаточно высоким и скорость набора текста составляет менее 120 знаков в минуту.

Все это влияет на точность, заносимой в базу данных системы, информации, её валидность, время принятия решения и в конечном счете на вероятность спасения жизни, здоровья и имущества граждан.

Информационная система поддержки принятия решений находится на стадии разработки, но первичные анализы предметной области уже сейчас «говорят» о том, что его внедрение повлечет качественные изменения в выбранной области, основными из которых станут: скорость реагирования, интегральная идентификация, унифицируемость по стране, распознавание злоумышленников, большие данные.

Все перечисленные аспекты, делают разрабатываемую систему прорывным проектом в своей области и безусловно вызывают интерес у будущих пользователей. А уже сейчас она может быть интересна таким подразделениям как: Федеральные службы экстренного реагирования, Органы исполнительной власти субъектов РФ, Цифровые экосистемы (банковские, операторы связи), ГосУслуги (МФЦ), Мои документы. Иными словами, всем секторам, где предусмотрена взаимодействие с клиентами по средством диалога.

В области речевых технологий существует ряд проблем. Например, из-за различных характеристик речи каждого человека распознавание речи независимых дикторов очень сложно, и при сильном шуме, многоязычии, большом словаре и т. д. технология распознавания речи нуждается в серьезном улучшении.

Для решения этих проблем необходимы совместные исследования в трех областях. Первая – математическая область. Сложные математические формулы и статистика больших данных являются основанием улучшенной технологии.

Вторая – область лингвистики и акустики. Изучение естественного языка играет важную роль в распознавании речи и семантики. Третья – область технологии компьютеров.

Процесс распознавания речи представляет собой поиск точных совпадений имеющихся в базе данных записей с предоставленным пользователем образцом, обработанным посредством серии вычислительных операций преобразования речевых сигналов.

По мере развития технологий в системах распознавания начали применяться методы цифровой обработки сигналов, статистического и вероятностного моделирования, такие как скрытые марковские модели (СММ) и искусственные нейронные сети (ИНС). В последние годы представлены значительные достижения в исследованиях алгоритма распознавания с использованием обоих приведенных методов.

В то время как с улучшением алгоритма скорость распознавания увеличивается, система распознавания становится более сложной. В частности, в случае больших словарей как нейронная сеть, так и скрытые марковские модели сталкиваются с проблемой огромных и медленных вычислений, особенно в русском языке, который обладает большим лексиконом и гибким языком, система распознавания речи не достигает качества аналогичной системы для английского языка.

Поэтому решение вопроса, как улучшить систему для русского языка, становится основным направлением исследований в России. Большая часть исследований в настоящее время направлена на увеличение скорости распознавания путем использования распределенной обработки, увеличения вычислительной скорости на основе аппаратурного ускорения. Например, Google использует огромную вычислительную сеть для ускорения распознавания речи. Фактически немалая часть времени распознавания речи тратится на поиск слов в словаре и поиск алгоритмом лучшего пути. Однако, насколько нам известно, нет такого исследования, которое помогало бы оптимизировать использование словарей.

Алгоритмы фонетического кодирования имеют возможность становления другого решения этой проблемы. Алгоритмы фонетического кодирования представляют собой алгоритмы поиска слов по их звучанию, которые широко используются в областях, где требуется сопоставление акустических данных с текстовыми образцами, например, для проверки написания и исправления слов, для поиска в базах данных, при добыче полезных ископаемых и т. д. Хотя эти алгоритмы не могут отдельно использоваться в области распознавания речи, они могут служить для улучшения поиска слов из словаря как предварительного процесса, чтобы ускорить скорость распознавания речи.

Дополнительная актуальность проекта обусловлена реализацией мероприятия, позволяющая качественно улучшить существующие методы распознавания голоса в семантическом аспекте, то есть позволит внедрить алгоритм, который в режиме реального времени сможет заполнять поля типовых форм. Благодаря этому будут автоматизированы процессы, связанные со сферами, где в режиме диалога с абонентом необходимо заполнение документации.

Разработка проекта будет идти с утвержденным указом Президента от 07.07.2011 г. № 899 «Об приоритетных направлений развития науки, технологий и техники в Российской Федерации», а именно «Безопасность и противодействие терроризму», «Информационно-телекоммуникационные системы».

2021 год в России – это Года науки и технологий. Сотрудниками проектного офиса НОЦ «ТулаТЕХ», на базе ФГБОУ ВО «ТГПУ им. Л.Н. Толстого» был проведен анализ предметной области, по результатам которого выявлена потребность разработки цифрового «помощника» в системах экстренного реагирования, позволяющий ускорить время реагирования за счет использования в своей основе технологии "голосового отпечатка", с помощью которой можно сократить время выявления личности абонента и информации о нем для автоматического заполнения полей в типовой форме.

Озвученный продукт находится на стадии разработки, но первичные анализы предметной области уже сейчас «говорят» о том, что его внедрение повлечет качественные изменения в выбранной области, основными из которых станут: скорость реагирования, интегральная идентификация, унифицируемость по стране, распознавание злоумышленников, большие данные. Остановимся подробнее на каждом из них.

Скорость реагирования. Появление этого аспекта обусловлено внедрением цифровизации и переплетения привычного ведения оказания услуг, с компьютерными доработками. То есть, во время звонка, система распознает речь абонента и в режиме реального времени заполняет информацию о нем по уже заготовленной форме, что существенно разгружает труд оператора и делает момент получения информации более точным.

Интегральная идентификация. В широком понимании, голосовой отпечаток пользователя. Биометрический след абонента с помощью которого в момент звонка идет мгновенная идентификация звонящего и передача всей доступной о нем информации из базы знаний ЕСИА и ЭРА-ГЛОНАСС, а так же из базы знаний прошлых обращений абонента. Все это в совокупности обязано усовершенствовать сервис и ускорить обработку обращения обратившегося, что является чуть ли не одной из важных сторон, ведь каждая секунда дорога.

Унифицируемость по стране. Данный изменение тоже относится к системе выше описанного параметра и напрямую взаимодействует с функцией голосового отпечатка, то есть, в ситуации, когда обратившийся звонит не из своего региона и не со своего мобильного устройства, система всегда узнает кто это и безошибочно передаст нужные сведения об абоненте.

Распознавание злоумышленников. Все та же система голосового отпечатка позволит фильтровать неуместные звонки, за доли секунды определяя, кто находится на другом конце провода. Данная возможность, позволит вести разработки как в сторону фильтрации линии, от нежелательных звонков, так и определении звонящего, который, к примеру, находится в розыске или бесследно пропал и передачи информации о его геолокации, что существенно ускорит вопрос его поиска.

Большие данные. В процессе работы, структура накапливает огромные объемы петабайтов, с которыми необходимо работать. А уже встроенный модуль работы с Big Data, позволит это делать с наибольшей эффективностью, ведь будет снят вопрос о получении данных, так как система будет располагаться на локальных серверах. Тут же стоит выделить, что работа внедренного модуля будет направлена не только на обработку информации, но и разработку на ее основе новых решений по функционалу или обновлении уже существующих методов.

Неотъемлемой частью работы с данными является их защита. В данном проекте работа с данными будет вестись по двум направлениям: данные диспетчера и данные абонента. Для первых будет внедрена система трехфакторной аутентификации, которая включает в себя: пароль, токен и голосовой отпечаток, что позволит свести к минимуму потерю данных. Во втором же случае работа с данными будет вестись внутри одного кластера машин, обрабатывающего и предоставляющего доступ к данным. Плюсами использования данного метода являются: данные будут идти во одному зашифрованному каналу и система будет предоставлять информацию об абоненте в том случае, если голосовой отпечаток совпадает с голосом говорящего.

Все перечисленные аспекты, делают разрабатываемую систему прорывным проектом в своей области и безусловно вызывают интерес у будущих пользователей. А уже сейчас она может быть интересна таким подразделениям как: Федеральные службы экстренного реагирования, Органы исполнительной власти субъектов РФ, Цифровые экосистемы(банковские, операторы связи), ГосУслуги (МФЦ), Мои документы. Иными словами всем секторам, где предусмотрена взаимодействие с клиентами по средством диалога.