SBS 2 з4 Модель машинного обучения для обработки медицинских изображений

Описание проекта

Решаемая проблема

Медицинские учреждения, не имеющие собственной лаборатории сотрудничают с множеством сторонних лабораторий, откуда приходят результаты анализов пациентов в формате pdf-файла. Большое количество pdf файлов из разных лабораторий (соответственно с разными формами и структурой) поступают в медицинское учреждение и сотрудники вручную заполняют электронные карточки клиентов результатами анализов.
В медицинских учреждениях, в которых имеется собственная лаборатория, часто присутствует проблема отсутствия интеграционной системы по автоматическому вводу результатов анализов в карточку пациента.
В связи с этим, отсутствие автоматизированных алгоритмов передачи информации из pdf-файлов с результатами анализов в электронную систему клиники заставляет медицинских сотрудников тратить большое количество времени на ручной ввод, что сопровождается большим количеством ошибок.

Наше решение

Мы предлагаем алгоритм, который будет извлекать текстовую информацию из pdf-файла с результатами анализов и автоматически заполнять карточку пациента. Описание работы алгоритма: 1) на вход программы подается pdf-файл с результатами анализов; 2) с помощью различных технологий (OCR, библиотеки для извлечения текста из PDF - т.к. файл может быть представлен не только в виде текста, но и в виде скана/ксерокопии/фото) извлекается текст; 3) извлеченный текст проходит операцию токенизации, где одним токеном является слово; 4) токены проходят операцию разметки в формате BIO; 5) токенизированный и размеченный текст подается на вход модели машинного обучения по распознаванию именованных сущностей; 6) результатом модели машинного обучения является самостоятельная разметка текста на классы (информация о пациенте, названия анализов, результаты анализов, единицы измерения, референтные значения и т.д.); 7) размеченный, классифицированный текст позволяет сформировать словарь; 8) словарь конвертируется в json, что способствует легкой интеграции с системой медицинского учреждения.
Для создания данного алгоритма была собрана база данных с результатами анализов, обработана (размечена на метки и классы). На данной наборе была обучена модель машинного обучения по распознаванию именованных сущностей, точность модели составляет 73,42%.
Планируется расширять базу данных: добиться не только большого количества, но и большого разнообразия анализов. Гарантируется точность модели не менее 90%.

Целевая аудитория

Целевой аудиторией нашего продукта являются государственные и частные медицинские учреждения, у которых отсутствует собственная лаборатория / отсутствует интеграционная система, ООО "Медотрейд".

Конкурентный анализ и ценностное предложение

Конкурентный анализ показал, что на рынке отсутствует подобный алгоритм. Косвенными конкурентами нашего продукта являются программные комплексы, которые требуют одновременного присутствия у лаборатории и медицинского учреждения. Также, продукты конкурентов не занимаются распознаванием теста в медицинских документах.
В связи с этим, ценностное предложение нашего продукта заключается в: 1) новизне на региональном рынке; 2) точности распознавания не менее 90%; 3) скорости обработки файлов менее 2 секунд; 4) автоматизации ввода информации в карточку клиента; 5) анализе и внесении корректировок для интеграции с системами медицинских учреждений; 6) присвоении уникального ID пациенту для обеспечения безопасности и конфиденциальности данных.

Модели монетизации и каналы продвижения

Бизнес-моделью для нашего продукта является B2B, B2G (т.к. планируется сотрудничество как с частными, так и с государственными медицинскими учреждениями).
Монетизация: 1) внедрение модели машинного обучения/алгоритма от 100 тыс. руб.; 2) техническая поддержка/обслуживание 5 тыс. руб./месяц, 50 тыс. руб./год; 3) внедрение модели под индивидуальный запрос от 500 тыс. руб.
Привлечение целевой аудитории будет осуществляться через личные встречи, медицинские выставки оборудования, медицинские форумы, конференции. Также, планируется ведение сайта и группы в ВК. Реклама будет осуществляться на площадках Бизнес ВК и Яндекс Директ.