Описание проекта
Цель проекта - создание алгоритма/модели машинного обучения автоматического извлечения текстовой информации из pdf-файлов, содержащих медицинские результаты анализов.
Для достижения цели необходимо осуществить сбор данных, организовать медицинскую базу результатов анализов. Для написания универсального алгоритма, необходимо найти и проанализировать как можно больше форм анализов (разных видов, от разных лабораторий). Также, при увеличении БД результатов анализов - модель машинного обучения будет обучаться лучше.
Также, необходимо разработать алгоритм, который учитывает структуру входного документа (бывают pdf-файлы, которые не копируются и считаются изображениями). В связи с этим, при разработке алгоритма следует прописать "правила": 1) если на вход программы подается pdf-файл - следует применять инструменты, предназначенные для обработки pdf-файлов; 2) в случае, когда на вход программы подается изображение - следует применять инструменты OCR (оптическое распознавание символов).
Следует упомянуть, что разработанный алгоритм необходимо постоянно поддерживать, т.к. формы анализов могут меняться с течением времени.
Презентации
Пульс
Публичное выступление
Выступление с проектом на экспертной сессии.
Шаблон SBS экспертная сессия (1).pptxНовость
Представили результаты заказчику, получены рекомендации по дальнейшей работе над проектом.
рекомендации заказчика.txtЗапуск прототипа
Планируется реализовать пробный алгоритм распознавания pdf-файла и предоставить результаты заказчику для получения обратной связи.
Новость
Встреча с трекером: поэтапно разобрали выполнение предстоящих задач
Новость
Встреча с экспертом: подробно разобрали этапы выполнения проекта, обсудили и устранили все трудности
Запуск прототипа
На этой неделе была встреча с заказчиком. Появилось понимание поставленной задачи, будем начинать работать.
Шаблон Запуск проекта_Презентация_этап 0.pptx