Генеалогический IT-сервис Фэмири

Описание проекта

Фэмири — онлайн-сервис для самостоятельного изучения истории семьи и составления родословного древа по оцифрованным архивам по всему миру. Можно работать совместно с родственниками и экспертами. В нашем продукте уже работают несколько модулей, которые позволяют автоматизировать и проводить исследования:

Основные возможности:
— Автоматические запросы в архивы онлайн и поиск родственников по всему миру;
— Голосовой и текстовый бот-интервьюер;
— Составление интерактивного родословного древа;
— Распознавание рукописных документов;
— Закрытый управляемый маркетплейс "специализированных" фрилансеров по всему миру;
— Привлечение членов семьи и внешних экспертов для коллективной работы над древом;
— Единое место для хранения семейных документов, фотографий, воспоминаний, опыта поколений и др.

Отрасль генеалогии стремительно растет на мировом и российском рынках. В Европе и США объем генеалогического рынка составляет $6,5 миллиардов. Рост рынка составляет 15% Увеличение интереса к изучению семейной истории в мире также показывают статистические данные google trends Идет активное создание информационных ресурсов, которые представляются на международных выставках в области генеалогии. Одной из крупнейших выставок является Rootstech, организованная проектом FamilySearch – международной некоммерческой организацией, созданной для помощи людям в изучении семейной истории. Крупнейшими представителями мирового генеалогического рынка являются – Ancestry, MyHeritage, FamilySearch. В феврале 2021 г. Инвестфонд приобрел контрольный пакет компании MyHeritage – одной из крупнейшей компании на мировом рынке в сфере генеалогии. Стоимость акций составила приблизительно $600-700 млн.

В России рынок генеалогии начал формироваться значительно позже – в 1990 годах – но также быстро растет. Объем рынка генеалогии в России составляет $215 миллионов. Рост составляет 20% Ежедневно по статистике wordstat поступает более 500 тысяч запросов по генеалогии и семейной истории. Стремительному росту интереса к исследованию семейной истории способствовало создание акции «Бессмертный полк» в 2012 году. Акция быстро набрала обороты и уже в 2019 году на шествие вышли около 10 миллионов человек в различных городах России.

Обычно обращение к корням — это долго, дорого и мало кто знает, с чего начать. С этими трудностями сталкиваются новички, потому что сфера молодая, отсутствуют единые правила и стандарты, архивы медленно развиваются, большинство не оцифрованы, а те, что оцифрованы, — не проиндексированы. А опытные
исследователи сталкиваются уже с другими проблемами — они не знают, где и как хранить большой объем документов, как быстро к ним обращаться и оперативно извлекать нужные им сведения и все визуализировать. Имеющиеся инструменты решают эту задачу лишь частично.

По нашим исследованиям:
— 83% людей, которым интересна история семьи, не знает, с чего начать исследование, многие сталкиваются с отсутствием методической базы и стандартных алгоритмов поиска.
— Все генеалогические сервисы сегодня хранят полученную от пользователя информацию
(условно статика семейного контента), не дают инструменты для проведения исследования и поиска новой информации (условно динамика семейного контента).
— Пока нет решения для полноценного автоматического и качественного распознавания рукописных текстов в старых документах. До сих пор все находятся на стадии RND.
— Почти у всех услуг в данной сфере низкое качество, часто встречаются отказы и/ или отрицательные результаты из архивных учреждений, у большинства исполнителей нет экспертизы, опыта и мотивации
— Как правило, поиск информаций о предках — ресурсоемкий: от исследователя требуется и много ручного труда, и немалый объем финансирования на протяжении нескольких лет. Средний чек стартового исследования (разовый поиск) выше 30 тыс. рублей, результат зачастую непредсказуем, пользователь получает первые наработки только через 3-6 месяцев.
— В процессе исследования родословное древо и количество документов растут, появляется проблема — как и где хранить результаты.

Генеалогический IT-сервис Фэмири помогает упростить процесс генеалогического исследования за счет автоматизации его этапов. Фэмири — это сервис, где пользователи самостоятельно составляют свое древо, ищут предков и родственников по всему миру, изучают историю семьи.

— Сервис Фэмири позволяет сделать генеалогию понятной и доступной. Исследование с использованием сервиса Фэмири строится по авторской методологии, разработанной коллективом Международного Генеалогического Центра, в помощь пользователю сервиса сформирована база специалистов в сфере генеалогического поиска, которых можно подключить как для разовой консультации, так и для проведения всего исследования.
— Сервис предоставляет инструменты для поиска информации на различных этапах исследования; благодаря разработанным технологиям доля положительных результатов исследования увеличивается в 5-7 раз.
— Использование возможностей сервиса способствует быстрому старту исследования: сведения из документов пользователя добавляются в личный кабинет в течение нескольких минут, первые запросы в архивы уходят через 10-15 минут.
— Использование сервиса не требует больших финансовых затрат, выполнение различных задач стоит от 1000 рублей.
— Сервис позволяет просто и быстро систематизировать информацию, найденную в процессе исследования — в личном кабинете есть сервис родословного древа с подробными профилями каждой персоны, хранилище и автоматическая обработка фотографий и документов.
— Автоматическая отправка запросов в архив позволяет организовать эффективное дистанционное взаимодействие с архивом, что актуально, если родственники переселились из другого города или архив недоступен для очного посещения.

Распознавание рукописных документов — это важная фундаментальная составляющая it-сервиса Фэмири. В процессе работы с сервисом у пользователей накапливается большое количество копий архивных документов, как современных, так и исторических. Мы разработали собственную технологию для интеллектуальной обработки документов, основанную на оптическом распознавании текста и машинном обучении. Суть технологии в распознавании рукописных документов и быстром выделении нужных сущностей — тип документа, даты, ФИО и места. Ноу-хау — правильная типизация и классификация документов для последующего вычленения наиболее важных сущностей. Благодаря обучающимся моделям и увеличивающемуся количеству пользователей мы сможем постоянно повышать точность распознавания в каждом классе и подклассе документов, а также расширять эти типы.

Суть технологии: входящий документ, независимо от типа, формата, языка и исторической эпохи, автоматически классифицируется и распределяется в зависимости от пайплайна обработки. Данные извлекаются с высокой точностью с помощью обученных и готовых к работе ML-моделей, которые автоматически обучаются и совершенствуются при работе с новыми документами. Полученные данные и оригинал документа добавляются в профиль персон в древе. Пользователю не нужно уметь читать старинные документы.

Решаемые задачи с помощью платформы:
— классификация изображений документов;
— извлечение текстовой информации из документов и выделение типов данных;
— обогащение пользовательских древ извлеченной информацией.

Ключевые модули:

Модуль подготовки изображений
Отвечает за удаление шумов, выделение границ, сегментацию и нормализацию изображения и прочие методы подготовки.

Модуль классификации документов
Отвечает за автоматическую классификацию входящих документов с помощью ранее обученных ML-моделей, которые постоянно совершенствуются для работы с новыми типами документов. В результате классификации появляется информация о типе документа, исторической эпохе, регионе происхождения, возможных языках документа, карта ожидаемых данных для найденных областей со строками текста. Результат классификации влияет на пайплайн обработки документа (обобщенный или специфический), выбор словарей для обработки OCR.

Модуль извлечения информации
В зависимости от классификации документа используются определенные наборы словарей для работы OCR. Вся извлеченная текстовая информация классифицируется, для чего используются общая языковая модель, а также модели, характерные для класса документа. Уточнение результатов происходит по проверочным наборам значений в соответствии с картой ожидаемых данных и контекста документа. В процессе происходит выделение типов данных из текста: ФИО, дата и время, географические наименования в соответствии с исторической эпохой, атрибутика документа и другая структурированная информация.

Модуль обогащения пользовательских древ
Извлеченная информация оценивается с позиции достоверности, в т.ч. учитывая сохраненную у пользователя информацию. При необходимости пользователю предлагается вмешаться в автоматический процесс и внести коррективы. В результате обновляются или дополняются существующие персоны на древе или создаются новые сущности. Пользовательские исправления попадают в датасеты для обучения через выборочную обезличенную модерацию благодаря чему происходит постоянное улучшение качества извлекаемой информации.

Наше ключевое отличие и преимущество в том, что российские и международные компании в сфере IT-генеалогии индексируют все документы вручную, а у нас — автоматическое распознавание сущностей в исторических документах (тип документа, фио, даты, места), т.е. это быстрее и дешевле по многим параметрам. У нас есть еще одно преимущество, которое мы назвали «последней милей», т.е. это обязательный этап в любом поиске родственников, когда пользователь вынужден закрыть любой IT-сервис со своим древом и самостоятельно пойти в поля (форумы, чаты, соц. сети, архивы, музеи, библиотеки, кладбища и т.п.). Для этого у нас есть платформа для проведения исследований и собственный маркетплейс фрилансеров, который доступен пользователю прямо из своего древа.

Сервис Фэмири запущен в мае 2020 г., в настоящее время есть пользователи — более 3 500 человек. В декабре 2020 г. образовалось соответствующее юридическое лицо и появились первые сотрудники. За это время проверены все ключевые метрики и гипотезы монетизации. Пилотировали продажи на рынках России, США, Канады и Европы. Стадия реализации проекта — действующий бизнес. Весь 2021 год мы тестировали премиум платную подписку, выручка составила более 10 млн руб. Базовую платную подписку на сервис древа мы запустим в июне 2022 г.

В ближайшие 5 лет мы планируем пройти стадию полноценного становления и масштабирования core-продукта на российском рынке. Этого будет достаточно, чтобы расширить команду, проверить все необходимые гипотезы, доработать продукт, привлечь финансы. Параллельно мы будем пилотировать сервис на международных рынках в 2023–2024 гг.