Хакатон IT-разработчиков «Цифровые решения для оптического распознавания»

О проекте

Команда разработчиков компании поучаствовала в хакатоне от компании ИНТЕР РАО Энергетика и отметилась специальной номинацией "За самое инновационное решение".
YouTube канал
3 месяца было отведено организаторами на реализацию решения системы распознавания документов. Команда Mindset предложила свой вариант решения с помощью моделей "Transformers".
*Transformer — это архитектура нейронных сетей, основанная на механизме внимания, предложенном в статье 2017 года «Attention Is All You Need». Для обработки трансформером текст преобразуется в последовательность так называемых токенов, которые, в свою очередь, преобразуются в числовые вектора — эмбеддинги. Преимущество трансформаторов состоит в том, что они не имеют реккурентных модулей и, следовательно, требуют меньше времени на обучение по сравнению с такими архитектурами, как RNN, LSTM и т.п. за счет распараллеливания. Различные варианты трансформеров получили широкое распространение, как основа больших языковых моделей (LLM) - GPT, Claude, LLAMA и других.
О проекте
Создание системы распознавания документов.
Благодаря отдельной номинации было проведено несколько встреч по итогам хакатона с потенциальными клиентами.
Задача
Бизнес эффект
Распознавание документов с помощью моделей Трансформеров, модели Donut, Ureader для распознавания документов, а также интерфейс на базе Streamlit.
Решение
Технологии
Ресурс для демонстрации визуальной составляющей после обучения нейросети. Благодаря Streamlit, заказчик может протестировать нейросеть перед запуском сервиса. Таким образом, продукт можно доработать, если результаты не устраивают.
Streamlit
Streamlit
Это модель, которую можно использовать для извлечения текста из заданного изображения. Это может быть полезно в различных сценариях, например, при сканировании квитанций.
Donut Model
Это исследование в области универсального понимания языка на основе мультимодельной большой языковой модели (MLLM), которая не использует оптического распознавания символов (OCR). Она способна понимать текст, встречающийся визуально, например, на документах, веб-страницах и фотографиях.
UReader Model
Этапы разработки
1.
Проектирование MVP
3.
Реализация интерфейса
2.
Доработка решения
Особенности проекта

  • Документы с разметкой в виде таблицы
  • Единственные, кто применил мультимодальную модель
  • Добились хороших результатов модели без достаточного объема датасета
Команда проекта


Фрэнк Ш.
Менеджер
Евгений М.
Аналитик
Виктор Ш.
Аналитик
Разработчик
Николай Д.
Аналитик
Михаил В.
Сферы использования
Всем, у кого есть необходимость в распознавании документов, как бизнес-процесс.
Мы на связи
Мы на связи!
Напишите нам для сотрудничества или если у вас возникли вопросы.