Поддерживаемые форматы

Система Doculus позволяет извлекать информацию из файлов следующих форматов:

Изображения: JPG, PNG
Документы: PDF (в том числе многостраничные)
Текстовые форматы: DOC, DOCX, RTF

Общие требования к сканированию

Полнота документа: Документ должен быть отсканирован полностью. Не допускается частичное сканирование (например, только табличная часть без шапки и подписей).
Последовательность: Страницы многостраничного документа должны располагаться строго последовательно, начиная с первой.
Отсутствие помех: Поверх распознаваемых реквизитов и таблиц не должно быть посторонних элементов, затрудняющих чтение (скрепки, пальцы, элементы стола, сильные загрязнения).
Контрастность: Сканы должны быть достаточно контрастными. Если в половине символов появляются разрывы линий, качество распознавания может снизиться.
Ограничения API: При загрузке документов через API не рекомендуется отправлять более 50 страниц в одном пакете.

Разрешение и качество

Рекомендуемое разрешение: 300 dpi. При таком разрешении достигается оптимальный баланс между скоростью обработки и точностью распознавания.
При разрешении 150 dpi точность оптического распознавания мелкого шрифта может снижаться.
При разрешении 400 dpi и выше размер файла значительно увеличивается, что может замедлить процесс загрузки и обработки.
Для текстов на цветной бумаге рекомендуется сканировать в черно-белом режиме или в градациях серого с увеличенной контрастностью.

Автоматическая обработка искажений

В отличие от многих систем, конвейер обработки Doculus автоматически выполняет базовую подготовку изображений:

Выравнивание страниц
Удаление цифрового шума
Поворот документа (допускаются повороты на 90, 180 и 270 градусов, а также наклон до 18 градусов)

Тем не менее, для достижения наилучших результатов мы рекомендуем загружать ровные и четкие сканы без сильных нелинейных искажений (например, сильных изгибов бумаги).

Автоматическая сборка и разделение документов

Doculus сам приводит пакет к структуре «один бизнес-документ = один результат» — без ручной нарезки и склейки файлов.

Разделение: один PDF — несколько документов

Если вы загружаете один многостраничный PDF, в котором подряд идут сканы нескольких документов (например, пачка УПД и актов в одном файле), система:

определяет границы каждого документа;
группирует страницы;
распознаёт каждый документ отдельно;
формирует отдельный PDF на каждый распознанный документ — для размещения в учётной системе, СЭД или электронном архиве.

Сборка: много отдельных изображений — документы в PDF

Если один документ или пакет приходит отдельными файлами (JPG, PNG со сканера, с телефона, из почты), система:

объединяет страницы в документы по смыслу;
формирует PDF на каждый распознанный документ;
извлекает структурированные данные для передачи через API.

Для лучшего качества группировки см. рекомендации в следующем разделе.

Многостраничные документы в отдельных файлах

Если один документ разбит на несколько файлов (например, 3-страничный УПД прислан в виде трех отдельных JPG), имена файлов рекомендуется нумеровать последовательно (например, 1.jpg, 2.jpg, 3.jpg). При загрузке через API страницы должны передаваться в правильном порядке. Даже без идеальной нумерации система стремится собрать страницы в документы автоматически, но порядок и качество сканов влияют на результат.