Требования к сканам и файлам

Рекомендации по подготовке документов и сканов для обеспечения максимальной скорости и точности извлечения данных.

Поддерживаемые форматы

Система Doculus позволяет извлекать информацию из файлов следующих форматов:

  • Изображения: JPG, PNG
  • Документы: PDF (в том числе многостраничные)
  • Текстовые форматы: DOC, DOCX, RTF

Общие требования к сканированию

  • Полнота документа: Документ должен быть отсканирован полностью. Не допускается частичное сканирование (например, только табличная часть без шапки и подписей).
  • Последовательность: Страницы многостраничного документа должны располагаться строго последовательно, начиная с первой.
  • Отсутствие помех: Поверх распознаваемых реквизитов и таблиц не должно быть посторонних элементов, затрудняющих чтение (скрепки, пальцы, элементы стола, сильные загрязнения).
  • Контрастность: Сканы должны быть достаточно контрастными. Если в половине символов появляются разрывы линий, качество распознавания может снизиться.
  • Ограничения API: При загрузке документов через API не рекомендуется отправлять более 50 страниц в одном пакете.

Разрешение и качество

  • Рекомендуемое разрешение: 300 dpi. При таком разрешении достигается оптимальный баланс между скоростью обработки и точностью распознавания.
  • При разрешении 150 dpi точность оптического распознавания мелкого шрифта может снижаться.
  • При разрешении 400 dpi и выше размер файла значительно увеличивается, что может замедлить процесс загрузки и обработки.
  • Для текстов на цветной бумаге рекомендуется сканировать в черно-белом режиме или в градациях серого с увеличенной контрастностью.

Автоматическая обработка искажений

В отличие от многих систем, конвейер обработки Doculus автоматически выполняет базовую подготовку изображений:

  • Выравнивание страниц
  • Удаление цифрового шума
  • Поворот документа (допускаются повороты на 90, 180 и 270 градусов, а также наклон до 18 градусов)

Тем не менее, для достижения наилучших результатов мы рекомендуем загружать ровные и четкие сканы без сильных нелинейных искажений (например, сильных изгибов бумаги).

Автоматическая сборка и разделение документов

Doculus сам приводит пакет к структуре «один бизнес-документ = один результат» — без ручной нарезки и склейки файлов.

Разделение: один PDF — несколько документов

Если вы загружаете один многостраничный PDF, в котором подряд идут сканы нескольких документов (например, пачка УПД и актов в одном файле), система:

  • определяет границы каждого документа;
  • группирует страницы;
  • распознаёт каждый документ отдельно;
  • формирует отдельный PDF на каждый распознанный документ — для размещения в учётной системе, СЭД или электронном архиве.

Сборка: много отдельных изображений — документы в PDF

Если один документ или пакет приходит отдельными файлами (JPG, PNG со сканера, с телефона, из почты), система:

  • объединяет страницы в документы по смыслу;
  • формирует PDF на каждый распознанный документ;
  • извлекает структурированные данные для передачи через API.

Для лучшего качества группировки см. рекомендации в следующем разделе.

Многостраничные документы в отдельных файлах

Если один документ разбит на несколько файлов (например, 3-страничный УПД прислан в виде трех отдельных JPG), имена файлов рекомендуется нумеровать последовательно (например, 1.jpg, 2.jpg, 3.jpg). При загрузке через API страницы должны передаваться в правильном порядке. Даже без идеальной нумерации система стремится собрать страницы в документы автоматически, но порядок и качество сканов влияют на результат.