Поддерживаемые форматы
Система Doculus позволяет извлекать информацию из файлов следующих форматов:
- Изображения: JPG, PNG
- Документы: PDF (в том числе многостраничные)
- Текстовые форматы: DOC, DOCX, RTF
Общие требования к сканированию
- Полнота документа: Документ должен быть отсканирован полностью. Не допускается частичное сканирование (например, только табличная часть без шапки и подписей).
- Последовательность: Страницы многостраничного документа должны располагаться строго последовательно, начиная с первой.
- Отсутствие помех: Поверх распознаваемых реквизитов и таблиц не должно быть посторонних элементов, затрудняющих чтение (скрепки, пальцы, элементы стола, сильные загрязнения).
- Контрастность: Сканы должны быть достаточно контрастными. Если в половине символов появляются разрывы линий, качество распознавания может снизиться.
- Ограничения API: При загрузке документов через API не рекомендуется отправлять более 50 страниц в одном пакете.
Разрешение и качество
- Рекомендуемое разрешение: 300 dpi. При таком разрешении достигается оптимальный баланс между скоростью обработки и точностью распознавания.
- При разрешении 150 dpi точность оптического распознавания мелкого шрифта может снижаться.
- При разрешении 400 dpi и выше размер файла значительно увеличивается, что может замедлить процесс загрузки и обработки.
- Для текстов на цветной бумаге рекомендуется сканировать в черно-белом режиме или в градациях серого с увеличенной контрастностью.
Автоматическая обработка искажений
В отличие от многих систем, конвейер обработки Doculus автоматически выполняет базовую подготовку изображений:
- Выравнивание страниц
- Удаление цифрового шума
- Поворот документа (допускаются повороты на 90, 180 и 270 градусов, а также наклон до 18 градусов)
Тем не менее, для достижения наилучших результатов мы рекомендуем загружать ровные и четкие сканы без сильных нелинейных искажений (например, сильных изгибов бумаги).
Автоматическая сборка и разделение документов
Doculus сам приводит пакет к структуре «один бизнес-документ = один результат» — без ручной нарезки и склейки файлов.
Разделение: один PDF — несколько документов
Если вы загружаете один многостраничный PDF, в котором подряд идут сканы нескольких документов (например, пачка УПД и актов в одном файле), система:
- определяет границы каждого документа;
- группирует страницы;
- распознаёт каждый документ отдельно;
- формирует отдельный PDF на каждый распознанный документ — для размещения в учётной системе, СЭД или электронном архиве.
Сборка: много отдельных изображений — документы в PDF
Если один документ или пакет приходит отдельными файлами (JPG, PNG со сканера, с телефона, из почты), система:
- объединяет страницы в документы по смыслу;
- формирует PDF на каждый распознанный документ;
- извлекает структурированные данные для передачи через API.
Для лучшего качества группировки см. рекомендации в следующем разделе.
Многостраничные документы в отдельных файлах
Если один документ разбит на несколько файлов (например, 3-страничный УПД прислан в виде трех отдельных JPG), имена файлов рекомендуется нумеровать последовательно (например, 1.jpg, 2.jpg, 3.jpg). При загрузке через API страницы должны передаваться в правильном порядке. Даже без идеальной нумерации система стремится собрать страницы в документы автоматически, но порядок и качество сканов влияют на результат.
