OCR: Подготовка изображения к распознаванию текста
В этом разделе
Распознавание текста из изображения идеального качества не требует предварительной обработки. К сожалению, большинство реальных документов далеки от идеального качества и требуют некоторой предварительной обработки (удаление шума, определение ориентации текста и т. д.) перед распознаванием, чтобы получить приемлемые результаты распознавания текста.
VintaSoft Imaging .NET SDK
и
VintaSoft Document Cleanup .NET Plug-in
предлагает профессиональные функции для обработки изображений документов перед запуском распознавания текста. Вот неполный список доступных функций:
- Auto invert - автоматически инвертирует изображение документа.
- Border Clear - автоматически преобразует темные границы в белый цвет фона.
- Deskew - автоматически поворачивает указанное изображение, чтобы выпрямить его.
- Hole puch removal - автоматически удаляет отверстия от дырокола на изображении.
- Line removal - автоматически удаляет линии на изображении документа (строки форм, таблиц, подчеркивание/зачеркивание текста, шум).
- Auto text invert - автоматически инвертирует инвертированный текст на изображении документа.
- Despeckle - автоматически удаляет пятна с изображения.
- Border Removal - автоматически удаляет темную рамку.
- Document Segmentation - определяет различные типы зон на изображении, такие как текст, графика, линии.
В зависимости от качества изображения эти команды можно использовать отдельно или одновременно.
OcrPreprocessingCommand можно использоваться для упрощения кода и одновременного использования нескольких команд обработки изображений. Эта составная команда объединяет некоторые наиболее часто используемые команды обработки изображений, предназначенные для запуска перед распознаванием текста.