OCR: Подготовка изображения к распознаванию текста

В этом разделе

Распознавание текста из изображения идеального качества не требует предварительной обработки. К сожалению, большинство реальных документов далеки от идеального качества и требуют некоторой предварительной обработки (удаление шума, определение ориентации текста и т. д.) перед распознаванием, чтобы получить приемлемые результаты распознавания текста.

VintaSoft Imaging .NET SDK и VintaSoft Document Cleanup .NET Plug-in предлагает профессиональные функции для обработки изображений документов перед запуском распознавания текста. Вот неполный список доступных функций:

Auto invert - автоматически инвертирует изображение документа.
Border Clear - автоматически преобразует темные границы в белый цвет фона.
Deskew - автоматически поворачивает указанное изображение, чтобы выпрямить его.
Hole puch removal - автоматически удаляет отверстия от дырокола на изображении.
Line removal - автоматически удаляет линии на изображении документа (строки форм, таблиц, подчеркивание/зачеркивание текста, шум).
Auto text invert - автоматически инвертирует инвертированный текст на изображении документа.
Despeckle - автоматически удаляет пятна с изображения.
Border Removal - автоматически удаляет темную рамку.
Document Segmentation - определяет различные типы зон на изображении, такие как текст, графика, линии.

В зависимости от качества изображения эти команды можно использовать отдельно или одновременно.

OcrPreprocessingCommand можно использоваться для упрощения кода и одновременного использования нескольких команд обработки изображений. Эта составная команда объединяет некоторые наиболее часто используемые команды обработки изображений, предназначенные для запуска перед распознаванием текста.

Отправить отзыв