VintaSoft OCR.NET Plug-in .NET Plug-in - История развития

Информация о выпусках продукта

На данной странице Вы можете получить информацию о общей истории развития VintaSoft OCR .NET Plug-in. Информация о изменениях в API SDK находится в документации.

  • .NET разработка:
    • Добавлена возможность распознавания строки рукописных цифр с помощью нейронной сети на базе Microsoft.ML.
    • Исправлены мелкие ошибки.
  • .NET разработка:
    • Используемый движок Tesseract OCR обновлен до версии 5.3.4.
  • Добавлена поддержка .NET 8.0 в Windows, Linux и macOS.
  • Используемый движок Tesseract OCR обновлен до версии 5.3.3.
  • Теперь все текстовые блоки, которые получены от команды сегментации изображения, помечаются как блоки типа RecognizeSingleColumn. Раньше блоки помечались как блоки RecognizeSingleBlock. Данное изменение увеличило качество распознавания для сложного текста и не снизило общую производительность распознавания текста.
  • .NET разработка:
    • Используемый движок Tesseract OCR был обновлен до версии 5.3.
  • .NET разработка:
    • Добавлена поддержка для .NET 7 в Windows и Linux.
    • Добавлена возможность распознавать текст в Linux.
    • Улучшен алгоритм определения регионов распознанных символов.
    • Демо-приложения:
      • В OcrDemo добавлена возможность создания searchable PDF документа в режиме текст над изображением (TextOverImage).
    • Исправлено несколько мелких ошибок.
  • .NET разработка
    • Поддерживаемые платформы:
      • Добавлена поддержка .NET 6 для Windows.
    • Поддерживаемые среды разработки:
      • Добавлена поддержка совместимости с Visual Studio 2022.
    • Поддерживаемые ОС:
      • Добавлена поддержка совместимости с OS Windows 11.
      • Прекращена поддержка совместимости с ОС Windows Server 2003.
    • Используемый движок Tesseract OCR обновлен до версии 5.0. Наши тесты показали, что Tesseract OCR 5 и Tesseract OCR 4 обеспечивают приблизительно одинаковые результаты распознавания текста, но Tesseract OCR 5 до 2-х раз быстрее, чем Tesseract OCR 4.
    • Добавлена возможность сконвертировать объект OcrPage в объект TextRegion (методы OcrDocument.Create и OcrPage.Create).
    • Демо-приложения:
      • Добавлен новый функционал в OCR Demo:
        • Добавлена возможность загрузки OCR результатов из текста PDF документа.
    • Исправлено несколько мелких ошибок.
  • Веб разработка
    • Демо-приложения:
      • Улучшен код ASP.NET OCR Demo (ASP.NET Core Angular OCR Demo, ASP.NET MVC OCR Demo, ASP.NET WebForms OCR Demo) и теперь демо-приложение позволяет:
        • просматривать документ перед распознаванием текста
        • обрабатывать страницы документа перед распознаванием текста
        • распознавать текст во всем документе, отдельной странице или регионе страницы.
    • Исправлено несколько мелких ошибок в веб сервисе OCR.
  • .NET разработка
    • Поддерживаемые платформы:
      • Добавлена поддержка .NET 5 для Windows.
  • .NET разработка
    • Поддерживаемые платформы:
      • Добавлена поддержка (без UI контролов) .NET Core 3 для Windows.
        Созданы следующие .NET Core сборки:
        • Vintasoft.Imaging.Ocr.dll
        • Vintasoft.Imaging.Ocr.Tesseract.dll
      • Прекращена поддержка .NET Framework 2.0, теперь SDK поддерживает .NET Framework 4+ и 3.5.
    • Используемый движок Tesseract OCR обновлен до версии 4.1.0.
  • Используемый движок Tesseract OCR обновлен до версии 4.0:
    • Улучшена производительность и качество распознавания текста.
    • Добавлена поддержка распознавания новых языков.
  • Добавлена возможность распознавать текст сразу на нескольких языках с помощью функционала Tesseract OCR. Ранее можно было распознавать текст сразу на нескольких языках с помощью функционала SDK.
  • В демо-приложении OcrDemo добавлена возможность выбора нескольких языков для распознавания текста.
  • Используемый движок Tesseract OCR обновлен до версии 3.04:
    • улучшено качество распознавания текста
    • расширен список поддерживаемых языков распознавания.
  • Добавлена возможность использовать движок Tesseract OCR в многопоточной среде.
  • Улучшено качество распознавания текста в цветных изображениях.
  • Уменьшено пиковое использование памяти при распознавании текста в цветных изображениях.
  • Добавлена возможность импорта/экспорта дерева результатов распознавания в формат HOCR.
  • Много мелких исправлений и улучшений.
  • Добавлена возможность указывать ортогональный угол поворота текстового региона перед распознаванием текста. Ранее весь текст распознавался как не повернутый.
  • OCR Demo теперь может создавать searchable PDF документы с MRC сжатием.
  • Несколько мелких улучшений.
  • Улучшен код демо-приложения OcrDemo.
  • Переименованы сборки и внесены изменения в структуру пространств имен. Более подробная информация доступна в документации.
  • Используемый движок Tesseract OCR обновлен до версии 3.02.
    • Улучшилось качество OCR.
    • Новые поддерживаемые языки: африкаанс, албанский, азербайджанский, белорусский, бенгальский, эстонский, баскский, франкский, галисийский, хорватский, исландский, малаялам, македонский, мальтийский, малайский, суахили, тамильский, телугу.
  • Некоторые мелкие исправления.
  • Создан базовый OCR .NET интерфейс (Vintasoft.Ocr.dll):
    • Возможность распознавать текст на изображении или коллекции изображений.
    • Возможность распознавать текст на произвольном регионе изображения.
    • Возможность получать прогресс распознавания.
    • Возможность сегментации изображения до распознавания и установки параметров распознавания для каждого из найденных регионов.
    • Возможность получить результат распознавания в виде иерархии: Документ, Страница, Регион, Параграф, Строка, Символ.
    • Возможность навигации по результату распознавания.
    • Возможность редактирования результата распознавания.
    • Возможность сохранить результаты распознавания как текстовый (TXT) документ.
  • Создан Tesseract OCR интерфейс (Vintasoft.Ocr.Tesseract.dll):
    • Предоставление доступа к функционалу движка Tesseract OCR.
    • Возможность распознавать текст на изображении.
    • Возможность распознавать текст на произвольном регионе изображения.
    • Поддерживаемые языки: английский, арабский, болгарский, каталонский, чешский, чироки, китайский упрощенный, китайский традиционный, датский, голландский, финский, французский, немецкий, греческий, иврит, хинди, венгерский, индонезийский, итальянский, японский, корейский, латышский, литовский, норвежский, польский, португальский, румынский, русский, сербский, словацкий, словенский, испанский, шведский, тагальский, тайский, турецкий, украинский, вьетнамский.
    • Возможность получать прогресс распознавания.
    • Возможность получать/устанавливать значения переменных Tesseract OCR.
    • Возможность использовать пользовательские словари.
  • Создан интерфейс для генерации PDF файлов с возможностью поиска текста (Vintasoft.Pdf.Ocr.dll):
    • Возможность сохранить результаты OCR распознавания в PDF документ как текст.
    • Возможность сохранить результаты OCR распознавания в PDF документ как скрытый текст расположенный под изображением.