Читать реферат по информатике, вычислительной технике, телекоммуникациям: "Работа с документами" Страница 13

назад (Назад)скачать (Cкачать работу)

Функция "чтения" служит для ознакомления с работой. Разметка, таблицы и картинки документа могут отображаться неверно или не в полном объёме!

обращать на нее внимание, т. к. она правильно определится обеими программами. И все-таки программа Fine Reader здесь тоже выходит на первое место: она наиболее точно определяет тип распознаваемых блоков и распределяет их тоже не плохо.

Для примера возьмем разворот учебника с картинками и посмотрим, как справятся наши программы с разбивкой на блоки.

 Рис.22. достаточносложный дляопределенияи распознаванияразворотучебника.Справятсяли с ним нашипрограммы?

Cuneiform 2000 нашел таблицу и около 30 текстовых блоков, причем некоторые выделяли область рисунков. После этого мы ожидали увидеть примерно такую же картину и в Fine Reader 5.0, но все иллюстрации были распознаны правильно (хотя и не совсем точны были определены границы), текстовые блоки были выделены тоже достаточно корректно, ну а мифических таблиц эта программа не обнаружила, т. к. их действительно не было.

Да, для того чтобы нормально распознать текст в Fine Reader, нужно всего лишь немного поправить границы блоков и удалить ненужные, а в Cuneiform 2000 лучше задавать их вручную.

Проведенное испытание показало, что иногда лучше самому расставить и определить блоки, т. к. программе может быть не совсем понятно к какому типу относить получившийся блок. Наши программы в принципе неплохо справились с задачей, особенно Fine Reader, который не совершил грубых ошибок при распознавании блоков.

Распознавание цвета

Раньше программы распознавания требовали только черно-белых (1-битовых) изображений в разрешениях, близких к 300ґ300 dpi. Теперь программы фирм ABBYY и Cognitive Technologies Ltd., позволяют распознавать серые и цветные изображения с разрешениями от 200 до 600 dpi. Осталось только проверить, насколько хорошо они это делают.

Для проведения данного теста мы возьмем первую страницу цветной газеты, отсканируем ее в 24-битном режиме (16,5 млн цветов) и постепенно будем уменьшать цветность. В данном тесте нас будут интересовать результаты времени распознавания и качество, а также их зависимость от количества цветов.

 Рис.23. Так выглядитпервая страницагазеты в цвете,осталосьтолько еераспознать.

Теперь полученный 23-мегабайтный файл загружаем в наши программы распознавания. Сначала разбиваем его на блоки автоматическим путем. Смотрим, что у нас получилось: Fine Reader без особого труда с маленьким недочетом (упустил одну букву) определил все блоки, причем правильно, а Cuneiform 2000 опять нашел несуществующую таблицу, но в целом все остальное определил неплохо.

Переходим ко второй стадии - распознаванию. Fine Reader - 34 с, Cuneiform - 52 с! Невероятно, но факт. Fine Reader, помимо высокой скорости, еще и очень качественно распознал данную страницу (совершив всего несколько ошибок, распознав даже белый текст на черном фоне), особенно по сравнению с Cuneiform, который не смог распознать большую часть текста. Кроме того, Fine Reader вырезал картинку без примеси текста! Таких результатов от Fine Reader мы не ожидали.

Теперь понижаем цветность с 16,5 млн до 256 цветов и смотрим, изменится ли картина распознавания. Для Fine Reader ситуация с определением блоков не изменилась, а вот у другой тестируемой программы проблема - она, похоже, не нашла текст. Будем считать, что программа Cuneiform 2000 провалила данный тест. Скорость распознавания у Fine Reader изменилась в сторону уменьшения:


Интересная статья: Быстрое написание курсовой работы