Читать реферат по информатике, вычислительной технике, телекоммуникациям: "Работа с документами" Страница 12
не совсем точно распознал текст в самой таблице.
|
Для того чтобы хорошо и наиболее точно распознавалась таблица, можно самому отредактировать вертикальные и горизонтальные линии таблицы до распознавания текста. Это доступно в обеих программах.
Проведя исследование на распознавание таблиц, мы переходим к формам. Что же мы в данном случае под ними понимаем? А все очень просто: анкеты, договора и прочие документы, содержащие достаточно сложное оформление. Если у вас возникает вопрос, а зачем такое исследование проводить, то очень просто привести пример из жизни. Вам нужно изменить текст договора или анкеты имеющегося у вас образца, а в электронном виде его у вас нет. Время на набор и оформление ограничено, поэтому приходится использовать программу распознавания.
Итак, покончим с лирикой и возьмемся за дело. Образцом для нашего теста послужит стандартный договор найма.
При автоматической разметке страницы на блоки возникает примерно такая же ситуация, как при определении сложной таблицы, поэтому мы всю страницу определяем единым текстовым блоком вручную. Это приходится делать, поскольку в Fine Reader страница разделяется на три блока, а в Cuneiform 2000 - порядка пятнадцати.
В Fine Reader спустя 50 с мы получаем уже готовый договор, ну а в Cuneiform 2000 ждем всего 10 с, но документ в результате требует исправлений. Например, некоторые точки распознались запятыми, а вместо символа номер (№) получаем пару других символов, и точность распознавания самого текста немного страдает. Однако само форматирование договора в обеих программах сохранилось достаточно точно.
Результаты: при распознавании простой таблицы Cuneiform 2000 оказался лучше, чем Fine Reader 5.0.
При работе со сложной таблицей пришлось вручную определять блок таблицы, т. к. при автоматическом определении блоков обе программы ее не опознали вообще как таблицу. Когда это, наконец, произошло, обе полученные таблицы требовали довольно серьезной редакции, но все-таки Fine Reader показал лучший результат.
|
При распознавании договора (или формы) он же вышел на первое место, правда, при этом затратил в пять раз больше времени, чем Cuneiform 2000, зато распознал более точно, и нам меньше надо было бы править (достойное применение для работы этих программ).
БлокиНе последнее место при работе с программами распознавания занимает автоматическая разбивка на блоки. В автоматическом режиме на разбивку тратится несколько секунд, а в ручном - гораздо больше времени.
Для начала возьмем изображение нашего договора. Как уже говорилось, Cuneiform 2000 разбил этот единый документ на множество блоков, а Fine Reader только на 3 части, и в них не вошли лишь последние точки в документе (ей можно в принципе доверять). Для нормального распознавания в наших программах таблицы в тексте (тем более, если она не простая) лучше всего ее выделять самостоятельно. Ну а если она похожа на первый образец, то можно спокойно не
Похожие работы
| Тема: Работа с документами в подразделениях МВД России |
| Предмет/Тип: Другое (Реферат) |
| Тема: Библиотека и краеведение. Работа библиотек с краеведческими документами |
| Предмет/Тип: Культурология (Контрольная работа) |
| Тема: Организация и работа с документами |
| Предмет/Тип: Эктеория (Реферат) |
| Тема: Работа с кадровыми документами |
| Предмет/Тип: Антикризисный менеджмент (Контрольная работа) |
| Тема: Работа с архивными документами. Чтение старославянских текстов |
| Предмет/Тип: История (Учебное пособие) |
Интересная статья: Основы написания курсовой работы

(Назад)
(Cкачать работу)