Создание электронных книг из сканов, DjVu или Pdf из бумажной книги легко и быстро - TWDragon, 4u4undr (2009)
-
Год:2009
-
Название:Создание электронных книг из сканов, DjVu или Pdf из бумажной книги легко и быстро
-
Автор:
-
Жанр:
-
Серия:
-
Язык:Русский
-
Рейтинг:
-
Ваша оценка:
Итак: перед вашими глазами позаимствованная у знакомого, из библиотеки, или просто напросто интересная, хорошая книга, которую хотелось бы иметь на компьютере. И не чтобы она просто была, а была в таком виде, который дал бы возможность производить поиск по тексту, удобно читать книгу или на устройствах еВоок или на экране монитора, а если это не техническо-научная или литература для справок – еще и читать на своем фавортином мобильном телефоне, iPhon'e или PDA. В этом поэтапном справочнике, основанном на личном опыте, я попытаюсь рассказать о том, как «выжать» наибольшее количество результатов из проделанной легкой, но порой весьма муторной работы по сканированию книги.
Пусть вас не страшит длина этого справочника и мнительная сложность обработки и сканирования книги. Процесс и в правду довольно сложен и многоэтапен, но поверьте мне, объяснить весь этот процесс было в разы сложнее, чем исполнить их шаг за шагом.
Создание электронных книг из сканов, DjVu или Pdf из бумажной книги легко и быстро - TWDragon, 4u4undr читать онлайн бесплатно полную версию книги
Document Express Editorверсий от 4 до 6. Это делается просто, запускаем программу, загружаем первую страницу (только одну!), добавляем к первой странице остальные, но не более 500 (обычно 200^300). Сохраняем с выбором профиля bitonal и с разрешением 600 dpi.
Второй, рекомендованный способ, это использовать
Document Express Enterprise 5.1(доступна облегченная версия этого пакета, объемом около 20 мегабайт). Вначале создаем профиль для кодирования (делается это не часто, можно один раз), для этого запускаем
Document Express Enterprise Configuration
Managerиз этого же пакета, из списка выбираем профиль
Bitonal
(600),нажимаем на кнопку
Advanced
Settings
…,в диалоговом окне
Advanced
Settingsвыбираем закладку
Textи ставим
Pages
Per
Dictionaryравным 1000 (конечно, это небольшой экстремизм, можно ограничиться значением 100^200). Сохраняем этот профиль под новым именем. Увеличение размера страниц на словарь, приводит к заметному уменьшению размера файла, до 25%.
Запускаем
Document Express Enterprise Workflow Manager,загружаем все страницы зараз, в поле
Job Nameпишем название книги, из списка
Raster
Profileвыбираем, подготовленный ранее профиль, переключаемся на закладку
Outputи из списка
Separate
Document
(
s
)
byвыбираем
One
document
only
.Ставим галочку (с самого левого края под
Enable
)и ждем конца кодирования, следим или пока эта галка исчезнет или по закладке
Log
.
4. Создание текстового слоя
После того, как все уже сделано, остановится на этом просто себя не уважать, не говоря уж об остальных.
Для добавления распознанного текстового слоя в djvu книгу потребуется две программы. Первая это
FineReader 7.0или
8.0версии. Вторая программа, это небольшая утилита
DjvuOCR 2.1от болгарского камрада
Gencho.
Загружаем все, обработанные в кромсаторе, тифы в
FineReader,те из которых была сделана djvu книжка, и распознаем в пакетном режиме. После распознавания, ничего не правим, не вычитываем, просто сохраняем пакет на диск, желательно путь для того пакета надо выбирать попроще, у
DjvuOCRмогут быть проблемы, если в названии пакета и/или пути будут кириллические символы. С
FineReaderвсе. Ура, ура, ура, появилась новая версия этой утилиты 2.2, в которой сняты эти ограничения. Теперь можно редактировать текст после распознавания в ФР, соблюдая некоторые ограничения:
а) при редактировании сохранять некоторые символы оригинального текста (например интервалы), т.е. не переписывать большие блоки;
б) желательно сохранять количество строк в параграфе (т.е. не стирать знаки конца строки).
Кстати, для наших целей вполне подойдет триальная версия
FineReader,которую можно свободно скачать с официального сайта разработчика.
ЗапускаемDjvuOCR,
жмем на кнопкуManual made OCR manager
Далее, тоже все просто:
FineReader Project directory– выбираем каталог с проектом.
Output OCR text file– это любой, пустой текстовой файл, помещенный в каталог с проектом.
Ставим галочку на
Burn DJVU fileи выбираем djvu книжку.
Нажимаем
Process.
Ждем несколько минут. И всё.
Добавление обложки
В добавлении обложки, если не преследовать сверхзадач, никаких особых хитростей нет. Сканируем обложку в цвете в 200 дпи, чистим ее по вкусу, слегка размываем ее и кодируем в djvu профилем Photo(300). Полученный файл добавляем в книгу, например с помощью
Document Express Editor.