Оцифровка книг

Иногда у нас на руках оказываются весьма редкие книги, цифровые версии которых отсутствуют во всемирной сети, но сама книга все же была бы полезна разным другим людям. И поскольку самым удобным и быстрым способом распространения сейчас являются именно электронные варианты книг, то такую ценную книгу будет очень полезно оцифровать. Для этого эту книгу нужно:

1. Отсканировать;

2. Обработать полученные сканы;

3. Запаковать обработанные сканы в конечный файл.

Разберем каждый этап чуть подробнее.

1. Сканирование книги.

Для этого нужен сканер. Сканеров существует огромное множество. Наиболее значимым и принципиальным моментов в устройстве сканера для наших целей является тип его сканирующего модуля. Сейчас наиболее распространены 2 типа этих модулей: CIS и CCD. CIS – недавно появившиеся датчики с низким энергопотреблением, сканер с таким датчиком питается непосредственно от USB, к которому он подключен. CCD – более старый и сложный вариант датчика, требующий внешнего питания. НО! CCD-датчик оснащен оптикой, а CIS – нет, поэтому CCD может хорошо сканировать неплотно прилегающую книгу, а CIS – не может (Рис. 1). Для сканирования отдельных листочков/документов этот момент значения, конечно, не имеет, но книга очень редко хорошо прилегает к стеклу сканера.

Рис. 1.

Помимо обычных сканеров существуют сканеры, специализированные для сканирования книг (например, Plustek OpticBook). Они отличаются внешней конструкцией – стекло очень близко расположено к одному из краев сканера, и поэтому сканировать по одной странице, если обе не убираются в области сканирования, намного удобнее. И как правило такие сканеры работают ощутимо быстрее обычных моделей (в 2-3 раза по сравнению с «обычными» моделями). Минусами таких сканеров являются цена (обычно от 10 т.р.) и цветопередача у относительно недорогих моделей.

Из моего небольшого опыта общения с разными сканерами также обратил бы внимание не только на железную часть их обеспечения, но и на программную. Основные функции у всех одинаковы – сканировать и сохранять результат в файл, но вот характер организации этих функций у всех немного разный. У Epson он, например, все же более удобный, чем у HP. По крайней мере у тех моделей, с которыми мне доводилось иметь дело.

Основными параметрами, которые требуется настроить при сканировании, являются разрешение (dpi) и глубина цвета. Оптимальное разрешение при сканировании книг – 300 dpi. Этого достаточно для очень хорошего отображения текста и при этом размеры файлов на выходе остаются в пределах разумного. Меньше выставлять разрешение не желательно – может пострадать качество изображения. Может быть и не очень заметно, но все же приятнее потом читать текст, состоящий из букв без лишних зазубрин и ступенек. Больше 300 dpi следует выставлять лишь в особых случаях: очень мелкий шрифт, пиктограммы/иероглифы/картинки с тонкими, но значимыми элементами. Как вариант можно основную часть страниц сделать на 300 dpi, а страницы, содержащие утонченные элементы, - на повышенном разрешении.

Цветность (глубину цвета) лучше выставить на «градации серого 8 bit». Естественно, если в книге масса нужных цветных иллюстраций, то нужно сканировать в «цветном» режиме. Но если нет – то в «сером». На последующем этапе мы будем переводить страницы с текстом в черно-белые изображения. Сразу сканировать в ЧБ не стоит, т.к. сканер реально регистрирует именно яркость изображения, т.к. эти самые «градации серого». А вот качество дальнейший перевод этого изображения в ЧБ очень сильно зависит от алгоритмов и настроек программы, осуществляющей трансформацию из «серого» изображения в черно-белое. Лучше эту задачу поручить специализированным решениям, о которых мы поговорим далее, в разделе про обработку сканов.

Выводным форматом файлов лучше всего устанавливать TIFF. Либо какой-то другой формат, но также обеспечивающий сохранение изображения без потерь. Внешне jpeg с высоким качеством отличаться практически не будет от tiff. Но в масштабах единиц и десятков пикселей изменения будут, и эти изменения затруднят дальнейшее распознавание текста на этих сканах.

2. Обработка сканов.

Уложить книгу 200-300 раз идеально точно на сканер – трудно. Поэтому отдельные сканы обычно бывают немного перекошены, с разными полями и т.п. Плюс к этому, если книга помещается на сканер в развернутом виде, то сканировать развороты намного быстрее, чем по одной странице, а вот потом читать эти неразрезанные развороты может быть не очень удобно. Т.е. перед запаковкой отсканированных страниц в конечный файл сканы нужно немного обработать – разрезать на страницы (при необходимости), обрезать лишние поля, выровнять страницы и перевести в ч/б. Для решения этой задачи существуют разные программные решения. Мне больше всего понравился Scan Tailor. Есть еще ScanKromsator, но он более сложен в использовании. У Scan Tailor’a соотношение его интеллектуальности и необходимых действий со стороны пользователя мне кажется более правильным.

Итак, чтобы не повторяться, отсылаю читателя к документации по Scan Tailor, а там для начала посмотрите руководство пользователя (хотя остальные материалы тоже можно посмотреть, лишним не будет). Остановлюсь лишь на некоторых моментах, где попадается больше всего грабель.

Иногда при создании нового проекта, когда импортируются изображения, программа вдруг видит, что у изображений разные dpi, и просит эти dpi уточнить. Если вы не уверены, если сами специально не сканировали страницы на разном dpi, то смело выставляем для всех страниц 300х300. Внимание! Это – не размер страниц, это лишь их разрешение, программа не сделает их маленькими и нечитаемыми. Все равно потом на выходе будут новые файлы, где программа укажет все правильно и одинаково.

С исправлением ориентации, разрезкой и выравниванием, думаю, все понятно. Автоматика тут работает достаточно хорошо. А если нет, то подправляем вручную. И не забываем после исправления одной страницы (например, мы вручную повернули страницу вправо или влево) зайти в меню «Применить к…». Иногда программа не исправляет ориентацию страниц, тогда мы вручную исправляем ее у одной страницы, а потом при помощи этого меню применяем это исправление ко всем остальным. И при разрезке прокрутить миниатюры в правой колонке, посмотреть, чтобы все развороты были адекватно порезаны.

Полезная область. Начиная отсюда уже придется повозиться. Особенно, если исходные сканы не лучшего качества. Если ваши сканы слишком бледные, если на страницах слишком много «мусора» (грязь, дефекты бумаги и пр.), то все это будет сбивать работу автоматики и вам придется вручную исправлять значимые области на страницах, где алгоритм не справился. Ошибки редко бывают катастрофическими, но пропуск номера страницы или включение в полезную область какой-нибудь кляксы на полях – обычно дело при обработке плохого скана. В таких случаях нужно не спеша просмотреть миниатюры страниц и там, где рамка полезной области не совпадает с реальной полезной областью на странице, эту рамку нужно подправить. Торопиться не стоит, а то потом второй раз придется всю эту кучу сканов просматривать.

Поля. Подразделяются на «жесткие» и «мягкие». Первые добавляются к полезной области всех без исключения страниц. Вторые – для подгона всех страниц к одному размеру. Одна или несколько самых больших страниц остаются без мягких полей, а к остальным добавляются поля для доведения их размера до размеров самых больших. Назначаются только размеры «жестких» полей, мягкие программа назначает сама. Размеры «жестких» полей тоже имеют некоторые стандартное значение. Его можно произвольно изменять, чтобы страница смотрелась хорошо: близко к оригиналу или просто удобно для чтения.

Иногда на этом этапе вы можете обнаружить, что страницы получились слишком большими. Это значит, что где-то есть страница с очень большой полезной областью, прибавка к которой «жестких» полей и дала такой размер страниц, который приводится к размеру наибольшей страницы в проекте. В таком случае нужно внимательно просмотреть страницы и найти ту самую, имеющую слишком большую полезную область. Если эта область реально полезная (большая таблица или рисунок), то уменьшаем или убираем полностью у этой страницы «жесткие» поля. Тогда содержимое этой страницы будет сохранено, и размер остальных страниц останется нормальным. Если же размер полезной области оказался таким из-за кляксы внизу страницы, которая вошла в полезную область и сильно увеличила ее высоту – исправляем эту полезную область (см. про изначально внимательную и неспешную работу с полезной областью!), после чего размер страниц должен стать более адекватным. Если не стал – ищем другие страницы со слишком большой полезной областью и обрабатываем их.

Вывод. Здесь настраиваем режим вывода – ч/б, цветной/серый или смешанный, и dpi. Режим вывода по умолчанию стоит ч/б. И это правильно, если на сканах только текст и схемы с пиктограммами. Scan Tailor весьма неплохо переводит страницы с текстом в ч/б, ощутимо лучше разных других неспециализированных графических редакторов. Если качество не очень устраивает, можно поиграть с настройка «Тоньше/толще» в левой части программы, возможно, это поможет.

Если сканы содержат фотографии или сложные рисунки, для которых недостаточно только черных и белых точек, тогда выставляйте режим вывода «смешанный». В этом режиме программа области с текстом будет делать ч/б, а области с рисунками – серыми, в точности такими, как они изображены на исходных сканах. В этом режиме нужно проследить за тем, чтобы все рисунки и целиком были распознаны как «рисунки». Иногда программа часть рисунка распознает как «рисунок», а другую его часть может сделать ч/б. При этом внешний вид рисунка сильно портится. В таком случае на этом скане нужно перейти в закладку «Области рисунков» и вручную выделить область этого рисунка. А иногда случается противоположная ошибка – программа на некоторых страницах принимает текст за «рисунок» и не переводит его в ч/б. Если эта страница ничего кроме текста не содержит, тогда выставляем для этой страницы режим ч/б – проблема решена. А если эта страница, где текст был принят за рисунок, содержит еще и реальный рисунок, который должен быть серым, а не ч/б, тогда остается только смириться.

Режим «цветно/серый» не производит никакой обработки полезной области страниц. В этом режиме просто вырезается полезная область, как она есть на скане, и к ней добавляются поля. Это бывает нужно, если книга изначально пестрит и нам эту пестроту нужно обязательно сохранить или если исходник в таком качестве, что любые попытки перевода текста на страницах в ч/б приводят к практически полной нечитаемости этих страниц. Тогда действительно будет наиболее правильным обойтись без обработки в ч/б, выставить режим «цветной/серый» и оставить сканы (точнее их полезные области), как есть. Причем необязательно это должен быть очень плохой исходник. Например, сканы рукописей может быть вполне оправдано выводить в «цветной/серый», т.к. в ч/б они будут обрабатываться слишком грубо.

DPI по умолчанию выставлен на 600 и менять этого не нужно. Исключением могут быть случаи, когда имеются большие сканы, которые дальше увеличивать не стоит.

Итак, ориентация страниц исправлена, развороты порезаны, полезные области точно выделены, поля выставлены красиво, рисунки выделены правильно, одним словом то, что вы видите, когда просматриваете страницы на этапе «вывод», вас полностью устраивает. Запускаем пакетную обработку и программа выводит наши обработанные страницы в файлах tiff. Переходим к завершающему этапу.

3. Создание конечного файла.

Конечным результатом нашей работы является файл pdf и/или djvu, созданный из того, что мы получили после работы в Scan Tailor. Некоторое время назад наилучшие результаты при создании pdf-файлов давал Adobe Acrobat, но в последних версиях они что-то там перемудрили, и нынешний Акробат уже не торт. А вот ABBY FineReader, напротив, похорошел и обзавелся некоторыми нужными функциями в последних версиях. Его и будем использовать.

Перед загрузкой наших сканов подправим несколько настроек. Заходим в «Настройки», вкладка «Сохранить», подвкладка «PDF». Выставляем «Режим сохранения» - «Текст под изображением страницы»; «Качество изображения» - «Пользовательское», выпадет небольшое меню в котором нужно установить Разрешение – Исходное, Цветность – либо Автоматически, либо Не менять цветность изображения (хотя в автоматическом, вроде бы, тоже не меняет), Потеря качества – Разрешена, Качество – 80%. Данные настройки исключат возможные вольности FineReader, он не будет портить наши страницы еще одним изменением разрешения, он просто пересохранит их из tiff в jpeg и запакует эти jpeg’и в pdf, и положит под эти странице текстовый слой.

Открываем наши обработанные Скан Тэйлором сканы. FineReader распознает их, после этого в основном окне программы мы выбираем режим «Точная копия» и сохраняем все наши страницы в PDF. При желании можно сохранить наши сканы и в djvu. Настройки сохранения (разрешение изображения, положение текстового слоя, уровень качества) указать нужно такие же, как и для PDF.

Все мы получили небольшой файл pdf или djvu, содержащий хорошо читаемый текст с хорошими картинками недавно отсканированной книги. Если вдруг вам не очень понравился, например, размер файла, который получился, то используйте для новых попыток не предыдущий неудачный вариант, не нужно пересохранять его с новыми настройками. Если не уверены, что это окончательный вариант, оставьте на некоторое время tiff, которые сделал Scan Tailor. Дело в том, что в PDF используется сжатие картинок с потерями, при повторных сохранениях эти потери накапливаются и могут ощутимо подпортить качество (см. рис. 2). При первых пересохранениях это может быть не так очевидно, как на картинке, но тем не менее такая деградация изображения будет происходить. Поэтому пока не поставили финальную точку в обработке данной книги, исходные сканы и результаты их обработки не удаляйте.

Рис. 2.

Summary

А если все вышеизложенное вкратце, то:

1. Находим сканер с CCD датчиком; выставляем DPI 300 (600 для мелких деталей) и сканируем в серый (цветной для цветных картинок) tiff;

2. Обрабатываем сканы в Scan Tailor так, чтобы на выходе получились красивые, ровные, хорошо читаемые и с приятными глазу картинками страницы;

3. Запаковываем обработанные сканы в PDF или DJVU при помощи ABBY FineReader: без изменения разрешения картинок, с качеством картинок 80% и текстовым слоем под изображением страниц.

Форумы: 

Аватар пользователя Laoegor

Мне кажется, что такую

Мне кажется, что такую трапецевидность должны кто-то исправлять. Поскольку данная ошибка часта и системна...

Мне кажется, что я даже видел программу... Например, у меня это умеет сканер в телефоне. То есть - не сложно.

И вот нашёл (Fine Reader 12, замечу):

  • Устранить трапециевидные искажения
    Программа определит и при необходимости исправит трапециевидные искажения и неровность строк текста на фотографиях и отсканированных разворотах книг.