Иногда у нас на руках оказываются весьма редкие книги, цифровые версии которых отсутствуют во всемирной сети, но сама книга все же была бы полезна разным другим людям. И поскольку самым удобным и быстрым способом распространения сейчас являются именно электронные варианты книг, то такую ценную книгу будет очень полезно оцифровать. Для этого эту книгу нужно:
1. Отсканировать;
2. Обработать полученные сканы;
3. Запаковать обработанные сканы в конечный файл.
Разберем каждый этап чуть подробнее.
1. Сканирование книги.
Для этого нужен сканер. Сканеров существует огромное множество. Наиболее значимым и принципиальным моментов в устройстве сканера для наших целей является тип его сканирующего модуля. Сейчас наиболее распространены 2 типа этих модулей: CIS и CCD. CIS – недавно появившиеся датчики с низким энергопотреблением, сканер с таким датчиком питается непосредственно от USB, к которому он подключен. CCD – более старый и сложный вариант датчика, требующий внешнего питания. НО! CCD-датчик оснащен оптикой, а CIS – нет, поэтому CCD может хорошо сканировать неплотно прилегающую книгу, а CIS – не может (Рис. 1). Для сканирования отдельных листочков/документов этот момент значения, конечно, не имеет, но книга очень редко хорошо прилегает к стеклу сканера.
Рис. 1.
Помимо обычных сканеров существуют сканеры, специализированные для сканирования книг (например, Plustek OpticBook). Они отличаются внешней конструкцией – стекло очень близко расположено к одному из краев сканера, и поэтому сканировать по одной странице, если обе не убираются в области сканирования, намного удобнее. И как правило такие сканеры работают ощутимо быстрее обычных моделей (в 2-3 раза по сравнению с «обычными» моделями). Минусами таких сканеров являются цена (обычно от 10 т.р.) и цветопередача у относительно недорогих моделей.
Из моего небольшого опыта общения с разными сканерами также обратил бы внимание не только на железную часть их обеспечения, но и на программную. Основные функции у всех одинаковы – сканировать и сохранять результат в файл, но вот характер организации этих функций у всех немного разный. У Epson он, например, все же более удобный, чем у HP. По крайней мере у тех моделей, с которыми мне доводилось иметь дело.
Основными параметрами, которые требуется настроить при сканировании, являются разрешение (dpi) и глубина цвета. Оптимальное разрешение при сканировании книг – 300 dpi. Этого достаточно для очень хорошего отображения текста и при этом размеры файлов на выходе остаются в пределах разумного. Меньше выставлять разрешение не желательно – может пострадать качество изображения. Может быть и не очень заметно, но все же приятнее потом читать текст, состоящий из букв без лишних зазубрин и ступенек. Больше 300 dpi следует выставлять лишь в особых случаях: очень мелкий шрифт, пиктограммы/иероглифы/картинки с тонкими, но значимыми элементами. Как вариант можно основную часть страниц сделать на 300 dpi, а страницы, содержащие утонченные элементы, - на повышенном разрешении.
Цветность (глубину цвета) лучше выставить на «градации серого 8 bit». Естественно, если в книге масса нужных цветных иллюстраций, то нужно сканировать в «цветном» режиме. Но если нет – то в «сером». На последующем этапе мы будем переводить страницы с текстом в черно-белые изображения. Сразу сканировать в ЧБ не стоит, т.к. сканер реально регистрирует именно яркость изображения, т.к. эти самые «градации серого». А вот качество дальнейший перевод этого изображения в ЧБ очень сильно зависит от алгоритмов и настроек программы, осуществляющей трансформацию из «серого» изображения в черно-белое. Лучше эту задачу поручить специализированным решениям, о которых мы поговорим далее, в разделе про обработку сканов.
Выводным форматом файлов лучше всего устанавливать TIFF. Либо какой-то другой формат, но также обеспечивающий сохранение изображения без потерь. Внешне jpeg с высоким качеством отличаться практически не будет от tiff. Но в масштабах единиц и десятков пикселей изменения будут, и эти изменения затруднят дальнейшее распознавание текста на этих сканах.
2. Обработка сканов.
Уложить книгу 200-300 раз идеально точно на сканер – трудно. Поэтому отдельные сканы обычно бывают немного перекошены, с разными полями и т.п. Плюс к этому, если книга помещается на сканер в развернутом виде, то сканировать развороты намного быстрее, чем по одной странице, а вот потом читать эти неразрезанные развороты может быть не очень удобно. Т.е. перед запаковкой отсканированных страниц в конечный файл сканы нужно немного обработать – разрезать на страницы (при необходимости), обрезать лишние поля, выровнять страницы и перевести в ч/б. Для решения этой задачи существуют разные программные решения. Мне больше всего понравился Scan Tailor. Есть еще ScanKromsator, но он более сложен в использовании. У Scan Tailor’a соотношение его интеллектуальности и необходимых действий со стороны пользователя мне кажется более правильным.
Итак, чтобы не повторяться, отсылаю читателя к документации по Scan Tailor, а там для начала посмотрите руководство пользователя (хотя остальные материалы тоже можно посмотреть, лишним не будет). Остановлюсь лишь на некоторых моментах, где попадается больше всего грабель.
Иногда при создании нового проекта, когда импортируются изображения, программа вдруг видит, что у изображений разные dpi, и просит эти dpi уточнить. Если вы не уверены, если сами специально не сканировали страницы на разном dpi, то смело выставляем для всех страниц 300х300. Внимание! Это – не размер страниц, это лишь их разрешение, программа не сделает их маленькими и нечитаемыми. Все равно потом на выходе будут новые файлы, где программа укажет все правильно и одинаково.
С исправлением ориентации, разрезкой и выравниванием, думаю, все понятно. Автоматика тут работает достаточно хорошо. А если нет, то подправляем вручную. И не забываем после исправления одной страницы (например, мы вручную повернули страницу вправо или влево) зайти в меню «Применить к…». Иногда программа не исправляет ориентацию страниц, тогда мы вручную исправляем ее у одной страницы, а потом при помощи этого меню применяем это исправление ко всем остальным. И при разрезке прокрутить миниатюры в правой колонке, посмотреть, чтобы все развороты были адекватно порезаны.
Полезная область. Начиная отсюда уже придется повозиться. Особенно, если исходные сканы не лучшего качества. Если ваши сканы слишком бледные, если на страницах слишком много «мусора» (грязь, дефекты бумаги и пр.), то все это будет сбивать работу автоматики и вам придется вручную исправлять значимые области на страницах, где алгоритм не справился. Ошибки редко бывают катастрофическими, но пропуск номера страницы или включение в полезную область какой-нибудь кляксы на полях – обычно дело при обработке плохого скана. В таких случаях нужно не спеша просмотреть миниатюры страниц и там, где рамка полезной области не совпадает с реальной полезной областью на странице, эту рамку нужно подправить. Торопиться не стоит, а то потом второй раз придется всю эту кучу сканов просматривать.
Поля. Подразделяются на «жесткие» и «мягкие». Первые добавляются к полезной области всех без исключения страниц. Вторые – для подгона всех страниц к одному размеру. Одна или несколько самых больших страниц остаются без мягких полей, а к остальным добавляются поля для доведения их размера до размеров самых больших. Назначаются только размеры «жестких» полей, мягкие программа назначает сама. Размеры «жестких» полей тоже имеют некоторые стандартное значение. Его можно произвольно изменять, чтобы страница смотрелась хорошо: близко к оригиналу или просто удобно для чтения.
Иногда на этом этапе вы можете обнаружить, что страницы получились слишком большими. Это значит, что где-то есть страница с очень большой полезной областью, прибавка к которой «жестких» полей и дала такой размер страниц, который приводится к размеру наибольшей страницы в проекте. В таком случае нужно внимательно просмотреть страницы и найти ту самую, имеющую слишком большую полезную область. Если эта область реально полезная (большая таблица или рисунок), то уменьшаем или убираем полностью у этой страницы «жесткие» поля. Тогда содержимое этой страницы будет сохранено, и размер остальных страниц останется нормальным. Если же размер полезной области оказался таким из-за кляксы внизу страницы, которая вошла в полезную область и сильно увеличила ее высоту – исправляем эту полезную область (см. про изначально внимательную и неспешную работу с полезной областью!), после чего размер страниц должен стать более адекватным. Если не стал – ищем другие страницы со слишком большой полезной областью и обрабатываем их.
Вывод. Здесь настраиваем режим вывода – ч/б, цветной/серый или смешанный, и dpi. Режим вывода по умолчанию стоит ч/б. И это правильно, если на сканах только текст и схемы с пиктограммами. Scan Tailor весьма неплохо переводит страницы с текстом в ч/б, ощутимо лучше разных других неспециализированных графических редакторов. Если качество не очень устраивает, можно поиграть с настройка «Тоньше/толще» в левой части программы, возможно, это поможет.
Если сканы содержат фотографии или сложные рисунки, для которых недостаточно только черных и белых точек, тогда выставляйте режим вывода «смешанный». В этом режиме программа области с текстом будет делать ч/б, а области с рисунками – серыми, в точности такими, как они изображены на исходных сканах. В этом режиме нужно проследить за тем, чтобы все рисунки и целиком были распознаны как «рисунки». Иногда программа часть рисунка распознает как «рисунок», а другую его часть может сделать ч/б. При этом внешний вид рисунка сильно портится. В таком случае на этом скане нужно перейти в закладку «Области рисунков» и вручную выделить область этого рисунка. А иногда случается противоположная ошибка – программа на некоторых страницах принимает текст за «рисунок» и не переводит его в ч/б. Если эта страница ничего кроме текста не содержит, тогда выставляем для этой страницы режим ч/б – проблема решена. А если эта страница, где текст был принят за рисунок, содержит еще и реальный рисунок, который должен быть серым, а не ч/б, тогда остается только смириться.
Режим «цветно/серый» не производит никакой обработки полезной области страниц. В этом режиме просто вырезается полезная область, как она есть на скане, и к ней добавляются поля. Это бывает нужно, если книга изначально пестрит и нам эту пестроту нужно обязательно сохранить или если исходник в таком качестве, что любые попытки перевода текста на страницах в ч/б приводят к практически полной нечитаемости этих страниц. Тогда действительно будет наиболее правильным обойтись без обработки в ч/б, выставить режим «цветной/серый» и оставить сканы (точнее их полезные области), как есть. Причем необязательно это должен быть очень плохой исходник. Например, сканы рукописей может быть вполне оправдано выводить в «цветной/серый», т.к. в ч/б они будут обрабатываться слишком грубо.
DPI по умолчанию выставлен на 600 и менять этого не нужно. Исключением могут быть случаи, когда имеются большие сканы, которые дальше увеличивать не стоит.
Итак, ориентация страниц исправлена, развороты порезаны, полезные области точно выделены, поля выставлены красиво, рисунки выделены правильно, одним словом то, что вы видите, когда просматриваете страницы на этапе «вывод», вас полностью устраивает. Запускаем пакетную обработку и программа выводит наши обработанные страницы в файлах tiff. Переходим к завершающему этапу.
3. Создание конечного файла.
Конечным результатом нашей работы является файл pdf и/или djvu, созданный из того, что мы получили после работы в Scan Tailor. Некоторое время назад наилучшие результаты при создании pdf-файлов давал Adobe Acrobat, но в последних версиях они что-то там перемудрили, и нынешний Акробат уже не торт. А вот ABBY FineReader, напротив, похорошел и обзавелся некоторыми нужными функциями в последних версиях. Его и будем использовать.
Перед загрузкой наших сканов подправим несколько настроек. Заходим в «Настройки», вкладка «Сохранить», подвкладка «PDF». Выставляем «Режим сохранения» - «Текст под изображением страницы»; «Качество изображения» - «Пользовательское», выпадет небольшое меню в котором нужно установить Разрешение – Исходное, Цветность – либо Автоматически, либо Не менять цветность изображения (хотя в автоматическом, вроде бы, тоже не меняет), Потеря качества – Разрешена, Качество – 80%. Данные настройки исключат возможные вольности FineReader, он не будет портить наши страницы еще одним изменением разрешения, он просто пересохранит их из tiff в jpeg и запакует эти jpeg’и в pdf, и положит под эти странице текстовый слой.
Открываем наши обработанные Скан Тэйлором сканы. FineReader распознает их, после этого в основном окне программы мы выбираем режим «Точная копия» и сохраняем все наши страницы в PDF. При желании можно сохранить наши сканы и в djvu. Настройки сохранения (разрешение изображения, положение текстового слоя, уровень качества) указать нужно такие же, как и для PDF.
Все мы получили небольшой файл pdf или djvu, содержащий хорошо читаемый текст с хорошими картинками недавно отсканированной книги. Если вдруг вам не очень понравился, например, размер файла, который получился, то используйте для новых попыток не предыдущий неудачный вариант, не нужно пересохранять его с новыми настройками. Если не уверены, что это окончательный вариант, оставьте на некоторое время tiff, которые сделал Scan Tailor. Дело в том, что в PDF используется сжатие картинок с потерями, при повторных сохранениях эти потери накапливаются и могут ощутимо подпортить качество (см. рис. 2). При первых пересохранениях это может быть не так очевидно, как на картинке, но тем не менее такая деградация изображения будет происходить. Поэтому пока не поставили финальную точку в обработке данной книги, исходные сканы и результаты их обработки не удаляйте.
Рис. 2.
Summary
А если все вышеизложенное вкратце, то:
1. Находим сканер с CCD датчиком; выставляем DPI 300 (600 для мелких деталей) и сканируем в серый (цветной для цветных картинок) tiff;
2. Обрабатываем сканы в Scan Tailor так, чтобы на выходе получились красивые, ровные, хорошо читаемые и с приятными глазу картинками страницы;
3. Запаковываем обработанные сканы в PDF или DJVU при помощи ABBY FineReader: без изменения разрешения картинок, с качеством картинок 80% и текстовым слоем под изображением страниц.
Спасибо!
Опубликовано пользователем Laoegor
Спасибо!
Этим открываем "клуб 451".
"Из невошедшего"
Опубликовано пользователем ivan
"Из невошедшего"
Еще несколько дополнений, которые могут помочь в деле оцефровки книг.
Сам процесс сканирования намного удобнее проводить не тем софтом, который идет вместе со сканером, а, например, при помощи IrfanView. Дело в том, что практически ни в одном стандартном ПО, по крайней мере в том, с которым мне приходилось работать, не демонстрируется результат конкретного сканирования, только превью, которое мы сделали в самом начале, чтобы выделить область сканирования. А в IrfanView в окне программы после каждого сканирования показывается то, что было только что отсканировано. Таким образом намного удобнее контроллировать процесс. Может быть сбой в работе сканера, может что-нибудь попасть между книгой и сканером (волос какой-нибудь), можно случайно сдвинуть книгу в процессе сканирования. И любой существенный дефект сразу же бросится в глаза, если мы будем видеть в нормальном размере результат каждого сканирования. А вот обнаружить его потом, может быть в уже готовом электронном варианте, может быть не очень приятно. Особенно, если бумажной версии уже не будет на руках.
Настраивайте ПО так, чтобы после одного прохода сканера, формировался один файл в нужной директории. Некоторое ПО устроено так, что оно сначала сохраняет какие-то промежуточные сканы в своих директориях, а после окончания процесса перемещает эти сканы в нужную нам директорию, которую мы указали в настройках. Это плохой путь - внезапное отключение компьютера и последние много-много сканов коту под хвост. Либо долго и нудно будем пытаться выковырить их из внутренних файлов ПО. Плюс некоторые программы могут предлагать сохранять, например, многостраничные TIFF. Казалось бы, удобная вещь - не 100/200/300 файлов в результате работы, а один большой - и не потеряется ничего, и все в одном месте. Но потом могут быть серьезные проблемы с извлечением этих страниц из такого многостраничного TIFF (проверено на практике), т.к. далеко не каждое ПО будет способно потом извлечь отдельные страницы из этого многостраничного TIFF, а обрабатывать непосредственно сам многостраничный файл и вовсе почти ничем невозможно. Поэтому, одно сканирование = один файл в указанной нами директории. Во избежании, так сказать.
При работе с "бытовыми" сканерами, вероятно, имеет смысл делать некоторые перерывы в работе. Такие сканеры не предназначен для непрерывного сканирования в течении всего рабочего дня, как некоторые "промышленные" модели для больших офисов. Отсканируйте пару десятков страниц и потрогайте сканер в районе подключения проводов питания. Скорее всего он будет достаточно хорошо разогрет. Не случайно в инструкциях ко всяким бытовым электроинструментам пишут "после 15 минут работы - 5 минут перерыв"; такая техника не предназначена для продолжительной непрерывной работы, ни ее внутрення электроника, ни устройства ее охлаждения и пр. Например, у меня имеется сканер Epson Perfection V33 (сканеры Epson весьма хороши: быстро прогреваются, быстро работают, хорошо настраиваемое ПО), и я видел отзыв о нем, где он вышел из строя через несколько месяцев работы, но в достаточно жестком режиме. И мне кажется, что это произошло не столько из-за выработки ресурса, сколько именно из-за слишком интенсивной нагрузки, масса сканеров работает годами при умеренной нагрузке. Так что аккуратнее с техникой, не надо использовать ее в режимах, для которых она не предназначена, существенно продлите срок ее службы.
Выявлена некоторая
Опубликовано пользователем ivan
Выявлена некоторая особенность работы ФайнРидера при сохранении документов.
После распознавания картинок и анализа их содержимого делается разметка каждой страницы с выделением зон "Текст", "Картинка", "Таблица". Остальное, судя по всему, файнридер считает практически незначимым фоном и сохраняет с очень сильным сжатием. Обнаружено это в 12 версии. Во избежании недоразумений, когда часть картинки была отнесена к "фону" и была сохранена с очень сильным сжатием, перед окончательным сохранением файла желательно пройтись по страницам и проверить, чтобы содержательные картинки были областями "Картинка".
Или пользоваться 11 и ниже
Опубликовано пользователем Laoegor
Или пользоваться 11 и ниже версиями.
Всё просто оказалось. В 12
Опубликовано пользователем ivan
Всё просто оказалось. В 12 версии в настройках сохранения pdf по умолчанию включена опция "Смешанное растровое содежимое", в предыдущих версиях она по умолчанию отключена. Благодаря этой опции файнридер оставляет растром только "картинки", остальное делит на "фон" и "текст", что должно способствовать лучшему сжатию, но может исказить внешний вид страницы. Если эту опцию в настройках отключить, замыливание никак не обозначенных областей не происходит.
В Гаккеншмидте из-за того,
Опубликовано пользователем ivan
В Гаккеншмидте из-за того, что страницы не были прижаты стеклом, середина книг в существенной части фотографий выступет вперед. Из-за этого очень многие страницы имеют трапециевидную форму: часть ближе к корешку длинная, ближе к периферии - короткая. Автоматически исправлять это скантэйлор (да и остальные вроде тоже) не умеет. Это легко можно исправить в каком-нибудь графическом редакторе вручную, но если получится автоматизировать, будет хорошо.
Мне кажется, что такую
Опубликовано пользователем Laoegor
Мне кажется, что такую трапецевидность должны кто-то исправлять. Поскольку данная ошибка часта и системна...
Мне кажется, что я даже видел программу... Например, у меня это умеет сканер в телефоне. То есть - не сложно.
И вот нашёл (Fine Reader 12, замечу):
Программа определит и при необходимости исправит трапециевидные искажения и неровность строк текста на фотографиях и отсканированных разворотах книг.
Да, надо будет и это
Опубликовано пользователем ivan
Да, надо будет и это попробовать. Я пока пошел смотреть в сторону других обработчиков сканов, сканкромсатор, например. Посмотрим, чем оно лучше получится сделать.
Кажется изначально я у
Опубликовано пользователем Laoegor
Кажется изначально я у сканкромсатора и видел.
Настройка яркости и
Опубликовано пользователем ivan
Настройка яркости и контрастности сканирования для улучшения качества сканов.
Начиная сканировать очередную книгу, поигрался с настройками яркости и контраста сканирования. Получил интересный результат. Режим сканирования - оттенки серого, 300 dpi, сканеры - Plustek OpticBook 4600 и 4800. Ниже сравнительные картинки трёх вариантов: 1 - настройки по умолчанию, 2 - увеличена яркость, 3 - к увеличенной яркости дополнительно увеличена контрастность.
Общий вид страницы:
А вот так выглядят отдельные фрагменты на 100% при разных настройках сканирования:
Текст с фрагментом фотографии:
Фрагмент фотографии:
Основной эффект - подчищается всякий "мусор" на изображении страницы, на фрагментах с текстом это заметно. Думаю, что такая очистка на ранней стадии будет способствовать улучшению качества работы ScanTailor на этапе конвертации серой картинки в ЧБ текст. Меньше всяких артефактов вокруг букв - ровнее буквы. Остальные элементы страницы изменяются в соответствии с настройками: при увеличении яркость происходит осветление фотографий, при дополнительном увеличении контраста - уплотнение темных оттенков.
На данный момент оптимальным кажется такой алгоритм - смотрим на результат сканирования на обычных настройках. Если видим некоторый мусор вокруг букв - приподнимаем яркость так, чтобы этот мусор практически исчез. Затем прибавляем контрастность так, чтобы вернуть насыщенность темных тонов до примерно исходного уровня (чтобы картинки нормально выглядели).
Такой способ улучшения качества сканов, естественно, имеет свои ограничения. Основное - наличие значимых деталей в очень светлых тонах, например, белые облака с тончайшей светлой прорисовкой. Таким методом всё эту прорисовку можно сделать сплошным белым пятном. Второй случай - низкий контраст исходного материала, когда чернила не слишком чёрные, а бумага уже порядком посерела/пожелтела, или когда мусор по своей насыщенности почти не отличается от самого текста. Однако по опыту такие ситуации бывают не так часто. В большинстве ситуаций имеется текст и рисунки/схемы, выполненные достаточно тёмным цветом, чтобы такие настройки не повредили их. Особые случаи, вроде цветных вставок в черно-белые книги, в любом случае требуют контроля глазами и отдельного внимания.
Вот здесь: https://yadi.sk/d/nrjeKjEo8sWGyQ исходные файлы TIFF, полученные в разных режимах сканирования.
Немного о быстром приведении
Опубликовано пользователем ivan
Немного о быстром приведении всех страниц к одному размеру, такому, какой был в исходной книге.
При создании электронной книги из бумажной кажется достаточно правильным сохранение формата страниц максимально приближенного к оригиналу.
Опытным путём для СканТейлора сформировалась такая методика.
После прохождения всех этапов до Полезной области выбираем страницу с самой большой значащей областью, обычно это какая-нибудь из обложек книги, и выделяем всю эту страницу как полезную область:
Поля для этой страницы выставляем в 0 и применяем это для всех страниц проекта. Получается примерно вот так:
Дальше идём на страницы с основным текстом. Вручную выставляем верхнее поле так, чтобы страница смотрелась более-менее хорошо. Потом применяем это ко всем последующим страницам. Если одна из обложек с большой значимой областью будет в конце проекта, то надо будет вручную сбрость у неё поля, иначе страницы будут ненормально большого размера.
В результате мы получаем все страницы одного и того же размера, который приведён к размерам самой большой значащей страницы книги. Компоновку страниц с текстом таким образом тоже можно максимально приблизить к печатному варианту.