Создание электронных книг.

Сюда говорим за сканирование, распознование, обработку и что ещё.

В частности вот статейка. Полезно.

Форумы: 

Аватар пользователя ivan

http://www.djvu-soft.narod.ru

http://www.djvu-soft.narod.ru/soft/basic.htm

Хороший и достаточно полный обзор инструментов для создания djvu-книг. Раньше инструменты страдали от недостаточного количества настроек сжатия и конвертации, а по умолчанию все получалось не очень хорошо. Сейчас вроде как можно все достаточно неплохо настроить. Будем смотреть.

Аватар пользователя Yulia

Может, архив сканов хранить в

Может, архив сканов хранить в векторном формате, чтобы с ним можно было делать все, что угодно? А книгу собирать с учетом потребностей чтения?

Вот тут про векторные форматы http://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D0%B0%D1%8F_%D0%B3%D1%80%D0%B0%D1%84%D0%B8%D0%BA%D0%B0

Может ли сканер сразу записывать в вектором формате?

Админ сайта

Аватар пользователя ivan

Нет, сканер сразу в вектор

Нет, сканер сразу в вектор сканировать не может. И растр потом конвертировать в вектор - задача чрезвычайно сложная и на выходе очень редко получается что-то хорошее. Векторное изображение - это по сути текст, который описывает определенные элементы изображения, их параметры и прочее. Если они создаются в редакторе - никаких проблем, все красиво, масштабируется и весит мало, а вот из растра пытаться вытянуть эти самые объекты (прямые, окружности и пр) - задачка та еще... Или он может, например, все найденный более-менее контрастные объекты на изображении описать при помощи алгоритма, но количество этих объектов будет таким, что теряет всякий смысл, вес будет почти такой же, как и у исходного растра. Я уже пробовал это делать при помощи Vector Magic. Работает долго, на выходе результат не очень.

Более перспективным в деле получения минимального размера пдф при сохранении визуального качества мне кажется оптимизация и сжатие исходных изображений. Например, при конвертации в пдф, изображения конвертируются в jpg. Есть разные программы, способные оптимизировать jpg, уменьшая размер без потери визуального качества. Есть еще формат jpg2000, который акробат тоже понимает и который позволяет получать еще меньшие размеры файлов при сохранении внешнего вида. Причем, разные кодировщики работают немного по-разному и соответственно вовсе необязательно, что именно акробат жмет в этот формат лучшим образом, у него вообще не очень гибкие настройки сжатия изображений. Можно, например, сторонней утилитой сжать все страницы, а уже потом их скармливать акробату. Видел обзор, где лучшим кодировщиком в jpg2000 оказался ACDSee.

DJVU - формат, конечно, хороший. Книги в него жмутся тоже просто замечательно. Но при условии, что текст черно-белый или, на худой конец, в градациях серого. Жмет он хорошо, поскольку создает что-то вроде "векторной" маски. Т.е. она имеет параметры формы, но хранится в виде точек все же, при масштабировании это заметно. Но печатается потом очень четко. В предыдущих сообщениях есть ссылка на сайт, там можно скачать все необходимое для сжатия в djvu. В основной программе можно достаточно тонко регулировать параметры отнесения тех или иных деталей изображения в эту векторную маску. Если удается настроить так, чтобы текст и картинки туда попадали, а всякая грязь - нет, это хорошо. Но так бывает не всегда и то шрифт получается не очень хороший, т.к. некоторый элементы букв выпадают или смазываются, или слишком много всякой грязи из мелких элементов на него налипает и он опять портится. В общем скан какой-нибудь древней книги, с пожелтевшими страницами, с уже нечеткой печатью и с вкраплениями в бумагу эффективно сжать в djvu и сохранить максимальную схожесть с оригиналом будет очень сложно.

Еще я недавно обзавелся сканером. Если кто будет покупать, обратите особое внимание на тип сенсора в нем. Раньше почти везде были CCD, сейчас появились и распространяются CIS. Вторые более компакнты, потребляют меньше энергии, сканер может питаться от юсб. Но у них есть одна существенная разница. CIS имеет ощутимо меньшую глубину резкости. При сканировании офисных документов и отдельных листов разницы вообще никакой не будет, но если материал не очень ровно прилегает, то качество сканирования существенно упадет. Т.е. некоторые книги на нем могут очень плохо отсканироваться.

В лабе у нас есть Plustec Opticbook. Штука действительно быстрая и удобная для книгосканирования. Но цвета, как и пишут в инете, действительно отвратные. И если нужно сканировать что-то цветное, то идут на другой сканер. А этот - для поточного сканирования в градации серого.

Аватар пользователя Yulia

Понятно, тогда храните в

Понятно, тогда храните в растре. За сколько времени Plustec сканирует книжку?

Посмотрела на картинку сканера. Получается, он сканирует по одной странице?

Админ сайта

Аватар пользователя ivan

Plustec примерно в 3-4 раза

Plustec примерно в 3-4 раза быстрее сканера начального уровня. По крайней мере на обычных разрешениях сканирования (300-400 dpi). На одну страницу уходит примерно 3-5 секунд, но это так, по ощущениям, специально не фиксировал. Размер области сканирования там стандартный - чуть больше А4. Поэтому сканировать по одной странице или по целому развороту - это уже от книги будет зависеть. Я когда сканировал на нем Механику развития Светлова, сканировал разворотами, все хорошо помещалось.