Облако тегов:

2е блюдо (1) альбом (14) анимация (1) биссероплетение (10) блокнот (3) браузер (2) бумага (13) видео (1) вирус (1) витражи (1) выпечка (1) вязание (43) гадание (3) глина (1) декор (2) делаем (4) диски (2) е-версии (1) журналы/газеты (1) закон РФ (2) запуск (1) зубочистки (1) интересно (1) картинки (1) квиллинг (4) квилтинг (4) классно (13) команды (1) композиция (1) конвертор (2) коробочка (17) кружево (1) крючок (7) кукла (3) кулинария (1) кусудама (3) лепим (1) литература (1) лого (1) манга (1) мультиварка (2) нитка (1) новый год (2) носки (17) обучение (1) оптимизация (1) оригами (2) основы (4) открытка (13) папье-маше (1) ПД (2) пейзаж (1) переплет (2) перплет (2) платье (1) плетение (1) ПО (4) поделка (7) поделки (5) принтер (1) программирование (3) Р/м (1) рельеф (1) салаты (1) сингл (1) скачать (2) скорость интернета (1) спицехранилище (1) ссылки (1) сумка (7) тапочки (10) терминал (2) хлеб (1) холодный фарфор (2) цветок (2) цветы (7) шитьё (5) шрифт (1) шрифты (1) шьем (2) эволюция (1) autoit (1) bat (1) BellyDance (1) CD (4) scrapbooking (48) ubuntu (5) unix (1) windows (1)

4 сентября 2011 г.

Конвертирование DJVU и PDF в формат картинок

(c) СмоллПрогс.ру

В статье рассматривается вопрос о конвертировании DJVU файлов в TIFF и другие форматы.
С этого поста начинаю тему распознавания текста в Linux. Уважаемый читатель вряд ли понимает сейчас, причем тут распознавание текста. Дело в том, что я скачал в интернете электронную книгу в формате DJVU, но читать в таком варианте мне не удобно, хочу распечатать, да и много текста из этого файла мне нужно вставить в текстовый редактор для последующей обработки. Книга, естественно, сканированная и не распознанная, то есть каждая страница представлена как картинка (хорошего качества). Ну, думаю, проблемы с распознаванием не будет. Не тут то было! Программа для распознавания текста просто не умеет работать с DJVU форматом, но умеет работать с TIFF. Как конвертировать один DJVU в отдельные файлы формата TIFF?
Много времени я провел на просторах интернета в поиске ответа на свой вопрос, но практически ничего полезного не нашел. На помощь мне пришел уважаемый suslikk, который написал скрипт, конвертирующий DJVU в TIFF. Пользователю не обязательно разбираться в скритинге и знать Linux как свои пять пальцев, чтобы воспользоваться нижеприведенным скриптом.
Если надо конвертировать PDF, то сначала конвертируем его в DJVU:

sudo apt-get install pdf2djvu
pdf2djvu -o файл_на_выходе.djvu файл_который_конвертируем.pdf
Перейдем к практической части. Создадим каталог с любым названием, например, djvu2tiff, в нем создаем еще два каталога: input и output. Переместим файл с расширением *.djvu, который хотим конвертировать, в папку input.
Открываем текстовый редактор, вставляем туда нижеприведенный код:

#!/bin/bash
pageStart=1 #с какой страницы начать конвертировать
pageEnd=10 #до этой страницы будет конвертировать
cd input
for fileName in *.djvu; do
   fileExt=${fileName/*./''}
done
echo Конвертируем файл $fileName в рисунки tif...
for ((pageNum=$pageStart; pageNum <= $pageEnd ; pageNum++))
  do
    echo Конвертируеся страница $pageNum из $pageEnd...
    ddjvu -format=tiff -page=$pageNum -quality=100 $fileName ../output/${fileName%.$fileExt}$pageNum.tif
 done
Значения pageStart и pageEnd меняйте под себя, параметр -format может принимать следующие значения: pbm,pgm,ppm,pnm,rle,tiff. Сохраним файл в папку djvu2tiff под названием convert.sh. Теперь запускаем созданный скрипт двойным кликом или через терминал: sh convert.sh.

Комментариев нет:

Отправить комментарий