(c) СмоллПрогс.ру
В статье рассматривается вопрос о конвертировании DJVU файлов в TIFF и другие форматы.
С этого поста начинаю тему распознавания текста в Linux. Уважаемый читатель вряд ли понимает сейчас, причем тут распознавание текста. Дело в том, что я скачал в интернете электронную книгу в формате DJVU, но читать в таком варианте мне не удобно, хочу распечатать, да и много текста из этого файла мне нужно вставить в текстовый редактор для последующей обработки. Книга, естественно, сканированная и не распознанная, то есть каждая страница представлена как картинка (хорошего качества). Ну, думаю, проблемы с распознаванием не будет. Не тут то было! Программа для распознавания текста просто не умеет работать с DJVU форматом, но умеет работать с TIFF. Как конвертировать один DJVU в отдельные файлы формата TIFF?
Много времени я провел на просторах интернета в поиске ответа на свой вопрос, но практически ничего полезного не нашел. На помощь мне пришел уважаемый suslikk, который написал скрипт, конвертирующий DJVU в TIFF. Пользователю не обязательно разбираться в скритинге и знать Linux как свои пять пальцев, чтобы воспользоваться нижеприведенным скриптом.
Если надо конвертировать PDF, то сначала конвертируем его в DJVU:
Открываем текстовый редактор, вставляем туда нижеприведенный код:
В статье рассматривается вопрос о конвертировании DJVU файлов в TIFF и другие форматы.
С этого поста начинаю тему распознавания текста в Linux. Уважаемый читатель вряд ли понимает сейчас, причем тут распознавание текста. Дело в том, что я скачал в интернете электронную книгу в формате DJVU, но читать в таком варианте мне не удобно, хочу распечатать, да и много текста из этого файла мне нужно вставить в текстовый редактор для последующей обработки. Книга, естественно, сканированная и не распознанная, то есть каждая страница представлена как картинка (хорошего качества). Ну, думаю, проблемы с распознаванием не будет. Не тут то было! Программа для распознавания текста просто не умеет работать с DJVU форматом, но умеет работать с TIFF. Как конвертировать один DJVU в отдельные файлы формата TIFF?
Много времени я провел на просторах интернета в поиске ответа на свой вопрос, но практически ничего полезного не нашел. На помощь мне пришел уважаемый suslikk, который написал скрипт, конвертирующий DJVU в TIFF. Пользователю не обязательно разбираться в скритинге и знать Linux как свои пять пальцев, чтобы воспользоваться нижеприведенным скриптом.
Если надо конвертировать PDF, то сначала конвертируем его в DJVU:
sudo apt-get install pdf2djvuПерейдем к практической части. Создадим каталог с любым названием, например, djvu2tiff, в нем создаем еще два каталога: input и output. Переместим файл с расширением *.djvu, который хотим конвертировать, в папку input.
pdf2djvu -o файл_на_выходе.djvu файл_который_конвертируем.pdf
Открываем текстовый редактор, вставляем туда нижеприведенный код:
#!/bin/bashЗначения pageStart и pageEnd меняйте под себя, параметр -format может принимать следующие значения: pbm,pgm,ppm,pnm,rle,tiff. Сохраним файл в папку djvu2tiff под названием convert.sh. Теперь запускаем созданный скрипт двойным кликом или через терминал: sh convert.sh.
pageStart=1 #с какой страницы начать конвертировать
pageEnd=10 #до этой страницы будет конвертировать
cd input
for fileName in *.djvu; do
fileExt=${fileName/*./''}
done
echo Конвертируем файл $fileName в рисунки tif...
for ((pageNum=$pageStart; pageNum <= $pageEnd ; pageNum++))
do
echo Конвертируеся страница $pageNum из $pageEnd...
ddjvu -format=tiff -page=$pageNum -quality=100 $fileName ../output/${fileName%.$fileExt}$pageNum.tif
done
Комментариев нет:
Отправить комментарий