Mostrando entradas con la etiqueta ocr. Mostrar todas las entradas
Mostrando entradas con la etiqueta ocr. Mostrar todas las entradas

viernes, julio 12, 2013

Creando y manipulando PDFs desde la consola de Linux

Para reducir el peso de un documento PDF podemos utilizar Ghostscript:

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/ebook -dNOPAUSE -dQUIET -dBATCH -sOutputFile=final.pdf inicial.pdf


en lugar de /ebook podemos utilizar también:
  • /screen una resolución más baja.
  • /printer una resolución de calidad para impresión.
  • /prepress  una resolución de calidad para pre-impresión.
  • /default la resolución original.

También se puede utilizar la siguiente combinación de ordenes, pero no respeta el texto seleccionable en sengundo plano resultante de aplicar OCR sobre una imagen digitalizada:

pdf2ps inicial.pdf kk.ps
ps2pdf kk.ps final.pdf



Conversión de imágenes a PDF mediante la aplicación ImageMagick, partimos de imágenes en formato jpeg enumeradas consecutivamente, el tamaño del documento será de 1000x1374 pixeles por página:

convert *.jpg -page 1000x1374 -adjoin fichero.pdf


Conversión de un fichero PDF de texto a PDF de imágenes:

pdf2djvu -i salida.djvu mifichero.pdf
djvups salida.djvu temporal.ps
ps2pdf temporal.ps mificherodeimagenes.pdf

Conversión de imágenes TIFF a un documento PDF:

tiff2ps *.tiff | ps2pdf -sPAPERSIZE=a4  salida.pdf

Extraer imágenes de un PDF, (-j en formato jpg, -f   página inicial, -l página final):


pdfimages -f 1 -l 1 -j fichero.pdf imagenes