De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.

Extração de Imagens de Arquivos PDF

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 28 de Setembro de 2004

O pacote xpdf, disponível na maioria das distribuições GNU/Linux, contém um utilitário chamado pdfimages, que permite extrair as imagens usadas na composição de um documento PDF.

As imagens podem ser extraídas no formato Portable Pixmap (PPM), Portable Bitmap (PBM), ou no formato JPEG, mais popular.

O padrão é que as imagens sejam extraídas no formato PBM (imagens não coloridas) ou PPM (imagens coloridas).

A sintaxe é bastante simples, algo como:

$ pdfimages arquivo.pdf figuras

Se quisermos salvar as imagens no formato jpeg:

$ pdfimages -j arquivo.pdf figuras

A diretiva figuras indica o prefixo com o qual as imagens serão criadas. Em nosso exemplo, onde o prefixo chama-se figuras, serão criados arquivos com os nomes figuras-001.jpg, figuras-002.jpg, e assim por diante.

Adicionar comentário

* Campos obrigatórios
5000
Powered by Commentics

Comentários (1)

Avatar
Novo

Dica excelente! Eu preciso transformar PDF digitalizados, ou seja, a página inteira é uma imagem (inclusive os textos) em páginas HTML. A parte que falta é extrair as imagens. Experimentarei esta dica para fazer meu trabalho de forma mais rápida! Obrigado e abraços, Queiroz!



Veja a relação completa dos artigos de Rubens Queiroz de Almeida