De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.
Colaboração: Rubens Queiroz de Almeida
Data de Publicação: 28 de Setembro de 2004
O pacote xpdf
, disponível na maioria das distribuições
GNU/Linux, contém um utilitário chamado pdfimages
,
que permite extrair as imagens usadas na composição de um
documento PDF.
As imagens podem ser extraídas no formato Portable Pixmap (PPM), Portable Bitmap (PBM), ou no formato JPEG, mais popular.
O padrão é que as imagens sejam extraídas no formato PBM (imagens não coloridas) ou PPM (imagens coloridas).
A sintaxe é bastante simples, algo como:
$ pdfimages arquivo.pdf figuras
Se quisermos salvar as imagens no formato jpeg:
$ pdfimages -j arquivo.pdf figuras
A diretiva figuras
indica o prefixo com o qual as imagens
serão criadas. Em nosso exemplo, onde o prefixo chama-se
figuras
, serão criados arquivos com os nomes
figuras-001.jpg
, figuras-002.jpg
, e assim por diante.
This policy contains information about your privacy. By posting, you are declaring that you understand this policy:
This policy is subject to change at any time and without notice.
These terms and conditions contain rules about posting comments. By submitting a comment, you are declaring that you agree with these rules:
Failure to comply with these rules may result in being banned from submitting further comments.
These terms and conditions are subject to change at any time and without notice.
Comentários (1)
Dica excelente! Eu preciso transformar PDF digitalizados, ou seja, a página inteira é uma imagem (inclusive os textos) em páginas HTML. A parte que falta é extrair as imagens. Experimentarei esta dica para fazer meu trabalho de forma mais rápida! Obrigado e abraços, Queiroz!