De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.


extract - extraindo meta-informações de arquivos

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 21 de julho de 2015

GNU Libextractor é uma biblioteca utilizada para extrair metadados de arquivos. Visa oferecer a desenvolvedores de redes de compartilhamento de arquivos, browsers ou bots indexadores da web com uma biblioteca universal para obter palavras chave simples e metadados para compará-los a consultas e para exibir aos usuários, ao invés de confiar apenas nos nomes dos arquivos.

O comando extract, de autoria de Christian Grothoff, pode ser utilizado para extrair estes metadados utilizando a biblioteca GNU Libextractor. O programa oferece suporte para os formatos HTML, MAN, PS, DVI, OLE2 (DOC, XLS, PPT), OpenOffice (sxw), StarOffice (sdw), FLAC, MP3 (ID3v1 e ID3v2), OGG, WAV, S3M (Scream Tracker 3), XM (eXtended Module), IT (Impulse Tracker), NSF(E) (NES music), SID (C64 music), EXIV2, JPEG, GIF, PNG, TIFF, DEB, RPM, TAR(.GZ), LZH, LHA, RAR, ZIP, CAB, 7-ZIP, AR, MTREE, PAX, CPIO, ISO9660, SHAR, RAW, XAR FLV, REAL, RIFF (AVI), MPEG, QT e ASF. Adicionalmente, vários tipos mime são também detectados.

Para obter uma lista de todas as palavras chave disponíveis, digite:

  extract -L

Por exemplo, para obter as informações a respeito de um arquivo de imagem:

  extract ~/roda.gif
  Keywords for file /home/queiroz/roda.gif:
  mimetype - image/png
  image dimensions - 290x292
  mimetype - image/png
  video dimensions - 290x292
  pixel aspect ratio - 1/1

Para obter as informações em uma única linha, em um formato grep friendly, utilize a diretiva "-g":

  extract -g ~/roda.gif
  /home/queiroz/roda.gif `image/png' `290x292' `image/png' `290x292' `1/1'

Podemos usar o comando extract também com arquivos texto, como os arquivos no formato odt, da suíte de escritórios libreoffice:

  extract ginastica_ocular.odt
  Keywords for file ginastica_ocular.odt:
  embedded filename - mimetype
  embedded filename - Pictures/100000000000015D000000B02C73B57E.png
  embedded filename - Pictures/1000000000000285000005577B082D9E.png
  embedded filename - Pictures/100000000000025C000003D7AB05B419.png
  (... várias linhas omitidas ...)
  embedded filename - meta.xml
  embedded filename - settings.xml
  embedded filename - content.xml
  embedded filename - Thumbnails/thumbnail.png
  embedded filename - layout-cache
  embedded filename - manifest.rdf
  embedded filename - Configurations2/images/Bitmaps/
  embedded filename - Configurations2/accelerator/current.xml
  embedded filename - styles.xml
  embedded filename - META-INF/manifest.xml
  format - ZIP 2.0 (uncompressed)
  mimetype - application/vnd.oasis.opendocument.text
  created by software - LibreOffice/4.1.0.4$Linux_X86_64 LibreOffice_project/89ea49ddacd9aa532507cbf852f2bb22b1ace28
  page count - 57
  unknown date - 2014-01-03T16:44:14.311337363
  creator - Rubens Queiroz de Almeida

Para instalar em sistemas Debian GNU/Linux e derivados, digite:

  sudo apt-get install extract

Veja também

Saiba mais

Adicionar comentário

* Campos obrigatórios
5000
Powered by Commentics

Comentários

Nenhum comentário ainda. Seja o primeiro!


Veja a relação completa dos artigos de Rubens Queiroz de Almeida