De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.
Colaboração: Rubens Queiroz de Almeida
Data de Publicação: 21 de julho de 2015
GNU Libextractor é uma biblioteca utilizada para extrair metadados de arquivos. Visa oferecer a desenvolvedores de redes de compartilhamento de arquivos, browsers ou bots indexadores da web com uma biblioteca universal para obter palavras chave simples e metadados para compará-los a consultas e para exibir aos usuários, ao invés de confiar apenas nos nomes dos arquivos.
O comando extract
, de autoria de Christian Grothoff, pode ser utilizado
para extrair estes metadados utilizando a biblioteca GNU Libextractor.
O programa oferece suporte para os formatos HTML, MAN, PS, DVI, OLE2 (DOC,
XLS, PPT), OpenOffice (sxw), StarOffice (sdw), FLAC, MP3 (ID3v1 e ID3v2),
OGG, WAV, S3M (Scream Tracker 3), XM (eXtended Module), IT (Impulse Tracker),
NSF(E) (NES music), SID (C64 music), EXIV2, JPEG, GIF, PNG, TIFF, DEB, RPM,
TAR(.GZ), LZH, LHA, RAR, ZIP, CAB, 7-ZIP, AR, MTREE, PAX, CPIO, ISO9660,
SHAR, RAW, XAR FLV, REAL, RIFF (AVI), MPEG, QT e ASF. Adicionalmente, vários
tipos mime são também detectados.
Para obter uma lista de todas as palavras chave disponíveis, digite:
extract -L
Por exemplo, para obter as informações a respeito de um arquivo de imagem:
extract ~/roda.gif Keywords for file /home/queiroz/roda.gif: mimetype - image/png image dimensions - 290x292 mimetype - image/png video dimensions - 290x292 pixel aspect ratio - 1/1
Para obter as informações em uma única linha, em um formato grep friendly, utilize
a diretiva "-g
":
extract -g ~/roda.gif /home/queiroz/roda.gif `image/png' `290x292' `image/png' `290x292' `1/1'
Podemos usar o comando extract também com arquivos texto, como os arquivos no formato odt, da suíte de escritórios libreoffice:
extract ginastica_ocular.odt Keywords for file ginastica_ocular.odt: embedded filename - mimetype embedded filename - Pictures/100000000000015D000000B02C73B57E.png embedded filename - Pictures/1000000000000285000005577B082D9E.png embedded filename - Pictures/100000000000025C000003D7AB05B419.png (... várias linhas omitidas ...) embedded filename - meta.xml embedded filename - settings.xml embedded filename - content.xml embedded filename - Thumbnails/thumbnail.png embedded filename - layout-cache embedded filename - manifest.rdf embedded filename - Configurations2/images/Bitmaps/ embedded filename - Configurations2/accelerator/current.xml embedded filename - styles.xml embedded filename - META-INF/manifest.xml format - ZIP 2.0 (uncompressed) mimetype - application/vnd.oasis.opendocument.text created by software - LibreOffice/4.1.0.4$Linux_X86_64 LibreOffice_project/89ea49ddacd9aa532507cbf852f2bb22b1ace28 page count - 57 unknown date - 2014-01-03T16:44:14.311337363 creator - Rubens Queiroz de Almeida
Para instalar em sistemas Debian GNU/Linux e derivados, digite:
sudo apt-get install extract
man extract
This policy contains information about your privacy. By posting, you are declaring that you understand this policy:
This policy is subject to change at any time and without notice.
These terms and conditions contain rules about posting comments. By submitting a comment, you are declaring that you agree with these rules:
Failure to comply with these rules may result in being banned from submitting further comments.
These terms and conditions are subject to change at any time and without notice.
Comentários