De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.

Conversão HTML -> TXT com Lynx

Colaboração: Rubens Queiroz de Almeida

Data de Publicação: 22 de Fevereiro de 2002

Para converter documentos no formato HTML para texto puro podemos usar o lynx, que é um browser Web que emprega o formato texto.

Podemos empregar a seguinte sintaxe:

  lynx -dump -nolist arquivo.html

Se você quiser converter milhares de documentos, você pode tentar algo do tipo:

  #!/bin/bash
  
  for file in *.html
  do
  lynx -dump -nolist $file > ``echo $file | sed 's/html/txt/'``
  done

ou ainda, para converter toda uma árvore de diretórios:

  #!/bin/bash -x
   
  for file in ``find . -type f -name \*html``
  do
  lynx -dump -nolist $file > ``echo $file | sed 's/html/txt/'``
  done

Existem binários para diversas plataformas além do Unix, como Macintosh, Windows, VMS.

Mais informações sobre o Lynx podem ser encontradas em http://lynx.browser.org/

Adicionar comentário

* Campos obrigatórios
5000
Powered by Commentics

Comentários

Nenhum comentário ainda. Seja o primeiro!


Veja a relação completa dos artigos de Rubens Queiroz de Almeida