De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.
Colaboração: Rubens Queiroz de Almeida
Data de Publicação: 22 de Fevereiro de 2002
Para converter documentos no formato HTML para texto puro podemos usar o lynx, que é um browser Web que emprega o formato texto.
Podemos empregar a seguinte sintaxe:
lynx -dump -nolist arquivo.html
Se você quiser converter milhares de documentos, você pode tentar algo do tipo:
#!/bin/bash for file in *.html do lynx -dump -nolist $file > ``echo $file | sed 's/html/txt/'`` done
ou ainda, para converter toda uma árvore de diretórios:
#!/bin/bash -x for file in ``find . -type f -name \*html`` do lynx -dump -nolist $file > ``echo $file | sed 's/html/txt/'`` done
Existem binários para diversas plataformas além do Unix, como Macintosh, Windows, VMS.
Mais informações sobre o Lynx podem ser encontradas em http://lynx.browser.org/
This policy contains information about your privacy. By posting, you are declaring that you understand this policy:
This policy is subject to change at any time and without notice.
These terms and conditions contain rules about posting comments. By submitting a comment, you are declaring that you agree with these rules:
Failure to comply with these rules may result in being banned from submitting further comments.
These terms and conditions are subject to change at any time and without notice.
Comentários