De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.
Colaboração: Rubens Queiroz de Almeida
Data de Publicação: 02 de Dezembro de 1999
Frequentemente eu me vejo na necessidade de fazer o download de documentos referenciados em outros documentos. Ou seja, eu preciso obter para download todos os documentos referenciados em uma página html.
Uma aplicação que faz isto muito bem é o lynx, o browser Web orientado a caracter. A primeira coisa a fazer é salvar a página original, que contém os links desejados:
lynx -dump http://www.dicas-l.com.br/hotlinks/Linux/index.html > idx.html
Eu estou fazendo neste caso o download da página de hotlinks sobre Linux da Dicas-L. Está página contém vários links de documentos que me interessam. O lynx gera, no final do arquivo criado uma lista de referências a todas as URLs encontradas no documento:
References 1. http://www.unicamp.br/ibest2000.html 2. http://www.dicas-l.com.br/ 3. http://www.dicas-l.com.br/hotlinks/index.html ...
Primeiramente removo todas as linhas acima das referências e em seguida faço uma análise dos links desejados, removo a numeração no início da linha. Em seguida, através de um simples shell script, crio um arquivo contendo todos os documentos que me interessam:
#!/bin/sh for url in ""cat idx.html"" do lynx -dump $url >> linux.txt done
Todos os documentos são gravados, um após o outro, no arquivo linux.txt. Basta imprimir então e levar para ler onde lhe convier.
É claro que este método salva as páginas Web em formato texto, mas neste caso o que interessa é o conteúdo, certo?
Certamente existem várias outras formas de se fazer isto, possivelmente até mais simples. Sou todo ouvidos ;-)
This policy contains information about your privacy. By posting, you are declaring that you understand this policy:
This policy is subject to change at any time and without notice.
These terms and conditions contain rules about posting comments. By submitting a comment, you are declaring that you agree with these rules:
Failure to comply with these rules may result in being banned from submitting further comments.
These terms and conditions are subject to change at any time and without notice.
Comentários