você está aqui: Home → Colunistas → Segredos do Google
Colaboração: Giancarlo Rubio
Data de Publicação: 14 de Abril de 2006
O script abaixo serve para verificar como o google anda indexando suas paginas. O objetivo do script e preparar ao webalizer, o log do apache, de forma que ele possa ler apenas o que o Googlebot acessou.
Para instalar o webalizer, leia este excelente tutorial
Segue o script!
#!/bin/sh #Elaborado por Giancarlo Rubio #Melhorias/Sugestoes giancarlo.rubio dot pucpr.br #11/04/2006 # Aqui chamamos more para concatenar todo # seu log de acesso atente em mudar o diretorio # /home/site/logs para o do seu site # Utilizamos grep para Capturar a palavra Googlebot (assinatura do robo Google) # Dizemos que a saida deve ser gerada a um novo arquivo!! /usr/bin/more /home/site/logs/access_log \| grep Googlebot> /home/site/livronet/access_log_google
#Crie um arquivo site_google.conf no caso informando aonde esta seu arquivo de log /usr/local/bin/webalizer -c /etc/webalizer/site_google.conf
Uma boa ideia seria colocar no crontab para executar diário ou como desejar. È uma maneira muito simples de descobrir como essa importante ferramenta trabalha em nosso servidores.
Rubens Queiroz de Almeida é engenheiro eletricista, formado pela Universidade Federal de Juiz de Fora. Trabalha na Unicamp, no Centro de Computação, desde 1988. Colaborou em diversas edições da Revista do Linux, com artigos demonstrando a viabilidade e importância estratégica do software livre. É autor dos livros Linux - Dicas e Truques, As Palavras Mais Comuns da Língua Inglesa, Read in English - Uma Maneira Divertida de Aprender Inglês, e colaborou na confecção do livro A Leitura nos Oceanos da Internet.
Mantém os sites Aprendendo Inglês, EduLinks, Contando Histórias e a Dicas-L.
Para se manter atualizado sobre as novidades desta coluna, consulte sempre o newsfeed RSS
Para saber mais sobre RSS, leia o artigo O Padrão RSS - A luz no fim do túnel.