De acordo com as Leis 12.965/2014 e 13.709/2018, que regulam o uso da Internet e o tratamento de dados pessoais no Brasil, ao me inscrever na newsletter do portal DICAS-L, autorizo o envio de notificações por e-mail ou outros meios e declaro estar ciente e concordar com seus Termos de Uso e Política de Privacidade.
Colaboração: Rubens Queiroz de Almeida
Data de Publicação: 12 de Junho de 2003
Recentemente eu estive na USP, onde tive a oportunidade de assistir a uma palestra do Prof. Imre Simon, do IME. Nesta palestra ele nos mostrou um novo formato para digitalização de documentos chamado "Deja Vu".
Djvu é um formato para distribuição de documentos com foco na web. Pode substituir com vantagens formatos como PDF, PS, TIFF, etc para a distribuição de documentos scaneados, documentos digitais ou imagens de alta resolução.
O Prof. Imre nos mostrou um exemplo do uso deste formato por meio de um livro chamado "Aspectos Teóricos da Computação", escrito por Cláudio L. Lucchesi, Imre Simon, Istvan Simon, Janos Simon e Tomasz Kowaltowski. O livro foi digitalizado e convertido para o formato Djvu.
O livro digitalizado, em formato PDF, ocupa 20MB, já o mesmo livro, no formato djvu ocupa apenas 4MB, um quinto do total. Outra grande vantagem em relação a outros formatos, o download não é feito do documento inteiro, mas de suas partes. No caso do PDF você só consegue ver o documento após o download dos 40MB. Já com o djvu as páginas são carregadas individualmente, o que gera um tempo de espera equivalente à carga de uma página html normal, talvez um pouco mais.
Outra coisa interessante, acoplando-se o djvu a um software de reconhecimento de caracteres, é possível fazer busca textual. O software de OCR empregado pelo Prof. Imre em seu livro foi o Clara OCR, que embora ainda não faça um reconhecimento 100% dos caracteres, certamente contribui para exibir inequivocamente a eficácia de tal solução.
O software realmente é fantástico e o número de aplicações possíveis e imagináveis é enorme.
Todo o software usado no processo descrito é software livre, o que inclui todos os utilitários necessários para criar e manusear o formato djvu.
Para saber mais, veja a página do projeto em http://djvu.sourceforge.net/
A página do Prof. Imre Simon, da USP, onde se pode ver o software em ação fica em http://www.ime.usp.br/~is/atc/index.html
O software Clara OCR, desenvolvido por Ricardo Ueda (http://www.ime.usp.br/~ueda/), é licenciado sob a GPL e pode ser baixado no endereço http://www.claraocr.org/
This policy contains information about your privacy. By posting, you are declaring that you understand this policy:
This policy is subject to change at any time and without notice.
These terms and conditions contain rules about posting comments. By submitting a comment, you are declaring that you agree with these rules:
Failure to comply with these rules may result in being banned from submitting further comments.
These terms and conditions are subject to change at any time and without notice.
Comentários