Empresa
Contato
Home
  Produtos Serviços Ferramentas Equipe Clientes Infomaniaco    
 

Infomaníaco

v.2 - n.3 - Maio/1998
InfoMatrix Informática Ltda.

Para incluir alguma informação, sugestões, críticas e elogios para os próximos números, mande-nos um e-mail:


ARTIGO - Ferramentas de Busca - Parte II
por Alberto Levy Macedo
Guia internet.br 07/10/96

Um bom número de ferramentas de busca trabalham com indexadores invertidos. Com isto, um computador consegue construir um índice por palavras-chave para uma pequena biblioteca em questão de minutos.
Um índice invertido é simplesmente uma grande tabela onde as linhas representam os documentos e as colunas representam as palavras. Se o documento "x" contém a palavra , então haverá um binário 1 na linha "x", coluna "y" da tabela. Para achar todos os documentos que contém uma palavra específica, o computador simplesmente procura por 1s na coluna apropriada.
Pensemos agora, em relação a tamanho de dados. A Web hoje contém algo entre 30 e 50 milhões de páginas. Dado que em média uma página contém em torno de 500 palavras ou 7 Kbytes de texto, podemos dizer que a Web contém entre 200 e 330 gigabytes de texto. E isto com um crescimento
mensal de 20 por cento.
Decorrem dois problemas: tempo de busca de informação e armazenamento.
Sobre esses problemas, falaremos de uma outra ferramenta de busca - a Inktomi, criada por um professor assistente da Universidade da Califórnia de Berkeley, Eric Brewer e um aluno de graduação, Paul Gauthier.
O nome veio de uma aranha mitológica - Inktomi, e é um dos maiores indexadores da Web, junto com Lycos e Alta Vista mas, ao contrário destes, não requer um hardware de meio milhão de dólares.
Os indexadores da Web trabalham com "spiders" (aranhas) que são programas que ficam percorrendo a Web começando de poucas páginas e indo de link a link preenchendo sua tabela indexadora. Inktomi aplica o chamado "hive computing" (colméia computacional). A idéia é criar um super computador usando várias estações de trabalho juntas. O resultado é barato e rápido.
Inktomi trabalha dividindo o índice invertido de toda a Web em 4 Sun SPARCstation. Isto é poder computacional e memória suficientes para lidar com um milhão de usuários por dia e indexar vários milhares de documentos.
Não só isso, para percorrer a Rede inteira, só precisa de três ou quatro dias. Quando uma estação está ociosa, auxilia no trabalho de outra. O "spider" de Alta Vista, por exemplo, visita 2,5 milhões de
sites por dia e tem em seus índices 21 milhões de sites. Impressionante, não?
Juntando isso ao fato de a cada dia termos um desenvolvimento de poder computacional, aumento da velocidade das redes e "spiders" mais "inteligentes", resolvemos o problema de velocidade.
O outro ponto que paramos é o problema de armazenamento. Qual seria o tamanho de um desse índices?
Em Inktomi, que usa técnicas para reduzir o tamanho da tabela, um documento usa apenas 4 por cento de seu espaço original. O que significa que mesmo quando a Web tiver um terabyte de texto, um índice completo tomará apenas 41 gigabytes. Hoje compramos este espaço em disco por menos de US$10.000.
Ainda restam problemas. Vimos que indexadores tem melhor performance que catálogos e que estes tem a vantagem de trazerem consigo contextos, isto é, não só a palavra chave, mas onde ela está enquadrada.
Uma empresa, a Architext, procura solucionar o problema com um meio-termo: sua ferramenta de busca, a Excite (http://www.excite.com/), indexa a Web por conceitos em vez de palavras-chave. Criada em 1993, por seis estudantes de Standford, Architext não dá muitas informações de como funcionam nem entram na TREC (competição anual onde ferramentas de busca competem).
Em sua opinião, o problema de busca de informação pode ser resumido a dois pontos: sinônimos e homônimos. O primeiro é problema pois uma procura por documentos contendo a palavra "film" não achará documentos contendo sinônimos como "movie". Homônimos (palavras que tem a mesma
grafia mas com significados diferentes) são um problema, pois, a procura retornará documentos contendo "film of oil".
A idéia do Excite é pegar o índice invertido da Web, com linhas contendo documentos e colunas palavras-chave e comprimí-la de tal forma que documentos com assuntos similares são agrupados. Desta forma, dois documentos sobre filmes serão agrupados - mesmo que um use a palavra "film" - pois terão outras palavras em comum. Isto ataca o problema de sinônimos e homônimos.
Há outras ferramentas de busca, pois ainda é um terreno a ser explorado. Algumas usam métodos de Inteligência Artificial, outras, árvores binárias. Não importa se o método é mais ou menos complexo, o objetivo é o mesmo: "amarrar" a Web e, conseqüentemente, o conhecimento humano - o que vem sido tentado há mais de dois mil anos.


NOTÍCIAS

Já saíram os novos nomes de domínio para profissionais liberais. O Comitê Gestor bateu o martelo e, a partir de 1° de maio, os novos DPNs (Domínios de Primeiro Nível) entram no ar. Duas novidades: mais um DPN foi incluído: o ".eti" (para especialistas em tecnologia da informação), e o ".nom" para qualquer pessoa física.
Vamos ver como ficam os novos DPNs

.adv - advogados
.arq - arquitetos
.eng - engenheiros
.jor - jornalistas
.lel - leiloeiros
.med - médicos
.odo - dentistas, odontólogos
.psc - psicólogos
.vet - veterinários
.eti - informática
.inf - provedores de informação

Definição de Informação

O Computer Science and Telecomunications Board (Conselho de Telecomunicações e Ciências da Computação) e o National Research Council (Conselho Nacional de Pesquisa) tratam de questões relacionadas à alfabetização em tecnologia da informação. Conjuntos de perguntas foram
desenvolvidas por cientistas e engenheiros da área de computação e comunicações, empregadores e profissionais sindicalizados, bibliotecários, educadores K-12, etc., sobre a natureza e escopo da
alfabetização em tecnologia da informação e todos estão convidados a submeter suas respostas a essas questões de forma sucinta. Visite
http://www2.nas.edu/cstbweb/549a.html


SITES COMENTADOS

ORÁCULOS DIGITAIS
http://www.seleções.com.br/oraculos/
Feito pelo renomado Sérgio Charlab, este site contém uma série de dicas sobre como explorar os mecanismos de busca existentes na Internet, desde os mais conhecidos (como o Altavista e o Yahoo) até outros mais desconhecidos como o NLightN ou os chamados "meta-orculos" . Para quem
faz pesquisas na Internet é um verdadeiro achado. Basta entrar no site e clicar no item "série completa" para receber todos os tutoriais em modo .txt

100 SITES MAIS POPULARES DO BRASIL
http://www.seleções.com.br/top10/
Concorridíssimo e atualizado e, segundo o autor, feito sem votações e cambalachos. Neste site, você vai encontrar a Home Page da Universidade Federal do Paraná em 45°. lugar - ganhando disparado da Home Page da Xuxa (que está em 65°. lugar). O site ainda trás demais home pages que "correm por fora" do ranking e permite que a pessoa possa conferir a situação de seu próprio site ! De quebra, pode-se conseguir algumas seleções de links para software, FTPs, notícias, chats, games e mecanismos de busca. Um site para se colocar nos "favoritos"/"bookmarks".


HOT SITES - Diretório

Endereço dos principais jornais brasileiros.

JORNAL CORREIO DO POVO
http://www.cpovo.net/
Estado/Cidade: Rio Grande do Sul / Porto Alegre
Rapidez de acesso: Rápida
Imagens: Sim

JORNAL DA CIDADE
http://www.jcnet.com.br/
Estado/Cidade: São Paulo / Bauru
Rapidez de acesso: Média
Imagens: Sim

JORNAL DA PARAÍBA
http://www.openline.com.br/
Estado/Cidade: Campina Grande / Paraíba
Rapidez de acesso: Rápida
Imagens: Sim

JORNAL DA TARDE
http://www.jt.com.br/
Estado/Cidade: São Paulo / São Paulo
Rapidez de acesso: Rápida
Imagens: Sim

JORNAL DE SANTA CATARINA
http://www.santa.com.br/
Estado/Cidade: Santa Catarina / Blumenau
Rapidez de acesso: Rápida
Imagens: Sim

JORNAL DO BRASIL
http://www.santa.com.br/
Estado/Cidade: Rio de Janeiro / Rio de Janeiro
Rapidez de acesso: Rápida
Imagens: Sim

JORNAL INDÚSTRIA E COMÉRCIO
http://www.kanopus.com/~induscom/index.htm
Estado/Cidade: Paraná / Curitiba
Rapidez de acesso: Lenta
Imagens: Sim

JORNAL RIO PRETO
http://www.sjp.nutecnet.com.br/rponline/
Estado/Cidade: São Paulo / São José do Rio Preto
Rapidez de acesso: Rápida
Imagens: Sim

JORNAL UAI
http://www.ldc.com.br/uai/
Estado/Cidade: Minas Gerais / Uberaba
Rapidez de acesso: Rápida
Imagens: Sim


PODE ?

Impedindo Cópias Ilegais de Filmes e de Músicas

A Intel, Sony, Matsushita, Toshiba e Hitachi desenvolveram um plano de criptografia que impedirá a criação de cópias ilegais de filmes e músicas digitais recebidas via serviço de satélite, redes a cabo ou pela Internet. (Los Angeles Times 18 fev 98 - E D U P A G E 19 de fevereiro de 1998)


NÃO PODE !!

Biblioteca da Virginia Filtra Informações aos Bibliotecários

O conselho da biblioteca de Loudon County, Virginia, votou por 5 a 4 a favor da aplicação de filtros que impedirá que os bibliotecários e demais adultos, tenham acesso a "material pornográfico e obsceno" ou a correio eletrônico que contenha sexo explícito ou salas virtuais de bate-papo na biblioteca. O presidente da American Civil Liberties Union (União em Prol das Liberdades Civis da América) chamou a política de "uma violação direta aos direitos da Primeira Emenda da Constituição". (Washington Post 22 out 97) E D U P A G E 23 de outubro de 1997.


DICAS DE HARDWARE

Verifique a qualidade de imagem do seu monitor de vídeo através da Internet, usando os padrões de teste da PC Magazine. Além dos seis testes básicos, estão disponíveis preciosas dicas sobre como regular seu monitor. Faça ajustes finos na nitidez e na resolução, acerte a intensidade das cores, verifique se há distorções geométricas, regule o foco e a convergência. Tudo isto pode ser feito no endereço http://www.zdnet.com/pcmag/features/monitorsbig/test/_open.htm


DICAS DE SOFTWARE

Se você utiliza o browser da Netscape e quiser mandar cópias de uma mensagem de e-mail para outras pessoas, mas não deseja que os endereços destas sejam vistos pelas demais, não use a opção "cc:", mas sim "Bcc:" (que significa Blind Carbon Copy).


RIA SE PUDER

MÁQUINA REBELDE II

Usuário: Meu computador não funciona.
Técnico: A tela acende?
Usuário: Sim, mas quando digito os comandos eles não aparecem.
Técnico: Por favor, olhe para seu teclado e me diga que luzes estão acesas.
Depois de algum tempo:
Usuário: Além desta daqui do meu quarto, só a luz do corredor e a do hall lá de baixo.


COMO ASSINAR/ CANCELAR O INFOMANÍACO

Para assinar o "infomaníaco":
1. Envie uma mensagem para:
2. No subject/assunto digite: INSCREVA INFOMANIACO
3. No corpo da mensagem indique: seu nome completo,
empresa/instituição, telefone, browser (navegador) e o
software utilizado para ler e-mail.

Para cancelar o "infomaníaco":
1. Envie uma mensagem para:
2. No subject/assunto digite: CANCELA INFOMANIACO


InfoMatrix Informática Ltda.
Tel/fax: (041) 3369-2053
e-mail:

  v.2 n.1
v.2 n.2
v.2 n.4