|
Infomaníaco
v.2 - n.3 - Maio/1998
InfoMatrix Informática Ltda.
Para incluir alguma informação, sugestões, críticas
e elogios para os próximos números, mande-nos um e-mail:


ARTIGO - Ferramentas de Busca - Parte II
por Alberto Levy Macedo
Guia internet.br 07/10/96
Um bom número de ferramentas de busca
trabalham com indexadores invertidos. Com isto, um computador consegue
construir um índice por palavras-chave para uma pequena biblioteca
em questão de minutos.
Um índice invertido é simplesmente uma grande tabela onde
as linhas representam os documentos e as colunas representam as palavras.
Se o documento "x" contém a palavra , então haverá
um binário 1 na linha "x", coluna "y" da tabela.
Para achar todos os documentos que contém uma palavra específica,
o computador simplesmente procura por 1s na coluna apropriada.
Pensemos agora, em relação a tamanho de dados. A Web hoje
contém algo entre 30 e 50 milhões de páginas. Dado
que em média uma página contém em torno de 500 palavras
ou 7 Kbytes de texto, podemos dizer que a Web contém entre 200
e 330 gigabytes de texto. E isto com um crescimento
mensal de 20 por cento.
Decorrem dois problemas: tempo de busca de informação e
armazenamento.
Sobre esses problemas, falaremos de uma outra ferramenta de busca - a
Inktomi, criada por um professor assistente da Universidade da Califórnia
de Berkeley, Eric Brewer e um aluno de graduação, Paul Gauthier.
O nome veio de uma aranha mitológica - Inktomi, e é um dos
maiores indexadores da Web, junto com Lycos e Alta Vista mas, ao contrário
destes, não requer um hardware de meio milhão de dólares.
Os indexadores da Web trabalham com "spiders" (aranhas) que
são programas que ficam percorrendo a Web começando de poucas
páginas e indo de link a link preenchendo sua tabela indexadora.
Inktomi aplica o chamado "hive computing" (colméia computacional).
A idéia é criar um super computador usando várias
estações de trabalho juntas. O resultado é barato
e rápido.
Inktomi trabalha dividindo o índice invertido de toda a Web em
4 Sun SPARCstation. Isto é poder computacional e memória
suficientes para lidar com um milhão de usuários por dia
e indexar vários milhares de documentos.
Não só isso, para percorrer a Rede inteira, só precisa
de três ou quatro dias. Quando uma estação está
ociosa, auxilia no trabalho de outra. O "spider" de Alta Vista,
por exemplo, visita 2,5 milhões de
sites por dia e tem em seus índices 21 milhões de sites.
Impressionante, não?
Juntando isso ao fato de a cada dia termos um desenvolvimento de poder
computacional, aumento da velocidade das redes e "spiders" mais
"inteligentes", resolvemos o problema de velocidade.
O outro ponto que paramos é o problema de armazenamento. Qual seria
o tamanho de um desse índices?
Em Inktomi, que usa técnicas para reduzir o tamanho da tabela,
um documento usa apenas 4 por cento de seu espaço original. O que
significa que mesmo quando a Web tiver um terabyte de texto, um índice
completo tomará apenas 41 gigabytes. Hoje compramos este espaço
em disco por menos de US$10.000.
Ainda restam problemas. Vimos que indexadores tem melhor performance que
catálogos e que estes tem a vantagem de trazerem consigo contextos,
isto é, não só a palavra chave, mas onde ela está
enquadrada.
Uma empresa, a Architext, procura solucionar o problema com um meio-termo:
sua ferramenta de busca, a Excite (http://www.excite.com/),
indexa a Web por conceitos em vez de palavras-chave. Criada em 1993, por
seis estudantes de Standford, Architext não dá muitas informações
de como funcionam nem entram na TREC (competição anual onde
ferramentas de busca competem).
Em sua opinião, o problema de busca de informação
pode ser resumido a dois pontos: sinônimos e homônimos. O
primeiro é problema pois uma procura por documentos contendo a
palavra "film" não achará documentos contendo
sinônimos como "movie". Homônimos (palavras que
tem a mesma
grafia mas com significados diferentes) são um problema, pois,
a procura retornará documentos contendo "film of oil".
A idéia do Excite é pegar o índice invertido da Web,
com linhas contendo documentos e colunas palavras-chave e comprimí-la
de tal forma que documentos com assuntos similares são agrupados.
Desta forma, dois documentos sobre filmes serão agrupados - mesmo
que um use a palavra "film" - pois terão outras palavras
em comum. Isto ataca o problema de sinônimos e homônimos.
Há outras ferramentas de busca, pois ainda é um terreno
a ser explorado. Algumas usam métodos de Inteligência Artificial,
outras, árvores binárias. Não importa se o método
é mais ou menos complexo, o objetivo é o mesmo: "amarrar"
a Web e, conseqüentemente, o conhecimento humano - o que vem sido
tentado há mais de dois mil anos.

NOTÍCIAS
Já saíram os novos nomes de domínio
para profissionais liberais. O Comitê Gestor bateu o martelo e,
a partir de 1° de maio, os novos DPNs (Domínios de Primeiro
Nível) entram no ar. Duas novidades: mais um DPN foi incluído:
o ".eti" (para especialistas em tecnologia da informação),
e o ".nom" para qualquer pessoa física.
Vamos ver como ficam os novos DPNs
.adv - advogados
.arq - arquitetos
.eng - engenheiros
.jor - jornalistas
.lel - leiloeiros
.med - médicos
.odo - dentistas, odontólogos
.psc - psicólogos
.vet - veterinários
.eti - informática
.inf - provedores de informação
Definição de Informação
O Computer Science and Telecomunications Board
(Conselho de Telecomunicações e Ciências da Computação)
e o National Research Council (Conselho Nacional de Pesquisa) tratam de
questões relacionadas à alfabetização em tecnologia
da informação. Conjuntos de perguntas foram
desenvolvidas por cientistas e engenheiros da área de computação
e comunicações, empregadores e profissionais sindicalizados,
bibliotecários, educadores K-12, etc., sobre a natureza e escopo
da
alfabetização em tecnologia da informação
e todos estão convidados a submeter suas respostas a essas questões
de forma sucinta. Visite http://www2.nas.edu/cstbweb/549a.html

SITES COMENTADOS
ORÁCULOS DIGITAIS
http://www.seleções.com.br/oraculos/
Feito pelo renomado Sérgio Charlab, este site contém uma
série de dicas sobre como explorar os mecanismos de busca existentes
na Internet, desde os mais conhecidos (como o Altavista e o Yahoo) até
outros mais desconhecidos como o NLightN ou os chamados "meta-orculos"
. Para quem
faz pesquisas na Internet é um verdadeiro achado. Basta entrar
no site e clicar no item "série completa" para receber
todos os tutoriais em modo .txt
100 SITES MAIS POPULARES DO BRASIL
http://www.seleções.com.br/top10/
Concorridíssimo e atualizado e, segundo o autor, feito sem votações
e cambalachos. Neste site, você vai encontrar a Home Page da Universidade
Federal do Paraná em 45°. lugar - ganhando disparado da Home
Page da Xuxa (que está em 65°. lugar). O site ainda trás
demais home pages que "correm por fora" do ranking e permite
que a pessoa possa conferir a situação de seu próprio
site ! De quebra, pode-se conseguir algumas seleções de
links para software, FTPs, notícias, chats, games e mecanismos
de busca. Um site para se colocar nos "favoritos"/"bookmarks".

HOT SITES - Diretório
Endereço dos principais jornais brasileiros.
JORNAL CORREIO DO POVO
http://www.cpovo.net/
Estado/Cidade: Rio Grande do Sul / Porto Alegre
Rapidez de acesso: Rápida
Imagens: Sim
JORNAL DA CIDADE
http://www.jcnet.com.br/
Estado/Cidade: São Paulo / Bauru
Rapidez de acesso: Média
Imagens: Sim
JORNAL DA PARAÍBA
http://www.openline.com.br/
Estado/Cidade: Campina Grande / Paraíba
Rapidez de acesso: Rápida
Imagens: Sim
JORNAL DA TARDE
http://www.jt.com.br/
Estado/Cidade: São Paulo / São Paulo
Rapidez de acesso: Rápida
Imagens: Sim
JORNAL DE SANTA CATARINA
http://www.santa.com.br/
Estado/Cidade: Santa Catarina / Blumenau
Rapidez de acesso: Rápida
Imagens: Sim
JORNAL DO BRASIL
http://www.santa.com.br/
Estado/Cidade: Rio de Janeiro / Rio de Janeiro
Rapidez de acesso: Rápida
Imagens: Sim
JORNAL INDÚSTRIA E COMÉRCIO
http://www.kanopus.com/~induscom/index.htm
Estado/Cidade: Paraná / Curitiba
Rapidez de acesso: Lenta
Imagens: Sim
JORNAL RIO PRETO
http://www.sjp.nutecnet.com.br/rponline/
Estado/Cidade: São Paulo / São José do Rio Preto
Rapidez de acesso: Rápida
Imagens: Sim
JORNAL UAI
http://www.ldc.com.br/uai/
Estado/Cidade: Minas Gerais / Uberaba
Rapidez de acesso: Rápida
Imagens: Sim

PODE ?
Impedindo Cópias Ilegais
de Filmes e de Músicas
A Intel, Sony, Matsushita,
Toshiba e Hitachi desenvolveram um plano de criptografia que impedirá
a criação de cópias ilegais de filmes e músicas
digitais recebidas via serviço de satélite, redes a cabo
ou pela Internet. (Los Angeles Times 18 fev 98 - E D U P A G E 19 de fevereiro
de 1998)

NÃO PODE !!
Biblioteca da Virginia Filtra Informações
aos Bibliotecários
O conselho da biblioteca de Loudon County, Virginia,
votou por 5 a 4 a favor da aplicação de filtros que impedirá
que os bibliotecários e demais adultos, tenham acesso a "material
pornográfico e obsceno" ou a correio eletrônico que
contenha sexo explícito ou salas virtuais de bate-papo na biblioteca.
O presidente da American Civil Liberties Union (União em Prol das
Liberdades Civis da América) chamou a política de "uma
violação direta aos direitos da Primeira Emenda da Constituição".
(Washington Post 22 out 97) E D U P A G E 23 de outubro de 1997.

DICAS DE HARDWARE
Verifique a qualidade de imagem do seu monitor
de vídeo através da Internet, usando os padrões de
teste da PC Magazine. Além dos seis testes básicos, estão
disponíveis preciosas dicas sobre como regular seu monitor. Faça
ajustes finos na nitidez e na resolução, acerte a intensidade
das cores, verifique se há distorções geométricas,
regule o foco e a convergência. Tudo isto pode ser feito no endereço
http://www.zdnet.com/pcmag/features/monitorsbig/test/_open.htm

DICAS DE SOFTWARE
Se você utiliza o browser da Netscape e
quiser mandar cópias de uma mensagem de e-mail para outras pessoas,
mas não deseja que os endereços destas sejam vistos pelas
demais, não use a opção "cc:", mas sim
"Bcc:" (que significa Blind Carbon Copy).

RIA SE PUDER
MÁQUINA REBELDE II
Usuário: Meu computador não funciona.
Técnico: A tela acende?
Usuário: Sim, mas quando digito os comandos eles não aparecem.
Técnico: Por favor, olhe para seu teclado e me diga que luzes estão
acesas.
Depois de algum tempo:
Usuário: Além desta daqui do meu quarto, só a luz
do corredor e a do hall lá de baixo.

COMO ASSINAR/ CANCELAR O INFOMANÍACO
Para assinar o "infomaníaco":
1. Envie uma mensagem para: 
2. No subject/assunto digite: INSCREVA INFOMANIACO
3. No corpo da mensagem indique: seu nome completo,
empresa/instituição, telefone, browser (navegador) e o
software utilizado para ler e-mail.
Para cancelar o "infomaníaco":
1. Envie uma mensagem para: 
2. No subject/assunto digite: CANCELA INFOMANIACO

InfoMatrix Informática Ltda.
Tel/fax: (041) 3369-2053
e-mail: 
|