1. Introducere.
O masina
de cautare (search engine) poate fi definita ca un produs software care
cauta dupa un index si ofera articolele gasite. Termenul "Search Engine"
este adeseori folosit pentru a desemna si alte componente cum sunt "Spider"
sau "Index", desi acestea sunt componente separate care lucreaza impreuna
cu o masina de cautare.
O
alta definitie identifica o masina de cautare cu un server sau o colectie
de servere dedicate indexarii paginilor WEB din Internet, stocarii informatiilor
obtinute si furnizarii de liste de pagini care corespund unei anumite interogari.
Informatiile de tip index sunt generate in mod obisnuit de catre componente
numite "Spider".
Exemple
de masini de cautare populare: Altavista, Excite, Hotbot, Infoseek, Lycos,
Northern Light si Webcrawler. O nota aparte o face site-ul Yahoo care este
un director, nu o masina de cautare. In acest sens, termenul "Search Engine"
este des folosit pentru a descrie impreuna si directoare si masini de cautare.
In pricipiu, un director se bazeaza pe o lista creata manual de adrese
de pagini, impartite pe diverse domenii si subdomenii.
O
componenta "Spider" (paianjen) este un program care scaneaza documente
si adauga informatia culeasa intr-un index. Indexul va lega adresa documentului
de cuvintele cheie si texul continut de document. Prin aceasta pregateste
de fapt informatia pentru motorul de cautare.
Procesul
prin care un "Spider" navigheaza prin spatul Web in cautarea paginilor
pe care sa le indexeze poarta numele de "Spidering". Succesul mai mare
sau mai mic al acestei operatii determina performanta (a se citi acuratetea)
unei masini de cautare. Deoarece spatiul Web contine o cantitate imensa
de informatie si, in plus, este foarte dinamic, un program Spider nu poate
niciodata sa isi incheie activitatea.
Programele
Spider vor face tot timpul un compromis intre numarul de pagini vizitate
si acuratetea informatiilor culese.
Denumirea
care se mai foloseste pentru a desemna un "Spider" este aceea de "Robot".
Termenul "Robot" insa este mai general si acopera, pe langa "Spider"-i
si programele de tip "Harvester", care extrag adrese de e-mail si alte
date din paginile Web vizitate sau variate alte sisteme de cautare inteligeta
in Web.
Termenul
"relevanta cautarii" specifica cat de apropiata este informatia provenita
din documentul rezultat dintr-o cautare, vizavi de ceea ce cauta utilizatorul.
Cuvantul
"Stemming" desemneaza abilitatea unei masini de cautare de a include in
interogare toate prefixele cu inteles de sine statator ale cuvantului cautat.
Spre exemplu, daca utilizatorul cauta dupa cuvantul "evenimentul" va primi
in rezultat si cautarea dupa cuvantul "eveniment".
2. Lista
cu cele mai utilizate masini de cautare.
 |
AltaVista - http://www.altavista.com
AltaVista este una dintre
cele mai vechi masini de cautare bazate pe inspectare automata. Ea a fost
lansata in decembrie 1995 de catre firma Digital, apoi a trecut in proprietatea
firmei Compaq (care a cumparat Digital in 1998). La momenul actual este
controlat de compania CMGI.
Indexul de pagini Web al sau este
unul dintre cele mai mari la momentul actual si, in plus, masina implementeaza
o serie de comenzi de cautare foarte puternice. AltaVista ofera de asemenea
si cautari pe domenii specifice, spre exemplu: "news search", "shopping
search" sau "multimedia search".
|
 |
Ask Jeeves - http://www.askjeeves.com
Ask Jeeves este un serviciu
de cautare bazat pe interventia umana. Isi propune sa directioneze utilizatorii
catre paginile care corespund unor intrebari puse in limbaj natural.
|
 |
Google - http://www.google.com
La momentul actual Google
este cea mai utilizata masina de cautare in Web. Ea ofera cea mai vasta
colectie de pagini indexate. Fata de alte masini, Google utilizeaza o metoda
de marcare a relevantei rezultatelor fata de interogarea pusa de utilizator.
Ideea consta in aprecierea unei pagini functie de cati oameni au considerat
necesar sa adauge in propriile pagini legaturi spre paginile respective.
Acest lucru este deosebit de util cand se cauta lucruri foarte generale
precum "cars" sau "travel".
Cel mai important punct forte al
sau este relevanta raspunsurilor la cautari. Din aceste motive, alte sisteme
precum Yahoo sau Netscape Search folosesc Google pentru cautare.
|
 |
HotBot - http://www.hotbot.com
HotBot a fost lansat in
1996 de catre Wired Digital apoi a fost cumparat de catre Lycos. El foloseste
serviciile DirectHit si Inktomi pentru a face cautarile.
|
 |
Northern Light - http://www.northernlight.com/
Northern Light (lumina
nordului) este o masina de cautare aparuta recent care s-a impus deja datorita
rapiditatii, multimii de pagini indexate si metodelor de selectie a paginilor
relevante relativ la interogari.
|
 |
Lycos - http://www.lycos.com
Lycos a fost lansata ca
o masina de cautare bazata pe o componenta Spider pentru culegerea informatiilor
despre paginile de Web. Ulterior, in 1999, ea a fost tranformata intr-un
director, similar cu Yahoo.
|
 |
MSN Search - http://search.msn.com
Microsoft MSN Search este
un serviciu de cautare tip director bazat pe LookSmart. De asemenea el
apeleaza suplimentar la motorul de cautare Inktomi si Direct Hit.
|
 |
Netscape Search - http://search.netscape.com
Netscape Search este un
serviciu tip director bazat pe proiectul Open Directory si pe baza de date
proprie numita "Smart Browsing". El exceleaza in listarea paginilor de
Web "oficiale". Rezultate secundare se obtin prin apelarea la serviciul
Google. De asemenea, prin portalul Netscape Netcenter se pot accesa si
alte masini de cautare.
|
 |
Yahoo - http://www.yahoo.com
Yahoo a fost lansat in
1994 si este, in acest moment, cel mai vechi si popular serviciu de cautare
de tip director. El are o buna reputatie in a ajuta utilizatorii in gasirea
informatiilor esentiale.
Secretul sau consta in faptul ca
o mare parte din munca este sustinuta de specialisti umani. In felul acesta
aprecierile despre relevanta informatiei este mult mai apropiata de gandirea
subiectiva umana. De fapt, Yahoo este cel mai mare ghid Web creat manual,
munca implicand aproximativ 150 de editori. Yahoo contine in directorul
sau peste 1000000 de pagini catalogate pe diverse categorii. Suplimentar,
in cazul in care nu sunt gasite rezultate proprii sau la sfarsitul acestora,
daca exista, Yahoo adauga rezultate obtinute prin apelarea la cautarea
prin masina Google.
|
3. Masini
de adunare a informatiilor (Metacrawlers).
Spre deosebire
de masinile de cautare obisnuite, masinile de tip Metacrawler nu cauta
in Web pentru a indexa informatia ci doar trimit interogarile utilizatorilor
catre mai multe masini de cautare simultan. Rezultatele sunt de obicei
mixate intr-un singur rezultat final.
In
continuare vor fi prezentate cele mai populare masini Metacrawler.
 |
Mamma - http://www.mamma.com
Un portal tip Metacrawler
foarte indragit de utilizatori.
|
 |
MetaCrawler - http://www.metacrawler.com
MetaCrawler este unul
dintre cele mai vechi servicii de acest gen. El a aparut in 1995 la University
of Washington, USA. MetaCrawler a fost ulterior cumparat de compania InfoSpace.
|
 |
Search.com - http://www.search.com
Search.com este o masina
de tip Metacrawler operata de CNET din 1999, provenind din mai vechea SearchSavy.
Ea ofera si cautare generala in spatiul Web si multe alte cautari specializate
pe domenii.
|
4. Masini
de cautare destinate copiilor.
Masinile
de cautare prezentate in aceasta sectiune utilizeaza toate editori umani
care filtreaza paginile indexate astfel incat sunt luate in considerare
doar cele cu continut considerat admisibil pentru copii.
 |
AOL NetFind Kids Only - http://webcenter.search.aol.com/kids/
Este o masina de tip director
fara continut nerecomandat minorilor.
|
 |
Ask Jeeves For Kids - http://www.ajkids.com/
La fel ca si "fratele"
sau mai mare, Ask Jeeves For Kids isi propune sa ofere pagini de Web care
raspund cat mai exact la o anumita intrebare scrisa in limbaj natural.
De asemenea, daca Ask Jeeves nu poate raspunde la o intrebare, ea va aduna
raspunsul de la variate alte masini de cautare, in maniera unui "Metacrawler".
La Ask Jeeves For Kids, nici un site care este cuprins in lista SurfWatch
nu va fi afisat.
|
 |
Yahooligans - http://www.yahooligans.com/
Yahoo pentru copii, in
special pentru cei cu varsta cuprinsa intre 7 si 12 ani. Toate paginile
sunt selectate manual astfel incat sa nu contina materiale nerecomandabile
minorilor. Yahooligans este de altfel si cel mai vechi director Web pentru
copii, fiind lansat in martie 1996.
|
 |
KidsClick! - http://sunsite.berkeley.edu/KidsClick!/
Creat de catre bibliotecari,
KidsClick cuprinde o lista de aproximativ 5000 de pagini impartite in diverse
categorii.
|
5. Tipuri
de cautari.
-
Cautarea
logica (Boolean search) - permite includerea sau excluderea din rezultat
a documentelor care contin, in titlul lor sau in descriere, anumite cuvinte
legate prin operatori logici precum AND, OR sau NOT.
-
Cautarea
conceptuala (Concept search) - permite cautarea documentelor legate relational
de cuvantul cautat, fara a fi neaparat necesar sa il includa.
-
Cautarea
completa dupa text (Full-text index) - permite cautarea intr-un index care
contine toate cuvintele din fiecare document catalogat.
-
Cautarea
Fuzzy (Fuzzy search) - cauta toate potrivirile posibile, chiar pentru cuvinte
scrise partial sau total gresit.
-
Cautarea
dupa cuvinte cheie (Keyword search) - permite cautarea dupa un set de cuvinte
cheie definite de creatorii paginilor indexate.
-
Cautarea
propozitionala (Phrase search) - cautarea documentelor care contin o anumita
propozitie sau fraza, asa cum este ea precizata de utilizator.
-
Cautarea
in proximitate (Proximity search) - cautarea se va face dupa mai multe
cuvinte aflate unul langa altul in ordinea specificata de utilizator.
6. Inregistrarea
unei pagini la masinile de cautare.
Termenul
"search engine submission" se refera la actiunea care trebuie facuta pentru
a asigura introducerea unei pagini Web in indexul diverselor masini de
cautare. Alt termen folosit in acelasi scop este "search engine registration".
Aparitia
pe lista unei masini nu presupune si primirea unui punctaj bun referitor
la relevanta paginii fata de anumite cuvinte cheie. Includerea paginii
in rezultatul unei cautari dupa acele cuvinte depinde de numarul total
de pagini indexate dupa acele cuvinte si de punctajul de relevanta obtinut
din partea programului de indexare.
Procedeul
de inregistrare in indexul unei masini de cautare este specific fiecarei
masini dar presupune in general adaugarea unor meta-informartii in pagina
HTML (se va folosi tagul).
Mai
multe informatii despre acest procedeu se pot obtine de la adresele:
7. Reguli
pentru a imbunatatii cautarea.
-
Folosirea
unor interogari cat mai specifice
Cu
cat interogarea care se pune este mai la obiect, cu atat rezultatul unei
cautari are o rata mai mare de relevanta. Spre exemplu, daca se cauta informatii
despre cum se rezolva instalarea unei placi S3 Trio 64V in sistemul de
operare Windows 95 nu se va incepe cautarea prin cuvinte separate precum
<<S3>> sau <<Windows>> etc. Cel mai bine este sa se porneasca
cu o propozitie cat mai apropiata de situatia reala, spre exemplu: <<Problem
with S3 Trio 64V graphic card instalation in Windows 95>>. Daca nu se gaseste
nici un raspuns la aceasta intrebare se poate incerca ceva in genul <<S3
Trio 64V Windows 98>> etc.
-
Fortarea
unui cuvant in rezultat, prin marcarea lui cu semnul '+'.
Majoritatea
masinilor de cautare vor include in rezultat toate paginile care sunt legate
de cel putin un cuvant din interogare. Daca se doreste selectarea doar
a paginilor care includ sigur anumite cuvinte din interogare, aceste cuvinte
trebuie marcate prin semnul '+'. Ex. Daca se doreste doar paginile despre
erorile din Windows 98 nu se va cauta <<Windows 98 bugs>> ci <<+Windows
+98 +bugs>>.
-
Excluderea
unui cuvant din rezultat, prin marcarea lui cu semnul '-'.
In
unele situatii se doreste excluderea din rezultat a paginilor care contin
un anumit cuvant. Spre exemplu daca dorim sa obtinem informatii despre
statul istoric Dacia se poate incerca o interogare in genul <<Dacia
-masina -automobil>>.
-
Utilizarea
ghilimelelor pentru cautarea pozitionala.
De
multe ori intereseaza obtinerea doar a acelor pagini in care anumite cuvinte
apar impreuna si in ordinea specificata in interogare. In cazul acesta
se vor include cuvintele dorinte in ghilimele. Spre exemplu, daca interogarea
este <<Mircea Popescu revolutie>> se va furniza ca si rezultat
si o pagina care contine propozitia "Mircea Ionescu si Grigore Popescu
au scris in 1991 un articol despre revolutie". Acest lucru nu se intampla
daca interogarea este <<"Mircea Popescu" revolutie>>.
8. Concluzii.
Masinile
de cautare prezentate au si puncte slabe si puncte tari. Un lucru este
clar: nu exista nici o masina perfecta si, in acest context, marimea impresionanta
a indexului nu implica faptul ca masina respectiva este CEA MAI BUNA pentru
o cautare particulara. Facand repetat experiente cu diverse masini se poate
totusi forma o opinie despre cea mai buna masina la cautarea datelor dintr-un
anumit domeniu specific.
Chiar
daca uneori se pierde foarte mult timp la cautarea unei informatii datorita
rezultatelor de multe ori cu relevanta scazuta oferite de masinile de cautare,
este aproape imposibil sa se imagineze utilizarea spatiului Web fara aceste
masini.
9. Resurse
suplimetare.
A
Helpful Guide To Web Search Engines
Search
Engine Watch: Tips About Internet Search Engines & Search Engine Submission
Search
Engines - What they Are, How They Work, and Practical Suggestions for Getting
the Most Out of Them
[ Back
] |