[ Back ]
 
Masini de cautare a informatiilor in spatiul Web
de Dan Pescaru
http://www.cs.utt.ro/~dan

1. Introducere.

O masina de cautare (search engine) poate fi definita ca un produs software care cauta dupa un index si ofera articolele gasite. Termenul "Search Engine" este adeseori folosit pentru a desemna si alte componente cum sunt "Spider" sau "Index", desi acestea sunt componente separate care lucreaza impreuna cu o masina de cautare.
O alta definitie identifica o masina de cautare cu un server sau o colectie de servere dedicate indexarii paginilor WEB din Internet, stocarii informatiilor obtinute si furnizarii de liste de pagini care corespund unei anumite interogari. Informatiile de tip index sunt generate in mod obisnuit de catre componente numite "Spider".
Exemple de masini de cautare populare: Altavista, Excite, Hotbot, Infoseek, Lycos, Northern Light si Webcrawler. O nota aparte o face site-ul Yahoo care este un director, nu o masina de cautare. In acest sens, termenul "Search Engine" este des folosit pentru a descrie impreuna si directoare si masini de cautare. In pricipiu, un director se bazeaza pe o lista creata manual de adrese de pagini, impartite pe diverse domenii si subdomenii.

 O componenta "Spider" (paianjen) este un program care scaneaza documente si adauga informatia culeasa intr-un index. Indexul va lega adresa documentului de cuvintele cheie si texul continut de document. Prin aceasta pregateste de fapt informatia pentru motorul de cautare.
Procesul prin care un "Spider" navigheaza prin spatul Web in cautarea paginilor pe care sa le indexeze poarta numele de "Spidering". Succesul mai mare sau mai mic al acestei operatii determina performanta (a se citi acuratetea) unei masini de cautare. Deoarece spatiul Web contine o cantitate imensa de informatie si, in plus, este foarte dinamic, un program Spider nu poate niciodata sa isi incheie activitatea.
Programele Spider vor face tot timpul un compromis intre numarul de pagini vizitate si acuratetea informatiilor culese.

Denumirea care se mai foloseste pentru a desemna un "Spider" este aceea de "Robot". Termenul "Robot" insa este mai general si acopera, pe langa "Spider"-i si programele de tip "Harvester", care extrag adrese de e-mail si alte date din paginile Web vizitate sau variate alte sisteme de cautare inteligeta in Web.

 Termenul "relevanta cautarii" specifica cat de apropiata este informatia provenita din documentul rezultat dintr-o cautare, vizavi de ceea ce cauta utilizatorul.

Cuvantul "Stemming" desemneaza abilitatea unei masini de cautare de a include in interogare toate prefixele cu inteles de sine statator ale cuvantului cautat. Spre exemplu, daca utilizatorul cauta dupa cuvantul "evenimentul" va primi in rezultat si cautarea dupa cuvantul "eveniment".

2. Lista cu cele mai utilizate masini de cautare.

  • AltaVista - http://www.altavista.com

  •  AltaVista este una dintre cele mai vechi masini de cautare bazate pe inspectare automata. Ea a fost lansata in decembrie 1995 de catre firma Digital, apoi a trecut in proprietatea firmei Compaq (care a cumparat Digital in 1998). La momenul actual este controlat de compania CMGI.
    Indexul de pagini Web al sau este unul dintre cele mai mari la momentul actual si, in plus, masina implementeaza o serie de comenzi de cautare foarte puternice. AltaVista ofera de asemenea si cautari pe domenii specifice, spre exemplu: "news search", "shopping search" sau "multimedia search". 

  • Ask Jeeves - http://www.askjeeves.com

  •  Ask Jeeves este un serviciu de cautare bazat pe interventia umana. Isi propune sa directioneze utilizatorii catre paginile care corespund unor intrebari puse in limbaj natural. 

  • Google - http://www.google.com

  •  La momentul actual Google este cea mai utilizata masina de cautare in Web. Ea ofera cea mai vasta colectie de pagini indexate. Fata de alte masini, Google utilizeaza o metoda de marcare a relevantei rezultatelor fata de interogarea pusa de utilizator. Ideea consta in aprecierea unei pagini functie de cati oameni au considerat necesar sa adauge in propriile pagini legaturi spre paginile respective. Acest lucru este deosebit de util cand se cauta lucruri foarte generale precum "cars" sau "travel".
    Cel mai important punct forte al sau este relevanta raspunsurilor la cautari. Din aceste motive, alte sisteme precum Yahoo sau Netscape Search folosesc Google pentru cautare. 

  • HotBot - http://www.hotbot.com

  •  HotBot a fost lansat in 1996 de catre Wired Digital apoi a fost cumparat de catre Lycos. El foloseste serviciile DirectHit si Inktomi pentru a face cautarile.

     

  • Northern Light - http://www.northernlight.com/

  •  Northern Light (lumina nordului) este o masina de cautare aparuta recent care s-a impus deja datorita rapiditatii, multimii de pagini indexate si metodelor de selectie a paginilor relevante relativ la interogari.

     

  • Lycos - http://www.lycos.com

  •  Lycos a fost lansata ca o masina de cautare bazata pe o componenta Spider pentru culegerea informatiilor despre paginile de Web. Ulterior, in 1999, ea a fost tranformata intr-un director, similar cu Yahoo. 

  • MSN Search - http://search.msn.com

  •  Microsoft MSN Search este un serviciu de cautare tip director bazat pe LookSmart. De asemenea el apeleaza suplimentar la motorul de cautare Inktomi si Direct Hit. 

  • Netscape Search - http://search.netscape.com

  •  Netscape Search este un serviciu tip director bazat pe proiectul Open Directory si pe baza de date proprie numita "Smart Browsing". El exceleaza in listarea paginilor de Web "oficiale". Rezultate secundare se obtin prin apelarea la serviciul Google. De asemenea, prin portalul Netscape Netcenter se pot accesa si alte masini de cautare. 

  • Yahoo - http://www.yahoo.com

  •  Yahoo a fost lansat in 1994 si este, in acest moment, cel mai vechi si popular serviciu de cautare de tip director. El are o buna reputatie in a ajuta utilizatorii in gasirea informatiilor esentiale.
    Secretul sau consta in faptul ca o mare parte din munca este sustinuta de specialisti umani. In felul acesta aprecierile despre relevanta informatiei este mult mai apropiata de gandirea subiectiva umana. De fapt, Yahoo este cel mai mare ghid Web creat manual, munca implicand aproximativ 150 de editori. Yahoo contine in directorul sau peste 1000000 de pagini catalogate pe diverse categorii. Suplimentar, in cazul in care nu sunt gasite rezultate proprii sau la sfarsitul acestora, daca exista, Yahoo adauga rezultate obtinute prin apelarea la cautarea prin masina Google.

    3. Masini de adunare a informatiilor (Metacrawlers).

    Spre deosebire de masinile de cautare obisnuite, masinile de tip Metacrawler nu cauta in Web pentru a indexa informatia ci doar trimit interogarile utilizatorilor catre mai multe masini de cautare simultan. Rezultatele sunt de obicei mixate intr-un singur rezultat final.

    In continuare vor fi prezentate cele mai populare masini Metacrawler.
     
  • Mamma - http://www.mamma.com

  •  Un portal tip Metacrawler foarte indragit de utilizatori.

     

  • MetaCrawler - http://www.metacrawler.com

  •  MetaCrawler este unul dintre cele mai vechi servicii de acest gen. El a aparut in 1995 la University of Washington, USA. MetaCrawler a fost ulterior cumparat de compania InfoSpace.

     

  • Search.com - http://www.search.com

  •  Search.com este o masina de tip Metacrawler operata de CNET din 1999, provenind din mai vechea SearchSavy. Ea ofera si cautare generala in spatiul Web si multe alte cautari specializate pe domenii.

    4. Masini de cautare destinate copiilor.

    Masinile de cautare prezentate in aceasta sectiune utilizeaza toate editori umani care filtreaza paginile indexate astfel incat sunt luate in considerare doar cele cu continut considerat admisibil pentru copii.
  • AOL NetFind Kids Only - http://webcenter.search.aol.com/kids/

  •  Este o masina de tip director fara continut nerecomandat minorilor.

     

  • Ask Jeeves For Kids - http://www.ajkids.com/

  •  La fel ca si "fratele" sau mai mare, Ask Jeeves For Kids isi propune sa ofere pagini de Web care raspund cat mai exact la o anumita intrebare scrisa in limbaj natural. De asemenea, daca Ask Jeeves nu poate raspunde la o intrebare, ea va aduna raspunsul de la variate alte masini de cautare, in maniera unui "Metacrawler". La Ask Jeeves For Kids, nici un site care este cuprins in lista SurfWatch nu va fi afisat.

     

  • Yahooligans - http://www.yahooligans.com/

  •  Yahoo pentru copii, in special pentru cei cu varsta cuprinsa intre 7 si 12 ani. Toate paginile sunt selectate manual astfel incat sa nu contina materiale nerecomandabile minorilor. Yahooligans este de altfel si cel mai vechi director Web pentru copii, fiind lansat in martie 1996.

     

  • KidsClick! - http://sunsite.berkeley.edu/KidsClick!/

  •  Creat de catre bibliotecari, KidsClick cuprinde o lista de aproximativ 5000 de pagini impartite in diverse categorii. 

    5. Tipuri de cautari.

    • Cautarea logica (Boolean search) - permite includerea sau excluderea din rezultat a documentelor care contin, in titlul lor sau in descriere, anumite cuvinte legate prin operatori logici precum AND, OR sau NOT.

    •  
    • Cautarea conceptuala (Concept search) - permite cautarea documentelor legate relational de cuvantul cautat, fara a fi neaparat necesar sa il includa.

    •  
    • Cautarea completa dupa text (Full-text index) - permite cautarea intr-un index care contine toate cuvintele din fiecare document catalogat.
    • Cautarea Fuzzy (Fuzzy search) - cauta toate potrivirile posibile, chiar pentru cuvinte scrise partial sau total gresit.

    •  
    • Cautarea dupa cuvinte cheie (Keyword search) - permite cautarea dupa un set de cuvinte cheie definite de creatorii paginilor indexate.

    •  
    • Cautarea propozitionala (Phrase search) - cautarea documentelor care contin o anumita propozitie sau fraza, asa cum este ea precizata de utilizator.

    •  
    • Cautarea in proximitate (Proximity search) - cautarea se va face dupa mai multe cuvinte aflate unul langa altul in ordinea specificata de utilizator.

    •  

    6. Inregistrarea unei pagini la masinile de cautare.

    Termenul "search engine submission" se refera la actiunea care trebuie facuta pentru a asigura introducerea unei pagini Web in indexul diverselor masini de cautare. Alt termen folosit in acelasi scop este "search engine registration".

    Aparitia pe lista unei masini nu presupune si primirea unui punctaj bun referitor la relevanta paginii fata de anumite cuvinte cheie. Includerea paginii in rezultatul unei cautari dupa acele cuvinte depinde de numarul total de pagini indexate dupa acele cuvinte si de punctajul de relevanta obtinut din partea programului de indexare.

     Procedeul de inregistrare in indexul unei masini de cautare este specific fiecarei masini dar presupune in general adaugarea unor meta-informartii in pagina HTML (se va folosi tagul).

     Mai multe informatii despre acest procedeu se pot obtine de la adresele:

    7. Reguli pentru a imbunatatii cautarea.

    • Folosirea unor interogari cat mai specifice

    •  Cu cat interogarea care se pune este mai la obiect, cu atat rezultatul unei cautari are o rata mai mare de relevanta. Spre exemplu, daca se cauta informatii despre cum se rezolva instalarea unei placi S3 Trio 64V in sistemul de operare Windows 95 nu se va incepe cautarea prin cuvinte separate precum <&ltS3>> sau <&ltWindows>> etc. Cel mai bine este sa se porneasca cu o propozitie cat mai apropiata de situatia reala, spre exemplu: <&ltProblem with S3 Trio 64V graphic card instalation in Windows 95>>. Daca nu se gaseste nici un raspuns la aceasta intrebare se poate incerca ceva in genul <&ltS3 Trio 64V Windows 98>> etc.
       

    • Fortarea unui cuvant in rezultat, prin marcarea lui cu semnul '+'.

    •  Majoritatea masinilor de cautare vor include in rezultat toate paginile care sunt legate de cel putin un cuvant din interogare. Daca se doreste selectarea doar a paginilor care includ sigur anumite cuvinte din interogare, aceste cuvinte trebuie marcate prin semnul '+'. Ex. Daca se doreste doar paginile despre erorile din Windows 98 nu se va cauta <&ltWindows 98 bugs>> ci <<+Windows +98 +bugs>>.
       

    • Excluderea unui cuvant din rezultat, prin marcarea lui cu semnul '-'.

    •  In unele situatii se doreste excluderea din rezultat a paginilor care contin un anumit cuvant. Spre exemplu daca dorim sa obtinem informatii despre statul istoric Dacia se poate incerca o interogare in genul <&ltDacia -masina -automobil>>.
       

    • Utilizarea ghilimelelor pentru cautarea pozitionala.

    •  De multe ori intereseaza obtinerea doar a acelor pagini in care anumite cuvinte apar impreuna si in ordinea specificata in interogare. In cazul acesta se vor include cuvintele dorinte in ghilimele. Spre exemplu, daca interogarea este <&ltMircea Popescu revolutie>> se va furniza ca si rezultat si o pagina care contine propozitia "Mircea Ionescu si Grigore Popescu au scris in 1991 un articol despre revolutie". Acest lucru nu se intampla daca interogarea este <<"Mircea Popescu" revolutie>>.

    8. Concluzii.

    Masinile de cautare prezentate au si puncte slabe si puncte tari. Un lucru este clar: nu exista nici o masina perfecta si, in acest context, marimea impresionanta a indexului nu implica faptul ca masina respectiva este CEA MAI BUNA pentru o cautare particulara. Facand repetat experiente cu diverse masini se poate totusi forma o opinie despre cea mai buna masina la cautarea datelor dintr-un anumit domeniu specific.

     Chiar daca uneori se pierde foarte mult timp la cautarea unei informatii datorita rezultatelor de multe ori cu relevanta scazuta oferite de masinile de cautare, este aproape imposibil sa se imagineze utilizarea spatiului Web fara aceste masini.
     

    9. Resurse suplimetare.

    A Helpful Guide To Web Search Engines

    Search Engine Watch: Tips About Internet Search Engines & Search Engine Submission

     Search Engines - What they Are, How They Work, and Practical Suggestions for Getting the Most Out of Them
     

    [ Back ]