vrajitor.jpg (8928 bytes)

Cautarea de informatii pe Web

Numeroase site-uri web ofera facilitati de cautare, fie doar în interiorul site-ului respectiv, fie în întregul Web. La baza functionalitatii acestor site-uri stau programe speciale – roboti sau motoare de cautare – ce navigheaza pe Internet, introducând în baze de date dedicate informatii despre site-urile indexate. Acesta „luare în evidenta” simplifica operatiile ulterioare de cautare a unor informatii specifice.

Navigarea se realizeaza pornind de la o pagina specificata în general de autorul site-ului si efectuându-se o indexare a tuturor paginilor catre care exista linkuri din pagina web initiala sau dintr-o pagina deja indexata. Autorii site-urilor web au posibilitatea de a bloca indexarea anumitor parti ale sitului daca acest lucru este necesar, respectiv de a specifica o descriere pentru fiecare pagina si cuvinte cheie care vor fi utilizate în cursul cautarii. Dupa realizarea indexarii unele site-uri ofera o facilitate suplimentara, referitoare la organizarea într-o structura de directoare a site-urilor indexate; astfel se ofera utilizatorilor o metoda simpla de a ajunge la paginile cautate.

Fiecare dintre siturile de cautare permite cautarea pe baza unor cuvinte cheie – cuvinte care sunt descriu site-ul cautat –, prezentând o lista cu site-urile ce contin acele cuvinte. Adeseori, lista site-urilor prezentate este ordonata în functie de relevanta site-ului respectiv. În acest sens, se utilizeaza diversi indicatori: numarul de aparitii a cuvintelor cautate în site sau pagina web respectiva, numarul de link-uri ale altor site-uri catre acel site, numarul de persoane care (în urma efectuarii unei cautari similare) au vizitat site-ul respectiv etc.

În numeroase cazuri lista site-urilor rezultate dintr-o cautare este foarte mare, fiind dificila identificarea celor care contin informatiile dorite. Pentru evitarea acestui neajuns se utilizeaza în general cuvinte cheie potrivite si facilitati avansate de cautare.

Alegerea potrivita a cuvintelor cheie cu care se efectueaza cautarea micsoreaza vizibil numarul de rezultate returnate. Este posibila specificarea mai multor cuvinte cheie, separate de spatiu, desi, în functie de motorul de cautare utilizat, semnificatia difera: cea mai mare parte a acestora le interpreteaza ca doua cuvinte cheie care trebuie sa apara în pagina web returnata ca rezultat, dar altele le interpreteaza ca alternative – pagina web va contine oricare (unul) dintre cuvintele cheie specificate. În plus, fortarea cautarii unei fraze se poate realiza incluzând-o între ghilimele. Prin utilizarea unor facilitati de cautare avansata sunt posibile cautari mult mai precise.

De exemplu o cautare a Universitatii “Babes-Bolyai” efectuata pe site-ul www.google.com (unul dintre cele mai puternice la ora actuala), cu cuvântul cheie university a dus la gasirea a circa 49 de milioane de pagini ce contin cuvântul respectiv, identificarea paginii dorite fiind dificila. Prin adaugarea unui alt cuvânt cheie – cluj numarul acestora s-a redus la 15 mii. Dupa adaugarea prescurtarii UBB s-a obtinut o lista cu doar 103 de rezultate. Precum se poate observa, de la cele 50 de milioane de pagini s-a reusit restrângerea la circa 100 de rezultate, iar site-ul cautat – www.ubbcluj.ro se va afla direct pe prima pozitie.

Motorul de cautare www.google.com utilizeaza ordonarea listei rezultatelor în functie de relevanta, calculata pe baza numarului de link-uri catre paginile indexate (astfel, o pagina catre care exista numeroase link-uri în Internet este considerata a avea o relevanta mai mare decât o pagina catre care nu exista linkuri). Un numar mare de persoane autoare ale unor site-uri web considera ca aceasta metoda permite obtinerea de rezultate bune, relevante.

Cautarea avansata se bazeaza pe utilizarea unor cuvinte cheie si fraze, precum si a anumitor comenzi specifice, care permit specificarea unor caracteristici diverse: cuvintele care trebuie sa apara în mod obligatoriu în pagina, cuvinte partiale, indicarea faptului ca doua cuvinte trebuie sa se afle unul în apropierea celuilalt, utilizarea de operatori logici pentru indicarea unei cautari complexe, cautare doar în rezultatele obtinute etc. În continuare vor fi prezentate o parte dintre aceste optiuni de cautare avansata, care sunt în general comune tuturor motoarelor de cautare. Este recomandata totusi consultarea documentatiei fiecarui motor de cautare, pentru a se întelege modul de utilizare al fiecaruia. Sintaxa specificata mai jos este cea utilizata de motorul de cautare AltaVista (www.altavista.com).

AND, OR
AND NOT
Utilizate pentru construirea unei expresii booleaneExemplu: ubb AND cluj duce la cautarea paginilor ce contin cuvintele ubb si cluj. Unele motoare de cautare interpreteaza spatiul dintre cuvinte ca si AND, altele interpreteaza cuvintele separate de spatiu ca o fraza.
NEAR Indica daptul ca se doreste ca cele doua cuvinte separate sa fie învecinate în document.Exemplu: florin near bota duce la gasirea paginilor ce vor contine cele doua cuvinte, în orice ordine, despartite de maximum câteva cuvinte. Astfel vor fi eliminate paginile ce contin liste cu persoane si în care apare o persoana cu numele bota iar la o oarecare distanta în text – o alta, cu prenumele florin.
* Specifica faptul ca se doreste gasirea tuturor formelor similare (variatiilor) cuvântului respectiv.Exemplu: radio* duce la gasirea paginilor ce contin radio, radiotransmisie, radiologie etc.

Unele motoare de cautare permit si specificarea altor optiuni în cazul unei cautari avansate, cum ar fi: limba documentului, intervalul de timp în care trebuie sa fi fost creata pagina, configurarea sortarii rezultatelor etc.

Câteva reguli de baza pentru efectuarea unei cautari rapide ar fi urmatoarele:

  1. Introducerea cât mai multor cuvinte sau fraze care sunt cautate pentru a restrânge la maximum cautarea si a elimina rezultatele nerelevante (de exemplu o cautare pe AltaVista cu tele* AND NOT television duce la obtinerea tuturor paginilor ce contin cuvinte care încep cu tele, mai putin a celor în care apare cuvântul television, acestea fiind eliminate).
  2. Introducerea substantivelor la singular si a verbelor la infinitiv.
  3. Utilizarea de sinonime sau forme de scriere diferite în cazul în care se obtin prea putine rezultate (de exemplu se poate scrie Cluj-Napoca si Cluj Napoca).
  4. Utilizarea operatorilor booleani si a celor pentru indicarea învecinarii.

În cazul în care nu se cauta informatii specifice, se poate apela la navigarea într-o structura organizata pe subiecte cu site-uri (cum este cazul Yahoo – www.yahoo.com).

Printre cele mai cunoscute si mai puternice motoare de cautare se numara: www.google.com, www.excite.com, www.lycos.com, www.altavista.com, www.webcrawler.com, www.infoseek.com, www.yahoo.com.

Pentru România, deocamdata nu exista un motor de cautare real: cele care ofera astfel de servicii utilizeaza în general serviciile motoarelor de cautare sus mentionate sau sunt în faze de testare a propriului motor de cautare.