PageRank - serce algorytmu wyszukiwarki Google

PageRank to metoda nadawania indeksowanym stronom internetowym określonej wartości liczbowej, oznaczającej jej jakość. Na podstawie tej wartości ustalany jest ranking znalezionych stron w wyszukiwarce dla każdego zapytania.
Algorytm PageRank został opracowany przez założycieli firmy Google Larry'ego Page'a i Sergeya Brina podczas ich studiów na Uniwersytecie Stanforda w 1998 roku.
PageRank jest rozwinięciem znanej od dawna heurystyki, wedle której jakość tekstu jest proporcjonalna do ilości tekstów, które się na niego powołują. Rozwinięcie zaproponowane przez autorów Google polegało na ważeniu sumy linków wskazujących na rozpatrywany tekst ich własną wartością PageRank. Innymi słowy: jeśli na dany tekst powołuje się artykuł, który sam ma wysoką ocenę, ma to większe znaczenie niż gdy na ten sam tekst powołuje się mało popularna strona.

Wartość PageRank można obliczyć, stosując następujący wzór:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Zakładamy, że do pliku A prowadzą odsyłacze ze stron od T1 do Tn, d to współczynnik, który może przyjmować wartości od 0 do 1, zazwyczaj ustawiany jest na 0,85, a C(A) to liczba odnośników prowadzących z dokumentu A. Skąd wziąć wartości PR dla stron składowych? Chcąc je obliczyć, powstanie układ 4,3 mld równań z 4,3 mld niewiadomych. Jego rozwiązanie jest oczywiście niemożliwe. Dlatego nie da się precyzyjnie określić wartości PageRanku dla wszystkich dokumentów. Nie ma jednak takiej potrzeby. Internet bowiem cały czas się zmienia. Problem rozwiązano następująco: na początku wszystkim dokumentom nadano identyczne wartości PR, później na tej podstawie obliczono współczynniki i zaczęto obliczanie od nowa. W ten krokowy sposób można uzyskać współczynniki bliskie rzeczywistości.
Metody zbliżone do algorytmu PageRank są obecnie coraz śmielej wprowadzane do mechanizmów innych wyszukiwarek internetowych. Szczegóły właściwego algorytmu nigdy nie zostały upublicznione i są jednymi ze ściśle strzeżonych tajemnic Google. Do tego są najprawdopodobniej sukcesywnie zmieniane w celu dopracowania mechanizmu. Wszystkie informacje dostępne jawnie przedstawiają jedynie wzorcową wersję algorytmu stosowanego w wyszukiwarce Google. Ponadto PageRank jest tylko jednym z wielu elementów decydujących o ostatecznej pozycji danej strony wśród wyników wyszukiwania.

Autor:Tomasz Dziedzic o 18:23  

Architektura systemu Google

Większość systemu została napisana w C lub C++ i działa na komputerach wyposażonych w system Linux. Roboty (crawlers) mają za zadanie pobierać strony WWW, których adres otrzymują od Serwera URL. Następnie skopiowane już pliki zostają skompresowane i wysłane do magazynu dokumentów (StoreServer). Każdy zbiór ma przydzielony unikatowy numer ID. Funkcje indeksowania i sortowania są wykonywane przez Indexer oraz Sorter. Pierwszy moduł pobiera dane z przechowalni, dekompresuje zapisane tam dokumenty i przetwarza je. Każdy plik jest przekształcany w rekordy nazywane trafieniami (hits). Znajdują się w nich: słowo, jego pozycja w dokumencie i rozmiar fontu.
Tak utworzone rekordy Indexer umieszcza w cylindrach. Drugim ważnym zadaniem wykonywanym przez Indexer jest przetwarzanie wszystkich odnośników występujących na pobranych przez Szperacza stronach i zapisywanie ich do Kotwicy. Znajdujące się tam dane zawierają informację, dokąd i skąd prowadzi odsyłacz, oraz opis, który przy nim występuje.
URL Resolver czyta rekordy z Kotwic, zamienia względne adresy URL na absolutne oraz nadaje im ID. Powiązane w ten sposób dane umieszczane są przez Indexera w Cylindrach i tam przechowywane. Dodatkowo URLresolver tworzy bazę odnośników (links), które są parą numerów ID. Służy ona właśnie do generowania rankingu stron (PageRank). Sorter pobiera Cylindry, które są ułożone rosnąco względem ID, i sortuje je ponownie, tworząc w ten sposób indeks odwrotny.
Najbliżej użytkownika jest Szukacz (Searcher), który jest uruchamiany przez serwer WWW, a następnie, korzystając z leksykonu utworzonego przez Indexer, odwrotnego indeksu oraz modułu wyliczającego PageRank odpowiada na zapytania użytkowników.
Potężnym wyzwaniem jest pobieranie stron, a Crawler jest najczulszym punktem w całym systemie Google'a. Jego zadaniem jest odwiedzanie setek tysięcy dokumentów. Szperacze są zazwyczaj uruchamiane po kilka jednocześnie, a każdy utrzymuje około 300 połączeń naraz. Z obsługą takiego ruchu nie radzą sobie serwery DNS. Dlatego każdy Szperacz dysponuje własną pamięcią DNS, dzięki czemu nie musi za każdym razem wysyłać zapytań do serwerów nazw. Pomimo szczegółowego opracowania systemu na etapie projektowania podczas pracy Szperaczy zdarzały się nieprzewidziane sytuacje, jak chociażby próba pobrania trwającej gry online, co generowało dużą ilość niepotrzebnych informacji.
Sprzęt, na którym działa system Google, to nie jeden potężny serwer, a farma złożona z około 15 000 komputerów klasy PC (najprawdopodobniej największy w tej chwili system komputerowy tego typu na świecie). Całość pracuje z systemem Linux. Część tych maszyn zajmuje się pobieraniem stron WWW (aplikacja Crawler). Zwykle wygląda to tak, że na początku połączenie ze skanowanym serwisem nawiązuje jeden lub dwa roboty. Następnego dnia pojawia się ich 8 lub 9, a każdy Szperacz odwiedza około 8 stron na serwerze. Ponownie zjawiają się za około tydzień, później znikają na dłużej. Jednak pobrana strona nie pojawia się od razu w rezultatach wyszukiwania. Z reguły można ją tam znaleźć po około miesiącu od wizyty botów. Taki cykl nazywany jest przez fanów wyszukiwarki "Google Dance" i trwa właśnie około 30 dni - po tym czasie informacje w bazie Google'a zostają odświeżone.
Kluczem do sukcesu jest spowodowanie, żeby wyniki wyszukiwania były jak najbardziej zbliżone do oczekiwań użytkownika, próbującego odnaleźć w Internecie potrzebną mu informację. Jak to osiągnąć? Google najpierw tworzy listę dokumentów, w których słowo kluczowe zostało użyte. Wyraz może wystąpić w tytule, URL-u, treści strony zapisany małą czcionką, wytłuszczony itp. Każde z tych miejsc lub atrybutów ma przyznaną określoną wagę, co w powiązaniu z systemem PageRank daje ostateczny wynik i powoduje umieszczenie strony na odpowiednim miejscu w rezultatach szukania.


http://www.chip.pl/arts/archiwum/n/sub/articlear_106902.html

Autor:Tomasz Dziedzic o 14:20  

Znaczenie wyszukiwarek w reklamie

> Czy widoczność w wyszukiwarkach wpływa na popularność strony?

Popularność wyszukiwarek staje się coraz większa. Wyszukiwarki obsługują dziś setki milionów zapytań dziennie. Można zatem śmiało stwierdzić, że promocja w wyszukiwarkach jest najskuteczniejszą i najważniejszą formą promocji w Internecie. Obecność w wyszukiwarkach bezpośrednio przekłada się na popularność strony i tym samym na prowadzoną przez nią sprzedaż on-line.

Grupa NPD (organizacja specjalizującą się w analizie procesu dokonywania zakupów oraz zachowań konsumentów) przeprowadziła badania, których celem było ustalenie efektywności różnych internetowych instrumentów marketingowych – między innymi wyszukiwarek. Co ustalono? Otóż prawdopodobieństwo zakupu określonych towarów lub usług przez konsumenta, który znalazł informacje o nich za pomocą wyszukiwarki internetowej, jest pięć razy większe niż w przypadku konsumenta sugerującego się bannerem reklamowym.

> Przez wyszukiwarkę łatwo dotrzeć do grupy docelowej

Tradycyjna reklama polega na nadawaniu komunikatów i próbie przekonania odbiorców do reklamowanego produktu. W wyszukiwarkach internetowych jest odwrotnie. Odbiorcy są nadawcami, komunikując swoje potrzeby. Dzięki wyszukiwarkom internauci trafiają na te strony, których szukają. Znajdują te produkty, które chcą kupić. Promocję w wyszukiwarkach cechuje więc skuteczne dotarcie do grupy docelowej.

> Obecność strony w wyszukiwarkach buduje wiarygodność marki

Badania na temat zachowań użytkowników wyszukiwarek dostarczają cennych informacji. Otóż okazuje się, ze 80% osób klika tylko na linki, które są zaprezentowane na pierwszej stronie wyników wyszukiwania.
Strona znajdująca się na czołowej pozycji w wyszukiwarkach, buduje wiarygodność swojej marki. Jest np. strona na pierwszej pozycji w Google dla frazy "tanie samochody". Dla internauty będzie to znaczyło, że ta strona rzeczywiście zawiera najlepsze oferty tanich samochodów. Przeciętny użytkownik internetu nie zna sposobu, w jaki Google tworzy ranking stron i nie wie, że można na ten ranking wpływać. Tak więc wypozycjonowaną domenę będzie kojarzył z frazą, przez którą stronę znalazł oraz będzie uważał, że jej oferta jest wiarygodna. Sytuacja ta również powoduje, że użytkownicy Internetu chętnie klikają w linki, wygenerowane przez wyszukiwarki w przeciwieństwie do agresywnej reklamy bannerowej.

Autor:Tomasz Dziedzic o 06:33 0 komentarze  

Historia rozwoju wyszukiwarek internetowych

1978r. BBS [Bulletin Board System] był prekursorem dzisiejszego Internetu.
Założony w 1978 roku, umożliwiał kontakt ludzi, których komputery wyposażone były w modemy. Mogli oni wysyłać wiadomości e-mail, przesyłać na serwer pliki i ściągać je.
Wiele BBS-ów w tamtych czasach wyposażonych było w skromne wyszukiwarki plików i innych BBS-ów (przypomnijmy, że w tamtych czasach pojęcie strony internetowej nie istniało). BBS-y stopniowo zaczynały łączyć się w sieci tworząc największą z nich – Fidonet. Popularność BBS-ów trwała w rozkwicie do połowy lat dziewięćdziesiątych.
W Polsce BBS-y zaczęły pojawiać się już w latach 80. Działały one jednak krótko - często nie dłużej niż tydzień. Na stałe zadomowiły się dopiero w latach 90 i trwały tak, aż do udostępnienia numeru dostępowego TP.

1979r. America Online/Prodigy
W 1979 roku w Ameryce powstają pierwsze komercyjne sieci komputerowe, takie jak America Online oraz Prodigy, które odpłatnie za pomocą własnego oprogramowania umożliwiają: wymianę danych pomiędzy użytkownikami, wyszukiwanie danych, wyszukiwanie plików, wyszukiwanie informacji tekstowych.
Powstają pierwsze bazy danych poszczególnych serwerów i informacji na nich zawartych.

1991r. GOPHER
W roku 1991 na uniwersytecie w Minnesocie powstaje przodek stron WWW i wyszukiwarek - Gopher. Swoja nazwę przyjął od szkolnej maskotki.
Działał on tylko w trybie tekstowym, a wyszukiwanie informacji polegało na nawigacji po hierarchicznym drzewku, tworzącym spis serwerów oraz dokumentów.

1993r. Excite
W 1993 po raz pierwszy zostaje uruchomiony projekt Architext, koordynowany przez pięciu studentów z Uniwersytety Stanford. Projekt ten w przyszłości przekształci się w jeden z większych pionierskich katalogów stron internetowych – Excite.
Excite oferuje ogromny wachlarz opcji, które umożliwiają lepsze dostosowanie samej wyszukiwarki do upodobań oraz wymogów użytkownika. Tworząc konto osobiste, można personalizować wyszukiwanie, uczyć wyszukiwarkę rozpoznawania naszych zainteresowań spośród poszczególnych kategorii, takich jak: muzyka, inżynieria, sztuki plastyczne, informacje naukowe, medycyna, astronomia, chemia, oraz innych dziedzin życia ludzkiego. Takie bogate opcje podnoszą wyniki wyszukiwania i zamieniają wyszukiwarkę w narzędzie przyjazne użytkownikowi.
W 1995 oficjalna strona serwisu Excite ujrzała światło dzienne.

1994r. Yahoo
Rok 1994 jest rokiem przełomowym. Powstaje pierwszy w Internecie z prawdziwego zdarzenia katalog stron internetowych, stworzony przez Jerry Yanga i Davida Filo – Yahoo.com. Jego poprzednikiem był EINet Galaxy, katalog stron internetowych tworzony ręcznie. Yahoo było projektem pobocznym a sama nazwa pochodzi od Yet Another Hierarchic Officious Oracle.

1994r. Webcrawler
Powstaje Webcrawler, profesjonalna pełnotekstowa wyszukiwarka stron World Wide Web, która potrafi przeszukiwać całą zawartość strony internetowej, nie biorąc przy tym pod uwagę tylko takich składników kodu jak meta-tagi, etc.

1995r. Wirtualna Polska
W roku 1995 powstaje Wirtualna Polska. Jej struktura oraz mechanizmy działania stworzone zostają na wzór pochodzący z jednego z prekursora katalogów – Yahoo.com. Do dzisiaj WP jest jednym z najbardziej znanych serwisów - katalogów oraz wyszukiwarek stron internetowych w Polsce.
Pierwsza edycja Wirtualnej Polski została stworzona przez Leszka Bogdanowicza, a obsługiwały ją serwery Wydziału Elektrycznego Politechniki Gdańskiej.

1995r. Katalogi Sun Microsystem w Polsce
W roku 1995 powstaje strona SunSystem Polska. Grupuje ona zasoby naukowe, oświatowe, zgromadzone przez firmę Sun Microsystem. Serwery Sun'a zgromadziły w tym czasie spory zasób informacji mający na celu rozwój samego Internetu oraz informacje z pogranicza nauki i kultury.

1995r. Google
W roku 1995 powstaje największa dzisiaj wyszukiwarka stron internetowych na świecie. Założycielami są uniwersyteccy przyjaciele Larry Page i Sergey Bin.
Wkrótce z pobocznego projektu kilku entuzjastów powstaje wielka firma mająca stać się światowym liderem w indeksacji, gromadzeniu i wyszukiwaniu danych w sieci Internet.

1995r. Altavista
Wiosną 1995 roku naukowcy z Digital Equipment Corporation's Research lab w Palo Alto w Kalifornii zapoczątkowali działalność nowego systemu komputerowego Alpha 8400 TurboLaser, który potrafił obsługiwać bazy danych znacznie szybciej niż porównywalne systemy przetwarzania danych.
Narzędzie to potrafiło przetworzyć każde słowo z każdej strony internetowej w zdolny do przeszukiwania katalog stron WWW.

1996r. Netoskop i Sieciowid
W 1996 roku powstają pierwsze polskie wyszukiwarki stron internetowych: Netoskop oraz Sieciowid. Z powodów prawnych do dnia dzisiejszego działa nadal www.netoskop.pl. Netoskop z początku sponsorowany był przez miesięcznik komputerowy CHIP.
W dalszych miesiącach rozwoju tych dwóch prekursorów w wyszukiwaniu informacji w sieci Internet nastąpiła rywalizacja związana z prawami autorskimi i swoista bitwa o prawa do projektu. Całej sprawie pikanterii dodaje fakt, iż za kurtyną obydwu projektów stała ta sama grupa programistów i informatyków.
Po wielkiej batalii, ostateczną bitwę wygrywa Netoskop, a Sieciowid formalnie kończy swoją działalność. Warto zapamiętać wyszukiwarkę Sieciowid jako prekursora na rynku zdobywania informacji w sieci Internet.

1996r. Onet.pl
Z inicjatywy OptimusNet powstaje drugi [teraz pierwszy] co do wielkości serwis internetowy, katalog stron WWW oraz wyszukiwarka, ukierunkowana ściśle na polski Internet i polskie zasoby sieciowe.
Dzisiaj Onet.pl jest najbardziej znaną polską wyszukiwarką w sieci Internet. Jej baza oraz oferowane możliwości rozrosły się do olbrzymich rozmiarów. Wyszukiwarka pozwala przeszukiwać informacje w odrębnych katalogach, podzielonych tematycznie oraz merytorycznie, takich jak katalog stron prywatnych, obszerny katalog firm komercyjnych, katalog oprogramowania, i wiele innych.
Według prowadzonych statystyk, więcej niż połowa użytkowników Internetu w Polsce korzysta z serwisu onet.pl jako wyszukiwarki danych w sieci.

1998r. MSN Search
W roku 1998 staruje Microsoft Network Search - serwis giganta z Redmont poświęcony wyszukiwaniu danych w sieci Internet. Posiada własny spis tematyczny i szczegółowy indeks stron internetowych.

1999r. Oficjalna strona projektu Google
Google, firma która początkowo powstała w garażu, rozrosła się do rozmiarów sieciowego giganta. W 1999 roku startuje pierwsza oficjalna strona projektu Google.

2000r.Innowacje Google
Google wprowadza wiele innowacji w świecie mechanizmów wyszukiwania danych w Internecie. Powstaje Google-Toolbar - aplikacja pozwalająca korzystać z zasobów Google przez przeglądarkę Internet Explorer.
Google wprowadza po raz pierwszy linki sponsorowane, płatne reklamy. Wchodząc w kooperację z licznymi serwisami, czasem nawet wykupując całe firmy, staje się niekwestionowanym liderem w dziedzinie wyszukiwania danych.
Google wprowadza system AdWords – szybkie umieszczanie własnych danych, płatne poprzez kartę kredytową.

2002r. Google News
Google News pojawiły się w wersji beta, w październiku 2002 roku, oferując dostęp do ponad 4,500 wiodących serwisów newsów z całego świata.
Nagłówki, fotografie, wiadomości przetwarzane są automatycznie przez program komputerowy, który aktualizuje stronę w czasie rzeczywistym. Bezpłatne usługi pozwalają użytkownikom skanować, przeszukiwać i surfować z każdego linka nagłówka, do konkretnej treści news'a.

2002r. Google Froogle
Froogle to serwis umożliwiający wyszukiwanie poszczególnych produktów na stronach WWW czy w sklepach internetowych. Pozwala wyszukać fotografie interesujących nas produktów, ich ceny, porównać cenniki poszczególnych katalogów.

2004r. Innowacje MSN Search
Microsoft wprowadza nową technologie wyszukiwania danych w Internecie. Wyszukiwanie można spersonalizować dzięki funkcji Search Builder, która m.in. pozwala na ograniczenie wyników szukania według kraju, języka (na razie dostępnych 12 wersji językowych) oraz przez wskazanie, na ile adekwatne do wpisanej frazy mają być wyniki wyszukiwania (czyli czy wyszukiwarka ma szukać według wszystkich wpisanych słów, czy dokładnie w kolejności wpisu, czy też według jednego z nich).
Search Builder pozwala również na dobór wyników według ich aktualności, popularności i semantycznej precyzji.
W najnowszej wersji wyszukiwarki Microsoftu istnieje możliwość geograficznej personalizacji wyników wyszukiwania. Po ich wyświetleniu internauta może wybrać opcję "near me", czyli "blisko mnie" i wtedy wyszukiwarka dobierze wyniki bliskie jego IP lub wybranego przez internautę adresu.

Źródło: http://www.setia.pl/wyszukiwarki_historia_polskie_zasoby_internetowe.html

Autor:Tomasz Dziedzic o 06:22