PageRank - serce algorytmu wyszukiwarki Google

PageRank to metoda nadawania indeksowanym stronom internetowym określonej wartości liczbowej, oznaczającej jej jakość. Na podstawie tej wartości ustalany jest ranking znalezionych stron w wyszukiwarce dla każdego zapytania.
Algorytm PageRank został opracowany przez założycieli firmy Google Larry'ego Page'a i Sergeya Brina podczas ich studiów na Uniwersytecie Stanforda w 1998 roku.
PageRank jest rozwinięciem znanej od dawna heurystyki, wedle której jakość tekstu jest proporcjonalna do ilości tekstów, które się na niego powołują. Rozwinięcie zaproponowane przez autorów Google polegało na ważeniu sumy linków wskazujących na rozpatrywany tekst ich własną wartością PageRank. Innymi słowy: jeśli na dany tekst powołuje się artykuł, który sam ma wysoką ocenę, ma to większe znaczenie niż gdy na ten sam tekst powołuje się mało popularna strona.

Wartość PageRank można obliczyć, stosując następujący wzór:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Zakładamy, że do pliku A prowadzą odsyłacze ze stron od T1 do Tn, d to współczynnik, który może przyjmować wartości od 0 do 1, zazwyczaj ustawiany jest na 0,85, a C(A) to liczba odnośników prowadzących z dokumentu A. Skąd wziąć wartości PR dla stron składowych? Chcąc je obliczyć, powstanie układ 4,3 mld równań z 4,3 mld niewiadomych. Jego rozwiązanie jest oczywiście niemożliwe. Dlatego nie da się precyzyjnie określić wartości PageRanku dla wszystkich dokumentów. Nie ma jednak takiej potrzeby. Internet bowiem cały czas się zmienia. Problem rozwiązano następująco: na początku wszystkim dokumentom nadano identyczne wartości PR, później na tej podstawie obliczono współczynniki i zaczęto obliczanie od nowa. W ten krokowy sposób można uzyskać współczynniki bliskie rzeczywistości.
Metody zbliżone do algorytmu PageRank są obecnie coraz śmielej wprowadzane do mechanizmów innych wyszukiwarek internetowych. Szczegóły właściwego algorytmu nigdy nie zostały upublicznione i są jednymi ze ściśle strzeżonych tajemnic Google. Do tego są najprawdopodobniej sukcesywnie zmieniane w celu dopracowania mechanizmu. Wszystkie informacje dostępne jawnie przedstawiają jedynie wzorcową wersję algorytmu stosowanego w wyszukiwarce Google. Ponadto PageRank jest tylko jednym z wielu elementów decydujących o ostatecznej pozycji danej strony wśród wyników wyszukiwania.

Autor:Tomasz Dziedzic o 18:23