Inteligentne wyszukiwanie czyli trochę o clusteringu, który wchodzi w mainstream
Z bloga Filipa Teppera dowiedziałem się, że Google w swojej intranetowej wyszukiwarce wprowadziło ficzer klastrujący wyniki wyszukiwania.
O co chodzi? Clustering czy raczej Data Clustering to zagadnienie związane z dziedziną wiedzy nazwaną Data Mining czyli z polska "Eksploracją danych". Wg Wikipedii to: metoda tzw. klasyfikacji bez nadzoru (ang. unsupervised learning). Jest to metoda dokonująca grupowania elementów we względnie jednorodne klasy. Podstawą grupowania w większości algorytmów jest podobieństwo pomiędzy elementami - wyrażone przy pomocy funkcji (metryki) podobieństwa.
Clustering stosuje się między innymi przy kompresji. Ja jednak chce się skupić na wykorzystaniu Analizy skupień do grupowania wyników wyszukiwania zależności od znaczeń i kontekstów ich występowania.
Uprośćmy. Wpisując jakąś frazę do Google otrzymujemy wyniki, które są jakimś przeglądem tego co w Internecie miało jakiś związek z wpisaną przez nas frazą. Im fraza bardziej ogólna tym wyniki mniej odpowiadające naszym oczekiwaniom. Na przykład wpisując do Google słowo "mouse" otrzymujemy wyniki dot. myszy jako gryzonia, myszy komputerej i zespołu rockowego Modest Mouse. Wyniki są tak rozbieżne bo Google nie rozumie ani nie pyta o kontekst naszej frazy i podrzuca nam wszystko "jak leci" co zawiera żądaną frazę a kolejność wyników ustala na zasadzie page ranku, link popularity czy korzystając z jeszcze innego algorytmu.
Google nie bierze pod uwagę tego, że nam może chodzić o Mickey Mouse tylko zapomnieliśmy jej imienia ;). Chodzi więc o to, że Google nie powie nam nic o Mickey Mouse ponieważ nie sprecyzowaliśmy zapytania, zamiast podpowiedzieć nam zapytania które doprecyzują wyniki.
Skąd Google miałoby wiedzieć, że chodzi nam o Mickey Mouse albo, że w ogóle słowo "mouse" może występować w kontekście disneyowskiej postaci? Odpowiedź jest prosta: z samych wyników wyszukiwania dla frazy mouse.
Pierwszy raz o takim sposobie grupowania wyników dowiedziałem się z wpisu na blogu TheTarPit. MiMaS w komentarzach linkuje do ciekawej wyszukiwarki Clusty, a jednak to nie jedyna wyszukiwarka tego typu.
Przyjrzyjmy się jej i kilku innym