středa 3. února 2010

K čemu je dobrá Mechanická Popelka

Ve svém vstupu na pražském TEDx loni v prosinci jsem hovořil o přeměně internetu ze sítě v mraveniště a s tím spojeném nástupu principů kolektivní inteligence či kolektivního vědomí. Jako jeden z nejjednodušších příkladů, který zároveň dobře ukazuje, co se mění, mi posloužil příběh o Popelce, která uměla roztřídit značky internetových firem a značky výrobců aut, aniž by k tomu potřebovala vědět cokoli o autech nebo o internetovém obchodu. Jediné, co potřebovala, byla kalkulačka, okénko vyhledávače Google a znalost teorie pravděpodobnosti.

Většině přítomných to přišlo jako lehká magie, proto jsem vytvořil stránky s názvem Mechanická popelka (http://www.mechanicalcinderella.com/), kde si můžete tutu jednoduchou metodu ověřit sami. Základem není tentokrát Jaccardův index, o němž jsem mluvil v přednášce, ale sofistikovanější "normalized Google distance". Také tento vzorec vychází ze vztahu samostatných výskytů slova a jeho souvýskytů, avšak doplňuje jej trochou komplikovanější matematiky. Podrobnosti si můžete přečíst v původní studii autorů vzorce Rudiho Cilibrasiho a Paula M. B. Vitanyiho.

Naše Popelka na TEDx měla za úkol roztřídit tyto značky: Google, Yahoo, Microsoft, BMW, Chevrolet a Jaguar. (Máme jen pět políček, a tak ponecháme Microsoft stranou, za což se mu omlouvám). Jak si poradí naše Mechanická Popelka? Výsledek můžete vidět zde. Čím je číslo v tabulce nižší, tím silněji jsou spolu slova spojována, tím mají k sobě blíže. Čísla se mohou pohybovat v intervalu 0 až přibližně 1,4. Díky barvičkám na první pohled vidíme dva silné shluky. Prvním je Google a Yahoo, druhým pak naši výrobci automobilů.

Nabízí se otázka, k čemu je taková věc "normálnímu člověku" dobrá. Otázka je to naprosto oprávněná a souvisí s tím, jak se mění náš přístup k internetu. Pokud začneme chápat internet jako jakési kolektivní vědomí, pak se naše Popelka může stát jedním ze způsobů jak se ho ptát. Dejme tomu že chceme vědět, se kterou z následujících zemí máme nejsilněji spojené slovo "dovolená":

ChorvatskoBulharsko Rusko Polsko Angola
dovolená 0.28532696 0.31441792 0.638793 0.67618915 1.31600954


Vidíme, že nejlépe dopadlo Chorvatsko, následované Bulharskem. Naopak Angola pro nás rozhodně s dovolenou spojena není. Další možností je podívat se, nakolik máme s výrobci spojené jejich výrobky, případně i hodnocení "nejlepší" a "nejhorší". Podotýkám, že nejde o nějaké objektivní vyhodnocení kvality, ale o to, jak jsou daná slova spojena s příslušnými značkami v našem kolektivním vědomí.







Acer Asus Dell Sony
netbook 0.35800007 0.3266841 0.45478901 0.47944917
notebook 0.26631807 0.40387194 0.4695783 0.37106721
best 0.82109866 0.77081225 0.49510104 0.45805274
worst 1.05309145 1.08005446 1.03558973 0.95438995

Všiměme si, že Acer a Asus jsou silně spojeny s pojmy "netbook" a "notebook". Pokud však jde o pozitivní emoci spojenou se značkou, vítězí značky Dell a Sony. Co se týče negativního hodnocení, to je u všech značek podobně slabé. Jinými slovy: žadná není automaticky považována za špatnou, ale Dell a Sony jsou spojeny s větší kvalitou. Opět zdůrazňuji, že je řeč o kolektivním vědomí uživatelů netu, nikoli o objektivním faktu. Že jedna a tatáž značka k sobě může poutat silné pozitivní i negativní emoce, ostatně dokládá následující porovnání:





Apple Microsoft Google
good 0.70586178 0.74145629 0.81755285
bad 0.69155598 0.79771654 0.8291063
worst 0.77489962 0.87146646 0.96386942
best 0.55691428 0.69787407 0.60119018


Je zde dobře znát, že Apple k sobě váže kladné i záporné emoce silněji než zbylé dvě společnosti, což ostatně potvrzuje i naše běžná intuice.

Jak je vidět Mechanical Cinderella v sobě skrývá mnohem více možností než jen třídění. Záleží jen na představivosti každého uživatele, co z ní dokáže vyčíst.

6 komentářů:

Unknown řekl(a)...

Josefe, skvela aplikace, moc zajimave teoreticke pozadi.

Dik

Michal Blaha
OnTheRoad.To.

Anonymní řekl(a)...

Jen bych, Josefe, nechtěl tvrdit, že čísla v matrixu vypovídají něco o společenském hodnocení skutečnosti.

Vypovídají jen o pravděpodobnosti, že se dva termíny objeví ve stejném textu. Dělat z toho jiný závěr (že máme nějaké dva termíny nejsilněji spojeny) mi přijde manipulativní.

Popelka se mi líbí a hledám způsob, k čemu ji prakticky využít.

Jan Vaněk jr. řekl(a)...

Opravdu je tak signifikantní ještě osmé desetinné místo?

Josef Šlerka řekl(a)...

Neni. O kterem priklade mluvis, Honzo?

Yuhů řekl(a)...

Na Seznamu máme podobný nástroj. Čísla nám tam vycházejí od nuly do jedničky (nula znamená nesouvislost) a pro Angolu asi nemáme dost dat nebo s dovolenou opravdu nesouvisí. Jinak to ale vyšlo podobně:

dovolena, chorvatsko 0.815
dovolena, bulharsko 0.776
dovolena, rusko 0.674
dovolena, polsko 0.681
dovolena, angola 0.000

Josef Šlerka řekl(a)...

To jsem rad. Ona ta normalized distance neni zavisla na konkretnim vyhledavaci. Lze provozovat nad libovalnym korpusem, premyslim, ze by bylo jeste pekne ji postavit nad Google Books.