Většině přítomných to přišlo jako lehká magie, proto jsem vytvořil stránky s názvem Mechanická popelka (http://www.mechanicalcinderella.com/), kde si můžete tutu jednoduchou metodu ověřit sami. Základem není tentokrát Jaccardův index, o němž jsem mluvil v přednášce, ale sofistikovanější "normalized Google distance". Také tento vzorec vychází ze vztahu samostatných výskytů slova a jeho souvýskytů, avšak doplňuje jej trochou komplikovanější matematiky. Podrobnosti si můžete přečíst v původní studii autorů vzorce Rudiho Cilibrasiho a Paula M. B. Vitanyiho.
Naše Popelka na TEDx měla za úkol roztřídit tyto značky: Google, Yahoo, Microsoft, BMW, Chevrolet a Jaguar. (Máme jen pět políček, a tak ponecháme Microsoft stranou, za což se mu omlouvám). Jak si poradí naše Mechanická Popelka? Výsledek můžete vidět zde. Čím je číslo v tabulce nižší, tím silněji jsou spolu slova spojována, tím mají k sobě blíže. Čísla se mohou pohybovat v intervalu 0 až přibližně 1,4. Díky barvičkám na první pohled vidíme dva silné shluky. Prvním je Google a Yahoo, druhým pak naši výrobci automobilů.
Nabízí se otázka, k čemu je taková věc "normálnímu člověku" dobrá. Otázka je to naprosto oprávněná a souvisí s tím, jak se mění náš přístup k internetu. Pokud začneme chápat internet jako jakési kolektivní vědomí, pak se naše Popelka může stát jedním ze způsobů jak se ho ptát. Dejme tomu že chceme vědět, se kterou z následujících zemí máme nejsilněji spojené slovo "dovolená":
Chorvatsko | Bulharsko | Rusko | Polsko | Angola | |
dovolená | 0.28532696 | 0.31441792 | 0.638793 | 0.67618915 | 1.31600954 |
Vidíme, že nejlépe dopadlo Chorvatsko, následované Bulharskem. Naopak Angola pro nás rozhodně s dovolenou spojena není. Další možností je podívat se, nakolik máme s výrobci spojené jejich výrobky, případně i hodnocení "nejlepší" a "nejhorší". Podotýkám, že nejde o nějaké objektivní vyhodnocení kvality, ale o to, jak jsou daná slova spojena s příslušnými značkami v našem kolektivním vědomí.
Acer | Asus | Dell | Sony | ||
netbook | 0.35800007 | 0.3266841 | 0.45478901 | 0.47944917 | |
notebook | 0.26631807 | 0.40387194 | 0.4695783 | 0.37106721 | |
best | 0.82109866 | 0.77081225 | 0.49510104 | 0.45805274 | |
worst | 1.05309145 | 1.08005446 | 1.03558973 | 0.95438995 |
Všiměme si, že Acer a Asus jsou silně spojeny s pojmy "netbook" a "notebook". Pokud však jde o pozitivní emoci spojenou se značkou, vítězí značky Dell a Sony. Co se týče negativního hodnocení, to je u všech značek podobně slabé. Jinými slovy: žadná není automaticky považována za špatnou, ale Dell a Sony jsou spojeny s větší kvalitou. Opět zdůrazňuji, že je řeč o kolektivním vědomí uživatelů netu, nikoli o objektivním faktu. Že jedna a tatáž značka k sobě může poutat silné pozitivní i negativní emoce, ostatně dokládá následující porovnání:
Apple | Microsoft | ||
good | 0.70586178 | 0.74145629 | 0.81755285 |
bad | 0.69155598 | 0.79771654 | 0.8291063 |
worst | 0.77489962 | 0.87146646 | 0.96386942 |
best | 0.55691428 | 0.69787407 | 0.60119018 |
Je zde dobře znát, že Apple k sobě váže kladné i záporné emoce silněji než zbylé dvě společnosti, což ostatně potvrzuje i naše běžná intuice.
Jak je vidět Mechanical Cinderella v sobě skrývá mnohem více možností než jen třídění. Záleží jen na představivosti každého uživatele, co z ní dokáže vyčíst.
6 komentářů:
Josefe, skvela aplikace, moc zajimave teoreticke pozadi.
Dik
Michal Blaha
OnTheRoad.To.
Jen bych, Josefe, nechtěl tvrdit, že čísla v matrixu vypovídají něco o společenském hodnocení skutečnosti.
Vypovídají jen o pravděpodobnosti, že se dva termíny objeví ve stejném textu. Dělat z toho jiný závěr (že máme nějaké dva termíny nejsilněji spojeny) mi přijde manipulativní.
Popelka se mi líbí a hledám způsob, k čemu ji prakticky využít.
Opravdu je tak signifikantní ještě osmé desetinné místo?
Neni. O kterem priklade mluvis, Honzo?
Na Seznamu máme podobný nástroj. Čísla nám tam vycházejí od nuly do jedničky (nula znamená nesouvislost) a pro Angolu asi nemáme dost dat nebo s dovolenou opravdu nesouvisí. Jinak to ale vyšlo podobně:
dovolena, chorvatsko 0.815
dovolena, bulharsko 0.776
dovolena, rusko 0.674
dovolena, polsko 0.681
dovolena, angola 0.000
To jsem rad. Ona ta normalized distance neni zavisla na konkretnim vyhledavaci. Lze provozovat nad libovalnym korpusem, premyslim, ze by bylo jeste pekne ji postavit nad Google Books.
Okomentovat