Na zkoušku z informační vědy jsem se pokusil dat dohromady teoretické pozadí Mechanické Popelky a vůbec nastínit tak základní směr mé dizertační práce. Pokud to někoho zajímá, tak práce je dispozici zde: Vyhledávače jako nástroje pro měření sémantické podobnosti a vzdálenosti slov. Budu rád za poznámky, nápady etc. Naopak doufám, že někomu bude text k užitku.
Zobrazují se příspěvky se štítkemsemantic distance. Zobrazit všechny příspěvky
Zobrazují se příspěvky se štítkemsemantic distance. Zobrazit všechny příspěvky
čtvrtek 4. března 2010
středa 3. února 2010
K čemu je dobrá Mechanická Popelka
Ve svém vstupu na pražském TEDx loni v prosinci jsem hovořil o přeměně internetu ze sítě v mraveniště a s tím spojeném nástupu principů kolektivní inteligence či kolektivního vědomí. Jako jeden z nejjednodušších příkladů, který zároveň dobře ukazuje, co se mění, mi posloužil příběh o Popelce, která uměla roztřídit značky internetových firem a značky výrobců aut, aniž by k tomu potřebovala vědět cokoli o autech nebo o internetovém obchodu. Jediné, co potřebovala, byla kalkulačka, okénko vyhledávače Google a znalost teorie pravděpodobnosti.
Většině přítomných to přišlo jako lehká magie, proto jsem vytvořil stránky s názvem Mechanická popelka (http://www.mechanicalcinderella.com/), kde si můžete tutu jednoduchou metodu ověřit sami. Základem není tentokrát Jaccardův index, o němž jsem mluvil v přednášce, ale sofistikovanější "normalized Google distance". Také tento vzorec vychází ze vztahu samostatných výskytů slova a jeho souvýskytů, avšak doplňuje jej trochou komplikovanější matematiky. Podrobnosti si můžete přečíst v původní studii autorů vzorce Rudiho Cilibrasiho a Paula M. B. Vitanyiho.
Naše Popelka na TEDx měla za úkol roztřídit tyto značky: Google, Yahoo, Microsoft, BMW, Chevrolet a Jaguar. (Máme jen pět políček, a tak ponecháme Microsoft stranou, za což se mu omlouvám). Jak si poradí naše Mechanická Popelka? Výsledek můžete vidět zde. Čím je číslo v tabulce nižší, tím silněji jsou spolu slova spojována, tím mají k sobě blíže. Čísla se mohou pohybovat v intervalu 0 až přibližně 1,4. Díky barvičkám na první pohled vidíme dva silné shluky. Prvním je Google a Yahoo, druhým pak naši výrobci automobilů.
Nabízí se otázka, k čemu je taková věc "normálnímu člověku" dobrá. Otázka je to naprosto oprávněná a souvisí s tím, jak se mění náš přístup k internetu. Pokud začneme chápat internet jako jakési kolektivní vědomí, pak se naše Popelka může stát jedním ze způsobů jak se ho ptát. Dejme tomu že chceme vědět, se kterou z následujících zemí máme nejsilněji spojené slovo "dovolená":
Vidíme, že nejlépe dopadlo Chorvatsko, následované Bulharskem. Naopak Angola pro nás rozhodně s dovolenou spojena není. Další možností je podívat se, nakolik máme s výrobci spojené jejich výrobky, případně i hodnocení "nejlepší" a "nejhorší". Podotýkám, že nejde o nějaké objektivní vyhodnocení kvality, ale o to, jak jsou daná slova spojena s příslušnými značkami v našem kolektivním vědomí.
Všiměme si, že Acer a Asus jsou silně spojeny s pojmy "netbook" a "notebook". Pokud však jde o pozitivní emoci spojenou se značkou, vítězí značky Dell a Sony. Co se týče negativního hodnocení, to je u všech značek podobně slabé. Jinými slovy: žadná není automaticky považována za špatnou, ale Dell a Sony jsou spojeny s větší kvalitou. Opět zdůrazňuji, že je řeč o kolektivním vědomí uživatelů netu, nikoli o objektivním faktu. Že jedna a tatáž značka k sobě může poutat silné pozitivní i negativní emoce, ostatně dokládá následující porovnání:
Je zde dobře znát, že Apple k sobě váže kladné i záporné emoce silněji než zbylé dvě společnosti, což ostatně potvrzuje i naše běžná intuice.
Jak je vidět Mechanical Cinderella v sobě skrývá mnohem více možností než jen třídění. Záleží jen na představivosti každého uživatele, co z ní dokáže vyčíst.
Většině přítomných to přišlo jako lehká magie, proto jsem vytvořil stránky s názvem Mechanická popelka (http://www.mechanicalcinderella.com/), kde si můžete tutu jednoduchou metodu ověřit sami. Základem není tentokrát Jaccardův index, o němž jsem mluvil v přednášce, ale sofistikovanější "normalized Google distance". Také tento vzorec vychází ze vztahu samostatných výskytů slova a jeho souvýskytů, avšak doplňuje jej trochou komplikovanější matematiky. Podrobnosti si můžete přečíst v původní studii autorů vzorce Rudiho Cilibrasiho a Paula M. B. Vitanyiho.
Naše Popelka na TEDx měla za úkol roztřídit tyto značky: Google, Yahoo, Microsoft, BMW, Chevrolet a Jaguar. (Máme jen pět políček, a tak ponecháme Microsoft stranou, za což se mu omlouvám). Jak si poradí naše Mechanická Popelka? Výsledek můžete vidět zde. Čím je číslo v tabulce nižší, tím silněji jsou spolu slova spojována, tím mají k sobě blíže. Čísla se mohou pohybovat v intervalu 0 až přibližně 1,4. Díky barvičkám na první pohled vidíme dva silné shluky. Prvním je Google a Yahoo, druhým pak naši výrobci automobilů.
Nabízí se otázka, k čemu je taková věc "normálnímu člověku" dobrá. Otázka je to naprosto oprávněná a souvisí s tím, jak se mění náš přístup k internetu. Pokud začneme chápat internet jako jakési kolektivní vědomí, pak se naše Popelka může stát jedním ze způsobů jak se ho ptát. Dejme tomu že chceme vědět, se kterou z následujících zemí máme nejsilněji spojené slovo "dovolená":
Chorvatsko | Bulharsko | Rusko | Polsko | Angola | |
dovolená | 0.28532696 | 0.31441792 | 0.638793 | 0.67618915 | 1.31600954 |
Vidíme, že nejlépe dopadlo Chorvatsko, následované Bulharskem. Naopak Angola pro nás rozhodně s dovolenou spojena není. Další možností je podívat se, nakolik máme s výrobci spojené jejich výrobky, případně i hodnocení "nejlepší" a "nejhorší". Podotýkám, že nejde o nějaké objektivní vyhodnocení kvality, ale o to, jak jsou daná slova spojena s příslušnými značkami v našem kolektivním vědomí.
Acer | Asus | Dell | Sony | ||
netbook | 0.35800007 | 0.3266841 | 0.45478901 | 0.47944917 | |
notebook | 0.26631807 | 0.40387194 | 0.4695783 | 0.37106721 | |
best | 0.82109866 | 0.77081225 | 0.49510104 | 0.45805274 | |
worst | 1.05309145 | 1.08005446 | 1.03558973 | 0.95438995 |
Všiměme si, že Acer a Asus jsou silně spojeny s pojmy "netbook" a "notebook". Pokud však jde o pozitivní emoci spojenou se značkou, vítězí značky Dell a Sony. Co se týče negativního hodnocení, to je u všech značek podobně slabé. Jinými slovy: žadná není automaticky považována za špatnou, ale Dell a Sony jsou spojeny s větší kvalitou. Opět zdůrazňuji, že je řeč o kolektivním vědomí uživatelů netu, nikoli o objektivním faktu. Že jedna a tatáž značka k sobě může poutat silné pozitivní i negativní emoce, ostatně dokládá následující porovnání:
Apple | Microsoft | ||
good | 0.70586178 | 0.74145629 | 0.81755285 |
bad | 0.69155598 | 0.79771654 | 0.8291063 |
worst | 0.77489962 | 0.87146646 | 0.96386942 |
best | 0.55691428 | 0.69787407 | 0.60119018 |
Je zde dobře znát, že Apple k sobě váže kladné i záporné emoce silněji než zbylé dvě společnosti, což ostatně potvrzuje i naše běžná intuice.
Jak je vidět Mechanical Cinderella v sobě skrývá mnohem více možností než jen třídění. Záleží jen na představivosti každého uživatele, co z ní dokáže vyčíst.
Přihlásit se k odběru:
Příspěvky (Atom)