Zobrazují se příspěvky se štítkemsemantic distance. Zobrazit všechny příspěvky
Zobrazují se příspěvky se štítkemsemantic distance. Zobrazit všechny příspěvky

čtvrtek 4. března 2010

Vyhledávače jako nástroje pro měření sémantické podobnosti a vzdálenosti slov

Na zkoušku z informační vědy jsem se pokusil dat dohromady teoretické pozadí Mechanické Popelky a vůbec nastínit tak základní směr mé dizertační práce. Pokud to někoho zajímá, tak práce je dispozici zde: Vyhledávače jako nástroje pro měření sémantické podobnosti a vzdálenosti slov. Budu rád za poznámky, nápady etc. Naopak doufám, že někomu bude text k užitku.

středa 3. února 2010

K čemu je dobrá Mechanická Popelka

Ve svém vstupu na pražském TEDx loni v prosinci jsem hovořil o přeměně internetu ze sítě v mraveniště a s tím spojeném nástupu principů kolektivní inteligence či kolektivního vědomí. Jako jeden z nejjednodušších příkladů, který zároveň dobře ukazuje, co se mění, mi posloužil příběh o Popelce, která uměla roztřídit značky internetových firem a značky výrobců aut, aniž by k tomu potřebovala vědět cokoli o autech nebo o internetovém obchodu. Jediné, co potřebovala, byla kalkulačka, okénko vyhledávače Google a znalost teorie pravděpodobnosti.

Většině přítomných to přišlo jako lehká magie, proto jsem vytvořil stránky s názvem Mechanická popelka (http://www.mechanicalcinderella.com/), kde si můžete tutu jednoduchou metodu ověřit sami. Základem není tentokrát Jaccardův index, o němž jsem mluvil v přednášce, ale sofistikovanější "normalized Google distance". Také tento vzorec vychází ze vztahu samostatných výskytů slova a jeho souvýskytů, avšak doplňuje jej trochou komplikovanější matematiky. Podrobnosti si můžete přečíst v původní studii autorů vzorce Rudiho Cilibrasiho a Paula M. B. Vitanyiho.

Naše Popelka na TEDx měla za úkol roztřídit tyto značky: Google, Yahoo, Microsoft, BMW, Chevrolet a Jaguar. (Máme jen pět políček, a tak ponecháme Microsoft stranou, za což se mu omlouvám). Jak si poradí naše Mechanická Popelka? Výsledek můžete vidět zde. Čím je číslo v tabulce nižší, tím silněji jsou spolu slova spojována, tím mají k sobě blíže. Čísla se mohou pohybovat v intervalu 0 až přibližně 1,4. Díky barvičkám na první pohled vidíme dva silné shluky. Prvním je Google a Yahoo, druhým pak naši výrobci automobilů.

Nabízí se otázka, k čemu je taková věc "normálnímu člověku" dobrá. Otázka je to naprosto oprávněná a souvisí s tím, jak se mění náš přístup k internetu. Pokud začneme chápat internet jako jakési kolektivní vědomí, pak se naše Popelka může stát jedním ze způsobů jak se ho ptát. Dejme tomu že chceme vědět, se kterou z následujících zemí máme nejsilněji spojené slovo "dovolená":

ChorvatskoBulharsko Rusko Polsko Angola
dovolená 0.28532696 0.31441792 0.638793 0.67618915 1.31600954


Vidíme, že nejlépe dopadlo Chorvatsko, následované Bulharskem. Naopak Angola pro nás rozhodně s dovolenou spojena není. Další možností je podívat se, nakolik máme s výrobci spojené jejich výrobky, případně i hodnocení "nejlepší" a "nejhorší". Podotýkám, že nejde o nějaké objektivní vyhodnocení kvality, ale o to, jak jsou daná slova spojena s příslušnými značkami v našem kolektivním vědomí.







Acer Asus Dell Sony
netbook 0.35800007 0.3266841 0.45478901 0.47944917
notebook 0.26631807 0.40387194 0.4695783 0.37106721
best 0.82109866 0.77081225 0.49510104 0.45805274
worst 1.05309145 1.08005446 1.03558973 0.95438995

Všiměme si, že Acer a Asus jsou silně spojeny s pojmy "netbook" a "notebook". Pokud však jde o pozitivní emoci spojenou se značkou, vítězí značky Dell a Sony. Co se týče negativního hodnocení, to je u všech značek podobně slabé. Jinými slovy: žadná není automaticky považována za špatnou, ale Dell a Sony jsou spojeny s větší kvalitou. Opět zdůrazňuji, že je řeč o kolektivním vědomí uživatelů netu, nikoli o objektivním faktu. Že jedna a tatáž značka k sobě může poutat silné pozitivní i negativní emoce, ostatně dokládá následující porovnání:





Apple Microsoft Google
good 0.70586178 0.74145629 0.81755285
bad 0.69155598 0.79771654 0.8291063
worst 0.77489962 0.87146646 0.96386942
best 0.55691428 0.69787407 0.60119018


Je zde dobře znát, že Apple k sobě váže kladné i záporné emoce silněji než zbylé dvě společnosti, což ostatně potvrzuje i naše běžná intuice.

Jak je vidět Mechanical Cinderella v sobě skrývá mnohem více možností než jen třídění. Záleží jen na představivosti každého uživatele, co z ní dokáže vyčíst.