čtvrtek 4. března 2010

Vyhledávače jako nástroje pro měření sémantické podobnosti a vzdálenosti slov

Na zkoušku z informační vědy jsem se pokusil dat dohromady teoretické pozadí Mechanické Popelky a vůbec nastínit tak základní směr mé dizertační práce. Pokud to někoho zajímá, tak práce je dispozici zde: Vyhledávače jako nástroje pro měření sémantické podobnosti a vzdálenosti slov. Budu rád za poznámky, nápady etc. Naopak doufám, že někomu bude text k užitku.

2 komentáře:

Jindřich Mynarz řekl(a)...

Víte o Google N-gram korpusu tinyurl.com/ngrams? Pěkný článek o tom, jak lze s takovými daty pracovat, napsal Peter Norvig do knihy Beautiful Data (btw, je k dispozici v Národní technické knihovně).

Josef Šlerka řekl(a)...

O N-Gram korpusu Googlu vim, byt jsem nemel cas ho prozkoumat. Stejne jako ta Beautiful Data, ktera jsem si privezl z Berlina. Ale mozna je Vase pripomenuti dobre nakopnuti k tomu se do toho dat.

P.S.

Pozor pred url musite dat http, jinak to Google smeruje na Blogger. Takze http://tinyurl.com/ngrams