pátek, 1. července 2011

Statistiky pro tlačítko +1

Server Search Engine Land přinesl informaci, že Google už mj. uvolnil statistiky pro tlačítko +1. Najdete je ve nástroji Google Webmaster Tools přinášejí vám základní přehled o pluskování vašeho webu: vliv na vyhledávání, aktivitu a informace o návštěvnících.



Já mám zatím implementováné plusko jen na www.klaboseni.cz, takže údajů k analyzování zatím moc není. Zřejmě však přišel čas k masivnímu nasazení. Uvidíme, jak se to celé dál bude vyvíjet.

čtvrtek, 30. června 2011

Google testuje nový vzhled

Zdá se, že Google začal testovat nový nový vzhled. Osobně mi přijde docela pěkný a evidentně se sjednocuje s Google plus. To by odpovídalo snaze Googlu zrušit rozdíl mezi "search" a "social".



středa, 29. června 2011

Fonty, láska, moucha aneb nejen Google + je novinka

Blogy po celém světě plní informace o spuštění sociální sítě Google + a není divu, protože se jedná o událost očekávánou již delší dobu. Trochu tak zanikly další dvě novinky, které také Google včera spustil. První z ních je uvolnění 180 fontů pro web zdarma v rámci projektu Google web fonts. Na první pohled řada z nich vypadá docela dobře a lze je využít pro vložení do webových stránek.

Druhou novinkou je projekt What do you love? Který slouží jako jakási přehlídka mnoha oblastí, kde vám Google umožňuje pracovat. Na jednom místě tak vidít jak Google Trends, tak Google Search, stejně jako Google Video Chat. Vypadá to pěkně, až na jednu mušku. No, v Čechách spíš mouchu. Pokud totiž máte rádi Čechy nebo něco s diakritikou, tak mate smůlu. Viz přiložený screenshot...


Obě nové služby patří sice do kategorie maličkosti, ale stejně tak do kategorie potěší. Tak užívejte.

úterý, 11. ledna 2011

Pokutované pumpy a Google Fusion Tables

Mezi moje oblíbené technologie Google patří služba Google Fusion Tables, která umožňuje pracovat s velkými objemy dat. Funguje to velice prostě. Do GFT naimportujete CSV, XLS nebo Google Spreadsheet (limit je 100MB) a můžete začít. Buď různě agregovat nebo dotazovat. Přes API totiž máte k dispozici i jednoduchý SQL-like jazyk. Ostatně na YouTube nalezenete třeba toto instruktážní video.

Zajímavostí GFT je implementace geoparsingu. V praxi tak do GFT můžete například naimportovat seznam pump pokutovaných Českou obchodní inspekcí a ten snadno sdílet nebo vizualizovat na mapě.

Oba příklady máte zde:
Pokutované pumpy - Google Fusion Tables
Interkativní mapa s pokutovanými pumpami

Nebo můžete mapu rovnou vložit do stránek:


Pěkné, co říkáte?

UPDATE: zdá se, že geoparsing má ještě drobné chybky, viz pumpa na Staromáku. Díky za upozornění.

čtvrtek, 18. listopadu 2010

Pražská velká koalice a social network analysis

V posledním blogpostu jsem se tu vyznával k lásce k relativně nové vědní disciplíně jménem social network analysis. Teď se k ní opět vracím, protože mne přivedla k zajímavým obrázkům, které se týkají pražského magistrátu v minulosti, přitomnosti a zřejmě i budoucnosti. Nejdříve ale trocha teorie. Andrew Odewahn vytvořil před časem pozoruhodný projekt. Vizualizoval výsledky hlasování senátorů v americkém senátu během řady volebních období. Spojnici grafu pak stanovil tak, že senátor měl vazbu k jinému tehdy, pokud měli alespoň 65 procent stejných hlasování. Výsledek byl ohromující a můžete se na něj podívat třeba zde.

I napadlo mě udělat obdobnou analýzu i pro náš pražský magistrát. Na webu magistrátu sice nejsou výsledky hlasování k dispozici v strojově zpracovatelném formátu, ale díky šikovnosti programátorů se je podařilo stáhnout. Ondřej Nekola pak data z XML agregoval do GraphML, tedy formátu, se kterým je možné dál pracovat v NodeXL. Na rozdíl od Odewahna jsem nebyl na naše pražské konšele tak přísný a zvolil jsem hranici 75 procent shody v hlasováních. Proč tak vysoké číslo? Šlo mi o to, že v matici jsou započtena i hlasování o procedurálních otázkách. A teď ty výsledky?

Nejdřív surové grafy pro jednotlivé vlády


volební období 1998 - 2002


volební období 2002 - 2006


volební období 2006 - 2010

Co je na všech krásně vidět, je faktická roztříštěnost opozice na pražské radnici posledních 12 letech. Další informace ovšem vynikne, pokud v grafu ponecháme jen ty, co mají alespoň tři shody s ostatními. Vyloupnou se nám tak tvrdá hlasovací jádra.


volební období 1998 - 2002


volební období 2002 - 2006


volební období 2006 - 2010

Co z nich můžeme vyčíst? Především to, že v letech 1998 - 2006 tu vládla velká koalice. To není až tak zajímavé. Zajímavější ale již je, že ve všech třech obdobích byl na blízku vždy nějaký zastupitel komunistů, který rád pomohl s hlasováním. Dokonce i v období 2006 - 2010, kdy si zavdal jen jeden sociální demokrat. Podotýkám, že ačkoli komunisté nejsou oficiálně na magistrátu u moci, jejich role v kontrolním výboru je značná. Tolik k minulosti a přítomnosti.

Teď ale malá poznámka k budoucnosti. Nová koalice má velmi křehkou většinu, vzhledem k minulosti ale víme, že se umí domluvit a hlavně, že pokud bude zapotřebí, tak má zřejmě dobré zkušenosti s tichou podporou KSČM.

sobota, 30. října 2010

Identifikace komunity kolem účtu na Twitteru

Jak je možná patrno z některých mých zmínek na Twitteru, poslední dobou se zabývám intenzivně oblastí Social Network Analysis. Vděčím za to Petru Lupačovi, upozornil mne totiž na blog Jana Schmida, který se právě SNA věnuje. V analýze sociálních sítí se fakticky potkává sociologie s teorií grafů a vytvářejí nádherná intelektuální dobrodružství, mající využití v celé řadě oblastí. Navíc díky pokročilým nástrojům může základní analýzu dnes dělat i člověk, neseznamený dopodrobna se zákoutími matematiky. Já jsem se po kratším zkoumání zatím zastavil u nástroje NodeXL, který funguje mimo jiné i jako šablona do Excelu a je šířen pod GPL licencí.

Z mnoha dosavadních experimentů mi zatím přišel nejnázornější příklad hledání komunit mezi lidmi propojenými kolem twitter uživatele Stonome. Účet patří mému domovskému akademickému pracovišti, má 96 následovníků a sám následuje 41 uživatelů. Při importu do NodeXL je třeba zvolit i natažení hran, propojující jednotlivé následovníky, a následované účty mezi sebou. Ostatně více se dočete v dokumentaci, která je ke stažení na stránkách projektu.

Výsledný graf pak vypadá například takto:



(klikni pro větší)

Na první pohled docela chaos, že? Nicméně pomocí SNA si lze v celé věc sjednat poněkud lepší pořádek. Nás v tomto případě zajímá, zda ve změti následovníků a následovaných existují nějaké relevatní komunity. To můžeme zjistit pomocí hledání klastrů v grafu. V našem případě jsem zvolil takzvaný Girvan–Newman algoritmus a výsledek vypadá o kousek lépe.



(klikni pro větší)

Barvy tu odlišují několik komunit, ale stále je to poněkud nepřehledné. Pro lepší výsledek tedy odstraníme z grafu samotný účet Stunome (jde nám o komunitu okolo něj, ne o něj samotný) a potlačíme všechny úzly, které mají tři a méně propojení s okolím. Výsledek teď vypadá o moc lépe:



(klikni pro větší)

Vcelku zřetelně se nám vydělila modrá skupina. Tu tvoří především studenti magisterského a doktorandského studia na SNM, potažmo UISKu. Vyjímky jsou případy členství v jiné komunitě, která se překrývá s komunitou SNM. Příkladem může být účet mého kolegy z práce aborym, propojený s účtem našich studentů adbara a zbiejczuka. Pěkně se také vydělila oranžová komunita lidí z "branže" jako je marek_baco a perlino. Zelené spojnice ukazují na dvě studentky prvního ročníku, které zatím do modré komunity vplouvají.

Jako finální perličku ještě můžeme náš graf obohatit o nějaké zvýraznění dominantnosti postavení ve skupině. NodeXL nabízí kupříklad eigenvector, který se snaží vyjádřit centrálnosti uzlů pro celek grafu. Tedy přibližně řečeno: kdo má nejvíce nejblíže ke všem ostatním. Výsledek aplikace vidíte na posledním grafu:



(klikni pro větší)

Krásné je, jak v modré komunitě dobře vidíme její husté propojení, zvlášť kolem studentů druhého ročníku, který v zásadě představuje hledané jádro studentů a učitelé SNM na Twitteru. Pokud se teď vrátíte k původnímu grafu musíte uznat, že pár tahy jsme se posunuli do velmi zajímavého místa, kdy jsme zcela formálním postupem rozklíčovali užitečnou informaci.

sobota, 16. října 2010

Jak hledat telefonní čísla na Facebooku

Často se hovoří o problému bezpečnosti osobních dat na síti Facebook. Méně často se ale mluví o tom, že zneužitelná data musíte nejdřívě sami na Facebook dát a jeden se diví, co všechno jsou ochotni uživatele na svou zeď napsat. Já například zkusil hleda předčíslí mobilního čísla 608. (přímý link). Nestačil jsem se divit, kolik lidí píše na své zdi čísla mobilů. V kombinaci s tím, že mají většinou veřejné profily, jsou idealním terčem pro telesales... A to v lepším případě.