Když jsem před necelým rokem rozjel projekt Babišobot, tak jsem si za hlavní cíl položil pravidelné shrutí témat, která na twitteru spojujeme s osobou Andreje Babiše - s 371 tisíci fanoušky s přehledem nejsledovanějšího politika naší země.

Jako vedlejší cíl jsem si dal za úkol všechny zpracované tweety pro strýčka Příhodu uložit; data jsou cenná. Osoba premiéra budí silné spojení, a tak se mi těch tweetů sešlo dost (260 828, abych byl přesný). Rád bych se touto cestou podělil o několik poznatků, které jsem z dat vyčetl.

Pro úvod jsem se soustředil ne na plný dataset - co si myslí český Twitter jako celek - ale na jeho vzorek. Vybral jsem si podmnožinu největších influencerů. Ty jsem vydefinoval jako účty, které na tweetech o Andreji Babišovi za sledované období nasbíraly více, než 10 000 lajků.

Tímto omezením jsem získal vzorek 19 účtů, které dohromady publikovaly 4 754 tweetů, skládající se z 151 233 slov (což je 605 normostran - asi tak 8 diplomek). Zmíněné tweety posbíraly celkem 410 329 lajků.

Účty jsem přes palec rozdělil do tří kategorií:

S tím, že bude zajímavé sledovat, jak se jednotlivé skupiny mezi sebou liší volbou témat a používáním jazyka.

Tyto tři skupiny netweetují stejně často, a tak nebylo praktické srovnávat absolutní počty slov. Srovnávám proto počty relativní - počet použití slova na 1 000 tweetů.


Vlastní jména spojená s osobou Andreje Babiše:

Není překvapivé, že nejčastěji je ve spojení s objektem zájmu zmiňováno jeho jméno; zajímavější je rozdíl v používání twitterového handlu - výrazně častěji s ním pracují twitteroví domorodci vtipálci, nežli novináři či politici.

V používání křestního jména jsou politici za průměrem - pan premiér pro ně není Andrejem Babišem, ale pouze Babišem. Což něco říká o jejich respektu a tom, že pan premiér nemá na twitteru mnoho politických přátel (respektive že političtí přátelé pana premiéra nesbírají tisíce lajků).

Dále je zajímavé, jak málo se politici v souvislosti s Andrejem Babišem vyjadřují k Seznamu (a jeho rozhovoru) a Praze (a komunálním volbám v ní); tyto témata přenechávají novinářům a vtipálkům.

Naopak násobně častěji než novináři či vtipálci se politici v souvislosti s Andrejem Babišem zmiňují o ODS (což je v řadě případů sebepropagace).


Postatná jména spojená s osobou Andreje Babiše:

Z podstatných jmen máme Andreje Babiše nejčastěji spojeného s vládou. Toto spojení je silné zejména pro politiky, pro novináře je Andrej Babiš především premiérem.

Pro vtipálky je časté, že Andrej Babiš je panem a předsedou - zpravidla současně, a zpravidla to není chápáno jako neutrální spojení (což je hezká ilustrace toho, proč se nehrnu do analýzy sentimentu v jazyce tak bohatém na ironii jako ten náš).

Je zajímavé, jak pro politiky nejsou (ve srovnání s novináři a vtipálky) tématem podstatná jména s vazbou na aktuální události - jako rozhovor, syn nebo kauza - ale vymezují se spíše k obecnějším tématům jako jsou ministr, komunista, strana či sama politika.

Vykládám si to tak, že politici nový pohled na osobu a činy Andreje Babiše nehledají, protože svůj názor již dobře znají. K aktuálním událostem se vyjadřují především proto, aby zopakovali co věděli do začátku - jako kdyby novodobý Cato tweetoval Ceterum autem censeo, Babišem esse delendam…


Slovesa - kromě být a mít - spojená s osobou Andreje Babiše:

Ze sloves jsem pro lepší čitelnost grafů musel vyloučit “být” a “mít” - protože fakt, že Andrej Babiš je či byl toto či ono, případně že či by měl udělat toto či ono, se opakují tak často, že ostatním slovesům ničí osy.

Ze sloves, co mi zbyla, je nejčastější moci - zejména díky názoru politiků. Pro jejich tweety je typické, že Andrej Babiš něco může, případně musí.

Naopak novináři či vtipálci se spíše než o to co Andrej Babiš může či musí zajímají o to, co Andrej Babíš říká, respektive o to co dělá.


Přídavná jména spojená s osobou Andreje Babiše:

Z přídavných jmen vede český, jako v český premiér, následovaný přídavným jménem přivlastňovacím Babišův.

Podobně jako u podstatných jmen platí, že u politiků je slabší zapojení aktuálních témat - mladý jako v mladý Babiš - a silnější pro obecné, útočné spojení - stíhaný jako ve trestně stíhaný premiér či vlastní jako ve vlastní prospěch.

Velký rozdíl je na slově politický - ten je pro politiky klíčový, naopak vtipálci jej používají málo - jejich cíl cílem je žert a ironie, ne politika.


Interpunkční znaménka spojená s osobou Andreje Babiše:

A konečně interpunkční znaméneka nám dávají lépe poznat charakter komunikace; politici mají významně vyšší frekvenci teček a čárek. Protože dělají krátké věty. Nepředkládají rozbor. Ani analýzu. Sdělují hesla, volají po akci.

Novináři a vtipálkové jsou ve srovnání s politiky vysloveně ukecaní.


Věřím, že jsem ukázal, že tweety o Andreji Babišovi jsou zajímavé, a že se z nich dá leccos vyčíst - nejen o panu předsedovi, ale také o autorech těchto tweetů.

Mým druhým krokem bude nad vytvořeným datasetem natrénovat model, které by účastníky internetové diskuze roztřídil do škatulek podle toho, zda se o Andrejovi Babišovi vyjadřují spíše jako politici, novináři nebo vtipálkové.

Už se vyloženě těším na to, co mi model řekne o prezidentovo mluvčím…