Když jsem začal projekt o twitterové komunikaci pravého a falešného Tomia Okamury, tak jsem zpracoval jejich timeliny od “počátku světa” do 7. prosince 2018.

Na těchto datech jsem vytvořil tři klasifikační modely, které různými technikami předvídaly “pravost” autora tweetu:

  • rozhodovací strom nad tweetovými metadaty (rpart)
  • jednoduchou neuronku nad stejnými metadaty (keras, respektive TensorFlow)
  • sofistikovanější neuronku (bidirectional LSTM) nad slovy tweetů (opět keras a TensorFlow)

Zatímco jsem psal své klasifikační modely, tak Tomiové nezaháleli, a produkovali nová data. Od 7. prosince ke dnešnímu dni vydali 106 nových tweetů, z toho 51 od pravého a 55 od falešného Okamury. Což je vcelku vyvážené rozdělení, a v souladu s mým pozorováním, že fejkový Tomio je o něco ukecanější, nežli ten pravý.

Přišlo mi zajímavé použít nově vzniklé tweety jako verifikaci svých modelů, toto je můj výsledek:

Testovací vzorek nebyl velký, ale i přes to dosahly všechny tři klasifikační modely přesnost přes 95%. Což není špatné…

Všechny tři výsledky jsou vcelku srovnatelné, a tak jsem se rozhodl za vítěze požadovat strom podle rpart. Protože jeho fungování dokážu ze všech tří metod nejsnáze vysvětlit.

Závěry, který si z projektu odnáším jsou že:

  • klasifikace textu je zábavná, a jde dělat přesně
  • Tomio Okamura je konzistentní a dobře předvídatelný
  • i s malým Kašpárkem jde sehrát velké divadlo - respektive i jednoduchá technika se při dobré přípravě může výsledkem měřit s moderními AI krabičkami

Podkladové skripty jsou k dispozici na GitHubu: https://github.com/jlacko/dos-tomios.