<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
  <title>babišobot on JLA Data</title>
  <link>https://www.jla-data.net/tags/babi%C5%A1obot/</link>
  <description>Recent content in babišobot on JLA Data</description>
  <generator>Hugo -- gohugo.io</generator>
<language>en-us</language>
<copyright>Jindra Lacko</copyright>
<lastBuildDate>Fri, 01 Mar 2019 00:00:00 +0000</lastBuildDate>

<atom:link href="https://www.jla-data.net/tags/babi%C5%A1obot/index.xml" rel="self" type="application/rss+xml" />


<item>
  <title>Babiš není skalár, Babiš je vektor!</title>
  <link>https://www.jla-data.net/cze/babis-neni-skalar-babis-je-vektor/</link>
  <pubDate>Fri, 01 Mar 2019 00:00:00 +0000</pubDate>
  
<guid>https://www.jla-data.net/cze/babis-neni-skalar-babis-je-vektor/</guid>
  <description>


&lt;p&gt;Před necelým rokem—koncem března 2018—jsem spustil &lt;a href=&#34;https://twitter.com/babisobot&#34;&gt;robota Babišobota&lt;/a&gt;; tento hodný robot každý den ráno pročeše sítě internetu a podá zprávu o &lt;em&gt;vašich&lt;/em&gt; hláškách o &lt;em&gt;našem&lt;/em&gt; premiérovi.&lt;/p&gt;
&lt;p&gt;Za rok činnosti robot Babišobot nasbíral 175 933 unikátních tweetů, obsahujících bratru 5 a ¼ milionu slov. Objemem textu to odpovídá přibližně třem stovkám diplomek (na &lt;a href=&#34;https://www.vse.cz/&#34;&gt;VŠE&lt;/a&gt; klidně 350).&lt;/p&gt;
&lt;p&gt;Přišlo mi zajímavé na tento archiv uplatnit techniku strojového učení &lt;a href=&#34;https://en.wikipedia.org/wiki/Word2vec&#34;&gt;word2vec&lt;/a&gt;. Tato technika je založena na překladu slov do vektorového prostoru.&lt;/p&gt;
&lt;p&gt;Například pojem &lt;em&gt;Babiš&lt;/em&gt; se do 64-rozměrného vektorového prostoru přeloží takto:&lt;/p&gt;
&lt;pre&gt;&lt;code&gt;##  [1] -0.54397660  0.35715886  0.16126413 -0.38039915 -0.32043993
##  [6] -0.02361583  0.19568971 -0.12450046 -0.43878543  0.22967364
## [11] -0.41581790 -0.66033250 -0.02544054 -0.17578487 -0.09361476
## [16] -0.05071064  0.64078537 -0.83645621  0.43255401  0.56849062
## [21]  0.21203353 -0.30436601  0.49867787 -0.36530502  0.24742102
## [26]  0.30216619  0.70570219 -0.22938091  0.52095577 -0.32056165
## [31]  0.67504853  0.45135541  0.51813766 -0.14564115  0.82305723
## [36]  0.17063262  0.55249590 -0.57851888 -0.46394466 -0.32545721
## [41]  0.02843169 -0.65831184 -0.12829191  0.10772407 -0.19332501
## [46]  0.61317688  0.18671698  0.30298087  0.08984997 -0.21685517
## [51]  0.14850831 -0.08159480  0.63042441  0.32634119  0.44974133
## [56]  0.21550229  0.27516487  0.81579185  0.26047512  0.08226460
## [61] -0.38546924 -0.42014155 -0.11452926 -0.30458058&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Když se takový překlad provede šikovně, tak dovede vektory přiřadit způsobem, který dává hlubší smysl—z původního word2vec je slavný příklad &lt;code&gt;king - man + woman = queen&lt;/code&gt;.&lt;/p&gt;
&lt;p&gt;A něco podobného platí i pro archiv robota Babišobota, samozřejmě s přihlédnutím k odlišnostem kontextu, ve kterém se robot Babišobot pohybuje.&lt;/p&gt;
&lt;p&gt;Pár zajímavých příkladů, o která bych se rád podělil, přikládám:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;babiš - hnutí + firma   = agrofert

babiš - ano + spd       = okamura
babiš - ano + pirát     = bartoš
babiš - ano + čssd      = hamáček
babiš - ano + ods       = kalousek # co tohle říká o Fialovi?? :)

zeman - hrad + rusko    = putin
zeman - hrad + usa      = trump

zeman - hrad + televize = soukup&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;S tím, že další kombinace si můžete vyzkoušet sami v přiložené shiny aplikaci. Pro každou kombinaci vstupů uvádím tři výstupy, s klesající mírou podobnosti (první je nejtrefnější).&lt;/p&gt;
&lt;p&gt;Jedno varování: &lt;code&gt;babiš - premiér + agent = ...&lt;/code&gt; je pro skutečné znalce.&lt;/p&gt;
&lt;div align=&#34;center&#34;&gt;
&lt;iframe src=&#34;https://jlacko.shinyapps.io/andrej2vec/&#34; width=&#34;400&#34; height=&#34;525&#34; style=&#34;border: none; display:block;&#34;&gt;
&lt;/iframe&gt;
&lt;/div&gt;
&lt;p&gt;Pro technicky zaměřené: projekt Babišobot je napsaný v erku a &lt;a href=&#34;https://github.com/jlacko/babisobot&#34;&gt;bydlí na GitHubu&lt;/a&gt;. Embeddingy jsem spočetl pomocí &lt;a href=&#34;http://text2vec.org/&#34;&gt;text2vec&lt;/a&gt; package, tokenizaci a lemmatizaci jsem udělal přes &lt;a href=&#34;https://bnosac.github.io/udpipe/en/&#34;&gt;udpipe&lt;/a&gt;.&lt;/p&gt;
&lt;p&gt;Pro fandy AI, ML a NLP: &lt;a href=&#34;http://rczechia.jla-data.net/andrej2vec.zip&#34;&gt;matrix of word embeddings&lt;/a&gt; pro 29 413 českých slov v 64 dimenzích dávám k dispozici jako zazipovaný texťák. &lt;a href=&#34;https://creativecommons.org/licenses/by/3.0/cz/&#34;&gt;CC-BY&lt;/a&gt; prosím :)&lt;/p&gt;
</description>
  </item>
  
</channel>
  </rss>