ČSÚ on JLA Data

Model mezd v zrcadle času

Wed, 23 Jul 2025 00:00:00 +0000

Když jsem před lety sepisoval populárně poučný příspěvek o odhadování exponenciály metodou nejmenších čtverců – dělá se to přes stats::nls() – tak jsem použil vědomě lehčí formulace problému coby mezd ajťáků v časech Andreje Babiše. Tím jsem svojí exponenciálu zasadil do času a prostoru.

Rok se sešel s rokem, volební období s obdobím, a z obrazovek nás opět bombardují politici s tím že tentokráte určitě bude líp, stačí když dáme hlas jim (a ne těm druhým). Přišlo mi to jako zajímavá příležitost k tomu, abych se vrátil do staré řeky a oprášil techniky práce s geometrickou řadou v kontextu statistického programovacího jazyka R.

Cílem cvičení bude:

připomenout techniku, jak pomocí balíčku {czso} přistupovat k datům z Veřejné databáze Českého statistického úřadu přímo do R vaší session
načtený dataset zpracovat technikami světa {tidyverse}, konkrétně balíčky {dplyr} pro datovou manipulaci a {ggplot2} pro statickou vizualizaci
o datasetu mezd a jejich vývoji v čase podat zprávu graficky
nad datasetem mezd sestavit matematický model, a uplatnit jej

Protože mzdy a jejich vývoj v čase je složitý problém, který není snadné plně podchytit v jeho komplexnosti, zaměřím se na dva sektory ve kterých se pohybuju a se kterými mám žitou zkušenost:

jako konzultant působím v sektoru J - Informační a komunikační činnosti (“ajťáci”)
jako student a vyučující na VŠE patřím do sektoru P - Vzdělávání (“učitelky”)

Základem je načtení dat:

library(czso) # protože staťák...
library(tidyverse) # kvůli dplyr & ggplot2
library(zoo) # pro konverzi datumů / kvartály v letech

# načtu dataset s id 110079  = Zaměstnanci a průměrné hrubé měsíční mzdy podle odvětví
raw_mzdy <- czso::czso_get_table("110079")

# odliji stranou čistší dataset
clean_mzdy <- raw_mzdy %>% 
  filter(stapro_kod == '5958'  # průměrná mzda / zahazuju počty zaměstnanců
         & rok >= 2016
         & typosoby_kod == '200'# přepočet na ekvivalent plného úvazku
         & odvetvi_kod %in% c('P', 'J')) %>% # vybrané sektory
  # konverze konvence z roku + čtvrtletí na prosté datum (první den kvartálu)
  mutate(datum = as.Date(as.yearqtr(paste0(rok, "Q", ctvrtleti))))  %>% 
  arrange(datum) %>% # setřídím dle data / pro jistotu, kvůli sekvenci v příštím kroku
  group_by(odvetvi_kod) %>% 
  mutate(sekvence = rank(datum),
         posledni = datum == max(datum)) %>%  # poslední záznam - pro popisku grafů
  ungroup()

Nad načtenými daty připravím vizualizaci technikami ggplot2-u; je zajímavé pozorovat jak mzdy ajťáků i učitelek mají stejně jasný sezónní trend (1× ročně bonusy) ale se špičkami v různých čtvrtletích.

Pracovně se domnívám, že učitelky mají odměny spíše svázané s rozpočtem (vyplácené v Q4, aby se utratilo), kdežto ajťáci spíše s hospodářským výsledkem (vyplácené v Q1, po závěrce roku).

# základní overview graficky
ggplot(data = clean_mzdy, aes(x = datum, y = hodnota, 
                              fill = odvetvi_txt)) +
  geom_point(pch = 21, stroke = NA) +
  scale_y_continuous(limits = c(0, NA), 
                     labels = scales::dollar_format(prefix = "", 
                                                    suffix = " Kč",
                                                    big.mark = " ")) +  
  scale_x_date(breaks = seq(as.Date("2015-01-01"),
                            as.Date("2025-01-01"),
                            by = "2 years"),
               date_minor_breaks = "1 year",
               date_labels = "%Y") +
  labs(title = "Průměrná hrubá měsíční mzda v čase",
       fill = "Sektor podle ČSÚ") +
  theme_minimal() +
  theme(legend.position = c(0.795, 0.175),
        legend.direction = "vertical",
        axis.title = element_blank())

Kromě výrazné roční periody je v grafech (hlavně na učitelkách) intuitivně cítit změna trendu kolem konce roku 2021. Tuto intuici můžeme ověřit odděleným natrénováním matematického modelu nad érami Andreje Babiše a Petra Fialy.

Předpoklad za modelem je, že se mzda se chová jako exponenciála (každý kvartál vzroste o stejné relativní procento) a ne jako přímka (každý kvartál vzroste o stejnou absolutní částku).

# omezený dataset "éra Andreje Babiše" pro trénink modelu
era_babise <- clean_mzdy %>% 
  filter(datum >= as.Date("2017-12-13")  # počátek první vlády AB
         & datum < as.Date("2021-12-17"))   # konec druhé vlády AB
 

# omezený dataset "éra Petra Fialy" pro trénink modelu
era_fialy <- clean_mzdy %>% 
  filter(datum >= as.Date("2021-12-17"))  # jmenování PF prezidentem MZ
  
# 4x matematický model přes stats::nls()
model_babis_p <- nls(hodnota ~ a * (1 + r)^sekvence,
                     data = subset(era_babise, odvetvi_kod == "P"),
                     start = list(a = 50000, r = .01)) 

model_babis_j <- nls(hodnota ~ a * (1 + r)^sekvence,
                     data = subset(era_babise, odvetvi_kod == "J"),
                     start = list(a = 50000, r = .01))  

model_fiala_p <- nls(hodnota ~ a * (1 + r)^sekvence,
                     data = subset(era_fialy, odvetvi_kod == "P"),
                     start = list(a = 50000, r = .01))  

model_fiala_j <- nls(hodnota ~ a * (1 + r)^sekvence,
                     data = subset(era_fialy, odvetvi_kod == "J"),
                     start = list(a = 50000, r = .01))

Když přepočteme kvartální růst mezd na roční ekvivalenty, tak se dostaneme na následující čísla:

ajťákům v časech Andreje Babiše rostly mzdy o 4.74% ročně
ajťákům v časech Petra Fialy rostly mzdy o 8.91% ročně
učitelkám v časech Andreje Babiše rostly mzdy o 11.2% ročně
učitelkám v časech Petra Fialy rostly mzdy o 4.52% ročně

Je velká otázka, jak moc můžeme modelovaný nárůst (a jeho změnu mezi vládami) přisuzovat za zásluhu konkrétnímu premiérovi. Těžko tvrdit, že Babiš může za Covid, případně Fiala za Ukrajinu. Ale říct, že za časů jednoho bylo jednak, a za časů druhého druhak, jde snadno - datumy začátku a konce vlád jsou ložené.

A také si můžeme společně zaspekulovat: jak by vypadal svět, pokud by se trend nezměnil? Jak by vypadaly dnes mzdy ajťáků a učitelek, pokud by pokračovalo tempo předchozí vlády?

Pomocníkem v našem spekulování bude metoda stats::predict.nls(), jejímž uplatněním na natrénovaný matematický model získáme nová data – a s jejich pomocí obohatíme původní obrázek o původní a nový trend.

Pro snazší orientaci barvím éru Petra Fialy fialově, a éru Andreje Babiše korporátní zelenou.

# pomocný dataset pro oddělený výpočet trendů v érách
trendy <- clean_mzdy %>% 
  select(datum, sekvence, posledni) %>% 
  unique() %>% 
  mutate(era = case_when(datum <= as.Date("2017-12-13") ~ "sobotka",
                         datum <= as.Date("2021-12-17") ~ "babis",
                         T ~ "fiala"))

# trendy ajťáků v datasetu
trendy$ab_p <- predict(model_babis_p, newdata = trendy)
trendy$pf_p <- predict(model_fiala_p, newdata = trendy)

# trendy učitelů v datasetu
trendy$ab_j <- predict(model_babis_j, newdata = trendy)
trendy$pf_j <- predict(model_fiala_j, newdata = trendy)

# výsledný obrázek - původní ggplot, doplněný o trendové čáry
ggplot(data = clean_mzdy, aes(x = datum, y = hodnota)) +
  geom_point(aes(fill = odvetvi_txt),
             stroke = NA,
             pch = 21)  +
  scale_y_continuous(limits = c(0, NA), 
                     labels = scales::dollar_format(prefix = "", 
                                                    suffix = " Kč",
                                                    big.mark = " ")) +  
  scale_x_date(breaks = seq(as.Date("2015-01-01"),
                            as.Date("2025-01-01"),
                            by = "2 years"),
               date_minor_breaks = "1 year",
               date_labels = "%Y") +
  geom_line(data = trendy, aes(x = datum, y = ab_p), 
            color = "grey", lty = "dashed") +
  geom_line(data = subset(trendy, era == "babis"), 
            aes(x = datum, y = ab_p, color = "AB")) +
  geom_line(data = subset(trendy, era == "fiala"), 
            aes(x = datum, y = pf_p, color = "PF")) +
  geom_line(data = trendy, aes(x = datum, y = ab_j), 
            color = "grey", lty = "dashed") +
  geom_line(data = subset(trendy, era == "babis"), 
            aes(x = datum, y = ab_j, color = "AB")) +
  geom_line(data = subset(trendy, era == "fiala"), 
            aes(x = datum, y = pf_j, color = "PF")) +
  geom_text(data = subset(clean_mzdy, posledni), 
            aes(x = datum, y = hodnota, label = scales::comma(hodnota)),
            nudge_x = 250) +
  geom_text(data = subset(trendy, posledni), 
            aes(x = datum, y = ab_p, label = scales::comma(ab_p)),
            color = "gray70",
            nudge_x = 250) +
  geom_text(data = subset(trendy, posledni), 
            aes(x = datum, y = ab_j, label = scales::comma(ab_j)),
            color = "gray70",
            nudge_x = 250) +
  scale_color_manual("Éra vlády", 
                     values = c("AB" = "#5c9234",
                                "PF" = "darkorchid")) +
  labs(title = "Trendy mezd v érách Babiše a Fialy",
       fill = "Sektor podle ČSÚ") +
  theme_minimal() + 
  guides(color = guide_legend(position = "bottom",
                              direction = "horizontal")) +
  theme(legend.position = c(0.795, 0.175),
        legend.direction = "vertical",
        axis.title = element_blank())

Z grafu je patrné, že změna trendu měla na ajťáky a učitelky opačný vliv:

ajťáci se dnes proti trendu z časů Andreje Babiše pohybují přibližně +15 tisíc Kč / měsíc
učitelky se dnes proti trendu z časů Andreje Babiše pohybují přibližně -20 tisíc Kč / měsíc

A protože jsme v Česku, kde se nehraje až tolik na to abych se měl absolutně dobře (co je absolutně dobře? jaká je jednotka dobrosti?) ale jestli se mám relativně líp jak soused, tak se podíváme na relativní poměr mezd ajťáků a učitelek:

rel_mzdy <- clean_mzdy %>% 
  # pivot z "dlouhého" formátu na "široký"
  pivot_wider(id_cols = datum, 
              names_from = odvetvi_kod, 
              values_from = hodnota) %>% 
  mutate(pomer = P / J) # podíl učitelek ku ajťákům

ggplot(data = rel_mzdy, aes(x = datum, y = pomer)) +
  annotate("rect",
           xmin = as.Date("2017-12-13"), # počátek první vlády AB
            xmax = as.Date("2021-12-17"), # konec druhé vlády AB
            ymin = 0,
            ymax = Inf,
            fill = "#5c9234",
            alpha = 1/5) +
    annotate("rect",
           xmin = as.Date("2021-12-17"), # jmenování PF premiérem
            xmax = max(clean_mzdy$datum), # konec datová řady
            ymin = 0,
            ymax = Inf,
            fill = "darkorchid",
            alpha = 1/5) +
  geom_smooth(se = F, color = "red", alpha = 2/3) + 
  geom_point(pch = 4, size = 3/4, color = "gray25") +
  geom_point(data = rel_mzdy[c(which.max(rel_mzdy$pomer),
                               which.min(rel_mzdy$pomer)),],
             color = "red") +
  geom_text(data = rel_mzdy[which.max(rel_mzdy$pomer),],
            aes(x = datum, y = pomer,
                label = paste0(round(100 * pomer, 2), "%")),
            nudge_y = .04) +
  geom_text(data = rel_mzdy[which.min(rel_mzdy$pomer),],
            aes(x = datum, y = pomer,
                label = paste0(round(100 * pomer, 2), "%")),
            nudge_y = -.04) +
  scale_y_continuous(limits = c(0, NA), 
                     labels = scales::percent) +  
  scale_x_date(breaks = seq(as.Date("2015-01-01"),
                            as.Date("2025-01-01"),
                            by = "2 years"),
               date_minor_breaks = "1 year",
               date_labels = "%Y") +
  theme_minimal() + 
  theme(axis.title = element_blank()) +
   labs(title = "Relativní srovnání mezd sektorů Vzdělávání a ICT",
        subtitle = "v érách premiérů Babiše a Fialy ")

Graf je zrnitý (pamatujete, že učitelky mívají bonusy v jiném kvartálu než ajťáci?) ale dá se technikami erka vyhladit. A dvě informace z něj vyskakují zřetelně:

historicky nejvyšší poměr mezd průměrné učitelky k průměrnému ajťákovi byl 2021-Q4 (tedy poslední kvartál éry Andreje Babiše)
historicky nejmenší poměr mezd průměrné učitelky k průměrnému ajťákovi byl 2025-Q1 (tedy právě teď)

Díky matematickému modelování a technikám statistického programovacího jazyka R tak vidím, že změna poměrů z časů vlády Andreje Babiše k Petru Fialovi měla – alespoň co se mzdovéhovo vývoje týče – kromě vítězů také poražené. Učitelky, které se ptají “kde je moje dvacka?!” přitom lidsky chápu; stejně tak jako ajťáky kteří mlčí a šoupou nohama, že oni nic – to trh.

Kdy si říct o peníze?

Fri, 27 Aug 2021 00:00:00 +0000

Porozumění trhu práce je dobrou příležitostí k uplatnění statistického programovacího jazyka R.

Erko nám umožňuje několik věcí:

pomocí balíčku {czso} přímo přistupovat k Veřejné databázi Českého statistického úřadu
na získaná data uplatnit základní (či pokročilé :) modelovací techniky
a konečně o získané informaci podat zprávu graficky

V rámci modelu budu uvažovat geometrickou posloupnost – růst mezd o stálé procento. Tento vztah odpovídá ekonomické teorii lépe, než závislost lineární (růst mezd o stálou částku).

Prvním krokem je načtení knihoven a akvizice surových dat. Základním vstupem pro analýzu bude vstupem standardní datová sada číslo 110079 – Zaměstnanci a průměrné hrubé měsíční mzdy podle odvětví. Dataset má kvartální periodu.

library(czso) # protože staťák...
library(tidyverse) # kvůli dplyr & ggplot2
library(zoo) # pro konverzi datumů / kvartály v letech

# načtu dataset s id 110079  = Zaměstnanci a průměrné hrubé měsíční mzdy podle odvětví
raw_mzdy <- czso::czso_get_table("110079")

Když jsme datovou sadu načetli, tak se na hrubo seznámíme s její strukturou a obsahem:

glimpse(raw_mzdy)

## Rows: 6,880
## Columns: 16
## $ idhod        <chr> "741383707", "741383708", "741383709", "741383713", "7413…
## $ hodnota      <dbl> 23546, 24057, 27242, 22691, 24135, 24635, 27830, 10640, 1…
## $ stapro_kod   <chr> "5958", "5958", "5958", "5958", "5958", "5958", "5958", "…
## $ mj_cis       <chr> "78", "78", "78", "78", "78", "78", "78", "78", "78", "78…
## $ mj_kod       <chr> "00200", "00200", "00200", "00200", "00200", "00200", "00…
## $ typosoby_kod <chr> "200", "200", "200", "200", "200", "200", "200", "200", "…
## $ odvetvi_cis  <chr> "5103", "5103", "5103", "5103", "5103", "5103", "5103", "…
## $ odvetvi_kod  <chr> "P", "P", "P", "P", "P", "P", "P", "Q", "Q", "H", "H", "H…
## $ rok          <int> 2012, 2012, 2012, 2013, 2013, 2013, 2013, 2000, 2000, 200…
## $ ctvrtletí    <chr> "2", "3", "4", "1", "2", "3", "4", "1", "2", "1", "2", "3…
## $ uzemi_cis    <chr> "97", "97", "97", "97", "97", "97", "97", "97", "97", "97…
## $ uzemi_kod    <chr> "19", "19", "19", "19", "19", "19", "19", "19", "19", "19…
## $ stapro_txt   <chr> "Průměrná hrubá mzda na zaměstnance", "Průměrná hrubá mzd…
## $ mj_txt       <chr> "Kč", "Kč", "Kč", "Kč", "Kč", "Kč", "Kč", "Kč", "Kč", "Kč…
## $ typosoby_txt <chr> "přepočtený", "přepočtený", "přepočtený", "přepočtený", "…
## $ odvetvi_txt  <chr> "Vzdělávání", "Vzdělávání", "Vzdělávání", "Vzdělávání", "…

Dataset obsahuje v normalizované formě více statistických veličin (mzdu a počet zaměstnanců) ve dvou dimenzích (surová data, a jejich přepočet na plné úvazky / FTEs = Full Time Employees). Pro eliminaci duplicit bude před vlastním modelováním nutno nastavit filtr.

Mzdy jsou evidované po odvětvích; pro zjednodušení se v úvodní vizualizaci zaměříme na tři, u kterých je větší pravděpodobnost využití technik jazyka R: ICT pracovníky, vědecké pracovníky a učitele a učitelky.

# odliji stranou čistší dataset
clean_mzdy <- raw_mzdy %>% 
  filter(stapro_kod == '5958'  # průměrná mzda / zahazuju počty zaměstnanců
         & typosoby_kod == '200'# přepočet na ekvivalent plného úvazku
         & odvetvi_kod %in% c('P', 'M', 'J')) %>% # tři vybrané sektory
  # konverze konvence z roku + čtvrtletí na prosté datum (první den kvartálu)
  mutate(datum = as.Date(as.yearqtr(paste0(rok, "Q", ctvrtletí))))

# základní overview graficky
ggplot(data = clean_mzdy, aes(x = datum, y = hodnota, color = odvetvi_txt)) +
  geom_point() +
  scale_y_continuous(limits = c(0, 70000), 
                     labels = scales::dollar_format(prefix = "", 
                                                    suffix = " Kč",
                                                    big.mark = " ")) +  
  labs(title = "Průměrná hrubá měsíční mzda v čase",
       color = "Sektor podle ČSÚ") +
  theme_minimal() +
  theme(axis.title = element_blank(),
        plot.title = element_text(hjust = 1/2, 
                                  size = 14),
        legend.position = c(0.795, 0.175),
        legend.direction = "vertical",
        legend.title = element_text(hjust = 1/2),
        legend.background = element_rect(fill = "white",
                                         color = NA))

Z grafu můžeme vypozorovat tři fáze cyklu mezd:

růst mezi rokem 2000 (počátek známé historie) a rokem 2010
spíše stagnaci mezi lety 2010 a 2015
opětovný růst od roku 2015 dále

Pro vlastní model zvolíme období růstu po roce 2015, kterému můžeme říkat Éra Andreje Babiše – a podle toho, jak moc panu premiérovi fandíme, budeme uvažovat, že to byl právě on, kdo:

konečně zařídil peníze pro naše lidi (je to pašák!)
nezodpovědně roztočil inflační spirálu (je to neřád!)

Na další práci s modelem už náš názor na pana premiéra vliv mít nebude.

Pro model vybereme jeden obor, a sice ICT pracovníky neboli ajťáky.

# připravíme podkladový dataset "ajťáci v časech Andreje Babiše" pro trénink modelu
era_babise <- clean_mzdy %>% 
  filter(datum >= as.Date("2015-01-01") 
         & odvetvi_kod == 'J') %>% # pouze ICT sektor
  arrange(datum) %>% # setřídím dle data / pro jistotu, kvůli sekvenci v příštím kroku
  mutate(sekvence = 1:n()) # pořadové číslo kvartálu v rámci Éry A. B.

Pro vlastní matematický model budeme uvažovat geometrickou posloupnost - jinými slovy budeme předpokládat, že mzdy ajťáků vzrostou z kvartálu na kvartál pokaždé o stejné procento.

Taková posloupnost se dá popsat vzorcem a * (1 + r) ^ sekvence, kde a je počáteční hodnota (mzda v IT na začátku éry Andreje Babiše), r je míra růstu z kvartálu na kvartál a sekvence je pořadové číslo kvartálu v rámci éry Andreje Babiše.

Pro nalezení konkrétních hodnot parametrů a a r použijeme techniku nejmenších čtverců, konkrétně funkci stats::nls(). Povinnými vstupy jsou podkladová data a vzorec očekávané závislosti v tildové notaci. Pro rychlejší konvergenci modelu můžeme doplnit iniciální hodnoty parametrů.

# natrénujeme matematický model přes stats::nls()
matematicky_model <- nls(hodnota ~ a * (1 + r)^sekvence, # vzorec, v tildové notaci
                         data = era_babise, # podkladová data
                         # vstupní odkad parametrů / odhad přes palec
                         start = list(a = 50000, 
                                      r = .01)) 

# shrnutí modelu - hodnoty parametrů, významnost &c.
summary(matematicky_model)

## 
## Formula: hodnota ~ a * (1 + r)^sekvence
## 
## Parameters:
##    Estimate Std. Error t value Pr(>|t|)    
## a 4.703e+04  5.795e+02   81.14  < 2e-16 ***
## r 1.231e-02  7.507e-04   16.40 1.53e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1571 on 24 degrees of freedom
## 
## Number of iterations to convergence: 3 
## Achieved convergence tolerance: 3.634e-08

Model je jednoduchý a teoreticky dobře podložený, takže nás nepřekvapí že pro oba hledané parametry vyšly odhady jako statisticky významné.

modelová mzda v IT sektoru na počátku éry nám vyšla 47 025 Kč; pro kontext: skutečnost Q4 2014 byla 48 744 Kč, což představuje rozdíl 3.5%.
modelové tempo kvartálního růstu hrubých mezd v ICT nám vyšlo 1.23%.

Získaný model můžeme snadno protáhnout do budoucna, a porovnat graficky se skutečností:

# podklad pro uplatnění matematického modelu
jiny_cas <- data.frame(sekvence = 0:30) %>% 
  mutate(datum = as.Date("2015-01-01") + months(3 * sekvence))

# predikce - uplatnění matematického modelu na nový vstup
jiny_cas$hodnota <- predict(matematicky_model,
                            newdata = jiny_cas)


# grafické podání zprávy o skutečnosti a modelu
ggplot() +
  geom_line(data = jiny_cas, aes(x = datum, 
                                 y = hodnota), 
            color = "red") +
  geom_point(data = era_babise, aes(x = datum, 
                                   y = hodnota),
             pch = 4, color = "gray50") +
  scale_y_continuous(limits = c(40, 70) * 1000, # menší rozsah osy, ať vyniknou epsilonky
                     labels = scales::dollar_format(prefix = "", 
                                                    suffix = " Kč",
                                                    big.mark = " ")) +
  labs(title = "Model a skutečnost průměrné mzdy v českém ICT sektoru v čase") +
  theme_minimal() +
  theme(axis.title = element_blank(),
        plot.title = element_text(hjust = 1/2, 
                                  size = 14))

Vidíme, že model aproximuje skutečnost poměrně přesně; největší rozdíly jsou v prvních kvartálech roku, kdy je výrazná sezónnost (v reálném světě jí táhnou v tomto čtvrtletí vyplácené roční odměny, což je vlastnost kterou v rámci modelu neuvažujeme).

Když jsme model připravili, tak je čas ho použít. Obecně se nabízí dvě možnosti uplatnění:

předpověď průměrné mzdy v budoucnu (po anglicku prediction)
porozumění obecné problematice růstu mezd (po anglicku inference)

První bod bude relevantní jen pro někoho – ideálně průměrná mzda je umělý konstrukt, za který nikdo reálně nepracuje – ale druhý bod je zajímavější.

Čeští ajťáci si mohou snadno porovnat realitu změny svého platu s trhem jako celkem. Pokud rostou pod trhem, tak svoji relativní pozici v poli všech ICT zaměstnanců ztrácí; pokud rostou nad trhem, tak se v pelotonu posunují dopředu.

České konvence pracovního trhu nepočítají s kvartální úpravou mezd, obvyklejší je revize roční; očekávanou výši ročního nárůstu ze získané hodnoty koeficientu r získáme snadno.

# očekávaný roční nárůst mezd z titulu inflace
(1 + coef(matematicky_model)[["r"]]) ^ 4 - 1

## [1] 0.05016941

Jinými slovy pro ideálně průměrnou IT pozici očekáváme každoroční navýšení o 5.02% čistě z titulu běhu času a posunu trhu jako celku - za to, že poběžíme na místě s Červenou královnou.

V některých kontextech není obvyklé automatické navyšování, a o lepší peníze si musí člověk říct. Což s sebou nese určité tření, a nejde to dělat příliš často – je tedy vhodnější méně časté navýšení o větší částku.

V takovém případě může být zajímavé vědět, kolik času zabere trhu kumulativní nárůst o určitou hodnotu – řekněme 10%. Odpověď na tuto otázku nám dá opět koeficient r našeho modelu, jen musíme použít logaritmy.

# čas v kvartálech pro nárůst tržní mzdy o 10%
log(1 + 10/100) / log(1 + coef(matematicky_model)[["r"]])

## [1] 7.788132

Jinými slovy ideálně průměrný ajťák může očekávat nárůst mzdy o 10% někdy mezi 7. a 8. kvartálem od počátku.

Příklad vývoje mezd v IT byl vědomě lehčího rázu; nicméně věřím, že jsem v jeho rámci předvedl jak lehkost, s jakou lze přistupovat k datům ČSÚ přímo z pohodlí vaší R Session, tak eleganci erkových modelovacích nástrojů a přesvědčivost grafických výstupů. QED.

Package CZSO

Tue, 21 Apr 2020 00:00:00 +0000

Na CRANu se nedávno objevila package czso od Petra Bouchala. Tato package představuje interface z erka přímo do open datových struktur Českého statistického úřadu. S její pomocí snadno a rychle získáte čerstvá data, aniž byste přitom museli opustit pohodlí svého RStudia.

Prvním krokem pro orientaci je získání přehledu: k němu nám poslouží funkce czso_get_catalogue(), vracející seznam dostupných datových zdrojů, včetně základních metadat jako data.frame.

library(czso) 
library(tidyverse) # kvůli dplyr & ggplot2
library(gganimate) # protože animace táhnou

# stahnu datový katalog / přehled dostupných sad
prehled <- czso::czso_get_catalogue()

# počet tabulek k dispozici
nrow(prehled)

## [1] 605

# přehled hlavních informací
prehled %>% 
  select(dataset_id,
         title,
         start,
         end) %>%
  head() # pro základní orientaci...

## # A tibble: 6 x 4
##   dataset_id title                                         start      end       
##   <chr>      <chr>                                         <date>     <date>    
## 1 060003     Vybavenost domácností informačními a komunik… 2007-01-01 2019-12-31
## 2 270229     Sklizeň zemědělských plodin podle krajů       2002-01-01 2019-12-31
## 3 110080     Průměrná hrubá měsíční mzda a medián mezd v … 2011-01-01 2018-12-31
## 4 270230     Hospodářská zvířata podle krajů               2002-01-01 2019-12-31
## 5 340130     Velikostní skupiny obcí                       2001-01-01 2018-12-31
## 6 cis203     Číselník ČSÚ: Druh lesní dřeviny - agregace   1900-01-01 9999-09-09

Druhým krokem bude získat konkrétní datovou sadu; k tomu potřebujeme znát její kód (najdeme jej v poli dataset_id). Zaměřím se na svoji oblíbenou datovou sadu ceny piva v čase; pivo je jedna ze základních potravin.

Dataset ceny základních potravin stáhnu pomocí funkce czso_get_table(), a základní přehled o konkrétní datové struktuře získám pomocí czso_get_table_schema().

# najdu ty zázamy z přehledu dat, které v poli "title" obsahují řetězec "potravin"
prehled %>% 
  filter(str_detect(title, "potravin")) %>% 
  select(dataset_id, title)

## # A tibble: 1 x 2
##   dataset_id title                                                              
##   <chr>      <chr>                                                              
## 1 012052     Průměrné spotřebitelské ceny vybraných výrobků - potravinářské výr…

# zobrazím metadata (moc mi toho neřeknou, ale přece...)
czso::czso_get_table_schema("012052")

## # A tibble: 11 x 5
##    name     titles   `dc:description`                          required datatype
##    <chr>    <chr>    <chr>                                     <lgl>    <chr>   
##  1 idhod    idhod    unikátní identifikátor údaje Veřejné dat… TRUE     string  
##  2 hodnota  hodnota  zjištěná hodnota                          TRUE     number  
##  3 stapro_… stapro_… kód statistické proměnné ze systému SMS … TRUE     string  
##  4 reprcen… reprcen… číselník pro cenové reprezentanty         TRUE     string  
##  5 reprcen… reprcen… kód z číselníku cenových reprezentantů    TRUE     string  
##  6 obdobiod obdobiod referenční období počátek - ve formátu R… TRUE     date    
##  7 obdobido obdobido referenční období konec - ve formátu RRR… TRUE     date    
##  8 uzemi_c… uzemi_c… kód číselníku pro referenční území, číse… TRUE     string  
##  9 uzemi_k… uzemi_k… kód položky z číselníku pro referenční ú… TRUE     string  
## 10 uzemi_t… uzemi_t… text položky z číselníku pro referenční … TRUE     string  
## 11 reprcen… reprcen… text položky z číselníku pro cenové repr… TRUE     string

# načtu dataset základních potravin
potraviny <- czso::czso_get_table("012052")

Když jsem dataset načetl, tak na něm provedu základní transformaci – vyberu položky pouze pro jednoho konkrétního cenového reprezentanta, zahodím krajský detail a transformuju text na datum.

Nad výsledkem pak mohu technikami {ggplot2}, respektive rozšiřujícího balíčku {gganimate}, postavit jednoduchou prezentaci vývoje ceny v čase.

# ze základních potravin vyberu tu nejzákladnější 
pivo <- potraviny %>% 
  filter(reprcen_kod == "0213201") %>% # ... protože pivo :)
  filter(uzemi_kod == "19") %>%  # data za republiku jako celek (= ne kraje)
  mutate(obdobiod = as.Date(obdobiod),
         obdobido = as.Date(obdobido))

# a výsledek předložím graficky
ggplot(data = pivo, aes(x = obdobiod, y = hodnota)) +
  geom_line(color = "red", size = 1.25) +
  geom_point(color = "red", size = 2) +
  labs(title = "Vývoj ceny piva v čase") +
  scale_y_continuous(labels = scales::dollar_format(accuracy = .01, decimal.mark = ",",
                                                    prefix = "", suffix = " Kč")) +
  scale_x_date(date_breaks = "1 year", date_labels = "%Y") +
  theme_bw() +
  theme(axis.title = element_blank()) +
  gganimate::transition_reveal(obdobiod) # animační část...

Příklad s pivem je (vědomě :) spíše lehčího žánru, ale věřím že jsem na něm předvedl jednoduchost a eleganci, s jakou lze čerpat data (a metadata) z otevřených dat ČSÚ přímo do běžícho erka.

Data jsou vždy čerstvá, a máme jistotu jejich kvality; nemusíme lovit pochybné excely někde po file systému.

Určitou nevýhodou této techniky je nutnost aktivního internetového připojení – jsem však přesvědčen, že výhody jasně převažují.