Proč v kvantitativním hodnocení kybernetických škod používáme lognormální distribuci?
🕒 6 min čtení
V okamžiku, kdy máme stanovit škodu, která by mohla vzniknout v důsledku určitého kybernetického útoku popsaného v rámci konkrétního rizikového scénáře, stojíme před otázkou, jak ji vlastně vyjádřit.
Pokud bychom škodu popsali jediným číslem, získali bychom jen zjednodušený obraz reality. Ve skutečnosti totiž může nastat celé spektrum různých následků a ani průměr, ani medián samy o sobě tuto variabilitu nevystihnou.
Škody netvoří pěknou gaussovku
Když vezmeme všechny reportované škody, ke kterým došlo u firem obdobné velikosti, případně nasimulujeme různé ztráty v naší firmě a sestavíme z nich histogram, ukáže se podstatný rys těchto škod. Jejich rozdělení totiž zpravidla nemá podobu symetrického normálního rozdělení, ale vyznačuje se pravostrannou šikmostí, pro niž je charakteristický strmý nárůst následovaný pozvolným a dlouhým poklesem.
Co se skrývá vlevo a co vpravo
V levé části rozdělení se nachází mnoho menších škod, které bývají předmětem operativního řízení. Směrem doprava narazíme nejprve na modus, tedy nejčastěji se vyskytující hodnotu, dále na medián a teprve poté na aritmetický průměr, který je tažen extrémy v pravém ocasu distribuce.
Typická škoda není totéž co očekávaná ztráta
Aritmetický průměr je sice nevhodný jako popis typické škody v jednotlivém scénáři, protože je citlivý na extrémy, ale pro odhad očekávané ztráty zůstává relevantní. V pravé části křivky, tedy v tzv. ocasu neboli chvostu (tail), se nacházejí škody, které je nutné řešit také, protože právě ony mohou ohrozit samotnou existenci firmy.
Proč nás zajímají percentily
Z histogramu pak můžeme vyčíst i spočítat několik důležitých hodnot. První z nich je typická škoda, tedy medián neboli 50. percentil (P50). Dále nás zajímá vysoká, ale stále realistická škoda v nepříznivém průběhu scénáře, typicky na úrovni 90. nebo 95. percentilu. A konečně i extrémní, avšak ještě modelově zachytitelná škoda, například na úrovni 99. percentilu, která už může ohrožovat samotnou existenci firmy.
Rozdíly mezi P50 a P99 nejsou kosmetické
Zásadní je ještě jeden poznatek: rozdíly mezi škodami na úrovni P50, P90 a P99 nejsou jen o něco málo větší, ale bývají mnohonásobné. Celkovou ztrátu totiž ovlivňuje součin celé řady faktorů: doba výpadku krát náklad za hodinu nedostupnosti systému krát počet zasažených systémů, nebo doba výpadku krát pracnost obnovy krát sazba externích specialistů. Do výsledné škody navíc vstupují i eskalační mechanismy, například podíl zákazníků, kteří spor vyhrotí až do právní roviny, nebo okamžik, kdy incident překročí práh pro zásah regulátora.
Škody vznikají násobením, ne sčítáním
Tyto faktory se nechovají jako malé nezávislé přírůstky, které by se souhrnně promítly do známé Gaussovy křivky. Chovají se spíše jako relativní změny, tedy násobky a multiplikátory. Dvojnásobný čas výpadku krát o polovinu vyšší hodinová ztráta krát třikrát více zasažených systémů už neznamená škodu o pár procent vyšší, ale škodu posunutou o celý řád. A podobné multiplikátory mají v ruce i útočníci. Výše výkupného se často odvíjí od platební schopnosti oběti a u big game hunting ransomware útoků bývá navázána i na velikost firmy nebo její roční tržby. Čím větší firma, tím vyšší výkupné.
Co udělá s daty logaritmus
Vraťme se ale k podobě této křivky a k datům, ze kterých je sestrojena, a řekněme si, co se stane, když je zlogaritmizujeme. Na tento problém ostatně upozornili už Galton a McAlister v roce 1879. U řady přirozeně vznikajících pravostranně zešikmených dat totiž logaritmická transformace vede k podstatnému zmírnění šikmosti a někdy i k rozdělení, které se normálnímu dobře přibližuje.
Logaritmus není důkaz
Nejde však o to, že bychom z dat logaritmováním „udělali“ lognormální rozdělení. Logaritmická transformace sama o sobě nic nedokazuje; pouze stlačí extrémy a zmírní šikmost. Lognormální model je zde rozumnou volbou proto, že škody jsou kladné, pravostranně zešikmené a vznikají pravděpodobně jako součin více faktorů. Pokud se navíc jejich logaritmy začnou normálnímu rozdělení dobře přibližovat, získává tato volba i empirickou oporu.
Co přesně znamená lognormální rozdělení
Proměnná X má lognormální rozdělení tehdy, pokud proměnná Y = log(X) má přibližně normální rozdělení. Na logaritmické škále tedy vidíme tvar blízký Gaussově křivce, zatímco na běžné lineární škále vidíme rozdělení, v němž jsou všechny hodnoty kladné, většina z nich malá a jen několik velmi velkých. Právě to je typický obraz pravostranně zešikmených škod.
Proč logaritmus stlačuje extrémy
Není to nic překvapivého. Když logaritmujeme data, nahrazujeme původní hodnoty jejich logaritmy, a tím dramaticky zmenšujeme rozdíly mezi hodnotami, které jsou od sebe na lineární škále velmi vzdálené. Ukažme si to na jednoduchém příkladu: škoda A = 10 000 (104) a škoda B = 10 000 000 (107). Hodnota B je tisíckrát větší než A.
Jak vypadá tentýž rozdíl na logaritmické škále
Po zlogaritmování, zde při použití dekadického logaritmu, dostaneme log(10 000) = 4 a log(10 000 000) = 7. Původní poměr 1 : 1 000 se tak na logaritmické škále změní na rozdíl 4 a 7. Data, která byla na lineární škále extrémně roztažená, se tím stlačí a jejich rozdělení začne vykazovat podstatně menší šikmost. Z takto transformovaných hodnot pak můžeme sestavit histogram, který se normálnímu rozdělení dobře přibližuje.
Kdy lognormál přestává stačit
Logaritmická transformace ale není univerzálním řešením. U dat s velmi těžkým pravým ocasem sice logaritmus zmírní šikmost a zmenší rozestupy mezi extrémními hodnotami, tím však problém nemusí zcela odstranit. Pokud pravá část rozdělení zůstává i po transformaci příliš těžká nebo lognormální model v ocasu selhává, může být vhodnější sáhnout po jiných typech rozdělení, například po Paretově rozdělení nebo po zobecněném Paretově rozdělení (GPD), které jsou pro modelování extrémních ztrát vhodnější.
Každá statistika odpovídá na jinou otázku
Z takového modelu pak můžeme odvodit medián, který u lognormálního rozdělení odpovídá geometrickému průměru a přirozeně popisuje typickou škodu. Aritmetický průměr naproti tomu odpovídá očekávané hodnotě. Každá z těchto statistik tedy odpovídá na jinou otázku, a právě v tom je celý rozdíl.
To, co jste právě dočetli, je ochutnávka z jedné kapitoly připravované knihy o kvantitativní analýze kybernetických rizik.
Pokud se vám líbí naše články, tak zvažte podporu naši práce – Naskenujte QR kód a přispějte libovolnou částkou.
Děkujeme!
ČERMÁK, Miroslav a HANUS, Michal. Proč v kvantitativním hodnocení kybernetických škod používáme lognormální distribuci?. Online. Clever and Smart. 2026. ISSN 2694-9830. Dostupné z: https://www.cleverandsmart.cz/proc-v-kvantitativnim-hodnoceni-kybernetickych-skod-pouzivame-lognormalni-distribuci/. [cit. 2026-05-21].
Štítky: CRQ
Diskuse na tomto webu je moderována. Pod článkem budou zobrazovány jen takové komentáře, které nebudou sloužit k propagaci konkrétní firmy, produktu nebo služby. V případě, že chcete, aby z těchto stránek vedl odkaz na váš web, kontaktujte nás, známe efektivnější způsoby propagace.