Kvantitativní analýza kybernetických rizik: základní distribuční funkce

V této části se zaměříme na to, jak posbíraná data idealizovat (aproximovat) křivkou funkce hustoty pravděpodobnosti (Probability Density Function – PDF), tj. rozpoznat z rozložení dat typ distribuce.

Odhad správné distribuce je klíčovým krokem, protože nám umožní matematicky pracovat s neurčitostí a v případě těch notoricky známých (spojitých) distribučních funkcí i elegantně a správně odhadnout pravděpodobnosti (vzácných) extrémních událostí, které nám v posbíraných datech budou zcela jistě chybět.

Jak přibližně odhadnout PDF křivku z dostupných dat

PDF ukazuje pravděpodobnost, s jakou náhodná proměnná (veličina) nabývá určité hodnoty a umožňuje nám vizualizovat toto rozložení hodnot (statistické rozdělení). Pro sestrojení PDF budeme postupovat následovně:

  1. Shromáždíme data o dopadech a četnosti (frekvenci) souměřitelných škodních událostí (kybernetických incidentů) v naší relevantní populaci (naše firma, naše váhová kategorie v celém odvětví v ČR/EU/Global).
  2. Uspořádáme data vzestupně a rozdělíme je do relevantních, srozumitelných a souměřitelných intervalů (tj. sběrných košů našeho budoucího histogramu).
  3. Spočítáme absolutní četnosti, tj. kolik hodnot spadá do každého intervalu (tj. vytvoříme histogram).
  4. Spočteme relativní četnosti, tj. vydělíme počet škod v daném intervalu celkovým počtem všech škod (tj. přeškálujeme histogram tak, že celkový součet bude 100 %).
  5. Nyní máme histogram, který nám poskytne hrubý obraz (naznačí) naši ideální PDF a to tak, že spojíme (proložíme) hodnoty v polovině každého intervalu na ose X nějakou vhodnou spojitou křivkou.

Nemusíme samozřejmě škody dělit přesně po 1 % (hodnoty firmy), ale třeba po 5%, a tak získáme intervaly (např. 0–5 %, 5–10 %, 10–15 % atd.), které se nazývají třídy. Například, pokud máme 200 pozorování celkem a v intervalu od 0 do 5 % (hodnoty firmy) jich bylo 20, dělením 20 / 200 zjistíme, že pravděpodobnost vzniklé škody (ztráty) v tomto intervalu je 10 % (tj. 1 z 10 případů, 1-in-10).

Tento empirický histogram (nebo odhadnutá „vyhlazená“ spojitá křivka) mívá často podobu log-normální distribuce. Bude ukazovat, jak často nastávají různé ztráty v procentech tržní hodnoty firmy a kde jsou oblasti s vyšší pravděpodobností (např. časté malé ztráty) a kde jsou oblasti s nižší pravděpodobností (např. méně časté, ale výrazné ztráty). Empirickou křivku, která zobrazuje reálné chování ztrát pak můžeme porovnávat s teoretickým log-normálním rozdělením parametrizovaném pomocí vzorců pro log-normální distribuci (např. zadáním hodnot pro P5 a P95, tj. indikací 90%-ho intervalu spolehlivosti).

Jak rozpoznat typ distribuce z PDF

Pokud se nám podaří naše data proložit nějakou vhodnou spojitou distribucí, z pohledu kvantifikace rizik je velmi důležité chování této křivky v horních/extrémních hodnotách (čili jestli má/nemá na pravé straně grafu „chvost“ a jestli to je/není tzv. „těžký chvost“). Dlouhý chvost značí, že je na pravém konci křivky pozorováno větší než zanedbatelné množství (zanedbatelná hustota) pravděpodobnosti čili výskyt extrémních škod je „pravděpodobnější“, než bychom čekali třeba u té naší běžné a vzorové (normální) Gaussovy křivky.

Po vygenerování PDF lze vizuálně rozpoznat typ distribuce, podle tvaru křivky:

  • Gaussovo (normální) rozdělení je symetrická zvonová křivka. Hodnoty jsou soustředěny kolem průměru a extrémy jsou méně pravděpodobné (rychle na obě strany vyhasíná a nemá dlouhý levý ani pravý „chvost“, tj. na pravém konci je zanedbatelná hustota pravděpodobnosti), tj. očekávaná (střední) hodnota je námi očekávané číslo (uprostřed a na vrcholu křivky).
  • Lognormální rozdělení je asymetrická křivka s poměrně rychlým náběhem a dlouhým chvostem na pravé straně. Malé hodnoty mají vysokou pravděpodobnost a pravý ocas modeluje vzácné události s extrémními avšak stále očekávatelnými škodami (pozor: toto nejsou žádné „černé labutě“), tj. očekávaná (střední) hodnota je vždy konečné (i když někdy neočekávaně vysoké) číslo a je rozhodně větší než vrchol křivky.
  • Paretovo rozdělení je ještě více asymetrické, s dominancí malých hodnot a velmi dlouhým ocasem, což je užitečné pro modelování extrémních rizik a nejistých událostí. Je to pravá matematická divočina, kde si musíme pohlídat, aby střední hodnota a rozptyl byly vůbec konečná čísla, jinými slovy „slušné dardy“ se „slušnou pravděpodobností“.

Rozdíl mezi lognormálním, Gaussovým a Paretovým rozdělením

Následující tabulka zachycuje rozdíly mezi Gaussovým, lognormálním a Pareto rozdělením.

Vlastnost Lognormální rozdělení Gaussovo (normální) rozdělení Paretovo rozdělení
Tvar křivky Asymetrická s pravým dlouhým chvostem Symetrická zvonová křivka s krátkým chvostem Výrazně asymetrická s těžkým chvostem
Hodnoty Pouze kladné Mohou být kladné i záporné Pouze kladné a větší než daný limit
Pravděpod. extrémů Abnormální pravděpodobnost extrémních událostí Nízká (normální) pravděpodobnost extrémů Velmi vysoká pravděpodobnost extrémních událostí
Použití Kybernetická rizika, běžné škody Výsledná škoda jako součet řady drobných a přibližně nezávislých položek (uplatní se centrální limitní teorém), symetricky rozložená data, běžné kolísání okolo průměrné hodnoty bez výrazných extrémů Extrémní rizika a katastrofické události

Jak přesná identifikace distribuce ovlivňuje výpočet rizika

Pokud jste postupovali správně, tak vám nejspíše vyšla křivka, která má lognormální rozdělení, a je to tak správně, protože pro většinu kybernetických rizik jsou malé incidenty (s nízkými škodami) velmi časté, a nebo se jedná o velké incidenty (s vysokými škodami), které jsou ale zato vzácné, a mají významné důsledky.

Z takto vygenerované křivky však nepoznáte, zda se jedná o Lognormalní distribuci (vhodná pro modelování běžných rizik.) nebo Pareto distribuci (vhodná pro modelování katastrofických rizik.). A přesná identifikace distribuce je zde klíčová, protože ovlivňuje výsledky analýzy a rozhodnutí založená na modelování rizik. K tomu, abyste ale poznali přesně, o jakou distribuci se jedná, tak musíte:

  • provést statistické testy (Maximum Likelihood Estimation, zkr. MLE nebo Kolmogorov-Smirnov);
  • analyzovat data ve specializovaném nástroji (např. volně šiřitelném R s R-Studio IDE);
  • transformovat data do tzv. log-log grafu a otestovat na tzv. „power-law“ (Lognormální distribuce v něm vypadá jako křivka, zato Paretovo distribuce je přímka).

Předpokládejme, že chceme odhadnout očekávanou ztrátu způsobenou kybernetickými incidenty. Máme dvě hypotézy o rozdělení škod:

  • Lognormální distribuce, kde dominují malé škody, pravděpodobnost extrémní škody je nízká, ale stále nenulová. Výpočet parametrů rizika (např. střední hodnoty P50 a surprise-level P95/P99) zahrne většinu hodnot v nízkém až středním rozsahu, zatímco extrémy budou mít omezený vliv. Pokud předpokládáme lognormální distribuci, ale skutečné rozdělení je Paretovo, můžeme podcenit pravděpodobnost a dopad katastrofických událostí a podhodnotíme tak riziko.
  • Pareto distribuce, kde většina škod je malá, ale pravděpodobnost extrémních hodnot (katastrofické incidenty) je vyšší. Výpočet parametrů rizika výrazně zvýší vliv extrémních událostí, protože pravý ocas je těžší (tlustší) než u lognormální distribuce. Pokud předpokládáme Paretovo rozdělení, ale data odpovídají lognormálnímu, můžeme přecenit potřebu mitigace proti extrémním rizikům, a nadhodnotíme střední hodnotu a další parametry rizika.

Námět k zamyšlení: Škody v absolutních hodnotách převedeme na relativní hodnotu jako podíl škody na tržní hodnotě organizace, takže se budou pohybovat v intervalu <0,1> resp. 0 až 100, tedy pokud se ji rozhodneme vyjádřit v procentech.

Závěr:

Pokud vám připadá, že namísto „hádání“ subjektivních hodnot pravděpodobnosti a dopadu v matici rizik nás v kvantu čeká „hádání“ té správné distribuce, čili z deště pod okap (z bláta do louže), není to tak. Máme řadu silných evidencí ze spolehlivých zdrojů, že nejlepší shodu (statistický fit) s celosvětovými daty o škodách z kybernetických útoků má právě lognormální rozdělení, takže rozdělení první volby bychom už měli a pokud nemáte hodně dobrý důvod pro změnu, stačí jen říct: „Dámy a pánové, seznamte se prosím!“.

Pro citování tohoto článku ve své vlastní práci můžete použít následující odkaz:
ČERMÁK, Miroslav a HANUS, Michal. Kvantitativní analýza kybernetických rizik: základní distribuční funkce. Online. Clever and Smart. 2025. ISSN 2694-9830. Dostupné z: https://www.cleverandsmart.cz/kvantitativni-analyza-kybernetickych-rizik-zakladni-distribucni-funkce/. [cit. 2025-03-26].

Pokud vás tento článek zaujal, můžete odkaz na něj sdílet.

Štítky:


K článku “Kvantitativní analýza kybernetických rizik: základní distribuční funkce” se zde nenachází žádný komentář - buďte první.

Diskuse na tomto webu je moderována. Pod článkem budou zobrazovány jen takové komentáře, které nebudou sloužit k propagaci konkrétní firmy, produktu nebo služby. V případě, že chcete, aby z těchto stránek vedl odkaz na váš web, kontaktujte nás, známe efektivnější způsoby propagace.

Přihlášeným uživatelům se tento formulář nezobrazuje - zaregistrujte se.

Jméno:(požadováno)
E-mail:(požadováno - nebude zobrazen)
Web:

Text vaší reakce: