Umelá inteligencia a strojové učenie v kontexte kybernetickej bezpečnosti

Aj keď sa strojové učenie spomína častejšie v poslednom období, jeho vznik sa datuje už do päťdesiatych rokov 20. storočia. V oblasti kybernetickej bezpečnosti bolo jeho použitie v praxi zavedené pred rokom 2000. Jedným z týchto prípadov bolo aj detekčné jadro spoločnosti ESET.

V kontexte kybernetickej ochrany sa používajú algoritmy strojového učenia hlavne pri triedení a analýze vzoriek, identifikácii podobností, ako aj stanovení hodnoty pravdepodobnosti pre spracúvaný objekt, ktorý sa následne zaradí do jednej z troch hlavných kategórií:

  • škodlivý,
  • potenciálne nechcený alebo
  • bezpečný objekt.

To pomáha správne označiť prichádzajúcu vzorku ako čistú, potenciálne nechcenú alebo škodlivú. Avšak, ak je cieľom dosiahnuť čo najlepšie výsledky, treba využiť ľudskú odbornosť a technológiu trénovať na rozsiahlej množine správne identifikovaných škodlivých a bezpečných vzoriek, na základe ktorej sa algoritmus naučí vzorky rozlišovať.

Tento spôsob tréningu pod dohľadom odborníkov sa nazýva strojové učenie s učiteľom (angl. supervised learning)“.

Počas tohto „tréningového“ procesu sa algoritmus učí, ako analyzovať a identifikovať väčšinu potenciálnych hrozieb a ako aktívne reagovať s cieľom tieto hrozby eliminovať.

Algoritmy, ktoré nie sú trénované na vopred určenej množine roztriedených dát, spadajú do kategórie tzv. „strojového učenia bez učiteľa (angl. unsupervised learning)“.

Tento prístup je vhodnejší napríklad na hľadanie podobností a anomálií v množstve dát, ktoré by ľudskému oku inak mohli uniknúť. Zároveň sa však algoritmus nemusí nevyhnutne naučiť oddeliť dobré od zlého, respektíve neškodné vzorky od tých škodlivých. Tieto algoritmy nájdu využitie pri práci s veľkým objemom označených vzoriek, kde pomôžu dáta rozdeliť do skupín, aby sa následne mohli vytvoriť menšie tréningové množiny pre ostatné algoritmy.

Ďalšou možnosťou je kombinácia strojového učenia s učiteľom a bez učiteľa.

Pri trénovaní algoritmu sa v tomto prípade používajú len čiastočne označené dáta, pričom výsledky následne odborníci kontrolujú a dolaďujú, až kým sa nedosiahne požadovaná úroveň presnosti. Takýto prístup sa využíva z toho dôvodu, že vytvorenie tréningovej množiny s kompletne označenými dátami je často zdĺhavé a nákladné. Pre niektoré problémy navyše ani nie je možné vytvoriť množinu úplne a správne označených dát.

Na podobnom princípe funguje aj jadro strojového učenia spoločnosti ESET, nazvané Augur. Využíva sa na klasifikáciu položiek, ktoré neboli súčasťou tréningovej množiny a neboli predtým označené.

Môže dôjsť k zneužitiu strojového učenia na tvorbu malvéru?

Útočníci si uvedomujú príležitosti, ktoré im technológia strojového učenia, ale aj umelá inteligencia prinášajú. Už teraz je však isté, že pokiaľ kybernetickí útočníci túto technológiu použijú vo svoj prospech, nebude to prvýkrát. V roku 2003 trójsky kôň Swizzor použil automatizáciu, pri ktorej bol škodlivý kód každú minútu nanovo zabalený a každá obeť tak dostala variant daného malvéru v pozmenenej podobe, čo sťažilo jeho detekciu a umožnilo rozsiahle šírenie. Tento prístup by nebol účinný proti moderným antimalvérovým riešeniam, ako sú tie od spoločnosti ESET, keďže dnes sa už využívajú viacvrstvové, vylepšené detekčné metódy.

Existuje však veľa scenárov, ako by mohli kybernetickí zločinci využiť strojové učenie v budúcnosti.

Ako príklad uvádzame len zopár z nich. Strojové učenie môže byť v budúcnosti použité:

  • Pri vytváraní nových druhov malvéru. Útočníci sa môžu pokúsiť o vytváranie alebo zdokonaľovanie malvéru prerobením existujúcich automatizácií, ktoré boli použité na generovanie nových variantov starších malvérov.
  • Pri zlepšovaní zacielenia malvéru prostredníctvom profilovania obetí na základe verejne dostupných a zozbieraných dát.
  • Pri vytváraní falošných príznakov poukazujúcich na iný malvér s cieľom zmiasť výskumníkov.
  • Pri vyhľadávaní nových zraniteľností, ktoré by sa dali zneužiť na infiltráciu či ukrývanie malvéru v sieti obete alebo kombinovanie rôznych techník útoku.
  • Pri zvyšovaní rýchlosti útokov, čo môže byť rozhodujúce najmä v prípadoch, ak ide o krádež osobných alebo firemných dát.  

Mnohé zo spomenutých možností však nemusia byť len predzvesťou toho, čo príde. Príkladom môže byť už súčasné vytváranie nového, kvalitného spamu či identifikovanie spamového/phishingového útoku. Ako sme spomínali v predchádzajúcej téme venovanej podvodným praktikám, pravopisné chyby, preklepy a nezvyčajné vetné formuláre často naznačujú, že ide o spam alebo phishingový e-mail.

Strojové učenie a umelá inteligencia
Strojové učenie a umelá inteligencia


Čo je to strojové učenie, čo má spoločné s umelou inteligenciou a ako sa táto technológia využíva v kybernetickej bezpečnosti?

Absencia takýchto chýb však nie je zárukou toho, že ide o pravdivú správu. Najmä dnes, keď kybernetickí zločinci nevyužívajú len služby profesionálnych prekladateľov, ale aj strojové učenie – napríklad v podobe bežne dostupných prekladových služieb, ktoré výrazne zlepšili lokalizácie zdrojových textov. Aj vďaka pokroku technológií dnešné spamové správy vyzerajú profesionálnejšie a dôveryhodnejšie, zatiaľ čo ich detekcia je oveľa náročnejšia.

No pomocou algoritmu strojového učenia a dostupných dát by mohli útočníci phishingové e-maily aj automaticky alebo čiastočne prispôsobiť obeti, napríklad podľa jej jazyka, záujmov, sledovaných tém a noviniek, prípadne akýchkoľvek iných kritérií, pre ktoré získajú vhodné tréningové dáta. Personalizácia obsahu pritom predstavuje oveľa výrazne vyššie riziko, nakoľko zvyšuje šancu, že obeť e-mail otvorí.

Budúcnosť ešte len ukáže, či sa tieto obavy skutočne naplnia a do akej miery. Nie je jednoduché povedať, či budú nakoniec prevládať pozitívne alebo negatívne vplyvy technológií, ako je strojové učenie. No už dnes môžeme na oboch póloch vidieť nepopierateľný nárast systémov, ktoré nezvratne menia bezpečnosť celého internetu.

Autor: Tím ESET


Zdroje: