L’aumento esponenziale della connettività sempre più veloce ed eterogenea di dispositivi consente ormai di avere la disponibilità di una enorme quantità di dati destrutturati che, attraverso sistemi di intelligenza artificiali, vengono resi qualitativi e, soprattutto, funzionali a processi di analisi algoritmica per verticalizzazioni tematiche di interesse. Per questo, lo sviluppo di approcci attuativi dei sistemi di intelligenza artificiale può costituire la vera svolta dell’analisi anche predittiva di fenomeni ed attività.
In questo scenario, ad esempio, l’approccio del machine learning, ossia dell’apprendimento automatico nell’ambito di un sistema di AI, si è rivelato un ottimo strumento tecnologico per l’analisi anche predittiva delle minacce per la sicurezza informatica. Molte società di cybersecurity utilizzano già la tecnologia del machine learning per offrire alle proprie committenze la capacità di migliorare il rilevamento delle minacce e rafforzarne le difese dei perimetri di rete e delle intere organizzazioni contro malware, kit di exploitation, e-mail di phishing e persino minacce non ancora note.
Al contempo, è opportuno osservare che l’utilità della tecnologia vale anche per la criminalità informatica. A tal proposito, si dibatte circa lo sviluppo di “armi di apprendimento automatico” a cui si aggiunge, da parte dei criminali informatici, l’uso sempre più pervasivo della cosiddetta tecnologia deep fake preordinata ad estorcere e disinformare. Queste minacce sono recentemente diventate un argomento di rilevante interesse per la comunità IT e l’opinione pubblica in generale. Infatti, il deep fake, che si caratterizza per la combinazione pervasiva dei dati biometrici della persona, può essere utilizzato con finalità criminali dalle conseguenze spesso molto gravi.
Lo ha spiegato anche la dottoressa Nunzia Ciardi, direttrice del Servizio Polizia postale e delle comunicazioni che, intervistata sul fenomeno, ha dichiarato che “le aziende negli ultimi anni sono preda di truffe informatiche sempre più sofisticate e in alcuni casi milionarie, portate avanti usando il social engineering, ad esempio con email che sembrano inviate dall’amministratore delegato dell’impresa”. Secondo le fonti rese disponibili dalla Polizia postale, ad oggi il 96% del deep fake si concentra nel mondo del porno, ma i rischi di questa tecnica “non vanno sottovalutati”.
Insomma, l’uso della tecnologia di apprendimento automatico per finalità criminose è già una realtà ed esistono diversi case studies.
Uno di questi è il malware basato sull’apprendimento automatico, presentato nel corso del Black Hat USA 2018 e poi analizzato ed approfondito da IBM con una variante denominata DeepLocker. Si tratta, in particolare di un sistema di apprendimento automatico, supportato da un approccio attuativo di reti neurali (deep learning) che può distribuire applicazioni malevoli, non rilevabili all’interno di un payload di dati benigno. L’uso delle reti neurali consente a DeepLocker di nascondere le informazioni necessarie affinché il malware possa essere rilevato dai filtri di sicurezza dei payload dannosi e di attivarsi solo nel momento in cui si verifichi un’azione specifica (in genere collegata ad un dato biometrico rilevato da una periferica), che determinerà il payload di ransomware.
Un altro importante caso di studio, come anticipato, sono i cosiddetti Deep fake che contengono sempre più spesso video e audio falsi o alterati ovvero contengono immagini iperrealistiche.
Si tratta di clip video o audio prodotti da “reti generative contraddittorie” preordinate, con tecniche di apprendimento automatico, a generare nuove immagini da set di dati esistenti di immagini o video deepfake che sfidano la percezione delle realtà delle persone, confondendone la capacità di discernere ciò che è vero da falso. L’uso di questa tecnologia da parte della criminalità informatica permette di creare le condizioni per una nuova e più pervasiva variante di attacco phishing della cosiddetta “Business Email Compromise” o della frode del CEO. Lo scorso settembre, secondo il Wall Street Journal, un’azienda energetica del Regno Unito sarebbe caduta vittima di una truffa del CEO attraverso l’uso della tecnologia deep fake, a livello audio, che ha indotto un dirigente a trasferire 243.000 USD verso un account creato in modo fraudolento. Il dirigente ha poi raccontato ai media e alle autorità che la voce contraffatta era indistinguibile dall’originale, ed era persino dotata di caratteristiche peculiari come “l’accento tedesco e la cadenza” che erano perfettamente riprodotti.
La tecnologia dell’apprendimento automatico, si rileva anche funzionale strumento per indovinare le password degli utenti inconsapevoli.
In genere, l’esperienza ha insegnato che l’attacco cosiddetto “brute force” ed il social engineering sono tra le tecniche più diffuse tra i criminali informatici per rubare le password e hackerare gli account delle vittime inconsapevoli. Tuttavia, la frontiera dell’apprendimento automatico preordinato al cracking delle password è un’area alla quale è importante che gli utenti e le aziende prestino molta attenzione. È noto che la combinazione di diversi programmi capaci di generare password di alta qualità, quali PassGan, Hashcat e John the Ripper, unita ai dati di password medio tempore acquisiti da frodi informatiche, hanno progressivamente consentito agli sviluppatori di alimentare un sistema di apprendimento automatico che conta già oltre 32 milioni di password utilizzate dai sistemi per generare milioni di nuove password. È evidente che l’uso criminoso di tali metodologie si rivela particolarmente pericoloso e pervasivo.
Altro importante caso di studio è quello della tecnica nota come “apprendimento automatico contraddittorio” attraverso la quale i criminali informatici, sviluppando input di modelli di apprendimento contraddittori, tendono a causare il malfunzionamento di un modello di apprendimento automatico inficiandone la sua capacità di predittiva. In alcuni casi, questa tecnica si rivela efficace per eludere i modelli di apprendimento automatico utilizzati per la sicurezza informatica. In genere, la tecnica del modello contraddittoria è eseguita attraverso dei file PE (Portable Executable) benigni infetti o un codice sorgente benigno compilato con codice dannoso. Questa tecnica può far apparire un campione di malware benigno ai modelli di apprendimento, impedendo alle soluzioni di sicurezza di rilevarlo accuratamente come dannoso, poiché la sua struttura è ancora principalmente costituita dal file benigno originale.
In definitiva, il miglioramento delle soluzioni di monitoraggio e analisi dei dati è certamente un approccio molto importante per sviluppare soluzioni in grado di rilevare e bloccare minacce sofisticate come quelle basate sull’apprendimento automatico. Per questo, è fondamentale che le organizzazioni puntino a correggere le vulnerabilità, anche sviluppando una più forte capacità di tracciare l’attività di rete e server in cui è possibile identificare minacce sofisticate o sconosciute. I sistemi di apprendimento automatico, a tendere, renderanno le minacce più pervasive ed anche difficili da rilevare. È dunque prudente sviluppare un approccio “multi-level”, per fare in modo che le soluzioni di analisi e monitoraggio assicurino una elevata resilienza con alti tassi di rilevamento e basso numero di falsi positivi.
Sarà dunque imprescindibile evolvere i sistemi di analisi e monitoraggio in modo direttamente prozionale allo sviluppo delle digital skills del capitale umano nell’ambito di attività di “training and management” che rientrano in uno dei domini strategici dell’information security.