Vai ai contenuti

Data Poisoning nella Digital Forensics: una minaccia crescente all'integrità delle prove

Salta menù
Scienza e tecnologie al servizio della Giustizia
Investigazioni Scientifiche | Corporate University e Centro Ricerca
Salta menù
Salta menù
Scienza e tecnologie al servizio della Giustizia
Scienza e tecnologie al servizio della Giustizia
Tel. (+39) 02.3672.8310 - Email: info@unisf.eu
Salta menù
Accertamenti tecnici non ripetibili art. 360 c.p.p.

Data Poisoning nella Digital Forensics: una minaccia crescente all'integrità delle prove

Istituto di Scienze Forensi
Pubblicato da ISF Magazine in Informatica forense e Cybersecurity · Martedì 13 Mag 2025 · Tempo di lettura 6:15
Tags: datapoisoningdigitalforensicscybersecurity
Autori:
dr.ssa Erica MALAFRONTE
(Cybersecurity Analyst)
dr. David CARDONER VALBUENA
(Data Scientist)

Istituto di Scienze Forensi Centro di Ricerca


Introduzione
La Digital Forensics svolge un ruolo cruciale nella ricostruzione di eventi digitali, nell'attribuzione di responsabilità e nella raccolta di prove legalmente ammissibili. L'intero valore di un'indagine forense digitale dipende dall'integrità dei dati raccolti: se tali dati vengono manipolati, l'affidabilità dei risultati può essere gravemente compromessa. In questo contesto, il data poisoning emerge come una minaccia significativa, specialmente per quelle indagini che si affidano a modelli di intelligenza artificiale (AI) e machine learning (ML).


Cos'è il Data Poisoning?
Il data poisoning è un tipo di attacco informatico in cui gli aggressori manipolano o corrompono i dati di training utilizzati per sviluppare modelli di machine learning (ML) o intelligenza artificiale (AI).
Questo risulta particolarmente pericoloso per le indagini forensi che si basano sul machine learning per analizzare firme di malware, eseguire il rilevamento di intrusioni o correlare eventi tra più fonti di dati.
Una volta che i dati di training sono compromessi, il modello potrebbe prendere decisioni errate o addirittura guidate da intenti malevoli.


L'importanza del Data Poisoning nella Digital Forensics
Nella digital forensics, si utilizzano diversi strumenti automatizzati per analizzare grandi quantità di dati, come log, traffico di rete o campioni di file, al fine di identificare comportamenti dannosi e attribuire responsabilità. Se questi strumenti vengono compromessi tramite data poisoning, un investigatore forense potrebbe riscontrare falsi positivi o non riuscire a rilevare minacce reali. Peggio ancora, se queste manipolazioni rimangono non rilevate, i procedimenti legali possono essere minati e i criminali possono sfuggire alla giustizia.
Si immagini uno scenario in cui uno strumento forense utilizzato dalle forze dell'ordine è addestrato su un dataset di programmi maligni (malware) noti e software benigni. Se un attaccante avvelena tale dataset, modificando sistematicamente le etichette o iniettando codice dannoso camuffato da benigno, il modello subirà una degradazione che può portarlo a generare classificazioni erronee. Gli investigatori, affidandosi a questo modello compromesso, potrebbero inavvertitamente lasciar passare artefatti dannosi. Questo evidenzia perché l'integrità dei dati e l'affidabilità delle fonti sono fondamentali in qualsiasi indagine digitale.


Tipi di Data Poisoning
Possiamo distinguere due categorie principali di data poisoning: non mirato e mirato.

  • Data poisoning non mirato: in questo tipo di attacco, l'obiettivo dell'aggressore è più generale, ovvero degradare  l'accuratezza o l'affidabilità complessiva del modello. Questo ha un impatto ampio e immediato, causando un evidente calo delle prestazioni. Esempi includono gli attacchi di inversione del modello (in cui gli aggressori sfruttano gli output del modello per scoprire dati sensibili di training), gli attacchi stealth (manipolazioni difficili da rilevare che inseriscono vulnerabilità nel modello, sfruttate solo dopo la distribuzione) e l'iniezione di dati (aggiunta di dati falsi o malevoli ai dataset di training per manipolare il comportamento dell'AI).
  • Data poisoning mirato: in questo tipo di attacco l'aggressore cerca specifiche classificazioni errate o comportamenti. Ad esempio, garantire che un tipo specifico di malware passi sempre inosservato. Questo è più difficile da rilevare perché le modifiche sono sottili e si confondono con variazioni normali. In questa categoria rientrano il label poisoning (inserimento di dati etichettati male o dannosi nel dataset di training, portando il modello ad apprendere associazioni errate) e il training data poisoning  (corruzione, alterazione o manipolazione di una porzione più ampia dei dati, influenzando le decisioni del modello in modi indesiderati). Tipi specifici di attacchi mirati includono gli attacchi backdoor, gli attacchi clean-label e il label flipping.

In questo articolo, punteremo il focus sul label flipping e sugli attacchi backdoor.

  • Label flipping: questo attacco consiste nel cambiare le etichette corrette con quelle errate nei dati di training, fuorviando l'AI durante l'apprendimento. Ad esempio, etichettare un campione di malware come "sicuro" potrebbe portare il modello a non rilevarlo in futuro.
  • Attacco backdoor: un backdoor è un meccanismo nascosto che consente di bypassare le normali procedure di sicurezza per accedere a un sistema informatico o a dati crittografati. Nel contesto del machine learning, un backdoor può essere "incorporato" nei dati di training del modello. Un attaccante può infiltrarsi nel sistema target tramite varie tecniche (malware, phishing, sfruttamento di vulnerabilità, ecc.) e inserire un backdoor, mantenendo così l'accesso remoto. Una volta installato, il backdoor può essere utilizzato per rubare informazioni sensibili o eseguire comandi aggiuntivi sul sistema.

Un esempio di attacco backdoor invisibile in un modello di visione artificiale coinvolge l'aggiunta di un trigger (un pattern o segno visivo quasi impercettibile) alle immagini di training. Durante l'addestramento, il modello impara ad associare questo trigger a una classificazione errata o a un'azione malevola. In fase di utilizzo, quando un'immagine contenente il trigger viene presentata al modello, questo si comporta in modo anomalo, spesso in maniera difficilmente riconducibile a un errore o a un attacco.



Rilevamento del Data Poisoning
Il rilevamento del data poisoning è una sfida complessa, data la natura spesso subdola delle manipolazioni. Tuttavia, esistono diverse strategie e strumenti per mitigarne il rischio.
Un approccio più avanzato è rappresentato da un framework di analisi forense per il rilevamento di data poisoning nei modelli di machine learning.

Questo framework integra diverse tecniche, tra cui:
  • il reverse engineering (model inversion) per analizzare l'architettura interna del modello;
  • la topological data analysis (TDA) per rilevare irregolarità nascoste;
  • i valori di Shapley per identificare pattern decisionali anomali;
  • l'analisi della legge di Benford come validazione statistica.

L'obiettivo è analizzare il modello stesso per individuare segni di avvelenamento, superando le limitazioni delle tradizionali analisi focalizzate solo sui dati di input.


Conclusioni
Il data poisoning rappresenta una seria minaccia per l'integrità delle indagini di digital forensics, specialmente in un contesto in cui l'affidamento su modelli di intelligenza artificiale e machine learning è in costante crescita. La capacità di manipolare i dati di training per compromettere l'affidabilità e la correttezza delle decisioni dei modelli impone la necessità di adottare misure di prevenzione efficaci, tra cui pratiche di gestione dei dati sicure, una verifica rigorosa dei dataset e l'impiego di strumenti di sicurezza avanzati. La ricerca e lo sviluppo di framework forensi innovativi per il rilevamento del data poisoning, come quelli basati sull'analisi topologica, sui valori di Shapley e sulla legge di Benford, rappresentano un passo fondamentale per garantire la validità e l'affidabilità delle prove digitali nel panorama delle minacce informatiche in continua evoluzione.

Riproduzione riservata


Fonti
  • IBM. (n.d.). What is data poisoning? IBM Think. Retrieved from https://www.ibm.com/think/topics/data-poisoning
  • Peng, K., Hu, Y., Xu, Y., & Zhang, J. (2024). A Survey of Data Poisoning Attacks against Machine Learning. Applied Sciences, 14(19), 8742. https://doi.org/10.3390/app14198742
  • Rouse, M. (n.d.). Back door (computing). TechTarget – SearchSecurity. Retrieved from  https://www.techtarget.com/searchsecurity/definition/back-door
  • Shah, D. (2023, November 30). Introduction to Training Data Poisoning: A Beginner's Guide. Lakera. Retrieved from  https://www.lakera.ai/blog/training-data-poisoning
  • A Forensic Analysis Framework for Machine Learning Model Poisoning Detection Galamo F. Monkam1, Jie Yan2, and Nathaniel D. Bastian1 1United States Military Academy at West Point 2Bowie State University https://d197for5662m48.cloudfront.net/documents/publicationstatus/250611/preprint_pdf/f7cee9e03304840e80b53a618f6fde95.pdf



Istituto di Scienze Forensi
Direzione Generale
Via Leonardo da Vinci n. 5
20094 Corsico (Milano)
Struttura, sedi e contatti
_____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
ISO 9001:2015
Certificato n. IT2200602
Istituto di Scienze Forensi Srl | Via Leonardo da Vinci n. 5, 20094 Corsico (MI) | C.F. e P.Iva: 09467620960 CCIAA Milano | R.E.A. MI2092253 | Cap. Soc. euro 20.000,00
Investigazioni Scientifiche
Corporate University
ISF Istituto di Scienze Forensi
Direzione Generale
Via Leonardo da Vinci n. 5
20094 Corsico (Milano)


Istituto di Scienze Forensi Srl
C.F. e P.Iva 09467620960
Scienza e tecnologie al servizio della Giustizia
_____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________
Istituto di Scienze Forensi Srl
C.F. e P.Iva 09467620960
ISF Istituto di Scienze Forensi
Direzione Generale
Via Leonardo da Vinci n. 5
20094 Corsico (Milano)

Istituto di Scienze Forensi Srl
C.F. e P.Iva 09467620960
Torna ai contenuti