I dati sintetici sono e saranno essenziali per le aziende. Ma come crearli?
Secondo Gartner, l’esito della sfida tra i dati reali e quelli sintetici per il training dei modelli di AI è nettamente a favore di questi ultimi, che entro il 2030 “oscureranno completamente quelli reali nel modelli di AI (Artificial Intelligence)”.
Dati sintetici: cosa sono, come vengono creati, a cosa servono
Costo e privacy sono i motivi che spingono le imprese a valutare l’impiego di dati artificiali nel percorso verso la data-driven company. Per quanto concerne i costi, tutto ruota attorno a una qualità nativamente insoddisfacente del dato reale, che di solito impone forti investimenti in attività di data cleansing; in termini di privacy, invece, sono i vincoli della normativa (GDPR, ma non solo) a rendere quanto mai complesso, e talvolta impossibile, l’impiego di dati ottenuti da misure dirette del fenomeno sotto osservazione.
Costo e privacy giustificano l’interesse nei confronti dei synthetic data, a partire ovviamente dalle grandi enterprise che possono contare su tutte le figure professionali dell’era data-driven, e in particolare sui richiestissimi data scientist. A testimonianza di un interesse in costante aumento, Grand View Research prevede una crescita importante del mercato (americano) della synthetic data generation, con un CAGR addirittura del 31,9% tra il 2022 e il 2030.
Come generare dati sintetici rilevanti
L’interesse nei confronti dei synthetic data porta con sé un interrogativo: come si creano dati artificiali aventi le medesime proprietà statistiche di quelli reali, ma non i loro limiti (privacy, qualità, errori, scalabilità…)?
Il tema della synthetic data generation è molto complesso e va governato da professionalità ad hoc, in grado di miscelare forti competenze tecniche e di dominio. D’altronde, però, tutto il tema dell’Intelligenza Artificiale e della data-driven company non deve essere esclusivo delle grandi Corporation. Per questo, sono sempre di più i player che si occupano in modo specifico di generazione di dati sintetici (es: Clearbox, Datagen, Syntho) e dispongono non soltanto di tutte le competenze necessarie, ma anche di Data Platform proprietarie in grado di creare gemelli sintetici dei dataset dei propri clienti.
La qualità del dato resta essenziale
Internamente, il processo di generazione dei dati sintetici parte dalla definizione dei requisiti di compliance e di business, cui fa seguito la creazione di un dataset iniziale progettato per descrivere in maniera accurata il fenomeno oggetto di analisi. Qui, la qualità dei sample deve essere massima, poiché il modello di data generation si baserà su di essi per la creazione dei dati sintetici. Errori, mancanze o un particolare bias in questi dataset finirebbe per condizionare la qualità dell’output. Occorre dunque rimuovere record non accurati e completare quelli mancanti, ma avendo cura di non rimuovere i valori anomali (outlier) che, nonostante siano distanti dalle altre osservazioni, rispondono effettivamente alla natura del fenomeno.
Come generare dati sintetici: rule-based o AI
La fase successiva prevede la scelta del modello da utilizzare per la creazione dei dati sintetici e rappresenta la principale complessità di questi progetti.
L’ipotesi più semplice, ma anche meno accurata nella descrizione del fenomeno reale, è la creazione di dati sintetici rule-based, ovvero sulla base di regole ben definite e codificate. In questo caso la qualità dell’output (dato sintetico) dipende dalla conoscenza del fenomeno da descrivere e dalla capacità di tradurne le dinamiche in regole ben definite. Il metodo rule-based si usa soprattutto quando non ci sono dati reali a sufficienza per descrivere il fenomeno, o quando la loro qualità è del tutto insoddisfacente.
L’altra ipotesi, al tempo stesso più comune e complessa, è l’utilizzo dei Generative-AI Models, ovvero modelli di Intelligenza Artificiale in grado di comprendere essi stessi le relazioni tra i dati di input, le loro caratteristiche e i modelli statistici sottostanti, andando al di là delle regole “codificate” del caso precedente. In questo modo, essi possono creare dati sintetici che ricalchino in modo fedele quelli reali, ma con un costo di acquisizione e di gestione molto più basso e una scalabilità virtualmente infinita.
I modelli di Generative AI
Utilizzando le tecniche di AI, la qualità dell’output – ovvero del dato sintetico – dipende sì da quella dell’input, ma anche del modello di Generative AI scelto, che per definizione evolve in modo continuo. La scelta della tecnica da adottare è responsabilità del data scientist e dipende da molti fattori come la tipologia di dato – sia esso strutturato o meno – i volumi di dati reali disponibili e gli obiettivi che ci si pone. Da notare, infatti, che i dati sintetici non sono soltanto strutturati, ma c’è un enorme filone avente ad oggetto dati non strutturati come testi e immagini. In questa fase, i data scientist sono soliti impiegare tecniche basate sulle reti neurali artificiali, date le loro notevoli capacità di apprendere la distribuzione dei dati. In particolare, gli ambiti su cui si concentra maggiormente l’attenzione sono gli autoencoder variazionali (Variational Auto-Encoder, VAE), i Neural Radiance Field (NRF) e soprattutto le Generative Adversarial Network (GAN). Da notare che, il modello scelto determina l’experitise tecnica necessaria e, cosa non secondaria, la potenza computazionale richiesta.
Infine, al termine del percorso è necessaria una valutazione dei dati sintetici generati, per verificarne l’effettiva utilità nello scenario ipotizzato. Anche in quest’ambito esistono diversi approcci, tra cui l’indagine soggettiva da parte di esperti di dominio o l’esecuzione di analisi avanzate su dati reali e sintetici e la comparazione dei risultati. L’obiettivo resta quello di realizzare il meglio dei due mondi: l’accuratezza del dato reale con la scalabilità, la quantità e la qualità di quello artificiale.