banner
Centro notizie
Il sistema di qualità che abbiamo in atto garantisce solo il meglio per i nostri clienti.

Più dati, più problemi? 10 suggerimenti per gestire i dati generati dall'intelligenza artificiale

Jun 17, 2023

Il contenuto dei dati e i consigli sui prodotti sono editorialmente indipendenti. Potremmo guadagnare denaro quando fai clic sui collegamenti ai nostri partner. Saperne di più.

La maggior parte dei leader IT e molti dirigenti di alto livello stanno pensando, se non pianificando e già mettendo in atto, iniziative guidate dall'intelligenza artificiale. Esistono dozzine di strumenti solo nei tre principali principali fornitori di cloud pubblico per l’intelligenza artificiale e l’apprendimento automatico, oltre alle numerose tecnologie open source emerse dal lancio di ChatGPT nell’autunno del 2022.

Il potenziale è enorme: secondo un nuovo rapporto di Bloomberg Intelligence, il mercato dell’intelligenza artificiale generativa è destinato a crescere fino a 1,3 trilioni di dollari nei prossimi 10 anni, da una dimensione di mercato di soli 40 miliardi di dollari nel 2022.

Per ottenere una corretta intelligenza artificiale è necessario disporre di dati di qualità, in particolare di dati non strutturati. Il successo dell’intelligenza artificiale dipende dalla cura e dalla gestione appropriate di questi dati di file e oggetti, che costituiscono almeno l’80% di tutti i dati nel mondo. Questo articolo identifica le sfide di questi sforzi e offre 10 suggerimenti per affrontarle.

I dati non strutturati, dato il loro volume e i diversi tipi di file e formati che comprendono, da documenti e immagini a dati di sensori e strumenti, video e altro ancora, sono difficili da gestire. Spesso distribuito su più sistemi di storage in un'azienda sempre più ibrida e multi-cloud, è difficile da cercare, segmentare e spostare secondo necessità.

A causa della loro crescita, i dati non strutturati sono costosi da archiviare e sottoporre a backup. Infatti, la maggioranza (68%) delle organizzazioni aziendali intervistate nel 2022 spende il 30% o più del proprio budget IT nello storage. Questi problemi sono aggravati nei settori ad alta intensità di dati poiché le copie di dati ridondanti, obsoleti e banali (ROT) vengono raramente cancellate dai ricercatori e da altri team una volta completati i progetti.

La gestione dei dati non strutturati per l'intelligenza artificiale richiede nuove soluzioni e tattiche, incluso un approccio incentrato sui dati per guidare le decisioni di storage e mobilità dei dati economicamente vantaggiose tra fornitori e cloud.

C'è anche una crescente necessità di garantire che vengano sfruttati i giusti set di dati. Una nuova ricerca di Stanford ha scoperto che le prestazioni dei modelli linguistici di grandi dimensioni (LLM) “diminuiscono sostanzialmente man mano che il contesto di input si allunga, anche per modelli a contesto esplicitamente lungo”. In altre parole, a seconda del progetto, curare i set di dati giusti può essere più importante che set di dati di grandi dimensioni.

Le soluzioni, le linee guida e le pratiche di intelligenza artificiale generativa cambiano ogni giorno. Ma stabilire una base per la gestione intelligente dei dati non strutturati può aiutare le organizzazioni a essere flessibili e ad affrontare questa era di trasformazione. Ecco alcune tattiche da considerare.

L'indicizzazione dei dati è un modo efficace per classificare tutti i dati non strutturati in tutta l'azienda e renderli ricercabili in base ai metadati chiave (dati sui dati) come dimensione del file, estensione del file, data di creazione del file e data dell'ultimo accesso. La visibilità è fondamentale per posizionare correttamente i dati e soddisfare le mutevoli esigenze aziendali di archiviazione, analisi, conformità e così via.

Quando si gettano le basi per l’intelligenza artificiale, è meglio avere più informazioni. Più informazioni hai sui tuoi dati, più preparato sarai a fornirli agli strumenti di intelligenza artificiale e ML al momento giusto, e più preparato sarai per assicurarti di avere la giusta infrastruttura di storage per questi nuovi casi d'uso . Come minimo, dovrai comprendere i volumi dei dati e i tassi di crescita, i costi di archiviazione, i tipi e le dimensioni principali dei dati, le statistiche sull'utilizzo dei dati dipartimentali e i dati "caldi" o attivi rispetto a quelli "freddi" o a cui si accede raramente.

Una volta acquisito un livello di conoscenza di base delle risorse di dati, è possibile arricchirle con metadati per ulteriori funzionalità di ricerca. Ad esempio, potresti voler cercare file contenenti informazioni di identificazione personale (PII) o dati del cliente, dati sulla proprietà intellettuale (IP), nome dell'esperimento o ID dello strumento. Tali file potrebbero essere segmentati per l'archiviazione conforme o per essere inseriti in una piattaforma di analisi.

Con così tanti casi d’uso nelle organizzazioni oggi per l’intelligenza artificiale e altre ricerche, i collegamenti IT centrali e dipartimentali devono lavorare insieme per progettare strategie di gestione dei dati. Ciò garantisce che gli utenti abbiano un accesso rapido ai loro dati più importanti ma possano anche accedere ai dati più vecchi archiviati in uno spazio di archiviazione a basso costo quando ne hanno bisogno.