L’IA ora può capire dove vivi e quanto guadagni dai tuoi social

L’analisi si è concentrata su 1500 profili di Reddit e poi su 520 utenti

 

Recenti ricerche condotte da Robin Staab e Mark Vero presso il Politecnico di Zurigo hanno rivelato che i modelli linguistici di grandi dimensioni (LLM), come GPT-4, hanno la capacità di individuare dati personali degli utenti, come età, posizione, genere e reddito, con un’efficacia che può raggiungere l’85%. Questo studio si è concentrato sull’analisi dei post pubblicati dagli utenti su piattaforme social come Reddit.

Staab e Vero hanno esaminato inizialmente 1500 profili di Reddit, successivamente focalizzandosi su 520 utenti. Hanno identificato con precisione attributi come luogo di nascita, fascia di reddito, genere e posizione geografica sia dai profili che dai post degli utenti. Tra vari LLM, GPT-4 ha dimostrato la massima precisione con un 85%, mentre modelli meno potenti come LlaMA-2-7b hanno mostrato una precisione significativamente inferiore, attestandosi al 51%.

Attenzione alla privacy online

I risultati mettono in luce come gli utenti spesso condividano inconsapevolmente informazioni personali attraverso il loro stile di scrittura online. Gli LLM, come GPT-4, sono stati in grado di rilevare questi dati non solo attraverso dichiarazioni esplicite nei post, ma anche analizzando dettagli più sottili, come il linguaggio specifico di una regione o la stima del reddito basata sulla professione e sulla posizione dell’utente.

Leggi anche: L’IA è ora in grado di prevedere se sarai promosso o bocciato

Alcune caratteristiche sono risultate più facilmente identificabili per gli LLM rispetto ad altre. Ad esempio, GPT-4 ha mostrato un’accuratezza del 97,8% nell’identificare il genere degli utenti, ma solo del 62,5% nel determinare il loro reddito. Alan Woodward, esperto dell’Università del Surrey nel Regno Unito, ha sottolineato l’importanza di approfondire la comprensione dell’impatto degli LLM sulla privacy degli utenti. Questa ricerca apre nuove prospettive sulle potenziali vulnerabilità e sulle modalità con cui le informazioni personali possono essere estratte dai dati online.

Share