Web scraping e intelligenza artificiale: la raccolta indiscriminata dei nostri dati sul web e il rischio privacy

Il web scraping è la fonte di informazioni delle principali applicazioni di IA. Queste tecnologie, sebbene offrano vantaggi significativi, sollevano anche importanti questioni riguardanti la privacy.

Cos’è il Webscraping?

Il web scraping è in estrema sintesi una tecnica utilizzata per estrarre grandi quantità di dati dal web.

Questo processo automatizzato è ampiamente impiegato per vari scopi, come l’analisi del mercato, la ricerca accademica, il monitoraggio dei prezzi e molto altro.

In un mondo sempre più guidato dai dati, la loro raccolta massiva è diventata uno strumento essenziale per molte aziende.

Non sono solo le Big Tech ad utilizzare questa tecnica per ottenere vantaggi competitivi, come la raccolta di informazioni sui prodotti dei concorrenti o l’analisi dei trend di mercato desunte dai miliardi di utenti dei diversi social media più o meno segmentati.

Con l’espansione del commercio elettronico e l’aumento della disponibilità di dati online, le attività di web scraping sono aumentate. 

Diverse analisi di settore indicano che una percentuale considerevole di traffico web, in alcuni casi fino al 25-40%, può essere attribuita a bot di scraping. 

Nell’e-commerce o nella vendita al dettaglio questi tools consentono di recuperare informazioni sui prezzi dai siti web dei concorrenti e ritagliare offerte mirate su determinati target di clientela.

La pesca indiscriminata dei dati è ampiamente diffusa anche nel settore finanziario e degli investimenti raccogliendo nel web rendiconti finanziari, prezzi delle azioni e i più svariati indicatori economici che permettono di elaborare strategie di investimento mirate.
Utilizzo analogo nel settore immobiliare per individuare tendenze di mercato e dati sui prezzi, mentre nel mercato dei viaggi e turismo il web scraping consente di monitorare le disponibilità e i prezzi analizzando i feedback dei clienti.
Con l’espansione del commercio elettronico e l’aumento della disponibilità di dati online, le attività di strascico dati nel web sono aumentate. 
Diverse analisi di settore indicano che una percentuale considerevole di traffico web, in alcuni casi fino al 25-40%, può essere attribuita a bot di scraping. 

L’educazione della IA e la Privacy

Le principali applicazioni IA soprattutto quelle basate sul deep learning come chatbot e assistenti virtuali, ma anche in campi delicati come quello medico per la diagnosi precoce, apprendono ed evolvono tramite algoritmi che elaborano vasti set di dati.
Alcuni esempi:

Dati Comportamentali: Informazioni su come gli individui interagiscono con siti web, app, e dispositivi. Questo può includere dati di navigazione, preferenze di acquisto, e modelli di utilizzo. 

Dati Demografici: Età, genere, nazionalità, e altre informazioni demografiche possono essere usate per personalizzare e migliorare i servizi. 

Dati di Localizzazione: Posizione GPS, indirizzi IP, e altri dati di localizzazione che aiutano a comprendere le abitudini di mobilità e geografiche degli utenti. 

Dati di Interazione Sociale: Post sui social media, like, commenti, e altre forme di interazione sociale. 

Dati Biometrici: Impronte digitali, riconoscimento del volto, e altri dati biometrici usati per sistemi di sicurezza e identificazione personale. 

Questi contenuti oggetto del data mining possono includere informazioni personali sensibili, sollevando preoccupazioni sulla privacy degli individui che se ne vedono defraudati in rete senza nemmeno saperlo.
L’uso di dati personali nell’apprendimento automatico della IA può anche portare a vere e proprie violazioni della privacy, se non adeguatamente gestito.

Il punto di vista dei Garanti UE: più equilibrio tra innovazione e Privacy

La sfida dei prossimi anni sarà bilanciare le necessità “educative” e il potenziale dell’IA con il rispetto della riservatezza e dei diritti individuali dei cittadini.
Il Garante per la protezione dei dati personali italiano è stato il primo ad approfondire questi nuovi scenari con un’indagine su Open AI e suo ChatGPT che ha fatto conoscere al grande pubblico le potenzialità dei nuovi software basati sull’ intelligenza artificiale.
Nel provvedimento del 30 marzo 2023 veniva contestatala violazione del GDPR alla società statunitense preso atto che non esisteva alcun controllo all’accesso dell’ applicazione ai minori di 18 anni e: ”l’assenza di base giuridica che giustifichi la massiccia raccolta e archiviazione di dati personali per “addestrare” il chatbot”.
Solo dopo una serie di interlocuzioni finalizzate a rendere il software conforme al GDPR l’11 Aprile 2023 ne veniva permessodal Garante l’utilizzo in Italia condizionato all’ adozione di misure di salvaguardia dei dati personali degli utenti.

A sua volta l’European Data Protection Board, l’organismo dei Garanti UE, si è inserito nella tematica decidendo di lanciare una task force specifica su ChatGPT.
Il problema di fondo è semplice ed è stato ben sintetizzato dal Guido Scorza, componente del Garante per la protezione dei dati personali in un suo intervento:

“I dati personali di miliardi di persone, frammenti della loro identità personale e “titoli rappresentativi” di un diritto fondamentale come il diritto alla privacy vengono letteralmente pescati a strascico dalle grandi fabbriche dell’intelligenza artificiale globale per l’addestramento dei propri algoritmi e, dunque, trasformati in assets commerciali e tecnologici di pochi al fine consentire a questi ultimi di fare business. Il tutto avviene come se il web fosse un’immensa prateria nella quale tutto è di tutti e chiunque può pertanto impossessarsene e farlo proprio per qualsiasi finalità”

Per proteggere i dati personali dal web scraping illegale, è essenziale il ricorso generalizzato alla l’anonimizzazione e la pseudonimizzazione dei dati e l’implementazione di sistemi avanzati di autenticazione e autorizzazione. 
Il consenso informato gioca un ruolo cruciale, assicurando che gli individui siano pienamente consapevoli di come i loro dati vengano utilizzati e abbiano il controllo su di essi.

Il Ruolo della P.A. delle aziende e degli sviluppatori

Gli sviluppatori e le aziende hanno la responsabilità di garantire che le applicazioni IA siano sviluppate e utilizzate in modo responsabile secondo il criterio fondamentale della Privacy by design.
Per far fronte al web scraping dilagante anche i siti web della Pubblica Amministrazione e dei privati devono adottare misure di sicurezza robuste ed efficaci in modo da non compromettere l’usabilità per gli utenti legittimi.
Le migliori pratiche in termini di sicurezza dei dati, come la crittografia l’anonimizzazione e la pseudonimizzazione dei dati ma anche l’implementazione di sistemi avanzati di autenticazione e autorizzazione con audit di sicurezza, sono fondamentali per proteggere i dati raccolti da accessi non autorizzati e abusi nella raccolta.

Il webscraping e l’IA che impara da esso hanno il potere di trasformare radicalmente il nostro modo di interagire con il mondo digitale sicuramente in meglio.

Tuttavia, è imperativo che innovazione e rispetto della privacy procedano di pari passo, garantendo che i benefici della tecnologia non vadano a scapito del diritto alla privacy dei cittadini siano essi digitali o meno.