Cerca
Close this search box.
Cerca
Close this search box.
0%
Premi per ascoltare

Web Scraping delle IA: la nota informativa del Garante Privacy

Web Scraping delle IA

L’Autorità Garante per la Privacy ha pubblicato una nota informativa sulla pratica del Web Scraping.

Il documento fornisce indicazioni sul fenomeno della raccolta massiva di dati personali dal web, per finalità di addestramento dei modelli di intelligenza artificiale generativa. L’intento del Garante è promuovere azioni di contrasto per prevenire la raccolta di dati da terze parti.

Ma cos’è il Web Scraping?

Il Web Scraping [dall’inglese ‘to scrape’ – raschiare] consiste nella raccolta automatizzata e indiscriminata di dati dai siti web ad opera dei modelli generativi di Intelligenza Artificiale, col fine ultime di fornire risposte sempre più accurate. Nella stragrande maggioranza delle volte questa estrazione avviene senza il consenso dei titolari che hanno la sola possibilità di richiederne la rimozione solo successivamente alla loro acquisizione. 

E allora cosa dice il Garante?

Secondo il Garante “nella misura in cui il web scraping implica la raccolta di informazioni riconducibile a una persona fisica indentificata o identificabile si pone un problema di protezione dati personali”. Sottolinea, inoltre, come il carattere di liceità del Web Scraping vada valutato caso per caso, e a partire da un fatto incontrovertibile e cioè che: la navigazione nel web si basa su protocolli aperti che consentono di reperire informazioni e dati pubblicamente disponibili online. Informazioni e dati possono essere raccolti in maniera sistematica anche attraverso programmi, ovvero bot, che operano in maniera automatizzata simulando la navigazione umana. I più noti bot utilizzati dai motori di ricerca sono i web crawler, chiamati anche spider, e le finalità per cui vengono impiegati talvolta possono essere malevoli.

Come contrastare il Web Scraping per l’addestramento dell’IA generativa?

Le indicazioni del Garante [nonostante non sia stato deputato quale autorità a vigilare sulle pratiche di intelligenza artificiale], contenute nella nota informativa, sono rivolte ai gestori dei siti web e delle piattaforme online. Indicazioni su cui vige la consapevolezza dello stesso Garante di non essere in grado di impedire al 100% il web scraping.

Ecco alcune azioni per contrastare il web scraping dell’IA generativa individuate dal Garante:

  • la creazione di aree riservate;
  • inserimento di clausole ad hoc nei termini di servizio, con l’espresso divieto di utilizzare tecniche di web scraping,
  • monitoraggio del traffico di rete, il monitoraggio delle richieste HTTP ricevute da un sito web o da una piattaforma consente di individuare eventuali flussi anomali di dati in ingresso ed in uscita;
  • intervento sui bot, ovvero tecniche di limitazione dei bot come l’inserimento di verifiche CAPTCHA, la modifica periodica del markup HTML, il monitoraggio dei file di log, l’intervento sul file robot.txt.

Ultime considerazioni

Senza alcun dubbio l’Intelligenza Artificiale Generativa produce una grande quantità di benefici per la collettività ma ciò non la sottrae al rispetto dei dati personali di utenti molto spesso inconsapevoli. E da oggi tutti i titolari di siti web e piattaforme online sanno quali misure adottare per proteggere i dati in loro possesso da qualsiasi tentavo di raschiatura 😅.

Ultimi articoli

Maturità: fra social, digital e amarcord arriva l’Esame 2024

Mastercard, dal 2030 per gli acquisti online basterà una passkey

Fascicolo Sanitario Elettronico 2.0: la sanità pubblica è finalmente digitale?

Calendario eventi

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Skip to content