Dois dias depois de uma carta aberta pedir uma moratória sobre modelos de IA generativa mais poderosos que estão sendo desenvolvidos para que os reguladores possam alcançar empresas como o ChatGPT, a autoridade de proteção de dados da Itália acaba de lançar um lembrete oportuno de que alguns países já têm leis que já se aplicam à IA de ponta – ordenando que a OpenAI pare de processar dados de pessoas localmente com efeito imediato.
A DPA italiana disse que está preocupada que o fabricante do ChatGPT esteja violando o Regulamento Geral de Proteção de Dados (GDPR) da União Europeia e está abrindo uma investigação.
Especificamente, o Garante disse que emitiu a ordem para bloquear o ChatGPT devido a preocupações de que a OpenAI tenha processado ilegalmente os dados das pessoas – e também sobre a falta de qualquer sistema para impedir que menores acessem a tecnologia.
A empresa com sede em São Francisco tem 20 dias para responder à ordem – apoiada pela ameaça de algumas penalidades se não cumprir. (Lembrete: as coimas por infrações ao regime de proteção de dados da UE podem aumentar até 4 % do volume de negócios anual ou 20 milhões de euros, consoante o montante que for mais elevado.)
Vale a pena notar que, uma vez que a OpenAI não tem uma entidade legal estabelecida na UE, qualquer autoridade de proteção de dados está habilitada a intervir, ao abrigo do RGPD, se vir riscos para os utilizadores locais. (Assim, onde a Itália intervém, outros podem seguir-se.)
Conjunto de questões relacionadas com o RGPD
O RGPD aplica-se sempre que os dados pessoais dos utilizadores da UE são tratados. E está claro que o grande modelo de linguagem da OpenAI vem analisando esse tipo de informação – já que pode, por exemplo, produzir biografias de indivíduos nomeados na região sob demanda (sabemos, já tentamos). Embora a OpenAI tenha se recusado a fornecer detalhes dos dados de treinamento usados para a última iteração da tecnologia, GPT-4. Mas revelou que modelos anteriores foram treinados em dados extraídos da Internet, incluindo fóruns como o Reddit. Portanto, se você estiver razoavelmente online, é provável que o bot saiba seu nome.
Além disso, o ChatGPT mostrou produzir informações totalmente falsas sobre indivíduos nomeados – aparentemente inventando detalhes que seus dados de treinamento não têm. O que potencialmente levanta mais preocupações com o GDPR — uma vez que o regulamento fornece aos europeus um conjunto de direitos sobre seus dados, incluindo o direito à retificação de erros. E não está claro como/se as pessoas podem pedir à OpenAI para corrigir pronunciamentos errados sobre eles gerados pelo bot, em apenas um cenário de exemplo.
O comunicado do Garante também destaca uma violação de dados que o serviço sofreu no início deste mês – quando a OpenAI admitiu que um recurso de histórico de conversas estava vazando conversas dos usuários e disse que pode ter exposto informações de pagamento de alguns usuários.
As violações de dados são outra área que o RGPD regula — com foco em garantir que as entidades que processam dados pessoais estão protegendo adequadamente as informações. A legislação pan-europeia também prevê requisitos para notificar as autoridades de supervisão relevantes de infrações significativas dentro de prazos apertados.
Em suma, a maior questão de saber em que base jurídica a OpenAI se baseou para processar os dados dos europeus? Aka, a licitude deste processamento.
O RGPD permite uma série de possibilidades — do consentimento ao interesse público — mas a escala do tratamento para treinar estes grandes modelos linguísticos complica a questão da legalidade, como nota a Garante (apontando para a “recolha e armazenamento em massa de dados pessoais”), sendo a minimização de dados outro grande foco no regulamento — que também contém princípios que exigem transparência e equidade. No entanto, pelo menos, a (agora) empresa com fins lucrativos por trás do ChatGPT não parece ter informado as pessoas cujos dados foram reaproveitados para treinar suas IAs comerciais. O que poderia ser um problema bastante pegajoso para ele.
Se a OpenAI processou dados de europeus ilegalmente, DPAs em todo o bloco poderiam ordenar que os dados fossem excluídos – embora se isso a forçaria a retreinar modelos treinados em dados obtidos ilegalmente é uma questão em aberto, já que uma lei existente lida com tecnologia de ponta.
Por outro lado, a Itália pode ter acabado de proibir todo o aprendizado de máquina por, er, acidente… ????
“O Privacy Guarantor nota a falta de informação aos utilizadores e a todas as partes interessadas cujos dados são recolhidos pela OpenAI, mas sobretudo a ausência de uma base legal que justifique a recolha e armazenamento em massa de dados pessoais, para efeitos de ‘formação’ dos algoritmos subjacentes ao funcionamento da plataforma”, escreve hoje a DPA no seu comunicado [que traduzimos do italiano usando IA].
“Como evidenciado pelas verificações realizadas, as informações fornecidas pelo ChatGPT nem sempre correspondem aos dados reais, determinando assim um tratamento impreciso dos dados pessoais”, acrescentou.
A autoridade acrescentou que está preocupada com o risco de os dados de menores serem processados pela OpenAI – uma vez que a empresa não está impedindo ativamente que pessoas com menos de 13 anos se inscrevam para usar o chatbot, por exemplo, aplicando tecnologia de verificação de idade.
Os riscos para os dados das crianças é uma área em que o regulador tem sido muito ativo – recentemente ordenando uma proibição semelhante do chatbot de IA de amizade virtual, Replika, por questões de segurança infantil. Nos últimos anos, também perseguiu o TikTok por causa do uso de menores de idade – forçando a empresa a limpar mais de meio milhão de contas que não pôde confirmar que não pertenciam a crianças.
Portanto, se a OpenAI não puder confirmar definitivamente a idade de qualquer usuário que se inscreveu na Itália, ela pode – no mínimo – ser forçada a excluir suas contas e começar novamente com um processo de inscrição mais robusto.
A OpenAI foi contactada para obter uma resposta à ordem do Garante.
Lilian Edwards, especialista em proteção de dados e direito da Internet na Universidade de Newcastle – que está à frente na condução de pesquisas sobre as implicações dos “algoritmos que se lembram” – disse ao TechCrunch: “O que é fascinante é que ele mais ou menos copiou e colou a Replika na ênfase no acesso de crianças a conteúdo inadequado. Mas a verdadeira bomba-relógio é a negação da base legal – que deve se aplicar a TODOS ou pelo menos a muitos sistemas de aprendizado de máquina, não apenas à IA generativa.”
Remeteu para o caso crucial do «direito a ser esquecido», que envolve a pesquisa Google — em que foi deduzida uma contestação ao seu tratamento sem consentimento de dados pessoais por uma pessoa em Espanha — mas enquanto os tribunais europeus estabeleceram o direito de as pessoas solicitarem aos motores de busca que removam informações inexatas ou desatualizadas sobre elas (ponderado com um teste de interesse público), O tratamento de dados pessoais pela Google nesse contexto (pesquisa na Internet) não foi anulado pelos reguladores da UE sobre a legalidade do ponto de tratamento — aparentemente com o fundamento de que estava a fornecer uma utilidade pública. Mas também, em última análise, porque a Google acabou por conceder direitos de apagamento e retificação aos titulares dos dados da UE.
“Os modelos de linguagem grande não oferecem esses remédios e não está totalmente claro que eles fariam, poderiam ou quais seriam as consequências”, acrescentou Edwards – sugerindo que a retenção forçada de modelos pode ser uma solução potencial.
Ou, bem, que tecnologias como o ChatGPT podem simplesmente ter violado a lei de proteção de dados…
Fonte: TechCrunch
Find Us on Socials