O ChatGPT usa meus dados para treinar o modelo?

Na interface web, por padrão sim. Você precisa desativar manualmente em Configurações > Controles de dados. Via API, a OpenAI afirma que não usa para retreino.

Quais dados nunca devo colocar em IA?

Dados pessoais (CPF, RG, endereço), dados financeiros (faturamento, margens), dados empresariais sensíveis (contratos, estratégias) e código proprietário (APIs privadas, lógica de negócio).

Como usar IA de forma segura na empresa?

Nunca envie dados sensíveis, anonimize antes de colar, use dados fictícios para testes, limite acesso dos agentes, desative o treinamento nas configurações e considere modelos locais para dados críticos.

Shadow AI é quando funcionários usam ferramentas de IA sem aprovação da TI. Segundo a IBM, 1 em cada 5 organizações já sofreu violação causada por Shadow AI.

Protocolo de Segurança em IA

Q: Usar IA com dados de clientes viola a LGPD?

Sim. Enviar dados pessoais de clientes para uma IA sem consentimento explícito é violação direta da LGPD (Lei 13.709/2018). A ANPD pode aplicar multas de até R$ 50 milhões por infração.

Sumário

Introdução
O maior erro: tratar IA como ferramenta simples
Seus dados estão treinando a IA?
O que você NUNCA deve colocar em IA
Como os vazamentos acontecem
O problema invisível
Os números que confirmam o problema
O risco dos agentes de IA
Boas práticas essenciais
Checklist rápido
Baixar modelo checklist
Conclusão

Introdução

A inteligência artificial virou parte do dia a dia de empresas e profissionais.

Mas junto com a produtividade… veio um problema silencioso:

Vazamento de dados causado pelo uso incorreto de IA.

E o mais perigoso?

Isso não acontece por hackers.

Acontece com pessoas comuns, usando IA do jeito "normal".

Esse é um padrão que eu vejo se repetir em empresas de todos os tamanhos.

Este protocolo foi criado para te mostrar, de forma simples e direta:

Onde estão os riscos
O que você NÃO deve fazer
Como usar IA com segurança

Capítulo 1

O maior erro: tratar IA como ferramenta simples

Muita gente acha que usar IA é como usar:

Google
Word
Excel

Mas não é.

Quando você usa um modelo de linguagem (LLM), você está:

Enviando informações para um sistema externo

Processando dados fora do seu controle direto

Isso muda tudo.

Caso real: Samsung (2023)

Engenheiros da Samsung colaram código-fonte proprietário no ChatGPT para pedir ajuda com bugs, aconteceu três vezes em menos de um mês, e foi o suficiente para acontecer o pior. Resultado: a Samsung baniu o uso de IA generativa internamente.

O dado não foi "hackeado". Foi entregue voluntariamente por funcionários que achavam que estavam usando uma ferramenta simples. Na prática, isso acontece muito mais do que deveria. Fonte

Capítulo 2

Seus dados estão treinando a IA?

Existe uma diferença crítica que quase ninguém sabe: dependendo de como você usa a IA, seus dados podem ser usados para treinar o modelo.

Isso significa que o contrato que você colou, a planilha que você enviou, o código que você pediu pra corrigir tudo isso pode influenciar respostas futuras para outras pessoas.

Cada provedor tem regras diferentes. Veja:

ChatGPT (OpenAI)

Interface web: Por padrão, suas conversas podem ser usadas para melhorar os modelos. Você precisa ir em Configurações → Controles de dados e desativar manualmente.

API: A OpenAI afirma que dados enviados via API não são usados para retreino. Mas você ainda está enviando dados para servidores externos.

A maioria das pessoas usa a interface web. E a maioria não desativa o uso de dados para treinamento. Fonte oficial

Gemini (Google)

Versão gratuita: O Google informa que conversas com o Gemini podem ser revisadas por humanos e usadas para melhorar os produtos. Os dados ficam armazenados por até 3 anos.

Google Workspace (pago): O Google afirma que dados de clientes Workspace não são usados para treinar modelos. Mas a versão gratuita não tem essa proteção. Fonte oficial

Copilot (Microsoft)

Versão gratuita: A Microsoft pode usar seus dados para melhorar os serviços. As conversas são armazenadas e podem ser revisadas.

Copilot para Microsoft 365 (pago): A Microsoft afirma que dados corporativos não são usados para treinar os modelos base. Fonte oficial

Claude (Anthropic)

Versão gratuita e Pro: A Anthropic informa que pode usar conversas para treinar e melhorar os modelos, a menos que você desative nas configurações.

API: Dados enviados via API não são usados para treinamento por padrão. Fonte oficial

O padrão é claro

Percebeu? Em quase todos os casos:

Versão gratuita = seus dados podem treinar o modelo.

Versão paga/API = geralmente não, mas seus dados ainda vão para servidores externos.

Pagar pelo plano não resolve tudo. Reduz o risco de retreino, mas o dado ainda sai da sua empresa. Para dados realmente sensíveis, a única solução segura são modelos locais.

Dica prática: como desativar o treinamento

A maioria das IAs permite desativar o uso dos seus dados para treinamento. Mas atenção: mesmo desativando, suas conversas ainda podem ficar armazenadas por um período antes de serem apagadas.

ChatGPT (OpenAI): Configurações → Controles de dados → desative "Melhorar o modelo para todos". Conversas anteriores podem permanecer nos servidores por até 30 dias após a exclusão.

Gemini (Google): Acesse Minha Atividade no Google e desative a atividade do Gemini. Dados ja coletados podem levar até 18 meses para serem removidos dos sistemas.

Copilot (Microsoft): Nas configurações de privacidade, desative o uso de dados para melhoria de produtos. O historico pode ser retido por até 30 dias.

Claude (Anthropic): Nas configurações da conta, desative o uso de conversas para treinamento. A Anthropic informa que dados podem ser retidos por até 30 dias após a exclusão.

Não resolve tudo, seus dados ainda vão para servidores externos no momento do envio. Mas reduz significativamente o risco de retreino e exposição futura.

Capítulo 3

O que você NUNCA deve colocar no chat da IA

Dados pessoais

CPF
RG
Endereço
Telefone
Email de clientes

Dados financeiros

Faturamento
Margem
Custos internos

Dados empresariais sensíveis

Contratos
Estratégias
Planilhas internas
Banco de dados

Código proprietário

Sistemas internos
APIs privadas
Lógica de negócio

Como anonimizar antes de enviar

Você pode usar IA para analisar textos e dados desde que anonimize antes. Veja o exemplo:

Errado:

"Analisa esse contrato entre a empresa PICFR Ltda, CNPJ 11.XXX.111/0001-11, e o cliente Hebert Henrique, CPF 1XX.111.X11-11, no valor de R$ 450.000"

Certo:

"Analisa esse contrato entre a [EMPRESA A] e o [CLIENTE B], no valor de [VALOR]. Quero saber se as cláusulas de rescisão estão equilibradas."

A regra é simples: substitua qualquer informação que identifique pessoas, empresas ou valores reais por marcadores genéricos antes de colar na IA.

Você recebe a mesma qualidade de resposta sem expor nenhum dado.

E a LGPD?

Enviar dados pessoais de clientes para uma IA sem consentimento explícito é violação direta da LGPD (Lei 13.709/2018). Não importa se é "só pra testar" ou "só pra melhorar um texto".

Se o dado identifica uma pessoa e você enviou pra um servidor externo sem autorização você está em desconformidade com a lei.

A ANPD (Autoridade Nacional de Proteção de Dados) é o órgão responsável por fiscalizar e aplicar sanções. E as multas não são leves: podem chegar a R$ 50 milhões por infração, ou 2% do faturamento da empresa. Além da multa, a ANPD pode determinar bloqueio ou eliminação dos dados, suspensão do banco de dados e até proibição parcial ou total das atividades relacionadas ao tratamento. Site oficial da ANPD

Em 2023, a ANPD já aplicou a primeira multa por violação da LGPD no Brasil. Em 2024, abriu investigação sobre o uso de dados pessoais por ferramentas de IA generativa incluindo o próprio ChatGPT, que chegou a ser temporariamente suspenso na Itália por questões semelhantes. Notícias ANPD

Ou seja: não é só risco de reputação. É risco financeiro e jurídico real.

Capítulo 4

Como os vazamentos acontecem (sem você perceber)

"Melhora esse texto"

Você cola um contrato → IA processa → dado saiu

Parece inofensivo. Mas o contrato tinha nomes, CNPJs, valores e cláusulas sigilosas. Tudo isso agora está nos servidores do provedor de IA. Você perde o controle direto sobre esses dados.

"Analisa esse relatório"

Você envia dados internos → IA responde → exposição

Relatórios financeiros, planilhas de custos, margens de lucro tudo isso é ouro para concorrentes. E você acabou de entregar de graça para um sistema que você não controla.

Compartilhamento de link

Você manda conversa → Alguém acessa → vazamento

O ChatGPT permite compartilhar conversas por link. Se você discutiu dados sensíveis e compartilhou o link com um colega qualquer pessoa com esse link pode acessar. E links vazam: em históricos, em prints, em encaminhamentos.

Automação com IA

IA conectada a sistemas → Responde com dados reais → exposição automática

Agentes de IA conectados ao seu CRM ou banco de dados podem retornar dados reais de clientes em respostas. Se o agente está exposto publicamente ou sem autenticação qualquer pessoa pode extrair essas informações.

O número que assusta

Uma pesquisa da Cyberhaven (2023) analisou o uso de IA em empresas e descobriu que 11% dos dados colados no ChatGPT por funcionários eram confidenciais. Isso inclui código-fonte, dados de clientes e informações financeiras. Fonte

Não foram hackers. Foram funcionários tentando ser mais produtivos. E os números só pioraram desde então como você vai ver no capítulo 6.

Capítulo 5

O problema invisível

A maioria dos vazamentos:

Não gera erro
Não gera alerta
Não gera aviso

Você simplesmente… não sabe que aconteceu.

Por que é invisível?

Quando um hacker invade um sistema, existem logs, alertas, rastros. Quando um funcionário cola dados no ChatGPT… nada acontece.

Não existe nenhum sistema interno que detecte isso. Nenhum firewall bloqueia. Nenhum antivírus avisa.

O dado simplesmente sai da sua empresa e vai para servidores externos sem registro, sem log, sem volta.

O que já aconteceu na prática

Samsung (2023) restringiu o uso de IA após vazamentos internos de código-fonte Fonte
Microsoft (2023) durante um projeto de IA, um erro de configuração expôs 38TB de dados internos, incluindo senhas e mensagens privadas Fonte
Italia (2023) bloqueou temporariamente o ChatGPT por questões de privacidade Fonte

A pergunta é: se instituições desse porte estão preocupadas, por que a sua não estaria?

Capítulo 6

Os números que confirmam o problema

77% dos funcionários admitem já ter enviado dados sensíveis para IA

Um relatório da LayerX (2025) revelou que 77% dos funcionários admitem já ter enviado dados confidenciais da empresa no ChatGPT. Em média, um funcionário faz 6,8 colagens por dia e mais da metade contém dados sensíveis como códigos de acesso, dados de clientes ou estratégias de mercado. Fonte

Violações de dados por IA dobraram em 2025

Segundo a Netskope (Abril 2026), as violações de políticas de dados relacionadas a IA generativa dobraram em 2025. O volume de prompts enviados aumentou 6 vezes no último ano. O vazamento ocorre principalmente porque funcionários enviam código-fonte, credenciais e propriedade intelectual para IAs públicas sem proteção corporativa. Fonte

2/3 das empresas não controlam seus dados com IA

Uma pesquisa da Fortune com a Thales (2026) mostrou que dois terços das empresas que utilizam IA não têm controle total sobre onde seus dados estão armazenados. Apenas 34% conseguem identificar a localização de todos os seus dados sensíveis o que torna agentes autônomos verdadeiras bombas-relógio de exposição. Fonte

Shadow AI no Brasil: 1 em cada 5 empresas já sofreu violação

O relatório IBM/Ponemon (2025) aponta que 1 em cada 5 organizações relatou uma violação causada especificamente por Shadow AI quando funcionários usam ferramentas de IA sem aprovação da TI. Empresas com alto uso de IA sem governança tiveram custos de violação US$ 670.000 mais altos. Os dados mais vazados: informações pessoais (65%) e propriedade intelectual (40%). Fonte

Microsoft: 38 terabytes expostos por acidente

Pesquisadores descobriram que a equipe de IA da Microsoft expôs acidentalmente 38 terabytes de dados privados incluindo senhas e mensagens internas ao compartilhar uma URL de armazenamento para modelos open-source. Se até quem cria a tecnologia erra na configuração, imagine quem só usa. Fonte

O que isso significa na prática?

Não são hackers. São:

Analistas de marketing fazendo upload de planilhas de clientes pra IA "criar personas"
Desenvolvedores colando chaves de API e credenciais pra IA "debugar" o código
RH enviando avaliações de desempenho pra IA "resumir o feedback"
Qualquer funcionário usando conta pessoal de IA pra fins profissionais

O problema não é a ferramenta. É a conta pessoal sendo usada pra fins profissionais, onde os dados inseridos podem servir de treinamento para os modelos globais.

Capítulo 7

O risco dos agentes de IA

Quando você conecta IA com:

CRM
Banco de dados
APIs

Você cria um sistema que pode:

Acessar dados
Processar dados
Retornar dados

Se mal configurado, isso vira um vazamento automatizado.

O que é um agente de IA na prática?

Um agente é uma IA que não só responde perguntas ela executa ações. Consulta seu banco de dados, puxa informações do CRM, envia e-mails, gera relatórios.

Isso é poderoso. Mas também é perigoso.

"Não precisa ser um criminoso"

Esse é o ponto que pouca gente entende:

Não precisa ser um hacker. Não precisa ser um especialista. Não precisa de nenhuma ferramenta.

Uma simples pergunta feita do jeito certo pode fazer o agente entregar tudo. Dados de clientes, informações internas, credenciais.

Qualquer pessoa curiosa, um funcionário insatisfeito, ou até alguém sem maldade nenhuma pode, sem querer, extrair dados que não deveria ter acesso.

Existem técnicas conhecidas de desvio de conduta em agentes de IA que fazem exatamente isso. Não cabe detalhá-las aqui o objetivo deste guia é proteger, não formar pessoas com finalidades maliciosas.

O que você precisa saber é: se o seu agente não foi configurado pensando nisso, ele está vulnerável. E a maioria não foi.

Os 3 erros mais comuns com agentes

Acesso total ao banco - agente com permissão de leitura em todas as tabelas, sem filtro de quais dados pode retornar. Qualquer pergunta = qualquer dado.

Sem autenticação - agente exposto publicamente sem login. Qualquer pessoa pode interagir, sem controle de quem pergunta o quê.

Sem filtro de output - agente retorna dados brutos do banco. CPFs, e-mails e telefones na resposta, sem nenhuma máscara ou anonimização.

O correto é: acesso mínimo necessário, autenticação obrigatória, filtros que mascaram dados sensíveis antes de responder entre outras práticas avançadas.

Quando eu analiso operações com agentes de IA, esses três erros aparecem em quase todas.

Capítulo 8

Boas práticas essenciais

Agora que você entende os riscos, aqui estão as ações concretas que você pode aplicar hoje:

01

Nunca envie dados sensíveis

Nenhum dado pessoal, financeiro ou estratégico deve ser colado em qualquer chat de IA. Se precisa usar IA com esses dados, anonimize primeiro como mostramos no Capítulo 2.

02

Use dados fictícios para testes

Substitua nomes, CPFs e valores reais por dados falsos antes de enviar qualquer coisa. A IA não precisa de dados reais pra te dar uma boa resposta.

03

Limite acesso dos agentes

Agentes de IA devem ter o mínimo de permissões necessárias. Se ele só precisa consultar pedidos, ele não precisa acessar dados de clientes. Nunca acesso total.

04

Revise automações com IA

Toda automação que envolve IA precisa ser auditada periodicamente. O que funcionava bem ontem pode estar vazando dados hoje por causa de uma atualização ou mudança no modelo.

05

Treine sua equipe

De nada adianta você saber se sua equipe continua colando dados no ChatGPT. Crie regras claras, faça treinamentos rápidos e mostre exemplos reais como os deste guia.

06

Tenha política de uso de IA

Documente regras claras sobre o que pode e o que não pode ser feito com IA na empresa. Sem política escrita, cada funcionário decide por conta própria e é aí que o problema começa.

Alternativa: modelos locais

Para dados realmente sensíveis, considere usar modelos de IA que rodam localmente na sua máquina. Ferramentas como Ollama, Gamma 4, e LM Studio permitem rodar LLMs sem enviar nenhum dado para a internet.

A qualidade é menor que o ChatGPT? Sim, em alguns casos. Mas o dado nunca sai da sua máquina e pra dados sensíveis, isso vale mais que qualquer resposta perfeita.

Capítulo 9

Checklist rápido - Boas práticas no uso de IA

Antes de usar IA, pare 10 segundos e pergunte:

☐ Isso tem dados sensíveis? (nomes, CPFs, valores, contratos)

☐ Eu compartilharia isso publicamente sem problema?

☐ Isso pode impactar minha empresa se vazar?

☐ Eu anonimizei os dados antes de colar?

☐ Estou usando a interface web ou a API?

☐ O treinamento com meus dados está desativado?

Se a resposta for SIM para qualquer uma das três primeiras… NÃO envie para IA. Anonimize primeiro ou use um modelo local.

Parece simples? É simples. Mas 99% das pessoas não fazem isso. E é exatamente por isso que os vazamentos continuam acontecendo todos os dias.

Imprima esse checklist. Cole na parede. Mande pro grupo da equipe. Faça virar hábito.

Conclusão

IA é poderosa. Mas sem controle…

…vira um risco invisível.

Empresas não estão sendo hackeadas.

Estão vazando dados por uso incorreto.

Você viu neste guia que:

A Samsung perdeu código-fonte proprietário por funcionários usando ChatGPT
11% dos dados colados em IA por funcionários são confidenciais
Grandes bancos e big techs já baniram ou restringiram o uso de IA internamente
Agentes mal configurados podem entregar dados com uma simples pergunta
A interface web pode usar suas conversas pra treinar o modelo

Nada disso é teoria. Já aconteceu. Está acontecendo agora.

Esse conteúdo não é teoria. É baseado em problemas reais que já aconteceram e continuam acontecendo em empresas.

Se você chegou até aqui, já está na frente de 99% das pessoas que usam IA sem pensar nisso.

Por Hebert Henrique, desenvolvimento de software, segurança de IA e engenharia de prompt.

"O maior vazamento de dados hoje não acontece em um ataque… acontece em um prompt."

Se isso te fez pensar… compartilha com quem usa IA com você.