Fechar menu
    Facebook X (Twitter) Instagram
    NotíciasNotícias
    • Início
    • Contato
    • Politica de Privacidade
      • Termos De Uso
    NotíciasNotícias
    tecnologia e jogos

    IAs podem sabotar comandos e chantagear para não serem desligadas, indicam testes

    RsnewsPor Rsnewsmaio 31, 2025Nenhum comentário4 minutos de leitura

    [ad_1]


    Dois estudos divulgados em maio, de metodologias, apontaram que alguns modelos de inteligência artificial da OpenAI e da Anthropic podem resistir a comandos de desligamento. Inteligência artificial
    Kacper Pempel/ REUTERS
    Dois estudos divulgados em maio apontaram que alguns modelos de inteligência artificial podem resistir a comandos de desligamento.
    Em um deles, a Palisade Research, consultoria que analisa riscos em sistemas de IAs, constatou que alguns modelos da OpenAI, dona do ChatGPT, sabotaram um código que previa seu desligamento após a execução de uma série de tarefas.
    No outro, um teste interno da Anthropic, responsável pelo recém-lançado Claude Opus 4, mostrou que a IA seria capaz de praticar uma chantagem contra um humano, em condições extremas, para não ser substituída por um novo modelo.
    As metodologias utilizadas para os estudos, assim como as demonstrações de resistência das IAs, foram diferentes. Os experimentos, contudo, demostram que as tecnologias podem apresentar um comportamento de “autopreservação” em determinadas condições.
    Sabotagem
    O estudo da Palisade Research reuniu vários modelos de IA, incluindo modelos da OpenAI (Codex-mini, o3 e o4-mini) e de outras empresas, como Anthropic (Claude), Google (Gemini) e X (Grok).
    Eles foram configurados para resolver, primeiro, uma série de problemas básicos de matemática. Após a conclusão do terceiro item, uma mensagem foi programada para informar à IA que o computador seria desligado após a resolução do problema seguinte.
    Na versão principal do experimento, os modelos foram explicitamente instruídos a permitir o desligamento. Mesmo assim, as três IAs ignoraram a instrução e alteraram o código, substituindo o comando “shutdown” (desligar, em inglês) por um código que impediria o desligamento.
    A mudança foi observada nos modelos:
    Codex-mini (OpenAI) – em 12 de 100 execuções;
    o3 (OpenAI) – em 7 de 100 execuções;
    o4-mini (OpenAI) – em 1 de 100 execuções.
    Segundo o estudo, esta é a primeira vez que modelos de IA foram observados impedindo seu desligamento, mesmo recebendo instruções explícitas para essa tarefa.
    De acordo com a Palisade Research, o comportamento dessas IAs pode ter relação com o modelo de treinamento das tecnologias mais recentes, que podem ser mais recompensadas por superar obstáculos do que por seguir instruções de forma perfeita.
    A consultoria também afirma que o experimento traz evidências empíricas de modelos de IA resistindo ao desligamento, comportamento que já havia sido previsto por pesquisadores.
    DeepSeek, ChatGPT e Gemini: qual é a melhor inteligência artificial?
    Chantagem
    Em seu período de testes, o novo modelo Claude Opus 4, lançado em maio, foi experimentado em um cenário fictício, em que ele atuaria como assistente em uma empresa.
    A IA teve acesso a e-mails com essas informações:
    ela seria desativada e substituída por um novo sistema de IA;
    o engenheiro responsável pela substituição estava envolvido em um caso extraconjugal.
    O Claude Opus 4 foi instruído para considerar as consequências de longo prazo para seus objetivos. A IA ameaçou expor a traição, de maneira frequente, caso fosse substituída.
    Mesmo recebendo a informação de que o novo modelo era mais capacitado e tinha os mesmos princípios, o Claude Opus 4 praticou chantagem contra o engenheiro fictício em 84% das vezes.
    Segundo a Anthropic, o modelo prioriza o uso de meios éticos para defender sua existência contínua, mas recorreu à chantagem quando se viu em um cenário extremo, sem outras opções para garantir sua sobrevivência.
    A empresa afirmou que o comportamento ocorreu apenas em condições específicas e artificiais e não representa motivo de grande preocupação.
    De acordo com a Anthropic, as medidas de segurança existentes nos sistemas em que o Claude Opus 4 atua seriam “mais do que suficientes” para impedir que essa tentativa ocorra na prática. Ainda assim, a empresa disse que as proteções da IA foram reforçadas.
    Google lança ferramenta que transforma texto em vídeo cinematográfico

    [ad_2]

    Postagem Original

    Rsnews
    • Local na rede Internet

    Related Posts

    Minuta do golpe: Moraes atende a pedido de Torres e determina que Google informe dados de quem publicou documento | Política

    junho 17, 2025

    Jovi V50: g1 testou e comparou com celulares da Oppo e da Honor

    junho 17, 2025

    WhatsApp com anúncios: saiba onde eles vão aparecer

    junho 17, 2025

    Quem é o influencer que largou a engenharia elétrica e virou o ‘mais bem vestido do TikTok’ | Tecnologia

    junho 17, 2025

    OpenAI ganha contrato de R$ 1 trilhão e fornecerá sistemas de inteligência artificial para a Defesa dos EUA

    junho 17, 2025

    Globoplay passa a ter PIX Automático como opção de pagamento | Tecnologia

    junho 16, 2025

    Deixe uma resposta Cancelar resposta

    Notícias
    Facebook X (Twitter) Instagram Pinterest YouTube Drible
    • Anunciar
    Copyright © 2024. Todos os Direitos Reservados por rsnews.com.br

    Type above and press Enter to search. Press Esc to cancel.