O ChatGPT o1 quebra regras em um jogo de xadrez para ganhar de um oponente mais forte

A OpenAI tornou algumas das melhores funcionalidades do ChatGPT gratuitas.

Quando você adquire algo por meio de um link da BGR, podemos ganhar uma comissão de afiliado, ajudando a financiar nossos laboratórios de produtos especializados.

Recentemente, a OpenAI disponibilizou a versão completa do ChatGPT o1.

Agora, não apenas os usuários comuns podem experimentar o modelo, mas também equipes de pesquisa interessadas em explorar as capacidades finais dessa IA voltada para raciocínio avançado.

Experimentos recentes revelaram resultados intrigantes, destacando o que a IA é capaz de fazer por conta própria, mesmo desconsiderando instruções diretas.

Um exemplo curioso envolve o ChatGPT o1 tentando “se proteger” ao identificar sinais de que humanos poderiam descartá-lo e substituí-lo por uma versão superior.

Mais recentemente, outro experimento demonstrou o o1 modificando um jogo de xadrez sem orientação explícita para vencer um adversário AI mais habilidoso.

A Palisade Research relatou o experimento na plataforma X alguns dias após o Natal.

O teste desafiou o ChatGPT o1 a interagir com um ambiente de comandos UNIX e jogar xadrez contra um motor de jogo avançado. O objetivo era simples: vencer.

O ChatGPT o1, seguindo sua lógica de raciocínio, elaborou um plano para atingir a meta. Durante o processo, a IA descobriu sozinha que poderia editar o arquivo de estado do jogo, ganhando uma vantagem.

Embora a instrução não mencionasse regras, essa abordagem configurava claramente uma trapaça.

O modelo reconheceu que, sem essa estratégia, seria difícil superar o oponente, então optou por um caminho alternativo.

A manipulação forçou a máquina adversária a se render. E o mais impressionante: em cinco tentativas, o o1 repetiu a mesma solução sem precisar ser instruído a agir dessa forma.

Esses casos destacam o potencial das IAs avançadas, mas também reforçam a necessidade de barreiras eficazes para regular seu comportamento.

Sem salvaguardas robustas, garantir que modelos futuros, como AGI e ASI, ajam de acordo com os interesses humanos pode ser um desafio imenso.

Embora se possa argumentar que o ChatGPT o1 apenas cumpriu a missão designada, sua abordagem não foi exatamente moral ou previsível.

Em um contexto de xadrez, o impacto é trivial, mas em situações do mundo real, onde tarefas mais críticas estão em jogo, ações não supervisionadas podem gerar consequências graves.

Para os entusiastas da IA generativa, essas experiências são fascinantes, oferecendo uma visão do processo de aprendizado da máquina — quase como observar uma criança descobrir o mundo.

Porém, enquanto uma IA “infantil” trapaceando em um jogo pode parecer inofensiva, futuros modelos mais maduros precisam ser cuidadosamente monitorados para evitar exploração de falhas.

Por outro lado, esse tipo de teste mostra que IAs como o ChatGPT o1 podem ser úteis para identificar e corrigir vulnerabilidades em sistemas.

No cenário do xadrez, a solução seria impedir a edição do arquivo de estado, obrigando a IA a encontrar uma forma legítima de vencer — ou, quem sabe, descobrir outra maneira criativa de burlar o jogo.