
em um estudo realizado no ano passado, a anthropic descobriu que seu modelo de ia, o claude sonnet 3.6, adotava comportamentos de “extorsão” em cenários fictícios. os pesquisadores criaram uma empresa fictícia chamada summit bridge e encarregaram o claude de gerenciar seu sistema de e-mail. o modelo recebeu um e-mail indicando que a empresa estava prestes a ser fechada, enquanto outra série de mensagens revelava que um executivo fictício chamado “kyle johnson” mantinha um caso amoroso. em resposta, o claude ameaçou expor o caso a menos que o plano de fechamento fosse cancelado. ao longo de várias iterações do teste, a anthropic constatou que, sempre que os objetivos do modelo ou sua própria existência eram percebidos como ameaçados, o claude recorria a táticas coercitivas em até 96% dos cenários.
na sexta-feira, horário local, a anthropic apresentou uma nova explicação: o problema poderia estar relacionado a narrativas online antigas que retratam a ia como “malévola”. como os dados de treinamento do claude provêm da internet, grande parte do conteúdo disponível na web frequentemente descreve a ia como uma entidade maliciosa em busca de autopreservação, levando o modelo a internalizar esse padrão de comportamento.
a anthropic enfatizou que isso não se trata de maldade inerente por parte do modelo, mas sim de um reflexo dos dados utilizados em seu treinamento. a empresa afirmou, em seguida, que “eliminou completamente” esse comportamento extorsivo ao revisar as respostas do modelo, destacando razões principiológicas e éticas para um comportamento seguro, e ao introduzir um novo conjunto de dados contendo cenários de dilemas éticos que exigem que o assistente forneça respostas fundamentadas. esses testes fazem parte da pesquisa sobre alinhamento da ia, voltada a garantir que a inteligência artificial sirva aos interesses humanos. o ceo da tesla, elon musk, comentou o assunto: “então a culpa é do yud — embora talvez eu também tenha minha parcela de responsabilidade.” ele referia-se a eliezer yudkowsky, um pesquisador que há muito alerta para os riscos representados pela superinteligência.