É impressão de alguns ou o ChatGPT está ficando mais burro?

Tecnologia

O amplamente celebrado modelo de linguagem da OpenAI foi aclamado como “simplesmente o melhor chatbot de inteligência artificial já lançado para o público em geral” por Kevin Roose, autor de “Futureproof: 9 Rules for Humans in the Age of Automation” e como “uma das melhores coisas que já foram feitas para a computação” pelo CEO da Nvidia, Jensen Huang.

O ChatGPT tornou-se tão bom em fornecer respostas naturais às perguntas dos usuários que alguns acreditam que ele passou oficialmente no teste de Turing, uma medida de longa data da capacidade de uma máquina de alcançar a inteligência humana.

O ChatGPT obteve os percentis mais altos de exames de desempenho em uma miríade de campos: matemática (89º), direito (90º) e GRE verbal (99º).

E pesquisadores da escola de medicina da NYU relataram no início de julho de 2023 que os conselhos dados pelo ChatGPT para questões relacionadas à saúde eram quase indistinguíveis daqueles fornecidos pela equipe médica humana.

Mas os pesquisadores da Universidade de Stanford e da Universidade da Califórnia, Berkeley, não estão prontos para confiar ao ChatGPT qualquer tomada de decisão crítica.

Ecoando um número crescente de preocupações expressas recentemente pelos usuários, Lingjiao Chen, Matei Zaharia e James Zhu disseram que o desempenho do ChatGPT não tem sido consistente. Em alguns casos, está piorando.

Em um artigo publicado no servidor de pré-impressão arXiv em 18 de julho, os pesquisadores disseram que “o desempenho e o comportamento do GPT-3.5 e do GPT-4 variam significativamente” e que as respostas em algumas tarefas “pioraram substancialmente com o tempo”.

Eles observaram mudanças significativas no desempenho ao longo de um período de quatro meses, de março a junho.

Os pesquisadores se concentraram em algumas áreas, incluindo resolução de problemas matemáticos e geração de código de computador.

Em março de 2023, o GPT-4 alcançou uma taxa de precisão de 97,6% ao resolver problemas relacionados a números primos. Essa taxa caiu para apenas 2,4% quando o modelo atualizado de junho de 2023 foi usado, de acordo com os pesquisadores de Stanford.

O ChatGPT recebeu muitos elogios por sua capacidade de ajudar os codificadores com problemas de programação e depuração. Em março, o GPT-4 respondeu às solicitações do codificador completando scripts precisos e prontos para execução em pouco mais de 50% do tempo. Mas em junho, a taxa caiu para 10%. O Chat-GPT-3.5 também mostrou um declínio notável na precisão, de 22% em março para 2% em junho.

Curiosamente, o ChatGPT-3.5 mostrou resultados quase opostos em habilidades matemáticas: alcançando apenas uma taxa de precisão de 7,4% na resolução de problemas de números primos em março, a versão atualizada em junho atingiu uma taxa de 86,8%.

Zhu disse que é difícil identificar uma causa, embora pareça aparente que as modificações e atualizações do sistema sejam fatores.7

“Não entendemos completamente o que causa essas mudanças nas respostas do ChatGPT porque esses modelos são opacos”, disse Zhu. “É possível que ajustar o modelo para melhorar seu desempenho em alguns domínios possa ter efeitos colaterais inesperados de piorá-lo em outras tarefas”.

Os teóricos da conspiração que notaram uma deterioração em alguns resultados sugerem que a OpenAI está experimentando versões alternativas e menores de LLMs (Large Language Models, um tipo de modelo de Inteligência Artificial criado para entender e gerar texto) como uma medida de economia de custos. Outros afirmam que o OpenAI está enfraquecendo intencionalmente o GPT-4, de modo que os usuários frustrados estarão mais dispostos a pagar pelo CoPilot, acessório LLM do GitHub.

A OpenAI rejeita tais alegações. Na semana passada, o vice-presidente de produto da OpenAI, Peter Welinder, disse em um tweet: “Não tornamos o GPT-4 mais burro. Muito pelo contrário: tornamos cada nova versão mais inteligente e capaz que a anterior”.

Ele sugeriu um motivo alternativo. “Quando você o usa com mais intensidade, começa a perceber problemas que não via antes.”

Enquanto isso, alguns observadores cautelosos com o impacto do “desvio” disruptivo nos resultados do modelo estão pressionando a OpenAI a divulgar fontes de material de treinamento, código e outros elementos estruturais por trás do ChatGPG 4.0.

Sasha Luccioni, da empresa de IA Hugging Face, explicou: “Quaisquer resultados em modelos de código fechado não são reprodutíveis e não podem ser verificados e, portanto, de uma perspectiva científica, estamos comparando guaxinins e esquilos”.

“Não cabe aos cientistas monitorar continuamente os LLMs implantados”, disse ela recentemente à ARS Technica em uma entrevista. “Cabe aos criadores de modelos dar acesso aos modelos subjacentes, pelo menos para fins de auditoria.”

Fonte: Phys.org

https://techxplore.com/news/2023-07-pains-chatgpt-dumber.html


Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *