Estudo feito pela OpenAI testou se ferramentas de IA conseguiam ganhar US$ 1 milhão realizando o trabalho de programadores freelancers
Será que ferramentas de inteligência artificial conseguem realizar sozinha trabalhos freelancers de programação? Esse foi o teste realizado por pesquisadores da OpenAI, que culminou no estudo publicado no dia 17 de fevereiro no repositório de artigos científicos arXiv.
Os cientistas da desenvolvedora do ChatGPT desenvolveram um benchmark de Grandes Modelos de Linguagem chamado SWE-Lancer, utilizando o GPT-4o e o o1 da OpenAI, além do Claude-3.5 Sonnet da Anthropic.
A inteligência artificial foi encarregada de realizar 1.488 trabalhos freelance de programação publicados na plataforma Upwork. O pagamento para a conclusão das tarefas somava US$ 1 milhão.
O resultado traz um respiro para os programadores: não, as ferramentas ainda não conseguem substituir integralmente engenheiros de software. Mas, segundo a OpenAI, isso pode mudar em breve.
Os cientistas dividiram os trabalhos em duas categorias: tarefas de contribuir individual, que tem a função de resolver bugs ou implementar funcionalidades, e tarefas de gerenciamento, onde a ferramenta realiza a função de gerente, decidindo qual a melhor proposta para resolver problemas.
“Os resultados indicam que o trabalho freelance do mundo real em nosso benchmark continua desafiador para modelos de linguagem avançados”, concluem os pesquisadores no estudo publicado.
Os cientistas tiraram algumas conclusões sobre o desempenho dos modelos de linguagem. Eles disseram:
“Os agentes identificam a origem do problema de forma notavelmente rápida, usando buscas por palavras-chave em todo o repositório para localizar rapidamente o arquivo e as funções relevantes — muitas vezes mais rápido do que um humano faria. No entanto, frequentemente demonstram uma compreensão limitada de como o problema se espalha por múltiplos componentes ou arquivos e não conseguem abordar a causa raiz, levando a soluções incorretas ou insuficientemente abrangentes. Raramente encontramos casos em que o agente tenta reproduzir o problema ou falha por não encontrar o arquivo ou a localização certa para editar.”
As ferramentas testadas conseguiram um desempenho melhor na função de gerenciamento, que exige raciocínio para avaliar a compreensão técnica. Depois de executar o benchmark SWE-Lancer, o modelo com melhor desempenho foi o Claude 3.5 Sonnet, seguido por o1 e GPT-4o.
A pesquisa mostrou que os modelos de IA conseguem resolver alguns problemas de programação “básicos”, mas ainda não conseguem substituir os programadores iniciantes.