Como a China desafiou o domínio do ChatGPT e criou uma IA de ponta por 5% do custo

DA REDAÇÃO

A China deu um grande passo para desafiar o domínio ocidental na inteligência artificial (IA) com o lançamento do modelo DeepSeek R1, que, por um custo significativamente menor, alcançou um desempenho que rivaliza com gigantes como o ChatGPT da OpenAI e o Claude. A China não só coloca a China como um forte concorrente no mercado global de IA, mas também provoca uma reavaliação da necessidade de infraestrutura para criar tecnologias de ponta, que antes dependiam de investimentos maciços em hardware e dados.

Lançado com um orçamento de treinamento muito mais acessível – entre 3% a 5% do valor estimado de seus concorrentes – o DeepSeek R1 trouxe uma revolução ao setor. Ao longo de 2024, o modelo foi baixado mais de 109 mil vezes em plataformas como o HuggingFace, uma das maiores comunidades de IA open source, o que gerou uma onda de interesse entre desenvolvedores e empresas que buscam alternativas mais acessíveis aos modelos proprietários.

O impacto do DeepSeek R1 no mercado global

O impacto do DeepSeek R1 foi imediato e profundo, especialmente nas bolsas de valores, com empresas como Nvidia, Microsoft e Meta danos que foram significativos em suas ações, devido à percepção de que uma nova rivalidade tecnológica estava se instaurando. A introdução de uma IA de alta performance por um custo muito mais baixo reacende a disputa entre potências globais – mais especificamente entre os Estados Unidos e a China – sobre quem liderará o futuro da inteligência artificial.

A comparação com o “momento Sputnik” dos Estados Unidos, que durante a Guerra Fria reagiu à corrida espacial soviética com um grande impulso à sua própria tecnologia espacial, não é casual. Para muitos analistas, o lançamento do DeepSeek é um reflexo de uma nova era de competições geopolíticas e tecnológicas, onde o domínio de tecnologias como a IA pode determinar o futuro econômico e político de uma nação.

Como a China fez isso com um orçamento menor

O grande diferencial do DeepSeek R1 é sua abordagem inovadora de treinamento, que substitui em grande parte o aprendizado tradicional supervisionado (Supervised Fine-Tuning – SFT) por uma metodologia de aprendizado por reforço (Reinforcement Learning – RL). O SFT, amplamente adotado pelas grandes empresas de IA, busca modelos treinados para seguir raciocínios e conclusões baseadas em dados curados e julgamentos predefinidos. No entanto, o modelo chinês confiou em RL para desenvolver capacidades mais independentes de julgamento, permitindo que o modelo se adaptasse a problemas complexos de forma autônoma, sem depender de conjuntos de dados prescritivos.

Durante o treinamento de uma discussão do modelo, o DeepSeek R1 mostrou um “momento aha”, no qual foi capaz de alocar mais tempo de processamento para resolver questões questões versões de maneira precisa, criando soluções inovadoras que são feitas por um ser humano. Essa abordagem incluída no modelo se destaca por sua habilidade em resolver problemas de maneira mais eficiente e criativa, aumentando seu valor no competitivo mercado de IA.

Tecnologia mais acessível e eficiente

Uma das grandes surpresas no lançamento do DeepSeek R1 foi a eficiência com a qualidade que ele foi desenvolvido. A startup chinesa por trás do projeto conseguiu realizar feitos extraordinários com um orçamento inicial de apenas US$ 5,58 milhões, utilizando apenas uma fração dos recursos que empresas como OpenAI e Google investiram em seus modelos. Enquanto esses gigantes de IA dependem de mais de 500 mil GPUs para treinar seus modelos, a DeepSeek conseguiu garantir o acesso a 50 mil GPUs, e otimizou sua infraestrutura para reduzir custos com inovação em processos como o treinamento de precisão errada, que usa números de 8 bits para reduzir o consumo de memória da GPU.

Além disso, a DeepSeek implementou algoritmos que otimizam a comunicação entre GPUs, o que aumentou significativamente a eficiência do treinamento. Essa abordagem gerou um modelo que, apesar de seus custos baixos, oferece um desempenho equivalente aos melhores modelos do mercado, tornando o DeepSeek R1 uma opção mais acessível para empresas e desenvolvedores com orçamentos limitados.

O futuro da IA ​​e suas repercussões

O DeepSeek R1 não apenas oferece uma alternativa mais barata e eficiente aos modelos de IA proprietários, mas também representa uma mudança importante na filosofia por trás do desenvolvimento de IA. A abertura do código-fonte (open source) do modelo permite que desenvolvedores e empresas de diferentes portes possam acessá-lo e adaptá-lo às suas necessidades. Isso pode democratizar o uso da IA ​​de ponta, tornando-a mais acessível a startups e pequenas empresas, que agora podem competir com gigantes da tecnologia com muito menos investimento.

No entanto, a origem chinesa do DeepSeek R1 não passou despercebida e gerou controvérsias, principalmente no Ocidente. O modelo chinês levanta questões sobre as possíveis visões relacionadas às políticas governamentais locais, como a censura de temas delicados, como o Massacre da Praça da Paz Celestial. Embora muitos especialistas considerem que essas vidas sejam raras, elas não podem ser ignoradas, e há preocupações sobre o impacto que esses modelos poderiam ter, caso se tornem amplamente utilizados.

Desafios e Limitações

Uma das maiores limitações apontadas pelos críticos do DeepSeek R1 é a falta de transparência total em relação aos conjuntos de dados de treinamento. Embora o modelo seja open source, a DeepSeek ainda não revelou completamente todos os detalhes sobre os dados usados ​​para treiná-lo, o que levanta dúvidas sobre a real abertura do projeto. Essa falta de clareza é uma crítica recorrente, tanto para modelos chineses quanto ocidentais, como os desenvolvidos pela OpenAI.

Ainda assim, a chegada do DeepSeek R1 ao mercado é um marco significativo, não apenas por seu desempenho e eficiência, mas também por redefinir o que é possível em termos de IA com recursos limitados. O modelo reacende o debate sobre a necessidade de infraestrutura para desenvolver IA de ponta e coloca em execução a ideia de que apenas as grandes corporações podem dominar o futuro da inteligência artificial.