Em dezembro de 2024, a empresa de IA de Hangzhou, Deepseek, lançou seu modelo V3, acendendo uma tempestade de debate. O resultado foi chamado de “choque da IA da China”.
O desempenho comparável da DeepSeek-V3 aos seus colegas dos EUA, como GPT-4 e Claude 3, a custos mais baixos, lança dúvidas sobre o domínio dos EUA sobre os recursos de IA, sofridos pela atual política de controle de exportação dos Estados Unidos, direcionando chips avançados. Também questionou o paradigma arraigado da indústria, que prioriza investimentos de hardware pesados em poder de computação. Para ecoar os comentários do presidente Donald Trump, o surgimento da Deepseek representa não apenas “Uma chamada de alerta” Para a indústria de tecnologia, mas também um momento crítico para os Estados Unidos e seus aliados reavaliarem suas estratégias de política de tecnologia.
O que, então, o Deepseek parece ter interrompido? As eficiências de custo reivindicadas pela DeepSeek para seu modelo V3 são impressionantes: seu custo total de treinamento é de apenas US $ 5,576 milhões, apenas 5,5 % do custo do GPT-4, que é de US $ 100 milhões. O treinamento foi concluído Usando 2.048 GPUs NVIDIAalcançar a eficiência de recursos oito vezes maior que as empresas americanas, que normalmente requer 16.000 GPUs. Isso foi realizado usando as GPUs H800 menos avançadas em vez do H100 superior, mas a DeepSeek apresentou desempenho comparável.
O modelo de baixo custo de Deepseek desafia, portanto, a sabedoria convencional de que a sofisticação de grandes modelos equivale a um enorme acúmulo de poder de computação. Esse desenvolvimento potencialmente quebra a dependência dos chips de IA dos EUA em meio a embargos semicondutores, levantando questões sobre as políticas tradicionais centradas em torno do controle de potência de computação de ponta.
Custos pouco claros
No entanto, existem vários aspectos da discussão em torno do modelo Deepseek-V3 que requerem esclarecimentos adicionais. O modelo V3 está em pé de igualdade com o GPT-4, enquanto o modelo R1, lançado no final de janeiro de 2025, corresponde ao modelo avançado O1 da OpenAI. O custo relatado de US $ 5,576 milhões pertence especificamente ao Deepseek-V3, não ao modelo R1. Este número não inclui os custos totais de treinamento, pois exclui as despesas relacionadas ao desenvolvimento da arquitetura, dados e pesquisas anteriores.
O modelo V3 foi treinado usando conjuntos de dados gerados por uma versão interna do modelo R1 antes de seu lançamento oficial. Essa abordagem teve como objetivo alavancar a alta precisão dos dados de raciocínio gerados por R1combinando com a clareza e concisão de dados regularmente formatados. Mas a documentação desses custos associados permanece não revelada, particularmente em relação a como as despesas de desenvolvimento de dados e arquitetura a partir de R1 são integradas aos custos gerais da V3.
Inovação incremental, não interrupção
Do ponto de vista da competição tecnológica, os avanços da Deepseek em tecnologias fundamentais LLM, como atenção latente de várias cabeças (MLA) e mistura de especialistas (MOE), demonstram melhorias de eficiência. Mas esses avanços não devem causar preocupação excessiva entre os formuladores de políticas, pois essas tecnologias não são segredos bem guardados.
Dito isto, há uma inovação genuína por trás da emoção atual em torno das realizações de Deepseek. A tecnologia MLA aprimora os mecanismos de atenção tradicionais usando a compressão de baixo rank de matrizes de chave e valor. Isso reduz drasticamente o tamanho do cache do valor-chave (KV), resultando em uma diminuição de 6,3 vezes no uso da memória em comparação com as estruturas padrão de atenção de várias cabeças (MHA)diminuindo assim os custos de treinamento e inferência. A Deepseek também parece ser a primeira empresa a implantar com sucesso um modelo MOE escasso em larga escala, mostrando sua capacidade de aumentar a eficiência do modelo e reduzir os custos de comunicação por meio de técnicas de equilíbrio de especialistas.
Embora esses desenvolvimentos sejam incomuns, eles podem representar aprimoramentos iterativos no campo da IA, em vez de um salto disruptivo que poderia mudar o equilíbrio geral do poder tecnológico.
De fato, nem o Modelo Deepseek-V3 nem o R1 representam o auge da tecnologia de ponta. Sua vantagem decorre de oferecer desempenho comparável aos seus colegas nos EUA, mas a custos significativamente mais baixos. Nesse sentido, é natural questionar a eficiência da abordagem de desenvolvimento aparentemente extravagante adotada pelo setor de tecnologia dos EUA para equiparar o poder de computação com a sofisticação dos modelos de IA.
No entanto, esse tipo de inovação econômica geralmente não é o foco daqueles na vanguarda tecnológica, equipada com recursos abundantes e avançados. A iteração inicial de qualquer inovação normalmente incorre em altas despesas. No entanto, à medida que as inovações de corte de custos surgem, elas reduzem as despesas, permitindo que os retardatários, particularmente em regiões como a China, adotem rapidamente esses avanços e alcançam líderes a um custo reduzido.
Limites de sanções de chips nos EUA
A abordagem de Deepseek, mostrando a vantagem do retardatário por meio de custos reduzidos de treinamento, provocou um debate sobre a verdadeira necessidade de poder de computação extensa nos modelos de IA. Os críticos questionam se a China realmente precisa depender de fichas avançadas dos EUAdesafiando a política centrada na computação de ponta que orienta o atual esquema de controle de exportação de semicondutores de Washington. Se a paridade do desempenho puder ser alcançada com chips de camada inferior, o prêmio para chips de nível superior poderá ser injustificado.
Isso pode ser um mal-entendido, no entanto, pois os chips de nível superior geralmente oferecem maior eficiência. Em termos econômicos, Seria impraticável Para qualquer empresa da China, como a DeepSeek, evitar o uso de chips mais avançados, se estivessem acessíveis.
Além disso, a redução dos custos de treinamento potencialmente reduzindo as taxas de usuário sinaliza uma diminuição nas barreiras financeiras à adoção de serviços de IA. É provável que a indústria global de IA verá um aumento, em vez de uma diminuição, na demanda por poder de computação à medida que a concorrência entre os serviços se intensifica. Para que a China se mantenha na corrida de IA, precisará de um suprimento contínuo de chips mais sofisticados e sofisticados.
Nesses aspectos, a lei de escala ainda é verdadeira. A Deepseek acaba de demonstrar que resultados comparáveis podem ser alcançados com menos investimento de capital – em termos matemáticos, pelo menos. Na frente do hardware, isso se traduz em desempenho mais eficiente com menos recursos, o que é benéfico para o setor geral de IA. E se a interrupção de custo-eficiência de Deepseek for viável, não há razão para que as empresas de IA não possam adaptar e acompanhar o ritmo.
Exportando a corrida de preços de IA da China
Com o que os Estados Unidos e seus aliados deveriam realmente se preocupar? A questão principal é: e se os serviços de IA chineses puderem oferecer desempenho comparável aos seus colegas americanos a preços mais baixos? A Deepseek exemplifica um cenário de desenvolvimento que os formuladores de políticas devem monitorar de perto – a China está iniciando uma guerra global de preços nos serviços de IA, uma batalha que já está em andamento no mercado interno.
Os custos reais de treinamento dos modelos Deepseek-V3 e R1 permanecem incertos. E o público sabe muito pouco sobre se alcançar essa eficiência usando apenas GPUs H800 de camada inferior. A praticidade dessas reivindicações ainda está para ser determinada. Mas é crucial aqui não confundir o custo com o preço. As despesas exatas da Deepseek são incertas e não está claro Se a empresa usou modelos americanos para treinar suas próprias de maneiras que possam violar os termos de serviço. Uma coisa que sabemos com certeza é que a Deepseek está oferecendo seus serviços de IA a preços excepcionalmente baixos.
Por exemplo, o Deepseek-R1 cobra apenas US $ 0,14 por milhão de tokens de entrada (ao usar dados em cache) e US $ 2,19 por milhão de tokens de saída. Por outro lado, o modelo O1 OpenAI Custa US $ 1,25 por milhão de tokens de entrada em cache e US $ 10,00 por milhão de tokens de produção. Isso significa que o DeepSeek-R1 é quase nove vezes mais barato para tokens de entrada e cerca de quatro vezes e meia mais barato para tokens de saída em comparação com o O1 do Openai.
Os preços competitivos da Deepseek, em certo sentido, podem ser vistos como uma projeção internacional da Guerra do Preço de Serviços Domésticos da AI de 2024 da China. Por exemplo, Alibaba reduziu o preço de seu Qwen-Long em 97 % eun maio no ano passado e ainda diminuiu o custo de seu modelo de linguagem visual, Qwen-VLem 85 % em dezembro. No entanto, ao contrário do DeepSeek, muitas empresas de IA chinesas reduziram seus preços porque seus modelos não têm competitividade, dificultando a rival dos colegas dos EUA. Mesmo com esses cortes de preços, atrair clientes de alta qualidade continua sendo um desafio. Por outro lado, a Deepseek oferece desempenho comparável aos produtos concorrentes, tornando seus preços genuinamente atraentes.
Para os aliados democráticos, a ascensão dos serviços de IA chinesa que são acessíveis e altamente eficazes aumentam duas preocupações estratégicas principais, especialmente à luz das recentes iniciativas de IA soberana. Primeiro, existem riscos de segurança nacional, particularmente relacionados à privacidade de dados e ao Manipulação potencial de resultados. Segundo, os preços agressivos da China nos serviços de IA representam uma ameaça ao desenvolvimento das indústrias de IA em outros países, semelhantes às práticas de dumping anteriormente vistas com painéis solares e veículos elétricos na Europa e na América.
Se esse cenário se desenrolar, é necessário reconhecer que é improvável que a vantagem de preço da IA da China seja impulsionada apenas por custos reduzidos de treinamento, que outras empresas poderão adotar em breve. Também deve ser dada atenção a mecanismos que não são do mercado, como subsídios do governo, que podem fornecer à China uma vantagem competitiva no futuro.