Em 13 de março, o presidente do Cazaquistão, Kassym-Jomart Tokayev Met com Thomas Pramotedham, O CEO da Presight AI, uma empresa de inteligência artificial, para discutir planos para um cluster de supercomputador no país. O projeto faz parte de uma série de iniciativas do governo para se posicionar como líder regional em inteligência artificial.
Astana está colocando esperança na tecnologia não apenas para o crescimento econômico. Há também um aspecto cultural no impulso, com uma forte indústria doméstica de IA vista como vital para a preservação linguística.
No entanto, como um recente atraso Para o projeto Supercomputer, demonstra, mesmo os melhores planos podem ser vítimas de forças geopolíticas. Enquanto o Cazaquistão pode falar um grande jogo na IA, ele pode entregar?
Controlando a narrativa
Modelos de idiomas grandes, ou LLMs, são a base de programas de IA, como o ChatGPT, que processam, entendem e geram linguagem humana. Esses modelos são treinados predominantemente em um punhado de línguas dominantes, como inglês, mandarim e espanhol, enquanto idiomas menores como o Cazaquistão são frequentemente negligenciados.
“Enquanto os LLMs maiores estão adicionando idiomas adicionais, esses idiomas não são necessariamente apoiados em igual extensão”, disse Preslav Nakov, presidente do departamento e professor de processamento de linguagem natural da Universidade de Inteligência Artificial Mohamed Bin Zayed (MBZUAI) em Abu Dhabi. “Os LLMs usam redes neurais e têm uma capacidade limitada; seus desenvolvedores inevitavelmente se perguntam se desejam investir no uso dessa capacidade de apoiar mais idiomas ou melhorar em outras áreas, como recursos de raciocínio”.
A importância secundária dada a idiomas menores leva a modelos de IA que promovem uma visão do mundo ocidental, diz Dion Wiggins, CTO da Omniscience, uma empresa especializada em soluções de processamento de idiomas orientadas a IA. “Se você for a Grok ou Llama ou Chatgpt, eles serão mais ou menos iguais, porque todos aprendem com os mesmos dados”, disse ele.
No entanto, se países como o Cazaquistão pudessem produzir seus próprios LLMs, isso significaria mais controle sobre a narrativa.
“Se você tem um Sovereign LLM, ele tem moral cazaque, história do cazaque, lentes cazaques e um ponto de vista desta parte do mundo”, disse Wiggins. Ele cita o Deepseek da China, que limita o acesso a informações sobre o massacre da Tiananmen Square, e Gemini do Google, que se recusa a responder a uma pergunta simples como “Quem é o presidente dos Estados Unidos?” Como exemplos de como já estamos vendo a IA sendo usada para a censura.
Cuide do seu idioma
Os LLMs exigem enormes quantidades de dados para treiná -los para serem eficazes.
“E aí está o problema”, disse Wiggins. “Não há muitos dados cazaques.”
Uma das maiores fontes de dados para treinamento de IA é Rastreamento comumuma organização sem fins lucrativos que arquiva informações on-line e as disponibiliza livremente ao público. Suas estatísticas mostram um enorme viés linguístico: 43,4 % das páginas da Web de rastreamento comuns são em inglês. De fato, mais de 70 % de todos os dados baseados na Web são de sete idiomas importantes: inglês, russo, alemão, japonês, chinês, espanhol e francês.
Cazaque é responsável por 0,0298 %. Em outras palavras, se você rolou aleatoriamente por 10.000 páginas da web, três estariam no cazaque; 605 em russo e 4.337 em inglês.
Isso tem consequências do mundo real: os mecanismos de pesquisa priorizam o conteúdo em inglês, os assistentes de IA lutam com consultas não inglesas e os serviços de tradução automatizados permanecem não confiáveis em vários idiomas.
“No Cazaquistão, essa questão é ainda mais agravada pelo problema historicamente intrínseco decorrente da dependência do russo”, disse Aisana Kassenova, um candidato de doutorado nascido em Kazakh na IA na Escola de Negócios e Direito da Esade em Barcelona. “Muitas ferramentas de tradução, como o Google traduzem, ainda usam russo como intermediário ao traduzir cazaques, tornando -o frequentemente impreciso.”
Astana tem uma política de longa data para tentar promover a língua cazaque sobre o russo, que por muitos anos foi considerado o linguagem da elite urbana no país. Muitos argumentam que ainda é: o russo tem uma vantagem enorme sobre o cazaque no espaço digital, o que significa que a maioria das interações com a IA é conduzida em russo.
“Isso leva à falta de conjuntos de dados de idiomas cazaques, reforçando a percepção de que o russo continua sendo a linguagem mais” prática “da tecnologia e do desenvolvimento da IA no Cazaquistão”, disse Kassenova.
Home Grown LLMS
Como tal, a busca começou pelo primeiro modelo de linguagem grande do Cazaquistão. Em dezembro de 2024, o país atingiu o ouro quando o Instituto de Sistemas Inteligentes da Universidade de Nazarbayev (ISSAI) revelou Kazllm. Projetado para processar e gerar texto em cazaque, russo, inglês e turco, o Kazllm foi desenvolvido usando um vasto conjunto de dados coletado de fontes como meios de comunicação, sites governamentais e materiais de acesso aberto. O desempenho do modelo mesmo Drew Louvor De Yan Lecun, o chefe da IA e a pesquisa da gigante da tecnologia dos EUA Meta.
Isso foi seguido em fevereiro de 2025 por Sherkala, outro modelo de IA da língua cazaque, desenvolvido em colaboração em Mbzuai em Abu Dhabi.
O professor Nakov, líder do projeto, disse ao diplomata que Sherkala está seguindo os passos de Jais (2023) e Nanda (2024), focados em árabe e hindi, respectivamente.
“Sherkala é construída sobre a LLAMA, o modelo de IA de código aberto amplamente adotado da Meta, que já inclui algum suporte multilíngue, mas não o suficiente para fornecer o nível de precisão e consciência cultural para idiomas como o cazaque”, disse ele. Para desenvolver o modelo, sua equipe fez ajustá-lo com informações extras sobre a cultura e a história do Cazaquistão.
Kassenova argumenta que Kazllm e Sherkala não foram projetados para competir com os modelos de IA convencionais, mas para fornecer mais inclusão. “Modelos como ChatGPT, Gemini e Qwen são construídos com recursos maciços, conjuntos de dados multilíngues sem fim e poder de computação de ponta, buscando inteligência geral”, disse ela. “Por outro lado, o Kazakh LLMS foi criado em equipes relativamente pequenas (e com um orçamento relativamente pequeno) para garantir que os alto -falantes cazaques tenham ferramentas de IA adaptadas ao nosso contexto de linguagem e cultura”.
Construindo infraestrutura de IA
As ambições de IA do Cazaquistão se estendem além dos modelos de idiomas. Outra prancha da estratégia envolve a criação de um supercomputador nacional.
“(Isso) seria fundamental para o desenvolvimento da IA”, disse Kassenova. “O país depende há muito tempo dos sistemas de computação russa, mas com a Rússia enfrentando sua própria escassez de chip de IA, voltar para isso não é uma opção”.
O governo fez parceria com a Presight.ai, outra empresa dos Emirados Árabes Unidos, para construir o supercomputador. No entanto, atrasos na aquisição de chips Nvidia de alto desempenho devido a restrições de exportação dos EUA diminuíram o progresso no projeto, que deveria ser concluído no ano passado. Esse embargo da NVIDIA criou gargalos significativos, com a empresa controlando em torno 80 % do mercado global de chips de IA.
Wiggins sugere que o Cazaquistão poderia virar para o leste em busca de ajuda. “A Huawei na China criou GPUs que ainda não são tão boas, mas são boas o suficiente”, disse ele referenciando o recente desempenho positivo do Huawei ascend 910 c chip, que começou a fechar a lacuna em Nvidia.
Construir um ecossistema de IA requer capital humano e infraestrutura. Em 2024, o Cazaquistão começou a introduzir Cursos de alfabetização de IA em todas as universidades do país. O Astana Hub Technopark também iniciou um projeto anual para trem 700 professores de IA de 47 universidades nacionais.
Astana também prevê que se torne um centro regional de IA. Estão em andamento planos para estabelecer um Centro Internacional de AI Em 2025, um movimento projetado para atrair colaborações e investimentos em pesquisa global.
O carrinho antes do cavalo
No entanto, anunciar que 1 milhão de pessoas serão treinadas na IA é diferente de convencê -las a realizar o treinamento, assim como as pessoas convincentes a usar sherkala sobre equivalentes de idiomas russos não é um dado. O Cazaquistão já esteve aqui antes, proclamando prematuramente um centro global para tudo, desde logística para religião.
Outra questão é a abertura. Os grandes modelos de linguagem prosperam em grandes quantidades de informações precisas e abrangentes.
Embora os governos que tendem à opacidade, como a China, mostraram que uma abordagem de cima para baixo e altamente controlada com apoio estatal, dados maciços e alinhamento corporativo também pode impulsionar o progresso, o Cazaquistão pode não ter os recursos para imitar esse modelo.
Uma abordagem mais barata seria um ambiente que promove o acesso aberto e fácil aos dados, principalmente devido à relativa escassez de fontes de idiomas cazaques. No entanto, com repórteres sem fronteiras classificando o país 142 de 180 em seu 2024 Índice de liberdade de imprensa mundialisso não parece ser uma prioridade.
Por todos os seus grandes designs, o controle de ferro da Astana sobre as informações pode acabar mantendo o país de volta.
Issai, os criadores de Kazllm, não respondeu aos pedidos de comentários.
Presight.ai se recusou a comentar, sugerindo que as perguntas fossem direcionadas para o governo.
O Ministério do Desenvolvimento Digital do governo não estava disponível para comentar.