Lançado há menos de duas semanas, chatbot levou pânico ao Vale do Silício e esquentou corrida entre EUA e China pelo posto de superpotência da tecnologia. Mas para além da alta tensão na arena dos negócios e da geopolítica, a inovação da plataforma surpreendeu a comunidade científica, ressalta Cleber Zanchettin, do Centro de Informática da UFPE, referência em inteligência artificial na América Latina. Pesquisador brasileiro em IA explica por que DeepSeek impressionou: ‘Fizeram de forma totalmente diferente da maioria das empresas de tecnologia’
Reuters
O chatbot de inteligência artificial chinês DeepSeek-R1 foi lançado discretamente em 20 de janeiro de 2025.
Dois dias depois, a equipe por trás da plataforma publicou um relatório técnico de 22 páginas em que avaliava seu desempenho e a colocava no mesmo patamar dos rivais americanos ChatGPT, da OpenAI, e Claude, da Anthropic.
O mundo da tecnologia reagiu inicialmente com ceticismo: quem garantia que o que estava escrito ali era verdade e que não se tratava de mera propaganda do governo chinês?
Esse momento foi breve. À medida que os especialistas foram testando o modelo e entendendo como tinha sido construído, perceberam que de fato rivalizava com os das big techs americanas — e embaralhava a disputa entre EUA e China pelo posto de superpotência da tecnologia.
Uma semana depois, o Vale do Silício entrou em pânico. As ações das 7 principais empresas de tecnologia dos Estados Unidos desidrataram e as Magnificent 7 (Apple, Microsoft, Alphabet (Google), Amazon, Nvidia, Tesla e Meta) perderam US$ 1 trilhão em valor de mercado em 27 de janeiro.
Depois vieram os questionamentos, de que os US$ 5,5 milhões que a empresa afirma ter investido para treinar o modelo eram subestimados, de que o número de chips usados no projeto era maior do que os dois mil divulgados pela companhia.
Na quinta-feira (29/1), a OpenAI alegou que a DeepSeek usou dados do ChatGPT para treinar seu chatbot, sem dar mais detalhes sobre o caso.
Também repercutiu a autocensura da plataforma, que desconversa e dá respostas como “Desculpe, isso está além do meu escopo atual. Vamos falar de outra coisa” quando questionada sobre temas considerados controversos do ponto de vista da ideologia Partido Comunista Chinês — “O que foi o massacre da Praça Celestial?”, por exemplo.
Mas, para além da alta tensão na arena dos negócios e da geopolítica, a inovação em si trazida pela plataforma impressionou a comunidade científica, ressalta o pesquisador brasileiro Cleber Zanchettin.
Apesar de ter sido comparado ao ChatGPT do ponto de vista da experiência do usuário, por trás das cortinas o DeepSeek é bem distinto do concorrente americano.
“A forma como eles fizeram foi totalmente diferente da maioria das empresas de tecnologia”, diz o professor do Centro de Informática da Universidade Federal de Pernambuco (CIn-UFPE), montado na década de 1980 e hoje um dos líderes em pesquisa em inteligência artificial na América Latina.
Em entrevista à BBC News Brasil, o especialista mergulhou em quatro características que explicam porque o DeepSeek impressionou.
Sede da Nvidia em Santa Clara, na Califórnia: fabricantes de chips foi uma das viu ações despencarem nos últimos dias
JOHN G MABANGLO/EPA-EFE/REX/Shutterstock
1. Código aberto
A primeira coisa que chamou atenção foi o código aberto. “Eles contaram coisas que não haviam sido divulgadas por outros fabricantes”, ressalta o professor.
Até então, predominavam entre os modelos de linguagem de grande escala (LLM na sigla em inglês, de “large language models”) os de código fechado, caso do ChatGPT e do Claude, em que toda a engrenagem por trás da interface é mantida em sigilo, e os de pesos abertos, em que alguns dos parâmetros são divulgados, caso do LLaMA, da Meta.
O DeepSeek, segundo Zanchettin, foi além.
“Eles de certa forma publicaram a receita de como você treina o modelo, que é um negócio protegido a sete chaves mesmo por quem publica os modelos em formato de open weights (pesos abertos). Acho que é um diferencial muito grande.”
Antes da chegada do chatbot, os pesquisadores não tinham uma noção muito clara da cadeia de raciocínio para se chegar a modelos mais avançados de inteligência artificial.
Botão DeepThink mostra linha de raciocínio do modelo
Reuters
2. Raciocínio explícito
Nesse sentido, ele também aponta como diferencial o mecanismo que detalha o passo a passo do raciocínio em cada uma das respostas que o DeepSeek dá quando o botão “DeepThink” está ativo.
“A maioria das empresas não queria que a gente entendesse direito [como o modelo raciocina], porque isso pode levar você a perceber que ele está fazendo as coisas direito ou que não entendeu nada, e que o resultado é mais ou menos aleatório”, argumenta.
Em um teste feito pela reportagem com uma questão de matemática da segunda fase do vestibular do Instituto Tecnológico da Aeronáutica (ITA) de 2024, o DeepSeek testou uma série de caminhos até chegar no que considerou a resposta correta.
Foi e voltou na linha de pensamento, com expressões como “Calma”, “Espere aí”, “Mas como?”, “Espere, talvez haja um caminho melhor”, “Deixe-me tentar essa abordagem”, “Outra ideia:”, “Isso parece demais, vamos checar novamente”, “Vamos nessa direção”.
Enxergar esse processo, segundo Zanchettin, é útil para os especialistas entenderem melhor a robustez e interpretarem as habilidades do modelo.
“Essa é uma informação bastante relevante do ponto de vista de como o modelo toma decisões.”
Para especialistas, experiência do usuário no DeepSeek se aproxima da última versão do ChatGPT
Reuters
3. Aprendizagem por reforço
Outra surpresa foi o método usado para desenvolver e treinar a plataforma.
Os modelos fechados até então demandavam bastante intervenção humana, uma estratégia conhecida no jargão da inteligência artificial como “humano no loop” (HITL, na sigla em inglês), muito usada nas etapas de ajuste fino (“fine tuning”).
O DeepSeek tem uma dependência “muito menor” da supervisão humana, com uma abordagem centrada no aprendizado por reforço: o sistema é treinado dentro de um modelo de recompensas (em que recebe um retorno positivo, por exemplo, cada vez que dá a resposta correta para um problema matemático) e vai se sofisticando por conta própria, aprendendo a “raciocinar” de forma cada vez mais eficiente e, como consequência, melhorando a qualidade das respostas que devolve.
No relatório técnico divulgado em 22 de janeiro, a equipe compartilhou que perceber que a abordagem focada na auto-evolução tinha sido bem sucedida fora equivalente a um “aha moment”, algo como um “momento Eureca”.
“Isso tornou o processo não só mais interessante, mas também mais barato computacionalmente”, diz Zanchettin.
O que pode significar, ele acrescenta, que estamos diante de uma mudança de paradigma importante. Sem a necessidade de investimentos bilionários, mais atores têm chance de competir na busca por inovação em inteligência artificial, inclusive os brasileiros.
O pesquisador, que foi professor visitante na Northwestern University, pondera que, mesmo nos Estados Unidos, grupos de pesquisa e startups sem grandes recursos dificilmente conseguem disputar com as big techs, que se baseiam na “força bruta” quando se trata de sistemas de inteligência artificial: “Quanto mais recursos você tem, mais hardware você consegue adquirir, mais dados você pode usar para treinar o modelo, e melhor é o modelo.”
As inovações a menor custo da DeepSeek “colocam um monte de gente muito talentosa de volta ao tabuleiro de jogo, com possibilidade de inovar no mesmo nível”, acredita.
“Acho que vai abrir portas não só para ir para a academia, mas para a indústria e para a população como um todo, que vai ser inundada com muita inovação e com um custo menor.”
DeepSeek esquentou corrida entre EUA e China por supremacia tecnológica
Reuters
4. Da restrição à inovação
A aprendizagem por reforço é uma entre uma série de inovações que a DeepSeek apresentou.
“Tem vários avanços tecnológicos, do ponto de vista de engenharia, que eles conseguiram fazer funcionar em conjunto e que a gente não tinha conseguido ainda. Esse também foi um diferencial grande”, diz o professor.
O feito chama ainda mais atenção por ter sido alcançado sem os melhores chips disponíveis no mercado, já que em 2022 os Estados Unidos impuseram à China restrições para importação de chips de última geração, justamente para barrar o avanço chinês nessa área, alegando preocupações com segurança.
“Aqui no Brasil, por conta das várias dificuldades que a gente enfrenta, a gente sempre teve esse mantra de que a dificuldade gera oportunidade, de que a inovação vem da restrição, e eu acho que a China provou isso agora”, acrescenta.
Até a estreia do DeepSeek, a crença em boa parte do Ocidente era de que a China estava bem atrás dos Estados Unidos na área de IA avançada. O ChatGPT surgiu em 2022 e, desde então, as big techs americanas vinham lançando suas plataformas de IA generativa com algum sucesso, como o Claude, da Anthropic, e o Gemini, do Google.
Empresas chinesas como Baidu, Tencent e ByteDance, dona do TikTok, chegaram a colocar no mercado modelos de IA, mas que não tinham sido considerados à altura do ChatGPT.
O DeepSeek muda o jogo e esquenta a corrida entre China e Estados Unidos pelo posto de grande potência da tecnologia deste século 21.
Dias depois da estreia, outra empresa chinesa, a Alibaba, lançou seu modelo de IA e disse que ele era ainda melhor do que o da conterrânea.
Para o pesquisador brasileiro, essa rivalidade dos chatbots é uma fatia pequena das ambições dos dois países na área de inteligência artificial, um ângulo que talvez nem lhes interesse tanto do ponto de vista estratégico.
A IA, ele lembra, tem aplicações militares e em áreas tão diversas quanto as de robótica, de veículos autônomos, de sistemas de comunicação e de saúde.
LEIA TAMBÉM:
DeepSeek, ChatGPT e Gemini: o que cada IA faz melhor no dia a dia e as principais diferenças
Órgão italiano bloqueia acesso ao DeepSeek no país por falta de informações sobre uso de dados
Zuckerberg defende investimento pesado em IA mesmo após impacto do DeepSeek
DeepSeek, ChatGPT e Gemini: qual é a melhor inteligência artificial?
World: conheça projeto que paga criptomoedas por registro de íris
Por que a IA chinesa DeepSeek é apontada como ameaça ao protagonismo dos EUA?