
segundo duas fontes com conhecimento direto do assunto, o google está em negociações com a marvell semiconductor para desenvolver dois novos chips projetados para executar modelos de ia de forma mais eficiente. um deles é uma unidade de processamento de memória destinada a funcionar em conjunto com a unidade de processamento tensor (tpu) do google, enquanto o outro é um chip tpu totalmente novo, especialmente construído para rodar modelos de ia.
essas iniciativas destacam a demanda crescente por chips de inferência de ia que alimentam produtos comerciais, como grandes modelos de linguagem. na sua conferência gtc, em março, a nvidia apresentou um chip chamado unidade de processamento de linguagem (lpu), voltado a impulsionar o desempenho de inferência; o lpu baseia-se em tecnologia licenciada pela nvidia junto à startup groq, por 20 bilhões de dólares.
o google já havia adquirido chips de data center da marvell, mas todos eram produtos padrão prontos para uso; agora, porém, as discussões concentram-se no desenvolvimento de semicondutores personalizados, feitos sob medida para o google. esse avanço mais uma vez evidencia o desejo do google de superar a broadcom — seu parceiro de design de tpu há muito tempo — e diversificar sua base de fornecedores.
de acordo com um relatório de 2023 da information, o google chegou a considerar substituir a broadcom pela marvell como fornecedora de chips de interface de rede utilizados em data centers para conectar servidores a switches ethernet.
um funcionário do google revelou que a empresa já planejava desenvolver um novo tipo de chip de inferência e que o lançamento do lpu da nvidia acelerou ainda mais esses esforços. a marvell foi a parceira de design do lpu de primeira geração da groq, o que lhe confere ampla experiência na criação de chips de inferência.
a funda ai já havia informado que o google e a marvell estavam em negociações sobre um novo tpu.
o google já comprou chips controladores cxl da marvell; segundo dois funcionários do google, esses chips gerenciam o compartilhamento de memória entre servidores em diversos data centers. a colaboração anterior entre as empresas também reforçou a confiança do google na capacidade da marvell de co‑desenvolver novos chips.
duas fontes afirmaram que a nova unidade de processamento de memória do google trabalhará lado a lado com o tpu, dividindo tarefas de computação de ia com o tpu conforme as necessidades computacionais e de memória. as duas partes planejam concluir o projeto dessa unidade de processamento de memória já no próximo ano, seguido de produção piloto.
as fontes acrescentaram que o google pretende produzir quase 2 milhões de unidades dessa unidade de processamento de memória, embora esse número possa mudar, pois as negociações ainda estão em fase inicial. em comparação, a morgan stanley estima que o google fabricará cerca de 6 milhões de tpu em 2027. ainda não está claro quando o projeto do novo tpu será finalizado nem qual será o volume de produção planejado pelo google. essa unidade de processamento de memória é compatível com os tpu existentes.
atualmente, todos os chips do google são fabricados pela tsmc; ainda não se sabe se os novos chips serão terceirizados para a tsmc ou para outra fábrica de semicondutores.
há anos, o google utiliza apenas tpu em seus próprios data centers para suportar serviços como busca, youtube e o modelo gemini, disponibilizando-os exclusivamente aos clientes do google cloud. essa situação mudou no ano passado, quando o google começou a alugar tpu a clientes fora de seus data centers, desafiando diretamente a posição dominante da nvidia no mercado de chips de ia. os tpu do google também têm conquistado a preferência de clientes como anthropic, meta e apple.
o surgimento de chips especializados em inferência decorre do fato de que as empresas de ia vêm lançando produtos cada vez mais complexos, como grandes modelos de linguagem, que exigem muito mais poder computacional do que aplicações tradicionais de ia, como chatbots.
no entanto, nem todas as tarefas de inferência são iguais. algumas etapas do processo de geração de respostas demandam enorme capacidade computacional, enquanto outras são limitadas pela rapidez com que um chip consegue ler e gravar dados na memória. utilizar diferentes tipos de chips de inferência para tarefas distintas — em vez de confiar em um único processador para realizar tudo — tornou-se uma estratégia fundamental para as empresas de ia aprimorarem a eficiência e reduzirem custos.
por exemplo, a openai recentemente firmou um acordo para adquirir mais de 20 bilhões de dólares em chips de inferência da cerebras, concorrente tanto da nvidia quanto da groq, ao mesmo tempo em que também utiliza chips de inferência de outros fornecedores. a openai também está desenvolvendo conjuntamente seus próprios chips de inferência com a broadcom.
a marvell projeta principalmente chips padrão para redes, armazenamento e interconexões ópticas destinados a data centers; seu negócio de personalização de chips para clientes vem se expandindo rapidamente e já se tornou o segmento de crescimento mais acelerado.
desde 2023, o google vem tentando reduzir sua dependência da broadcom, principalmente porque a empresa cobra taxas exorbitantes. a broadcom cobra uma taxa por cada tpu produzido e, à medida que a demanda por tpus dispara, os pagamentos do google à broadcom aumentam proporcionalmente.
no ano passado, o google trouxe a taiwanesa mediatek para participar do projeto e da produção de chips tpu, mas a broadcom continua sendo o principal parceiro do google no design de chips. no início deste mês, a broadcom assinou um novo contrato com o google para desenvolver e fornecer tpus personalizados e componentes de rede para os racks de data center de ia de próxima geração do google até 2031, reforçando o papel central que a broadcom continua desempenhando no negócio de chips do google.