Anthropic rompe con Nvidia: Microsoft entra en la guerra de los chips de IA
Golpe a Nvidia: Anthropic negocia con Microsoft usar sus chips Maia para Claude, desafiando el dominio del 80% en IA.
La startup de inteligencia artificial Anthropic PBC está en etapas avanzadas de negociación para incorporar los chips Maia 100 de Microsoft a su infraestructura, según reveló The Information. Este movimiento, que busca escalar la capacidad de cómputo para su modelo Claude —competidor directo de ChatGPT y Gemini—, marca un punto de inflexión en un mercado donde la escasez y los altos costos de los H100 de Nvidia (cotizados en hasta US$40.000 por unidad en 2024) han llevado a las empresas a buscar alternativas urgentes.
Microsoft no es la única en esta carrera. Google (con sus TPU v4, usados por Anthropic desde 2022) y Amazon (con Trainium e Inferentia) ya han logrado reducir la dependencia de Nvidia en sectores clave. Sin embargo, los chips de Microsoft —diseñados en colaboración con AMD y optimizados para cargas de IA en Azure— representan una apuesta arriesgada: son nuevos en el mercado y su rendimiento a gran escala aún no ha sido validado fuera de los laboratorios de Redmond.
¿Por qué ahora? La presión sobre Anthropic es doble: por un lado, la demanda de Claude ha crecido un 400% en el último año, según datos internos filtrados; por otro, los plazos de entrega de los H100 se han extendido a 6-9 meses, un lujo que las startups de IA no pueden permitirse. Si Maia demuestra ser viable, Microsoft no solo ganaría un cliente estratégico, sino que también debilitaría el monopolio de Nvidia en un sector donde su cuota supera el 95% en chips para entrenamiento de modelos avanzados.
US$45.000 millones en juego: el acuerdo que podría cambiar las reglas
En octubre de 2023, Anthropic firmó un contrato récord con Microsoft: US$30.000 millones en capacidad de cómputo a través de Azure, complementados con otros US$15.000 millones en una ronda de inversión conjunta con Nvidia. Este acuerdo, sin embargo, no garantiza el éxito de Maia. Fuentes cercanas a las negociaciones advierten que Anthropic ya tiene contratos activos con Google (para TPU v4) y Amazon (para Inferentia2), lo que limita el margen de error para Microsoft.
El problema no es solo técnico. Los chips Maia y Cobalt (el procesador de propósito general de Microsoft) llegan a un mercado donde la competencia ya tiene años de ventaja. Google, por ejemplo, lleva usando sus TPU desde 2015, y Amazon ha logrado reducciones de costo del 30% en inferencia con sus chips propios. ¿Puede Microsoft competir? Los primeros benchmarks internos de Anthropic, según The Information, muestran que Maia alcanza entre un 80% y 88% del rendimiento de un H100 en tareas de inferencia, pero su eficiencia en entrenamiento —clave para desarrollar Claude 3.5, previsto para finales de 2024— sigue siendo una incógnita.
Las acciones de Microsoft cayeron un 0,8% al conocerse la noticia, un movimiento moderado pero revelador. Los inversores temen que, en su afán por ganar cuota, Microsoft sacrifique márgenes: desarrollar y producir chips Maia a escala cuesta miles de millones, y su adopción masiva no está garantizada. Si Anthropic opta por diversificar sin migrar cargas críticas, el impacto financiero para Microsoft podría ser limitado.
La guerra de los chips: ¿quién lidera la revolución de la IA?
El mercado de semiconductores para IA ha experimentado una transformación radical en los últimos 24 meses. Mientras Nvidia sigue dominando con sus H100 y H200 (este último lanzado en marzo de 2024), las grandes tecnológicas han acelerado sus propios desarrollos:
- Google: Sus TPU v4 ya son usados por Anthropic para fine-tuning de modelos, con un rendimiento del 85-90% frente a los H100 y un costo 30% menor.
- Amazon: Los chips Trainium (entrenamiento) e Inferentia (inferencia) han reducido los costos operativos de Anthropic en un 22% desde 2023.
- Microsoft: Maia y Cobalt son sus primeras incursiones serias en hardware de IA, pero su adopción depende de que superen el 90% de eficiencia en benchmarks reales.
- Cerebras: Sus chips WSE-2 permitieron a Anthropic ahorrar un 15-20% en costos en 2023, aunque con limitaciones en escalabilidad.
El retraso de Microsoft es un riesgo. Mientras Google y Amazon ya tienen clientes externos usando sus chips, Maia aún está en fase de pruebas con socios seleccionados. ¿Qué pasaría si Anthropic decide no adoptarlos? La startup podría profundizar su alianza con Google, que ya está testeando los prototipos de TPU v5 (con un rendimiento teórico 20% superior al H100). Para Microsoft, esto significaría quedarse atrás en una carrera donde el segundo puesto no es una opción.
Las conversaciones entre Anthropic y Microsoft aún son preliminares, pero el tiempo apremia. Claude 3.5, cuya salida está programada para noviembre de 2024, requerirá una infraestructura robusta y probada. Si Maia no cumple, Anthropic tendrá que elegir entre pagar sobreprecios a Nvidia o migrar masivamente a Google, dejando a Microsoft en una posición de debilidad estratégica.
El precedente Cerebras: cuando la diversificación salió mal
Esta no es la primera vez que Anthropic busca alternativas a Nvidia. En abril de 2023, la startup firmó un acuerdo de US$50 millones con Cerebras Systems para usar sus chips WSE-2, prometedores por su eficiencia energética. Los resultados fueron mixtos: aunque lograron entrenar versiones tempranas de Claude 2 con un ahorro del 15-20% en costos, el proceso requirió 6 meses de adaptación y los chips mostraron limitaciones en inferencia en tiempo real. Al final, Anthropic mantuvo el 80% de su carga en Nvidia y Google, usando Cerebras solo para pruebas específicas.
El caso Cerebras dejó una lección clara: la diversificación tiene un costo oculto. Adaptar modelos de IA a nuevas arquitecturas no es trivial. Requiere tiempo, recursos y, en muchos casos, reducir el rendimiento para garantizar estabilidad. Ahora, con Microsoft en la ecuación, el desafío se repite. Los chips Maia, basados en la arquitectura AMD Instinct MI300, prometen un rendimiento teórico similar al de los TPU v4 de Google, pero su comportamiento en entornos reales —especialmente con modelos del tamaño de Claude 3— es aún una incógnita.
Los benchmarks internos que Anthropic está ejecutando, según The Information, son críticos. Si Maia no supera el umbral del 90% de eficiencia respecto a los H100, la startup podría repetir la estrategia de Cerebras: uso limitado y sin migrar cargas esenciales. Esto dejaría a Microsoft en una posición incómoda, especialmente si Google lanza sus TPU v5 antes de que Maia esté listo para producción masiva.
¿Está Microsoft repitiendo el error de Intel?
En 2021, Intel lanzó sus chips Habana Gaudi 2 con la promesa de competir con Nvidia en IA. Anthropic fue uno de los primeros en probarlos, pero los resultados fueron desastrosos: los Gaudi 2 consumían un 30% más de energía que los H100 y su compatibilidad con frameworks como PyTorch requería ajustes personalizados. Tras 9 meses de pruebas infructuosas, Anthropic abandonó el proyecto. Intel, incapaz de posicionar sus chips, terminó vendiendo su división de IA a un fondo de inversión en 2023.
El paralelo con Microsoft es inquietante. Maia llega tarde a un mercado dominado por jugadores consolidados, y su adopción depende de que Anthropic —uno de los clientes más exigentes— valide su rendimiento. Si los benchmarks confirman que Maia no supera el 90% de eficiencia frente a los H100, la startup podría optar por una solución radical: acelerar su migración a los TPU v5 de Google, cuyos prototipos ya están en fase avanzada de pruebas. Para Microsoft, esto no solo sería un fracaso comercial, sino un golpe a su credibilidad en el sector de IA.
El reloj corre. Claude 3.5, cuya salida está prevista para finales de 2024, necesitará una infraestructura probada y escalable. Si Microsoft no demuestra que Maia es una alternativa viable en los próximos meses, Anthropic no tendrá más remedio que consolidar su dependencia de Google y Amazon, dejando a Redmond fuera de la carrera por el hardware de IA. ¿Podrá Microsoft evitar el destino de Intel, o Maia se convertirá en otro chip olvidado?
Lecturas relacionadas:
- Anthropic camino a su primer trimestre rentable: ¿puede Claude superar a ChatGPT en ingresos?
- La estrategia de Microsoft para desafiar a Nvidia: chips Maia y Cobalt bajo la lupa
- Google vs. Amazon vs. Microsoft: quién lidera la carrera por los chips de IA propios
- El costo oculto de entrenar modelos de IA: ¿por qué las startups buscan alternativas a Nvidia?
- Habana Gaudi 2: el fracaso de Intel que Microsoft no quiere repetir
AMD, el socio invisible que podría decidir la guerra de los chips
Mientras Microsoft y Anthropic negocian el futuro de los chips Maia 100, hay un actor clave que opera entre bambalinas: AMD. La empresa, que diseña la arquitectura subyacente de Maia en colaboración con Microsoft, no es nueva en batallas por el dominio de los semiconductores. En 2019, sus chips EPYC Rome permitieron a Google Cloud reducir costos en un 25% frente a los servidores basados en Intel, un movimiento que aceleró la adopción de alternativas en la nube. Ahora, con Maia —basado en la arquitectura CDNA 3 de AMD—, la compañía de Lisa Su tiene la oportunidad de replicar ese éxito en el terreno de la IA, donde hasta ahora ha sido eclipsada por Nvidia.
El precedente más cercano es el de los chips Instinct MI300X, lanzados por AMD en diciembre de 2023. Estos procesadores, optimizados para cargas de IA, ya son usados por Meta y Microsoft en proyectos internos, con resultados prometedores: en pruebas de entrenamiento del modelo Llama 2, los MI300X alcanzaron un 85% del rendimiento de los H100 de Nvidia, pero con un consumo energético 12% menor, según datos de MLCommons. Sin embargo, su adopción masiva se ha visto limitada por un detalle crítico: la falta de compatibilidad nativa con frameworks como PyTorch y TensorFlow, que requieren ajustes personalizados. Este es el mismo escollo que Anthropic enfrentó con los chips de Cerebras en 2023, y que ahora podría repetirse con Maia.
AMD tiene otra ventaja estratégica: su alianza con Samsung para la fabricación. A diferencia de Nvidia, que depende casi exclusivamente de TSMC, AMD ha diversificado su producción. En 2022, el 40% de sus chips de alta gama se fabricaron en las plantas de Samsung en Corea del Sur, lo que le permitió evitar cuellos de botella como los que afectaron a Nvidia durante la crisis de suministros de 2021-2022. Si Maia logra escalar, esta capacidad de producción podría ser un factor decisivo para Anthropic, cuya demanda de hardware ha crecido un 400% en un año.
| Chip | Arquitectura | Rendimiento vs. H100 | Consumo energético | Adopción en IA (2024) |
|---|---|---|---|---|
| Maia 100 | AMD CDNA 3 | 80-88% | -10% vs. H100 | Pruebas con Anthropic |
| Instinct MI300X | AMD CDNA 3 | 85% | -12% vs. H100 | Meta, Microsoft (proyectos internos) |
| TPU v4 (Google) | Propietaria | 85-90% | -30% vs. H100 | Anthropic, Google Cloud |
El dilema de Anthropic: ¿confiar en un socio con historial desigual?
AMD ha demostrado que puede competir en rendimiento y eficiencia, pero su historial en IA es irregular. En 2020, sus chips Instinct MI100 fueron probados por OpenAI para entrenar versiones tempranas de GPT-3, pero se descartaron por incompatibilidades con las bibliotecas de machine learning de la época. Dos años después, los MI250X sí lograron adoptarse en proyectos de Hugging Face, pero con un alcance limitado. Ahora, con Maia, AMD y Microsoft enfrentan el mismo desafío: convencer a Anthropic de que los costos de adaptación valen la pena. Si los benchmarks internos —que, según The Information, se extenderán hasta septiembre de 2024— no superan el 90% de eficiencia, la startup podría optar por una solución más segura: redoblar su apuesta por los TPU v5 de Google, cuyos prototipos ya prometen un 20% más de rendimiento que los H100. Para AMD, esto no solo sería un revés comercial, sino la confirmación de que, en la guerra de los chips de IA, el rendimiento teórico no basta.