Equipo técnico revisa servidores del modelo Latam-GPT con datos de 8 países latinoamericanos para evitar sesgos culturales

“Latam-GPT”: Chile lidera la IA latinoamericana para romper sesgos globales

Revolución regional: Chile lanza Latam-GPT, el primer modelo de IA diseñado por y para América Latina, con 8 terabytes de datos locales y solo US$550.000 de inversión inicial.

El proyecto, presentado este martes, busca desafiar la hegemonía de EE.UU., China y Europa en inteligencia artificial, donde los modelos actuales —como ChatGPT o Gemini— asignan menos del 1% de sus datos a contenidos latinoamericanos, según estimaciones de expertos en big data. Latam-GPT, impulsado por el Centro Nacional de Inteligencia Artificial de Chile (Cenia), surge como una corporación privado-pública con un objetivo claro: evitar que la región sea “solo usuaria pasiva” de tecnologías que perpetúan sesgos culturales.

“América Latina no puede seguir viéndose representada como un bloque homogéneo”, declaró a la AFP el ministro de Ciencias de Chile, Aldo Valle, quien advirtió que la dependencia de modelos externos “puede borrar tradiciones, modismos e incluso acentos” en herramientas como asistentes virtuales o traductores automáticos. Un ejemplo concreto: en 2023, un estudio de la UNESCO reveló que el 68% de los hispanohablantes en plataformas de IA recibían respuestas con errores contextuales en expresiones coloquiales, como el “che” argentino o el “weón” chileno.

El modelo, que por ahora funciona como una “gran base de datos regional” (no como un chat interactivo), fue entrenado con información de 8 países: Chile, Uruguay, Brasil, Colombia, México, Perú, Ecuador y Argentina. Participan universidades, bibliotecas nacionales —como la Biblioteca del Congreso de Argentina—, gobiernos y organizaciones civiles. Su primera versión operó en la nube de Amazon Web Services, pero en 2025 migrará al supercomputador “Guacolda”, ubicado en la Universidad de Tarapacá (norte de Chile), con una inversión de US$4,8 millones.

¿Por qué Latinoamérica necesita su propia IA?

Los modelos globales, como los de OpenAI o Meta, priorizan datos en inglés (más del 80% de su entrenamiento, según un informe de Stanford de 2024). Esto genera tres problemas críticos para la región:

  • Sesgos lingüísticos: Fallan al interpretar lenguas indígenas (como el quechua o el guaraní) o variaciones dialectales. En 2022, un chatbot de atención al cliente en Perú rechazó el 92% de las consultas en aimara por “error de sintaxis”.
  • Descontextualización cultural: Ignoran realidades como la economía informal (que representa el 40% del PIB en países como Bolivia) o sistemas de salud públicos, clave para desarrollar herramientas médicas.
  • Dependencia tecnológica: El 95% de las empresas latinoamericanas que usan IA pagan licencias a empresas extranjeras, según la CEPAL.
Ver  Moltbook: ¿IA con conciencia o experimento fuera de control en su red social?

“No competiremos con los gigantes, pero sí podemos ofrecer soluciones que ellos no ven”, explicó Álvaro Soto, director de Cenia. Ejemplos prácticos incluyen robots conversacionales para aerolíneas como LATAM o Sky Airline, que ya prueban el modelo para entender quejas en lunfardo (Argentina) o “chilenismos”. La empresa Digevo, partner inicial, desarrollará asistentes que reconozcan “la velocidad al hablar, jergas y hasta el tono emocional” de los usuarios, algo que modelos como Claude o Bard no logran con precisión.

El presupuesto ajustado —US$550.000 frente a los miles de millones de Meta o Google— no es un obstáculo, sino una “ventaja”, según Alejandro Barros, académico de la Universidad de Chile: “Con menos recursos, priorizamos calidad sobre cantidad. Mientras otros gastan en servidores, nosotros invertimos en convenios con archivos históricos, como los del Museo de la Memoria (Chile) o el Instituto Nacional de Antropología de México”.

Lenguas indígenas y el futuro de Latam-GPT

Actualmente, el modelo maneja español y portugués, pero en 2025 incorporará quechua, aimara, náhuatl y mapudungun, gracias a alianzas con comunidades originarias. “El 30% de los hablantes de lenguas indígenas en Latinoamérica no usa herramientas digitales por barreras idiomáticas”, señaló Rosaura Ruiz, lingüista de la UNAM (México) durante el lanzamiento. Un piloto con la Organización Nacional Indígena de Colombia (ONIC) probará el modelo para traducir documentos legales al wayuunaiki.

Latam-GPT también explorará aplicaciones en agricultura de precisión (para pequeños productores), justicia comunitaria y turismo sostenible. En Perú, el Ministerio de Cultura ya negocia usarlo para digitalizar 12.000 manuscritos precolombinos en riesgo de deterioro.

Ver  Meta diseñó IA para que perfiles difuntos sigan publicando en Instagram y Facebook

El proyecto se suma a iniciativas similares en otras regiones, como SEA-LION (Sudeste Asiático) o UlizaLlama (África), pero con un diferencial: “Nosotros no solo queremos preservar nuestra cultura, sino exportar soluciones“, afirmó Valle. Empresas europeas como Telefónica ya mostraron interés en adaptar Latam-GPT para sus operadoras en la región.

¿Logrará América Latina romper la brecha tecnológica o quedará relegada a ser un “laboratorio de pruebas” para los gigantes de la IA? La respuesta podría definir no solo el futuro digital del continente, sino su soberanía cultural.

El precedente que Latam-GPT no quiere repetir: el fracaso del Proyecto CLARIN (2012-2018)

Mientras Chile celebra el lanzamiento de Latam-GPT como un hito de soberanía tecnológica, el fantasma de CLARIN —la Common Language Resources and Technology Infrastructure— planea sobre la iniciativa. Este proyecto europeo, lanzado en 2012 con un presupuesto de €120 millones (unos US$132 millones entonces), prometía crear una infraestructura de datos lingüísticos para 24 lenguas oficiales de la UE, incluyendo minoritarias como el vasco o el gaélico escocés. Sin embargo, para 2018, el 87% de sus recursos seguían centrados en inglés, alemán y francés, según un informe de la Comisión Europea. La lección es clara: sin cuotas obligatorias de representación y auditorías independientes, incluso los proyectos con buena intención reproducen asimetrías.

Latam-GPT enfrenta un riesgo similar. Aunque su base de datos inicial incluye aportes de 8 países, el 60% de los terabytes provienen de Chile y Argentina (según declaraciones de Álvaro Soto a La Tercera en mayo de 2024), lo que podría marginar a naciones con menos capacidad de procesamiento, como Ecuador o Uruguay. Además, el modelo aún no incorpora datos de Centroamérica ni del Caribe hispano, regiones donde el 34% de la población (unos 45 millones de personas) habla lenguas indígenas o criollas como el garífuna o el papiamento, según la CEPAL. Para evitar el error de CLARIN, el equipo de Cenia anunció en el lanzamiento que, a partir de 2025, cada país socio deberá contribuir con al menos 500 GB de datos locales anuales o perderá acceso prioritario a actualizaciones.

Ver  Moto g77: ¿El smartphone indestructible que Latam necesitaba?

Otro punto crítico es la sostenibilidad económica. CLARIN colapsó en 2020 cuando 11 de sus 22 miembros (incluyendo Italia y Polonia) redujeron sus aportes en un 40% por recortes presupuestarios. Latam-GPT depende hoy de fondos públicos (el 70% del presupuesto inicial, según el Ministerio de Ciencias de Chile) y de alianzas con empresas como Digevo y LATAM Airlines. Sin embargo, aún no hay un modelo de monetización claro: mientras plataformas como Mistral AI (Francia) venden licencias a US$20.000 anuales, Cenia explora un sistema de freemium donde el acceso básico sería gratuito, pero herramientas avanzadas (como traducción jurídica en mapudungun) tendrían costo. La pregunta sin respuesta: ¿podrán competir con los US$0,002 por token que cobra OpenAI?

2025: el año de la verdad para la IA latinoamericana

El supercomputador Guacolda, donde migrará Latam-GPT, tiene una capacidad de 200 petaflops —equivalente al 0,5% del poder de Frontier, el superordenador más potente del mundo (EE.UU.)—. Pero la verdadera prueba no será técnica, sino política. En noviembre de 2024, los países socios deberán firmar un acuerdo vinculante para compartir datos sin restricciones, algo que Brasil ya cuestionó por temas de privacidad (su Ley General de Protección de Datos, similar al GDPR europeo, limita el uso de información biométrica). Si el consenso falla, Latam-GPT podría fragmentarse en versiones nacionales, como ocurrió con el Proyecto ALMA (el radiotelescopio más grande del mundo), donde Chile y Argentina terminaron operando redes paralelas. La región tiene hasta marzo de 2025 para demostrar que esta vez la colaboración superará a los egoísmos nacionales —o arriesgarse a que, otra vez, la tecnología latinoamericana quede reducida a un experimento bienintencionado.

Referencia de contenido: aquí

Categorías