ALIA, el ChatGPT en español, va a contar con un entrenamiento de 175 millones de «parámetros» en castellano que eviten sesgos que los datos en inglés generan, problemas con la calidad de los datos, de generación de sesgos y con los derechos de autor de las obras de las que se extraen. Para ello va a contar con la participación de 15 instituciones entre las que destacan el Instituto Cervantes, la Real Academia Española (RAE), la Biblioteca Nacional y las academias de las lenguas vasca, gallega y valenciana, entre otras.
No obstante, fuentes del ministerio no descartan que en el futuro entrenamiento de la IA en español se incorporen los datos de fuentes como la Academia de la Historia, la Biblioteca Nacional, los grandes grupos de comunicación como el grupo Prisa o los fondos de RTVE y todas aquellas instituciones que guarden información de calidad en español que pueda alimentar toda la capacidad de aprendizaje de la inteligencia artificial convertirla en una herramienta de máxima sabiduría en nuestro idioma.
En ALIA se va a conseguir que el 20% del corpus inicial de la herramienta sean datos en español, porque los LLM existentes hasta ahora apenas llegaban a un 4% de datos en nuestro idioma. Según el Ministerio para la Transformación Digital y de la Función Pública, va a contar con información como, por ejemplo, datos desde actas de sesiones de los distintos parlamentos del Estado, hasta otra información más sencilla, que se introducirá en corpus (los datos que metes en el modelo de lenguaje) sectoriales, como el sanitario, el jurídico, etc.
no descartan que en el futuro entrenamiento de la IA en español se incorporen los datos de fuentes como la Academia de la Historia, la Biblioteca Nacional, los grandes grupos de comunicación como el grupo Prisa o los fondos de RTVE y todas aquellas instituciones que guarden información de calidad en español
Ahora los nuevos datos son los textos, y para entrenar las IAs, (como el exitoso ChatGPT) se estaban cogiendo los datos de internet, que está disponible en todo el mundo pero, claro, en inglés. «Queremos utilizar, otras bases de datos, otros textos que están genuinamente en castellano, en catalán o en euskera, y eso es lo que estamos trabajando, por ejemplo, en la Rioja donde está el mayor repositorio de artículos científicos de castellano«, explican desde el Ejecutivo
Los datos después, lógicamente, hay que tratarlos; es decir, limpiarlos y trabajarlos, porque hay que quitar sesgos y duplicidades. Luego, esos datos y textos, se introducen en una máquina con el supercomputador que los parametriza, para que este modelo haga lo que queremos «pero eso tiene que hacerse en estricto respeto a los derechos de los autores», dicen desde el ministerio.
ENTRENAMIENTOS CON POLÉMICA
Según se ha publicado recientemente, OpenAI tiene un «Programa de editores preferidos» que ofrecen a los editores de noticias, como el Financial Times y Le Monde, para que puedan usar su contenido para la capacitación del modelo de IA, sin ser demandados por infracción de derechos de autor, como lo han hecho algunos medios de comunicación, como el New York Times. Este tipo de episodios se quiere evitar desde el origen en el caso de ALIA, la IA española.
Y eso es así, porque ese tipo de preferencias genera un sesgo de origen, ya que coloca unos contenidos por encima de otros, por lo que la información que nos muestran los modelos de IA, como ChatGPT, puede no ser la más relevante o útil, y tener un sesgo econó9mico, según las aportaciones o pagos de las fuentes.
OpenAI tiene un «Programa de editores preferidos» que ofrecen a los editores de noticias, como el Financial Times y Le Monde, para que puedan usar su contenido para la capacitación del modelo de IA, sin ser demandados por infracción de derechos de autor
Open AI empieza ha hacer movimientos para corregir esto, y uno de ellos es el conocido este mismo viernes, cuando se ha hecho público que la empresa creadora de ChatGPT, tendrá acceso al amplio catálogo de Reddit de datos conversacionales «en tiempo real, estructurados y únicos», que incluye más de mil millones de publicaciones y 16 mil millones de comentarios, para entrenar y perfeccionar sus modelos GPT. El acceso a esta cantidad de datos conversacionales mejorará la capacidad de ChatGPT para comprender mejor el contexto y ofrecer a los usuarios respuestas más matizadas, relevantes y precisas.
Pero claro, nada de gratis, como el entrenamiento de nuestra ALIA. Reddit obtendrá OpenAI como socio publicitario y tendrá acceso a sus modelos de IA, como ChatGPT, para desarrollar nuevas funciones impulsadas por IA, como herramientas de moderación mejoradas y recomendaciones personalizadas, para que sus usuarios y moderadores mejoren la experiencia del usuario. Ya ha firmado con Google un acuerdo similar por 200 millones de dólares. Y, curiosamente, el CEO de Open AI tiene una participación del 8,7% en Reddit.
Otra polémica relacionada con el entrenamiento se conoció este mismo mes de abril cuando se supo que OpenAI transcribió más de un millón de horas de vídeos de YouTube para entrenar GPT-4 esquivando su política de uso. Y eso ocurrió porque en 2021 OpenAI se enfrentó a un serio problema de falta de suministro de datos, así que se dedicó a transcribir videos, podcasts y audiolibros de YouTube. Además de que esos datos pueden no estar todo lo depurados que deberían, hay que tener en cuenta que YouTube prohíbe el uso de sus vídeos para aplicaciones que sean independientes de la plataforma.
También hay que recordar que el pasado mes de febrero Google se vio obligado a parar su función de generación de imágenes impulsada por IA después de que los usuarios se quejaran de que estaba creando imágenes inexactas y ofensivas de personajes históricos. Hay que cuidar muy bien cómo y con que datos se entrena a la IA.
ALIA, ENTRENADA CON LO MEJOR DE ESPAÑA
Las instituciones que ya están implicadas han rubricado un convenio que se enmarca en la Estrategia de Inteligencia Artificial 2024, que va a poner en marcha un modelo de lenguaje en castellano y lenguas cooficiales, es decir, el ChatGPT público en español que estamos necesitando, por lo que se incorporará también el material de las Academias de la Lengua de América Latina.
Para ello van a colaborar los centros que participan en el proyecto ILENIA, y que son el centro de investigación el Instituto HiTZ-Centro Vasco de Tecnología de la Lengua, Instituto da Lingua Galega (ILG), en colaboración con el Centro Singular de Investigación en Tecnoloxías Intelixentes (CITIUS) y el Centro de Inteligencia Digital (CENID), junto al Centro de Estudios Avanzados en Tecnologías de la Información y Comunicación (CEATIC), representados por sus universidades. También se va a contar con el trabajo del Institut d’Estudis Catalans y el Centro Nacional de Industrias del Español, del Gobierno de La Rioja.
Así, además del trabajo del ministerio y de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA), que lidera la definición y coordinación de este plan, contribuirán también el BSC-CNS, que actuará como centro de coordinación técnica aportando su capacidad de computación con el superordenador Mare Nostrum, la Agencia Española de Supervisión de la Inteligencia Artificial (AESIA), que se encargará de la generación de buenas prácticas en estos modelos y de garantizar su transparencia, y el Ministerio de Cultura, al que le corresponden las competencias en materia de propiedad intelectual, archivos y bibliotecas, y al que está adscrita la Biblioteca Nacional de España, que conserva el corpus documental más grande tanto en castellano como en lenguas cooficiales.
la Agencia Española de Supervisión de la Inteligencia Artificial (AESIA), que se encargará de la generación de buenas prácticas en estos modelos y de garantizar su transparencia, y el Ministerio de Cultura
Será el conjunto de datos, modelos y algoritmos que alimenten un modelo de IA fundacional en castellano y lenguas cooficiales, tal y como anunció el presidente del Gobierno, Pedro Sánchez, en el Mobile World Congress en Barcelona a finales de febrero. Para ello en el ministerio aseguran que se va a trabajar en un «corpus» de buena calidad, que alimente a ALIA desde los centros de Logroño, Galicia, Valencia, País Vasco y Cataluña donde ya han desarrollado una amplia base de partida.
Se van a tratar datos con un tamaño de 4 millones de millones de palabras para un modelo de IA con 175 millones de parámetros, equivalente al entrenamiento de ChatGPT 3.5, que permita generar una familia de modelos de IA sectoriales más pequeños, y cuyo entrenamiento alcanzará la capacidad de operar en español un 20%. Hasta el momento, las IA generativas están entrenadas básicamente en inglés y no llegaban ni al 5% de capacidad de respuesta en castellano.
ENTRENAR EN ESPAÑOL PARA EVITAR SESGOS
Según han explicado desde el Ministerio de Transformación Digital y la Función Pública, para utilizar la IA a nivel profesional y público, cuando se cuenta con un modelo entrenado sobre todo en inglés, estos presentan sesgos importantes a la hora de la traducción de las respuestas que ofrece la IA generativa, «algunos tan simples como que en castellano, para la verificación de las personas, no se utiliza un único apellido, o la mujer no tiene el apellido del marido, como ocurre en el mundo anglosajón. Eso no es un tema menor de la identificación de las personas a efectos jurídicos, por ejemplo».
Hay distintos tipos de sesgos por la falta de entrenamiento en español, y se podrían encontrar miles de ellos y de anécdotas para contar. Por esa razón, cuantos menos sesgos, más fácil será que el ChatGPT público en español sirva para el desarrollo de aplicaciones industriales más adecuadas.
El segundo elemento que preocupa en el ministerio tiene que ver con la transparencia, porque la mayor parte de los modelos que están en el mercado no cumple los estándares. Para asegurar la transparencia de los datos, se va a trabajar en «buenos procesos de evaluación de los modelos», y en desarrollar un «saco común de datos que vayan asociados a casos piloto de IA y cumplan con estándares de seguridad, de anonimización, de calidad, de interoperabilidad y de reutilización», que ofrezca garantías a los usuarios, tanto del sector público como del privado.