Table of Contents
Hoy la búsqueda de datos para entrenar los modelos de lenguaje extenso – LLM (*) se ha convertido en la clave para liderar la IA.
Y el uso de los modelos de deep learning continuará creciendo, según las predicciones de la consultora Gartner.
Antes de 2020, la internet era vista como un pozo ilimitado de datos con los cuales se podía entrenar dicha tecnología.
Esto ha cambiado, los repositorios públicos como Wikipedia y Reddit, no bastan para alimentar los complejos algoritmos que potencian la IA.
Sin datos nuevos, la IA no puede avanzar
Frente a este problema, las compañías han decidido adoptar diversas prácticas.
A finales de 2021, la industria evidenció la insuficiencia de datos públicamente disponibles para entrenar a los LLM (Modelo Lingüístico Grande) .
Con el fin de recolectar más datos digitales, los investigadores crearon herramientas que pudieran transcribir el audio de videos de YouTube y plataformas de streaming.
Esto se hizo con el fin de que dichas aplicaciones se convirtieran en fuente de información y así nutrieran los modelos de lenguaje.
Un punto importante por resaltar es que lo anterior puede ir en contra de los términos de privacidad de las compañías de streaming.
Ya que está prohibido descargar videos para aplicaciones independientes.
Con esta brecha se abre la oportunidad del debate para fortalecer las regulaciones en la medida que evoluciona la inteligencia artificial.
Otras empresas han llegado a medidas en las que la decisión está en el usuario.
Esto puede ir desde consentir las políticas de manejo de datos de las entidades hasta pagar para mantener la privacidad. Este es un dilema que genera cierta duda entre los usuarios.
Con la misión de dar con soluciones más precisas y que no infrinjan los derechos de los usuarios y autores, la industria ha llegado a opciones más razonables.
Una de ellas, por ejemplo, es la compra de editoriales para hacer uso de las obras de sus autores.
¿Synthetic Data es la solución?
Cuando OpenAI reveló GPT-3 en noviembre de 2020, el modelo había sido entrenado con la mayor cantidad de datos hasta la fecha: cerca de 300.000 millones de tokens.
En 2022, DeepMind —un laboratorio de IA de Google— fue más allá. Tras poner a prueba 400 modelos, descubrieron que los mejores fueron aquellos con la mayor cantidad de tokens.
Por ejemplo, Chinchilla fue entrenado con 1,4 billones. En este orden de ideas, los próximos modelos de IA requerirán incluso más tokens para perfeccionarse.
En medio del debate, Sam Altman —CEO de OpenAI— propuso una solución que no implica ignorar políticas corporativas.
Se trata de aprovechar los datos sintéticos o Synthetic Data. Estos consisten en datos no generados por humanos.
Se trata de información creada por IA para realizar comparaciones, estimaciones o simulaciones.
Una IA autosuficiente aún está lejos
Hoy en día, los modelos de IA que aprenden de sus propios resultados suelen quedar atrapados en bucles que refuerzan sesgos, errores y limitaciones.
Sin embargo, es el primer paso para tener datos digitales ilimitados.
Otra solución ante la imperiosa necesidad de recolectar datos puede ser contratar creadores de contenido que constantemente nutran los LLM con nueva información.
Y, en resumen, de esa forma dicho rol puede seguir siendo relevante en la era de la inteligencia artificial.
Autor: Mateo Riveros, Senior Marketing Analyst para ManageEngine
(*) Un modelo de lenguaje extenso (LLM) es un modelo estadístico de lenguaje entrenado con una gran cantidad de datos.
Los cuales se pueden utilizar para generar y traducir texto y otros tipos de contenido, así como para llevar a cabo otras tareas de procesamiento del lenguaje natural (PLN).
VISITA NUESTRA SECCIÓN LATINOAMÉRICA, Y DÉJANOS TU COMENTARIO