Cuatro cuestiones clave en la carrera por recopilar datos para la IA

4 min read

La información en línea ha sido durante mucho tiempo un bien valioso. Durante años, Meta y Google han utilizado datos para orientar su publicidad online, mientras que Netflix y Spotify los han utilizado para recomendar más películas y música. Durante los últimos 18 meses, los candidatos políticos han recurrido a los datos para saber qué votantes deberían perfeccionar sus opiniones. Cada vez está más claro que los datos digitales son fundamentales para el desarrollo de la inteligencia artificial. Las cosas que debes saber son las siguientes: Cuanta más información mejor. El éxito de la IA depende de los datos. Esto se debe a que los modelos de IA se vuelven más precisos y más humanos cuanto más datos tienen. De la misma manera que los estudiantes aprenden más leyendo libros, artículos y otra información, los modelos lingüísticos a gran escala (los sistemas que sustentan los chatbots) serán más precisos. Es más efectivo si obtiene más información. Algunos modelos de lenguaje grandes, como el GPT-3 de OpenAI lanzado en 2020, se entrenan en cientos de miles de millones de «tokens», que son esencialmente palabras o partes de palabras. Recientemente se entrenó un modelo de lenguaje a gran escala con más de 3 billones de tokens. La información en línea es un recurso valioso e inagotable. Las empresas de tecnología están utilizando datos en línea disponibles públicamente para desarrollar sus modelos de IA, que son más rápidos que generar nuevos datos. Según una predicción Los datos digitales de alta calidad desaparecerán en 2026. Las empresas tecnológicas están trabajando arduamente para adquirir más datos. En la carrera por obtener más datos, OpenAI, Google y Meta están recurriendo a nuevas herramientas. Al cambiar las condiciones de Servicios y participación en debates internos En OpenAI, los investigadores crearon un programa en 2021 que convierte el audio de los vídeos de YouTube en texto y luego introduce la transcripción en uno de los modelos de IA. Esto va en contra de los términos de servicio de YouTube, dijo una persona con conocimiento del asunto. (The New York Times ha demandado a OpenAI y Microsoft por uso no autorizado de artículos de noticias con derechos de autor para el desarrollo de IA. OpenAI y (Microsoft han dicho que utiliza artículos de noticias en formato alterado formatos que no violan las leyes de derechos de autor.) También lo hace Google, propietario de YouTube. YouTube utiliza datos para desarrollar modelos de inteligencia artificial, adentrándose en el área legal gris de los derechos de autor. Personas con conocimiento de la acción dijeron que Google revisó su política de privacidad el año pasado para hacer más probable el uso de contenido disponible públicamente para desarrollar productos de IA. El año pasado, en Meta, ejecutivos y abogados debatieron cómo obtener más datos para el desarrollo de IA y discutieron la compra de una importante editorial como Simon & Schuster. En una reunión privada Sopesaron la posibilidad de incluir obras protegidas por derechos de autor en sus modelos de IA, incluso si eso significaba que serían demandados más adelante. Según las actas de la reunión obtenidas por The Times, una solución podrían ser datos «sintéticos»: OpenAI, Google y otros. Está explorando el uso de la IA para crear más datos. El resultado son los llamados datos «sintéticos». La idea es que el modelo de IA genere texto nuevo que pueda usarse para crear mejores datos sintéticos. AIS es riesgoso porque los modelos de IA pueden cometer errores. La confianza en dicha información puede conducir a esos errores.

Source link

You May Also Like

More From Author

+ There are no comments

Add yours