La mayoría de la gente piensa que la IA generativa seguirá mejorando. Después de todo, esa ha sido la tendencia hasta ahora. y puede hacerlo Pero lo que algunas personas no se dan cuenta es que los modelos de IA generativa son tan buenos como los conjuntos de datos gigantes en los que están entrenados. Y esos conjuntos de datos no se crearon a partir de datos patentados de empresas líderes en inteligencia artificial como OpenAI y Anthropic, sino a partir de datos públicos creados por todos nosotros. Ya sea alguien que alguna vez haya escrito una publicación en un blog, publicado un video, comentado en un hilo de Reddit o hecho básicamente cualquier otra cosa en línea. Un nuevo informe de Data Provenance Initiative, un grupo voluntario de investigadores de IA, arroja luz sobre lo que sucede con todos esos datos. El informe, “Consentimiento en crisis: el rápido declive de los bienes comunes de datos de IA”, señala que muchos. Las organizaciones que se sienten amenazadas por la IA generativa están tomando medidas para anonimizar sus datos, IEEE Spectrum habló con Shayne Longpre, investigadora principal de Data Provenance Initiative, sobre el informe y su impacto en las empresas de IA. Shayne Longpre en: sitio web Cómo protegerse contra la web rastreadores? ¿Y por qué se pierden los datos? y lo que significa para las empresas de IA, datos sintéticos Cómo Top Data y qué pasó después La tecnología que utilizan los sitios web para protegerse contra los rastreadores web no es nueva. El Protocolo de exclusión de robots se introdujo en 1995. ¿Puede explicar qué es y por qué de repente se volvió ilegal? Por lo tanto, es muy relevante en la era de la IA generativa. Shayne LongpreShayne Longpre: Robots.txt es un archivo legible por máquina. dónde los rastreadores, que son robots que navegan por la web y registran lo que ven Se utiliza para determinar si se deben rastrear o no ciertas partes del sitio web. Se ha convertido en el estándar de facto en una era en la que los sitios web gobiernan principalmente las búsquedas web (Think Bing o Google Search); Quieren registrar esta información para poder mejorar la experiencia de navegación del usuario en la web. Esta es una relación muy simbiótica porque la búsqueda web se realiza enviando tráfico a los sitios y sitios web deseados. En general, La mayoría de los sitios web funcionan bien con la mayoría de los rastreadores. A continuación, haré una serie de afirmaciones que son importantes para comprender este asunto. El propósito general y las impresionantes capacidades de los modelos de IA dependen del tamaño de los datos y del procesamiento utilizado para entrenarlos. La escala y los datos son muy importantes. Y pocos recursos ofrecen escalabilidad tan pública como en la web. Hay varios modelos básicos entrenados. [data sets composed of] rastreo web Bajo estos conjuntos de datos populares e importantes Básicamente es solo un sitio web y una infraestructura de recopilación de datos que se utiliza para recopilar, empaquetar y procesar esos datos. Nuestro estudio no sólo considera conjuntos de datos. Pero también tiene en cuenta las señales de configuración del sitio web correspondiente. Es la cadena de suministro de información. Pero en el último año Muchos sitios web están empezando a utilizar robots.txt para limitar los bots. Especialmente sitios web que ganan dinero con publicidad y muros de pago. Así que piense en noticias y artistas. Tienen especialmente miedo Y puede ser cierto que la llegada de la IA pueda afectar sus medios de vida. Por ello, toman medidas para proteger sus datos. Cuando un sitio impone restricciones de robots.txt, es como colocar un cartel de prohibido el paso, ¿verdad? No se puede hacer cumplir. Tienes que confiar en que el rastreador lo respetará. Longpre: La tragedia de esto es que el archivo robots.txt es legible por máquina. Pero no parece ser legalmente ejecutable. Si bien los términos de servicio pueden ser legalmente exigibles, no son legibles por máquina. En términos de servicio Pueden comunicar en lenguaje natural cuáles son sus preferencias en cuanto al uso de datos. Entonces pueden decir algo como, “Puedes utilizar esta información. Pero en robots.txt debes especificar el rastreador por separado. Luego le indica qué partes del sitio web permite o no permite. Esto supone demasiada carga para el sitio web como para considerar cuán diferentes son los rastreadores. ¿Cuál de los miles de programas corresponde al uso previsto? ¿Y qué programas no necesitan? ¿Sabemos si los rastreadores generalmente respetan las restricciones del archivo robots.txt? Longpre: Muchas grandes empresas tienen documentación que establece claramente cuáles son sus reglas o procedimientos. Por ejemplo, en el caso de Anthropic, dicen que respetan el archivo robots.txt para ClaudeBot. Sin embargo, muchas de estas empresas han aparecido en las noticias recientemente porque han sido acusadas de no respetar los robots.txt y de rastrear sitios web de todos modos. Desde fuera, no está claro por qué existe tal discrepancia entre lo que dicen las empresas de IA y lo que se les acusa de hacer. Pero muchos grupos prosociales que utilizan la recopilación de datos (pequeñas empresas emergentes, académicos, organizaciones sin fines de lucro, periodistas) tienden a respetar los robots.txt. No son el objetivo de estas restricciones. Pero está bloqueado por estas restricciones. Volver al inicio del informe Ha analizado tres conjuntos de datos de entrenamiento que se utilizan comúnmente para entrenar sistemas de IA creativos. Todos los cuales fueron creados a partir del rastreo web del año pasado. Verá que de 2023 a 2024, la cantidad de dominios que recopilan datos restringidos ha aumentado significativamente. ¿Puede hablar sobre esos hallazgos? Longpre: Lo que encontramos es que si observa cualquier conjunto de datos, veamos el C4, que fue muy popular, que se creó en 2019 en menos de un año, recibió alrededor del 5 por ciento. Revocar si respeta o sigue la configuración del sitio web correspondiente. Ahora el 5 por ciento no parece un trato difícil. Pero cuando te das cuenta de que la mayoría de estos datos corresponden a datos de la más alta calidad. Recibí la mejor atención. y el mas fresco Cuando miramos los 2000 sitios web principales en este conjunto de datos C4, esos son los 2000 sitios web principales por tamaño. Y la mayoría de ellos son sitios web de noticias. gran sitio académico redes sociales y sitios web bien seleccionados y de alta calidad: el 25 por ciento de las 2.000 entradas principales han sido retiradas. El significado es La distribución de datos de entrenamiento para modelos relacionados con robots.txt está cambiando rápidamente debido a las noticias. Sitios web académicos, foros y redes sociales de alta calidad. A sitios web corporativos y personales así como más comercio electrónico y blogs. Parece que esto podría ser un problema si pedimos a futuras versiones de ChatGPT o Perplexity que respondan preguntas complejas. y extraer información de blogs personales y sitios de compras. Es difícil medir cómo afectará esto al modelo. Pero sospechamos que habrá una brecha entre el rendimiento de los modelos que tienen en cuenta robots.txt y el rendimiento de los modelos que ya han obtenido estos datos y están dispuestos a continuar entrenando con ellos. Pero los conjuntos de datos antiguos permanecen intactos. ¿Pueden las empresas de inteligencia artificial utilizar conjuntos de datos antiguos? ¿Cuáles son las desventajas de esto? Longpre: la actualización continua de los datos es realmente importante. No está claro si robots.txt será retroactivo o no. Los editores podrían argumentar que sí. Por tanto, depende de su deseo de presentar una demanda. o donde crees que la tendencia podría continuar. Especialmente en los Estados Unidos Hay demandas en curso relacionadas con el uso justo de los datos. Un ejemplo claro es la oposición del New York Times a OpenAI y Microsoft, pero hoy en día hay muchas variaciones. Hay mucha incertidumbre sobre qué camino tomará. Este informe se llama «El consentimiento en crisis» ¿Por qué crees que es una crisis? Longpre: Creo que es una crisis para los creadores de datos debido a la dificultad de expresar lo que quieren con los protocolos existentes. Y para algunos desarrolladores que no son comerciales y que tal vez ni siquiera estén involucrados en la IA, a los académicos e investigadores les resulta más difícil acceder a esta información. Y creo que también es una crisis porque es muy complicado. La infraestructura no está diseñada para admitir todos los casos de uso diferentes a la vez. Y eventualmente se convierte en un problema a medida que estas enormes industrias chocan, con la IA creativa luchando contra los creadores de noticias y todos los demás. ¿Qué harán las empresas de IA si continúan? Y cada vez hay más restricciones a la información. ¿Cuáles serán sus movimientos para seguir formando grandes modelos? Longpre: Las grandes empresas los licenciarán directamente. Quizás este no sea un mal resultado para algunas grandes empresas. Si se incautan grandes cantidades de datos o son difíciles de recopilar Sólo crea la necesidad de que entre más capital. Creo que las grandes empresas invertirán más en su proceso de recopilación de datos y seguirán accediendo a valiosos recursos generados por los usuarios como YouTube, GitHub y Reddit. El acceso exclusivo a esos sitios web podría ser una estrategia de marketing inteligente. Pero es problemático desde una perspectiva antimonopolio. Me preocupa especialmente la relación única de exposición de datos que esto podría crear. Volver arriba ¿Cree que los datos sintéticos pueden llenar ese vacío? Longpre: Las grandes empresas ya están utilizando muchos datos sintéticos. Con los datos sintéticos surgen tanto temores como oportunidades. Por un lado, hay una serie de trabajos que muestran el potencial de colapso de los modelos. Esto reduce el rendimiento del modelo debido a un entrenamiento deficiente con datos sintéticos. que pueden aparecer con más frecuencia en la web A medida que se crean más y más bots sueltos… Sin embargo, creo que es poco probable que los filtros de calidad obstaculicen mucho los modelos grandes. Por lo tanto, se pueden succionar elementos de baja calidad o duplicados. Y la oportunidad para los datos sintéticos es Cuando los datos se generan en un entorno de laboratorio. Ser de muy alta calidad. y especialmente Apunte a dominios no desarrollados ¿Le da crédito a la idea de que podríamos estar en la cúspide de los datos? ¿O cree que eso es demasiado preocupante? Longpre: Hay mucha información sin explotar. Pero, curiosamente, la mayor parte está oculta detrás de PDF, por lo que es necesario realizar OCR. [optical character recognition]- Muchos datos están encerrados en agencias gubernamentales. en un canal propietario en forma no estructurada o formatos que son difíciles de analizar, como PDF, creo que se invertirá más en encontrar formas de extraer esa información. Pienso en términos de información fácilmente disponible. Muchas empresas están empezando a chocar contra la pared y a recurrir a datos sintéticos. ¿Cuál es la línea de tendencia aquí? Esperas ver sitios web. ¿Poner más restricciones a robots.txt en los próximos años? Longpre: Esperamos que las restricciones aumenten, tanto en robots.txt como en términos de servicios. Esas líneas de tendencia quedan muy claras en nuestro trabajo. Pero puede verse afectado por factores externos, como leyes y empresas que cambian sus propias políticas. Los resultados de la demanda Además de la presión comunitaria de los gremios de escritores y cosas así, espero que aumente la mercantilización de la información. Creará más campos de batalla en esta área. ¿Qué le gustaría que sucediera en términos de estándares dentro de la industria para facilitar que los sitios web expresen sus preferencias sobre la recopilación de datos? Longpre: En Data Province Initiative, esperamos sinceramente que surjan y se adopten nuevos estándares. creador pueda hacerlo. Expresar de forma más detallada sus preferencias respecto al uso de sus datos. Eso les aliviaría mucho la carga. Creo que eso es fácil y beneficioso para todos, pero no está claro a quién corresponde crear o hacer cumplir estos estándares. Sería increíble si. [AI] Las propias empresas pueden llegar a esta conclusión y actuar. Pero los diseñadores de este estándar casi inevitablemente tienen sus propios prejuicios hacia su uso. Especialmente si se trata de una organización. También es cierto que las preferencias no deberían respetarse en todos los casos. Por ejemplo, no creo que los académicos o periodistas que realizan investigaciones sociales deban verse privados del acceso a datos mediante máquinas que ya están disponibles públicamente. En un sitio web que todos Puedes ir a visitarlo tú mismo. No todos los datos son iguales y no todas las aplicaciones son iguales. Volver al principio de los artículos de su sitio Artículos relacionados en la web
Con Robots.txt, los sitios web detienen a los rastreadores web de las empresas de inteligencia artificial.
Posted on by admin
12 min read
You May Also Like
Las 55 principales tendencias informáticas de octubre
octubre 7, 2024
El papel del conocimiento en el diseño instruccional
octubre 7, 2024
+ There are no comments
Add yours