Wikipedia abre sus puertas a la IA… y frena a los bots

Wikipedia, que ya forma parte del Día Digital, una compilación colectiva del conocimiento de la vida de millones de personas, vive en tiempos complejos. No porque su naturaleza haya cambiado, sigue siendo una enciclopedia abierta y comunitaria, sino por el mundo que lo hace. A lo largo de la edad de la inteligencia artificial generativa, el valor de su contenido ha crecido exponencialmente, lo que lo convierte no solo en una fuente de información para los humanos, sino también lo convierte en un Cantera de entrenamiento de máquinas.
El problema es que estas máquinas, o los robots que construyen modelos de idiomas, han estado tragando Wikipedia sin gran parte de su apariencia. El tráfico no humano del servidor ha sido filmado. El consumo de ancho de banda ha aumentado en un 50% desde enero de 2024. El número preocupante de las bases sin fines de lucro no hará que sus páginas sean rentables y dependen casi por completo de las donaciones de sus usuarios. Frente a esta situación, la Fundación Wikimedia eligió una solución lógica como audaz: Proporciona acceso ordenado, estructurado y formal a su contenido … a cambio de detener la saturación del servidor.
La respuesta ha alcanzado esta semana En forma de alianza con Kaggy, una plataforma de ciencia de datos propiedad de Google puesta en marcha Nuevos conjuntos de datos diseñados específicamente para entrenamiento de modelos de IA. Originalmente disponible en inglés y francés, la versión optimizada de Wikipedia proporciona artículos en formato JSON, que incluye resumen, Infobox (tablas con datos estructurados) y contenido principal. Se han excluido las referencias, el código de Markdown y otros permitirán a los desarrolladores usar elementos complejos directamente. Además, el objetivo es extender la iniciativa a otros idiomas, ya que el formato se refina y se recopilan los comentarios de la comunidad.
Este tipo de movimiento no solo es técnico. Esto también es político. Wikipedia dice, sutil pero claro No está en contra del uso de sus datos, pero sí quiere respeto y sentido común.. La paradoja del caso es que, si bien todo el contenido en la Enciclopedia se publica bajo una licencia gratuita (CC BY-S), que incluso permite el uso comercial, no significa que la Fundación no tenga la autoridad para establecer reglas con respecto al acceso a sus sistemas. Además, uno de los principales problemas en este momento es si las compañías de tecnología que usan este nuevo conjunto de datos cumplen con la atribución y las condiciones de intercambio de los requisitos de licencia.
En la comunidad editorial de Wikipedia, la iniciativa no ha llamado la atención. Aunque muchas personas saben que se deben acceder a los datos, Creen que los problemas que creen que son problemáticos no carecen de voces críticas, promoviendo públicamente el uso de contenido En muchos casos, las grandes empresas de tecnología no han contribuido con su trabajo o financiado para el proyecto. En este sentido, el acuerdo con Kaggy se considera un intento de establecer ciertas reglas en el juego, y hasta ahora, la falta de control ha sido la norma.
Eso es todo El auge de la IA ha arruinado muchas dinámicas. Crear contenido original, calidad, verificable y neutral, no es barata. Se necesita tiempo, esfuerzo y compromiso, y es la contribución de la comunidad voluntaria de Wikipedia. El modelo de negocio utiliza este trabajo sin rendimientos tangibles, lo que crea desequilibrios cada vez más difíciles y, por lo tanto, se ignora. Las publicaciones del conjunto de datos se pueden ver como una respuesta pragmática: Si no puede bloquearlos para acceder, dales al menos un canal oficial para limitar el daño.
Desde mi punto de vista, el riesgo aquí no es solo la infraestructura de Wikipedia, sino el equilibrio entre el conocimiento gratuito y el desarrollo de la tecnología. Es bueno que la IA pueda nutrir las mejores fuentes, pero no puede venir a expensas de construir estas fuentes. Quizás este movimiento marcó un punto de inflexión, una forma de recordar cada artículo, cada definición y cada párrafo, detrás de las personas. Si las máquinas quieren aprender de ellas, entonces el mínimo es respetar su trabajo. ¿Es este modelo replicable otro código abierto?
Más información
Puedes consultar la fuente de este artículo aquí