Threads quiere tus datos para entrenar a la IA

La decisión de Mark Zuckerberg de lanzar la app Threads de Meta contrasta con las recientes medidas de Elon Musk de cobrar por los datos de X.
Collage de letras aleatorias gente corriendo en una pista y cintas de colores
Los datos de los usuarios en redes sociales son ahora más valiosos para alimentar los futuros modelos de IA de las grandes tecnológicas.WIRED Staff/Getty Images

Cuando Meta estrenó su nueva aplicación Threads a principios de mes, fue apodada rápidamente “la asesina de Twitter”. Elon Musk, propietario de X (antes Twitter), amenazó incluso con demandar a Meta por lo que llamó un producto “imitador”.

Lanzado a partir de Instagram, también propiedad de Meta, Threads tiene un aspecto muy similar a X. Permite desplazarse por el feed, funciona con texto y tiene un número limitado de caracteres. Pero, ¿por qué cuando X ha resultado tan poco rentable, Meta, que nos trajo el infame “pivote hacia el video” y ha tenido la vista puesta en competir con TikTok, querría enfrentarse a la plataforma? La respuesta quizá tenga que ver con la inteligencia artificial (IA).

La batalla por recopilar datos de usuarios para entrenar a sistemas de IA

En los últimos meses hemos presenciado una auténtica carrera armamentista de la IA, con herramientas como ChatGPT, Midjourney, Stable Diffusion, Copilot, Dall-E y Bard de Google compitiendo por los usuarios. Conforme más empresas invierten en IA generativa, más datos necesitan para entrenar sus modelos. Y estos deben ser proporcionados por personas reales para que la IA generativa parezca humana. Plataformas como Reddit y X son minas de oro porque albergan millones de ejemplos de contenidos generados por los usuarios. Históricamente, ambas compañías también pusieron su información a disposición de los desarrolladores y de los investigadores externos. Tan solo en 2020, los datos de X contribuyeron a más de 17,000 artículos de investigación. Modelos como ChatGPT y Bard también se entrenaron con información de estas plataformas. Pero esto ha suscitado preguntas más importantes sobre cuánto valen los datos creados por los usuarios y cuánto debería costar acceder a ellos. Ahora, es posible que no estén disponibles durante mucho tiempo, justo cuando todas las compañías, incluida Meta, se apresuran a desarrollar sus propios modelos.

A principios de este año, Musk anunció que X empezaría a cobrar 42,000 dólares al mes por su interfaz de programación de aplicaciones (API, por sus siglas en inglés), lo que dejaba fuera de juego a casi todos los que la usaban, en particular académicos e investigadores, para quienes los datos de la red social eran cruciales para investigar temas como la desinformación. Más tarde, la compañía comunicó que ofrecería niveles de acceso a precios de 125,000 y 210,000 dólares al mes. Poco después, Reddit anunció que también empezaría a cobrar por su API. En una entrevista con The New York Times, Reed Huffmanel, su CEO, reconoció que “el conjunto de datos de Reddit es realmente valioso” para entrenar modelos de IA, pero que la empresa no sentía la “necesidad de dar todo ese valor a algunas de las mayores empresas del mundo de forma gratuita”.

En los últimos meses, Musk ha seguido tomando medidas enérgicas contra el acceso a los datos de X. En abril, tuiteó que Microsoft los había utilizado “ilegalmente” para entrenar sus modelos de IA; Microsoft es socio de Meta y de OpenAI, que creó ChatGPT. Una carta del abogado de X alegaba que la compañía se había excedido en el uso permitido de la información que extraía de la plataforma. Después, el mes pasado, Twitter anunció que restringiría la posibilidad de ver el contenido del sitio sin iniciar sesión previamente y que para leer más de 600 tuits al día, los usuarios tendrían que pagar por Twitter Blue. Musk lo calificó de “medida de emergencia temporal” para evitar lo que llamó “saqueo de datos”. XCorp, propietaria de X, presentó poco después una demanda contra cuatro acusados anónimos, solicitando una indemnización de un millón de dólares por el raspado de datos. Como Musk tiene acceso limitado a la plataforma, también lanzó su nueva startup xAI, que se entrenará con la información de X.

¿Qué tiene que ver todo esto con Threads? Meta, que apostó su futuro, y también su nombre, al metaverso, se ha quedado atrás en su inversión en inteligencia artificial. Pero la semana pasada, la empresa anunció que haría de código abierto su gran modelo de lenguaje, Llama 2; gratuito para investigadores y empresas por igual. Eso también significa, sin embargo, que no tendrá algunas de las medidas de seguridad de ChatGPT, en concreto la capacidad de revocar el acceso a los usuarios que violen los términos de uso para generar, por ejemplo, desinformación. Threads retomaría sus esfuerzos por volver a entrar en el juego de la IA, justo cuando X ya no es una opción para las empresas que buscan recopilar información.

Aunque la compañía tiene montones de datos de Facebook e Instagram, la cantidad de información necesaria para entrenar grandes modelos de lenguaje es enorme y necesita actualizarse constantemente para mantenerse al día con la forma en que cambia el lenguaje. Dado que X ya no proporciona fácilmente sus datos, ¿qué mejor manera de obtener aquellos equivalentes generados por los usuarios que lanzando un clon de X, sobre todo teniendo en cuenta que los cambios realizados en la plataforma bajo el mandato de Musk la han llevado a perder miembros, y que competidores como BlueSky y Mastodon no han conseguido llenar el vacío?

La apuesta por Threads quizá sea un movimiento oportunista para debilitar a un competidor más pequeño, o una inversión para crear un tesoro de datos similares a los de X que Meta aprovecharía en el desarrollo de sus propios productos de IA generativa. Pero nada de eso importa si el servicio no puede retener a sus suscriptores. Tras su lanzamiento, el número de usuarios de la nueva app se desplomó de 44 millones a 13 millones, reportó Forbes, y las marcas en Threads parecen ser las entidades más activas. Pero tras el anuncio de Musk sobre la nueva identidad X, tal vez quienes queden en la plataforma busquen un nuevo lugar donde pasar el rato y desprenderse de su información. Y Threads estará allí esperando.

Artículo originalmente publicado en WIRED. Adaptado por Andrei Osornio.