Meta y Llama: el lado oscuro del Open Source en IA.

En el mundo de la inteligencia artificial, pocas empresas han promovido tanto la idea de «código abierto» como Meta, de la mano de Mark Zuckerberg. Su modelo Llama ha sido presentado como un ejemplo de transparencia y democratización tecnológica, una herramienta accesible para desarrolladores y empresas que buscan innovar sin depender de los gigantes de la industria. Sin embargo, documentos judiciales recientes revelaron una realidad incómoda: detrás de la fachada de apertura y colaboración, Meta habría utilizado millones de libros pirateados para entrenar a Llama, violando derechos de autor y evadiendo protocolos éticos. Este escándalo no solo cuestiona la narrativa de transparencia de la compañía, sino que también expone una práctica sistemática de saqueo de datos que podría tener consecuencias legales y sociales de gran alcance.

El caso Kadrey vs. Meta, que incluye a autores de renombre como Sarah Silverman y Ta-Nehisi Coates, ha sacado a la luz detalles inquietantes sobre cómo Meta entrenó sus modelos de IA. Según los documentos desclasificados, la compañía accedió a Library Genesis (LibGen), una plataforma conocida por distribuir libros y artículos científicos de manera ilegal. LibGen, que se autodenomina un «agregador de enlaces», ha sido demandada en múltiples ocasiones por editoriales como McGraw Hill y Pearson Education, y en septiembre de 2024 fue multada con 30 millones de dólares por violación de derechos de autor. A pesar de su ilegalidad, Meta descargó al menos 81.7 terabytes de datos de esta plataforma, incluyendo obras protegidas por copyright, para alimentar el entrenamiento de Llama.

Lo más preocupante es que esta decisión no fue tomada a la ligera. Documentos internos muestran que Mark Zuckerberg, CEO de Meta, aprobó personalmente el uso de LibGen, a pesar de las advertencias de su equipo sobre los riesgos legales y reputacionales. En un correo electrónico de 2023, citado en la demanda, un empleado de Meta señaló que usar LibGen «podría minar nuestra posición negociadora con los reguladores«. Sin embargo, Zuckerberg dio luz verde a la operación, priorizando la velocidad y el volumen de datos sobre la legalidad y la ética.

Pero el uso de LibGen no fue el único problema. Meta también implementó tácticas para ocultar el origen ilegal de los datos. Nikolay Bashlykov, un ingeniero de la compañía, desarrolló un programa para eliminar metadatos relacionados con los derechos de autor de los libros descargados. Esto incluía menciones a «©», «acknowledgments» y otras marcas que podrían delatar el origen pirata de los textos. La eliminación de estos datos no solo facilitó el entrenamiento de Llama, sino que buscó evitar que el modelo generara textos con referencias explícitas a obras protegidas, lo que podría haber alertado a los titulares de los derechos.

Además, Meta no se limitó a usar LibGen como fuente de datos. Al descargar los archivos mediante torrents, la compañía se convirtió en un nodo de distribución de contenido pirata, compartiendo los archivos con otros usuarios de la red. Esto amplió la infracción: no solo utilizaron obras protegidas sin autorización, sino que también contribuyeron a su difusión masiva. Para evitar ser rastreados, los empleados de Meta modificaron configuraciones de torrents y evitaron usar servidores corporativos, lo que sugiere un intento deliberado de ocultar sus actividades.

Frente a estas acusaciones, Meta ha argumentado que su uso de libros pirata cae bajo la doctrina del «fair use» (uso justo), una figura legal estadounidense que permite el uso de material protegido si se transforma significativamente. Sin embargo, los demandantes sostienen que esta defensa no es válida. En primer lugar, la eliminación sistemática de metadatos demuestra una intención de ocultamiento, incompatible con la buena fe que requiere el «fair use». En segundo lugar, el volumen de datos descargados (81.7 terabytes) excede cualquier aplicación «justa» de la doctrina. Y en tercer lugar, mientras Meta optó por el atajo ilegal, otras empresas como OpenAI y Google han negociado licencias con editoriales para usar sus contenidos de manera legítima.

El caso no solo tiene implicaciones para Meta, sino que también sienta un precedente peligroso para la industria de la IA. Si los tribunales aceptan el argumento del «fair use», se normalizaría el saqueo de contenidos protegidos para entrenar modelos de inteligencia artificial. Esto ya está ocurriendo en otros frentes: OpenAI enfrenta una demanda de The New York Times por usar artículos periodísticos sin autorización, y Google ha sido acusado de utilizar datos de YouTube para entrenar sus modelos. Incluso Perplexity, una startup emergente, ha sido señalada por «saquear» la red en busca de información para alimentar sus sistemas.

El impacto de estas prácticas va más allá de lo legal. Autores como Richard Kadrey, cuyas obras fueron usadas sin su consentimiento, ven su trabajo convertido en combustible para IA sin recibir compensación alguna. De hecho, la Asociación de Editores Americanos ha alertado que esto podría desincentivar la creación literaria, ya que los autores y editoriales perderían control sobre sus obras. Además, la hipocresía de Meta al promover Llama como un modelo «abierto» mientras oculta el origen de sus datos erosiona la confianza en la transparencia tecnológica.

Este escándalo no solo define el futuro de Llama, sino de toda la industria de la inteligencia artificial. La voracidad de datos de estas tecnologías choca con los derechos de autor y plantea preguntas incómodas sobre cómo se construyen los modelos que están transformando el mundo. Mientras empresas como OpenAI y Google buscan acuerdos con titulares de derechos, Meta optó por el camino oscuro de LibGen, con el aval de su CEO.

Las implicaciones son claras: se necesitan leyes específicas que regulen el uso de datos protegidos en el entrenamiento de IA. Las multas millonarias, como los 30 millones de dólares impuestos a LibGen, son insuficientes si no hay responsabilidad penal para los ejecutivos que autorizan estas prácticas. Además, el concepto de «open source» debe evolucionar para incluir transparencia en los datos de entrenamiento, no solo en el código.

En última instancia, este caso nos obliga a reflexionar sobre el equilibrio entre innovación y ética en la era digital. ¿Será la inteligencia artificial una herramienta de progreso, o un mecanismo de saqueo legalizado? La respuesta dependerá de cómo la industria, los reguladores y la sociedad aborden estos desafíos. Por ahora, el caso de Meta y Llama sirve como una advertencia: la tecnología no puede avanzar a costa de los derechos de quienes la hacen posible.

Meta y Llama: el lado oscuro del Open Source en IA.

Instituto de Innovación Digital CiudadanIA.