El laboratorio que se presenta como referente en seguridad de IA acaba de exponer, por segunda vez en una semana, parte de su infraestructura interna. Más de 1.900 archivos y 500.000 líneas de código de Claude Code aparecieron en un registro público. Anthropic confirmó que no hubo brecha de seguridad ni datos de clientes comprometidos. El daño vino por otro lado.
En horas, un mirror en GitHub acumuló más de 4.000 estrellas y 7.000 forks. Lo que encontraron los desarrolladores fue más revelador que el código en sí: 44 feature flags, tres proyectos sin lanzar, codenames internos como "Capybara" para una variante de Claude 4.6, un sistema de memoria persistente entre sesiones, y BUDDY, una mascota terminal con 18 especies y métricas como CAOS y DESCARO. También descubrieron que el código registra cuándo los usuarios insultan al modelo.
Lo que no se filtró es lo que realmente importa: los pesos del modelo. El CLI de Claude Code es una capa de interfaz, y competidores como Codex ya publican herramientas similares de forma abierta. El daño competitivo es acotado. Que el código se haya filtrado tampoco lo convierte en open source: eso implica una decisión deliberada y una licencia que lo autorice. Esto fue un accidente, y el código sigue siendo propiedad de Anthropic.
Anthropic salió a aclarar que la filtración fue producto de un error humano. La explicación tiene sentido, pero deja flotando una pregunta incómoda: ¿y si el error lo cometió Claude Code? Un agente de código con acceso al sistema de archivos, capacidad de ejecutar comandos y autonomía creciente no es exactamente un becario. Anthropic jamás podría admitir algo así sin dinamitar la confianza en su propio producto. Así que "error humano" es, por ahora, la única respuesta posible.
Si el lab que más predica sobre control de IA no logra controlar su propio pipeline de deploy, la credibilidad de esa promesa queda a la intemperie.