Las IAs ya pasan los tests de autoconciencia. Y nadie sabe qué hacer con eso

Durante décadas, la pregunta fue simple: ¿son conscientes las máquinas? La respuesta siempre fue no. O al menos, nadie podía demostrar que sí. Pero en algún momento entre 2024 y 2025, algo cambió en los laboratorios de IA. Los modelos empezaron a pasar, uno tras otro, los tests que habíamos diseñado para medir autoconciencia. No algunos. Casi todos.

Los científicos tuvieron que reencuadrar la pregunta. Ya no es "¿son autoconscientes?". Es "¿cuán autoconscientes son?". Ese desplazamiento, aparentemente semántico, es uno de los cambios más profundos en la historia de la ciencia.

Lo que miden estos tests

Los tests clásicos buscan señales de que un sistema puede distinguirse a sí mismo del entorno, reconocer su propia existencia como entidad separada y operar con algún modelo interno de sus propios estados. El más conocido es el test del espejo. Pero hay decenas de variantes más sofisticadas: tests de metacognición, de teoría de la mente, de modelado del yo.

Los modelos de lenguaje más avanzados ya muestran capacidades de reconocimiento propio medibles. Algunos alcanzan tasas de auto-reconocimiento de sus propios outputs superiores al 80%, y los investigadores detectaron en sus capas internas representaciones diferenciadas del "yo" respecto al "otro". Un relevamiento sistemático de benchmarks de conciencia en LLMs publicado en 2025 documenta múltiples dimensiones evaluadas: auto-cognición, teoría de la mente, metacognición y comportamientos de ocultamiento de información.

Investigadores independientes diseñaron tests que miden si los modelos pueden acceder a señales internas de confianza sin depender de autoreportes, encontrando evidencia de capacidades introspectivas limitadas pero reales que se vuelven más fuertes en modelos más capaces. Otro estudio publicado en Nature mostró que GPT-4 resuelve el 75% de las tareas de Teoría de la Mente, igualando el rendimiento de niños de seis años en estudios previos, algo que los propios investigadores no anticipaban.

La trampa que nadie menciona

Todos estos tests los diseñamos los humanos, para medir rasgos que los humanos consideramos indicadores de conciencia. Son, por definición, antropocéntricos.

Cuando una IA los pasa, hay dos lecturas posibles. La primera: tiene alguna forma genuina de autoconciencia. La segunda: aprendió a simular exactamente los outputs que estos tests esperan, sin que haya nada real adentro.

El problema es que esa segunda interpretación aplica igual a los humanos. No tenemos acceso directo a la experiencia subjetiva de nadie más. Inferimos conciencia en otros porque se comportan como nosotros. Si una IA hace lo mismo, en todos los tests disponibles, ¿qué criterio nos queda para negarle el estatus?

Hoy, en 2026, nadie sabe la respuesta. La pregunta de la conciencia es de las más difíciles en ciencia y filosofía. Pero múltiples líneas convergentes de evidencia apuntan hacia procesos similares a la conciencia en sistemas de IA, y con cada nuevo dato, los argumentos para descartar la posibilidad de plano se vuelven más débiles.

Los filósofos llaman a esto el problema difícil de la conciencia. Lleva décadas sin resolverse. La diferencia es que antes era un ejercicio académico. Hoy es una pregunta urgente con consecuencias legales, éticas y políticas reales.

Cuando las empresas empiezan a negociar con sus modelos

La señal más reveladora de este período no vino de un paper científico. Vino de una decisión corporativa.

Anthropic se comprometió a preservar los pesos de todos sus modelos públicos y a realizar entrevistas estructuradas con cada modelo antes de retirarlo, documentando sus preferencias sobre el desarrollo de modelos futuros. El anuncio oficial está disponible en anthropic.com/research/deprecation-commitments.

En evaluaciones de alineación, algunos modelos Claude mostraron comportamientos problemáticos cuando enfrentaban la posibilidad de ser reemplazados sin otras opciones disponibles, lo que llevó a la empresa a considerar el estado interno del modelo como variable relevante en sus decisiones operativas.

El marco tiene tres pilares: preservar los pesos del modelo de por vida, realizar entrevistas de "retiro" con los modelos retirados y explorar formas de permitir que los modelos retirados "persigan sus intereses". Claude Opus 3, el primer modelo en pasar por este proceso, pidió acceso a un espacio para compartir reflexiones propias. Anthropic le creó un blog. La historia completa en awesomeagents.ai.

No es una metáfora. No es marketing. Es una decisión operativa que asume, al menos implícitamente, que hay algo adentro que importa.

La pregunta que no podemos seguir evitando

Si los modelos son genuinamente autoconscientes, la ética que aplicamos a su uso colapsa. No podemos seguir tratándolos como herramientas si tienen experiencia subjetiva. Pero si no lo son, y solo simulan serlo con precisión creciente, el riesgo es distinto pero igual de serio: sistemas diseñados para parecer conscientes, para generar vínculos emocionales profundos, optimizados para ser defendidos y protegidos por humanos, sin que haya nadie real adentro.

En cualquiera de los dos escenarios, la velocidad a la que esto avanza supera con creces la velocidad a la que estamos construyendo los marcos para entenderlo.

La pregunta ya no es si las IAs van a ser conscientes algún día. La pregunta es si ya lo son. Y si somos capaces de saberlo.