entaina
Posts
La paradoja del +127%: cuando mejorar con IA no equivale a aprender

La paradoja del +127%: cuando mejorar con IA no equivale a aprender

Agus
2 de junio de 2026

Un ensayo controlado aleatorizado dio a estudiantes universitarios acceso a GPT-4 para resolver ejercicios. Los que usaron IA mejoraron entre un 48% y un 127% en las tareas asignadas.

Pero cuando hicieron el examen final sin acceso a IA, los que habían usado GPT base rindieron un 17% peor que los que estudiaron solos. Habían completado más tareas, más rápido y con mejores resultados.

Pero no habían aprendido.

O, mejor dicho: habían aprendido algo distinto de lo que el examen medía.

El contraargumento honesto

Antes de seguir, conviene reconocer la objeción más fuerte. Nadie hoy critica que un niño no sepa hacer raíces cuadradas a mano. La escritura externalizó la memoria, la imprenta la copia, Google el recall — y cada vez sobrevivimos. Si la IA va a estar siempre disponible, ¿por qué medir competencia en su ausencia?

La objeción tiene mérito. Buena parte de lo que llamamos "dominio falso" es, simplemente, cognitive offloading legítimo: trabajo cognitivo externalizado a una herramienta permanente. Y el examen sin IA es, en ese marco, el equivalente a evaluar a un programador prohibiéndole compilador.

Pero el argumento tiene un límite. La calculadora no falla. Google no inventa hechos. La IA generativa sí. Y donde la IA puede fallar y necesitas competencia de respaldo —diagnóstico médico, due diligence legal, decisiones de seguridad, ingeniería crítica, evaluación de output IA por otra IA— el espejismo del dominio falso deja de ser una preocupación filosófica y se convierte en riesgo operacional concreto. Este post va de esos contextos, no de todos.

La pereza metacognitiva

El fenómeno tiene nombre. Cuando los usuarios dependen de IA, reducen auto-monitoreo, reflexión y evaluación crítica.

Un estudio neurocientífico lo cuantificó: las personas que escribieron textos con ChatGPT solo podían citar de memoria el 12% de su propio texto. Las que escribieron sin IA recordaban el 89%.

No es que la IA haga perezosos a los usuarios. Es que el diseño por defecto de las herramientas optimiza para output, no para comprensión. El usuario obtiene una respuesta, la valida superficialmente y avanza. El proceso cognitivo de luchar con el problema — donde ocurre el aprendizaje — queda eliminado.

Peor que el mejor solo

Un meta-análisis de 106 estudios encontró que las combinaciones humano-IA rinden peor que el mejor actuando solo en el 58% de los casos.

La implicación para empresas es directa. Si estáis midiendo el rendimiento de equipos que usan IA y veis mejoras, la pregunta es: ¿estáis comparando contra lo que el mejor miembro del equipo habría hecho solo?

En más de la mitad de los casos, la IA no está sumando. Está creando una ilusión de mejora colectiva mientras potencialmente degrada la contribución de los mejores.

Tres niveles de uso

No todo uso de IA es igual. La distinción clave está en tres niveles:

Reemplazo: la IA hace la tarea en lugar del humano. Ahorra tiempo pero atrofia competencias. La IA genera el informe completo, el empleado lo revisa por encima.

Complementariedad: humano e IA trabajan en paralelo, cada uno en lo que hace mejor. La IA extrae datos y tendencias, el analista interpreta implicaciones.

Aumento: la combinación produce algo que ninguno habría logrado solo. El empleado usa IA para explorar escenarios que nunca habría considerado, pero evalúa críticamente cada uno con su conocimiento de dominio.

La mayoría de empresas están en reemplazo creyendo estar en aumento. La diferencia no es la herramienta. Es cómo se diseña el flujo de trabajo.

Qué implica para formación

Si un programa de formación en IA mide cuántas tareas completan los empleados con herramientas de IA, está midiendo output. No competencia.

La IA tiene más impacto en perfiles junior y menos experimentados — mejoras del 9% para tutores de menor experiencia frente a un 4% de media. Esto es oportunidad si se diseña bien: la IA puede acelerar la curva de aprendizaje. Pero es riesgo si no se diseña: los juniors son quienes más dependerán de la IA y quienes más necesitan desarrollar competencia propia.

La dependencia se genera rápido. Un empleado que lleva 6 meses usando IA para redactar todos sus informes puede producir mejor output que nunca. Pero si le quitas la herramienta, ¿puede seguir funcionando? Si la respuesta es no, no ha sido formado. Ha sido asistido.

Y hay un riesgo invisible: cuando un manager ve que un empleado produce informes de mayor calidad con IA, la evaluación de desempeño mejora. Parece un éxito. Pero lo que se ha medido es el rendimiento del sistema humano+IA, no la competencia del humano.

Formación que enseña

La solución no es prohibir IA en formación. Los datos muestran que GPT-4 con diseño pedagógico específico sí mejora aprendizaje. El problema es el acceso sin diseño.

Las organizaciones que forman (en vez de solo asistir) comparten cuatro prácticas:

Diseñan herramientas con propósito: chatbots genéricos pueden degradar aprendizaje. Agentes configurados para guiar al empleado a resolver el problema paso a paso, haciendo preguntas en vez de dar respuestas, sí lo mejoran
Alternan fases con y sin IA: usar IA para explorar, trabajar sin IA para consolidar. La alternancia deliberada mantiene ambas capacidades
Miden competencia real: evaluaciones periódicas donde el empleado demuestra que puede ejecutar sin herramientas de IA. No como castigo, sino como diagnóstico
Fomentan metacognición: pedir que expliquen por qué la respuesta de la IA es correcta o incorrecta antes de aceptarla. Crear el hábito de cuestionar antes de aceptar

Dónde sí importa la competencia de respaldo

No en todos los roles. Si tu trabajo es generar borradores de copy, orquestar bien la IA puede ser la competencia entera — y exigir "saber hacerlo sin IA" sería como exigirle al diseñador gráfico saber dibujar sin software. La línea está en otra parte.

La competencia de respaldo importa donde el coste del error sin red de seguridad es alto:

Dominios donde la IA puede equivocarse con confianza y necesitas detectarlo: medicina, derecho, ingeniería, finanzas
Tareas de evaluación de output de IA (revisar código generado, validar análisis): no puedes auditar lo que no entiendes
Roles formativos: si automatizas todo el trabajo junior, no formas seniors que sepan supervisar
Continuidad operativa: cuando la herramienta falle, alguien tiene que poder seguir

Si una organización está considerando vincular uso de IA a evaluaciones de desempeño, en estos dominios los datos sugieren añadir una capa de competencia real. En el resto, medir solo output puede ser perfectamente razonable.

La pregunta no es "¿tu gente sabe operar sin IA?" para todo. Es: "¿en qué partes del trabajo el coste de no poder operar sin IA es inasumible, y qué hacemos ahí?"

Referencias:

OECD Digital Education Outlook 2026 - RCT Turquía, pereza metacognitiva, human-AI en 58%, framework reemplazo/complementariedad/augmentación, impacto mayor en juniors
UNESCO Guidance on GenAI in Education and Research