Inteligencia Artificial y WCAG: ¿pueden los modelos actuales entender las pautas de accesibilidad?
Yo sigo haciendo mis cosas de doctor y me vienen ideas a la cabeza, si os acordáis del anterior post Cómo usar ChatGPT o GPT-4 para mejorar la accesibilidad de tu sitio web, una de las cosas que podíamos hacer con la Inteligencia Artificial era pedirle que nos explicara alguna de las pautas que no entendamos, pero claro, antes de pedirle a una inteligencia artificial que nos explique algo, deberíamos preguntarnos sin los modelos de Inteligencia Artificial pueden entender realmente las WCAG (Web Content Accessibility Guidelines)
También, puestos a preguntar, si una inteligencia artificial entiende las WCAG, ¿Podríamos dejar que se encargue, (lo que viene a ser automatizar), de algunas tareas de auditoría o corrección sin intervención humana?
Breve repaso: ¿Qué son las WCAG?
(No es el momento de entrar en profundidad ni en wachas ni en principios ni esto, pero si alguien echa en falta alguna explicación, pasad por los comentarios y hablamos)
Venga, pues al lío, lo primero de todo es hablar de lo que Vicent y un servidor llamamos las “Wachas”, o lo que el resto del mundo llama las Web Content Accessibility Guidelines, estas wachas son un conjunto de pautas desarrolladas por el W3C que definen cómo hacer que el contenido web sea más accesible y se estructuran en torno a cuatro principios:
- Perceptible
- Operable
- Comprensible
- Robusto
Cada principio se descompone en criterios de éxito, agrupados en tres niveles de conformidad: A, AA y AAA. (ya dije que era muy muy por encima, lo interesante viene ahora, de verdad)
¿Qué significa “entender” las WCAG desde el punto de vista de un modelo de Inteligencia Artificial?
Desde un punto de vista computacional, “entender” implica poder:
- Leer: Acceder y procesar el contenido textual del estándar.
- Parafrasear: Reformular sus criterios en lenguaje más simple o técnico.
- Mapear: Relacionar un criterio con fragmentos de código o patrones visuales.
- Evaluar: Determinar si un contenido dado cumple o incumple un criterio.
- Corregir: Sugerir o aplicar cambios que alineen el contenido con la norma.
Los modelos de lenguaje como GPT-4 son sorprendentemente competentes en los primeros tres niveles. Sin embargo, los dos últimos (evaluación y corrección) plantean desafíos más complejos, tanto técnicos como éticos.
¿Cómo de bien puede un modelo LLM explicar o mapear las WCAG?
En tareas de explicación, modelos como GPT-4 pueden responder correctamente a preguntas como:
- “¿Qué significa el criterio 1.4.3 de las WCAG?”
- “¿Por qué el contraste de 3:1 no es suficiente para texto normal?”
- “¿Qué diferencia hay entre los niveles A y AA del criterio 2.1.1?”
Esto se debe a que las wachas están públicamente disponibles y bien documentadas, por lo que forman parte del corpus sobre el que se entrenan estos modelos. Además, su estructura semántica es ideal para tareas de NLP: reglas explícitas, numeradas, jerárquicas y ampliamente comentadas por comunidades técnicas.
Pero…
Cuando se trata de mapear criterios a casos reales, aparecen las primeras ambigüedades:
- ¿Cómo interpreta un modelo el «contexto suficiente» para distinguir una imagen decorativa de una funcional?
- ¿Puede detectar correctamente un botón sin nombre accesible si el HTML está ofuscado?
- ¿Distingue un error de contraste de color de una excepción permitida (como texto decorativo irrelevante)?
Este tipo de tareas requiere habilidades de razonamiento contextual, comprensión visual (en muchos casos), y una noción funcional del comportamiento de los elementos, por lo que creo que aún estamos lejos de una comprensión “fuerte” por parte de los modelos.
Casos reales: GPT-4 y auditorías de accesibilidad
Leyendo artículos científicos, (papers para los amigos), he visto que, en la práctica, se han realizado experimentos que muestran cómo GPT-4 y modelos similares pueden participar en auditorías semiautomatizadas. Por ejemplo:
- En el artículo ACCESS: Prompt Engineering for Automated Web Accessibility Violation Corrections (Bigham et al., 2024), se demuestra cómo un modelo puede detectar y proponer correcciones a violaciones de accesibilidad en HTML utilizando solo instrucciones en lenguaje natural.
- Se han desarrollado extensiones para editores de código que integran GPT para sugerencias de buenas prácticas WCAG.
- Proyectos de investigación han probado combinar modelos de lenguaje con visión artificial para detectar problemas en sitios renderizados (como mal contraste, orden visual confuso o uso incorrecto de ARIA).
Sin embargo, estos enfoques funcionan mejor cuando se limitan a subconjuntos claramente definibles del estándar, como:
- Contraste de color (criterios 1.4.x)
- Texto alternativo en imágenes (criterio 1.1.1)
- Navegación por teclado (criterios 2.1.1 y 2.1.2)
Limitaciones críticas
1. Falta de ejecución dinámica
Las wachas incluyen muchos criterios que solo pueden evaluarse mediante interacción:
- ¿Qué pasa cuando un usuario intenta navegar solo con el teclado?
- ¿Se anuncian los cambios dinámicos correctamente mediante ARIA?
- ¿El foco se gestiona apropiadamente en ventanas modales o menús desplegables?
Los LLM no ejecutan código ni interactúan con interfaces en tiempo real, por lo que no pueden verificar estas condiciones de forma autónoma.
2. Ambigüedad interpretativa
Aunque las wachas son normativas, su interpretación no siempre es binaria. Hay muchos grises:
- ¿Cuándo un mensaje de error es suficientemente comprensible?
- ¿Qué nivel de jerarquía visual es necesario para que un encabezado cumpla su rol semántico?
- ¿Qué se considera una “ayuda adecuada” en formularios complejos?
Aquí es donde la experiencia humana, el contexto del usuario final y las pruebas con usuarios reales siguen siendo imprescindibles.
3. Evaluación sin contexto de usuario
La accesibilidad no es solo técnica; también es contextual. Por ejemplo:
- Un contenido puede cumplir WCAG, pero seguir siendo inaccesible para una persona con discapacidad cognitiva si usa lenguaje excesivamente complejo.
- Un sitio puede cumplir todos los roles ARIA correctamente, pero tener una experiencia de navegación muy pobre para lectores de pantalla.
Los modelos actuales no tienen modelos mentales de usuario ni capacidad empática, por lo que su evaluación será necesariamente limitada a lo estructural o sintáctico.
¿Qué se puede automatizar con IA hoy?
Sí es viable automatizar (sin entrar en el debate de que viable signifique recomendable):
- Análisis de contraste de color.
- Verificación de etiquetas alt en imágenes.
- Validación de etiquetas ARIA básicas.
- Comprobación de encabezados y jerarquías.
- Generación de informes preliminares de accesibilidad.
Cosas que requieren revisión manual:
- Validación semántica de roles.
- Revisión de formularios con lógica condicional.
- Evaluación de mensajes de error y ayudas contextuales.
- Análisis de experiencias con lector de pantalla.
No es viable automatizar (por ahora):
- Pruebas con usuarios reales.
- Evaluación de carga cognitiva.
- Verificación de navegación por teclado completa en SPA. (Single Page Application)
- Interacciones personalizadas de JavaScript.
De cara al futuro: ¿Qué haría falta para que un modelo «entienda» de verdad las WCAG?
Para avanzar hacia una comprensión más completa y útil de las wachas por parte de sistemas basados en Inteligencia Artificial, se necesitaría:
- Modelos multimodales que combinen texto, código y visualización (como GPT-4o o Gemini).
- Agentes autónomos capaces de interactuar con sitios web, ejecutar eventos y simular flujos de usuario.
- Integración con tecnologías de asistencia reales para probar el comportamiento con lectores de pantalla, navegación por voz, etc.
- Bases de conocimiento estructuradas que incluyan ejemplos positivos y negativos para cada criterio.
- Aprendizaje continuo supervisado por expertos en accesibilidad, que refuercen patrones correctos y eviten generalizaciones erróneas.
Conclusión
La Inteligencia Artificial, y especialmente los modelos de lenguaje como GPT-4, han demostrado un potencial significativo para apoyar el cumplimiento de las wachas. pero, entender las pautas no es solo cuestión de interpretar texto, sino de traducirlo a comportamientos funcionales en entornos interactivos.
Actualmente, la Inteligencia Artificial puede ser un copiloto valioso, nos puede ayudar a acelerar tareas repetitivas, mejorar la documentación y hacer auditorías superficiales. Pero no reemplaza la evaluación humana, la empatía ni el conocimiento contextual. La accesibilidad sigue siendo, ante todo, un compromiso humano, no debemos dejar en manos de las maquinas algo que nos afecta tan de lleno.
Bonus track
Y para cerrar, un offtopic con el tono de humor necesario para que no me explote la cabeza, aunque haya gente que lo piense, no soy nuevo escribiendo sobre Inteligencia Artificial, (y no, no voy a hacer como la gente que en una charla dice que en los 90 ya era un usuario avanzado de Internet…), hace unos ocho años escribía estas líneas en las que intentaba advertir sobre los verdaderos peligros de la Inteligencia Artificial y ocho años después aquí estamos pidiéndoles memes sin pensar en lo que pueda pasar mañana…

Sé el primero en comentar