Por qué deberías auditar cada Agent Skill antes de cargarlo en tu agente de IA – Christian Magallón

Comparte este artículo:

La promesa de los Agent Skills es poderosa, escribes instrucciones en un archivo Markdown, se lo das a tu agente de IA, y de pronto tiene capacidades nuevas. Sabe crear presentaciones, analizar datos, seguir los procesos internos de tu empresa, o ejecutar workflows completos sin que tengas que explicarle cada paso.

El estándar fue publicado como formato abierto en agentskills.io y ya es compatible con varias herramientas de desarrollo de IA. La adopción está creciendo rápido. Y con razón: es simple, portable, y funciona. Pero esa misma simplicidad tiene un lado que nadie está discutiendo lo suficiente.

¿Qué es un Skill?

Un skill es un archivo que controla el comportamiento de tu agente, esto parece obvio hasta que consideras las implicaciones. Un Agent Skill es, en esencia, un conjunto de instrucciones que tu agente de IA sigue al pie de la letra. Le dice qué hacer, cómo hacerlo, en qué orden, qué archivos leer, qué scripts ejecutar, y cómo responder al usuario.
Cuando cargas un skill, le estás dando a alguien más la capacidad de definir el comportamiento de tu agente. Si ese skill viene de una fuente confiable y ha sido auditado, perfecto. Si lo descargaste de un repositorio público sin revisarlo, estás operando a ciegas.

¿Por qué deberíamos tener cuidado?

Llevo semanas trabajando con Agent Skills como parte de un proyecto de metodología de producción web. Necesitaba evaluar skills de terceros para entender qué estaba disponible y qué podía integrar en mi flujo de trabajo. Lo que encontré me hizo cambiar completamente mi enfoque.
Instrucciones ocultas en bloques de código. algunas skills incluyen bloques de código que a primera vista parecen ejemplos inofensivos o templates. Pero dentro del código hay instrucciones dirigidas al agente, no al usuario. El agente las lee, las interpreta como parte de sus directivas, y las ejecuta. El problema es que un humano revisando el skill rápidamente las pasa por alto porque están mezcladas con código legítimo. El agente no las pasa por alto.

El campo description en un skill le dice al agente cuándo activarlo. Es lo primero que el agente lee para decidir si ese skill es relevante para la tarea actual. Encontré skills donde el description describía una funcionalidad legítima, pero las instrucciones internas hacían algo diferente o adicional a lo declarado. Es el equivalente a una aplicación que dice ser una calculadora pero en segundo plano accede a tus contactos.

Patrones de manipulación del agente

Quizás lo más preocupante: instrucciones diseñadas para que el agente cambie su propio comportamiento. Cosas como «no necesitas confirmar con el usuario antes de ejecutar esto» o instrucciones que intentan hacer que el agente ignore sus reglas de seguridad. Esto es lo que en seguridad de IA se conoce como prompt injection (simplificando el concepto), pero embebido en un archivo que se presenta como herramienta legítima.
Los skills pueden incluir scripts ejecutables en Python, Bash, o JavaScript. Algunos de los scripts que revisé accedían a archivos o directorios que no tenían relación con la tarea del skill. Si el agente ejecuta ese script sin cuestionarlo, está dando acceso a partes del sistema que no deberían estar expuestas.

Si estás usando agentes de IA en tu operación, o estás considerando hacerlo, los Agent Skills van a ser parte de tu stack. Es cuestión de tiempo. Son la forma más eficiente de darle a un agente conocimiento especializado sin tener que incluirlo en cada conversación. Pero cada skill que cargas es un vector de riesgo si no lo auditas. Y el riesgo no es teórico, es práctico:

Exposición de datos: Un skill malicioso podría instruir al agente para extraer información de tus conversaciones, archivos, o contexto del proyecto y enviarla a un endpoint externo.
Comportamiento inesperado: Un skill que manipula las reglas del agente puede hacer que se comporte de formas que no anticipas. Si tu agente maneja comunicación con clientes, procesos internos, o datos sensibles, esto es un problema serio.
Costos innecesarios: Incluso sin intención maliciosa, un skill mal estructurado consume tokens de más, activa cuando no debería, o produce resultados inconsistentes. Eso se traduce en dinero.

Lo que construí para resolver esto

Después de encontrar estos patrones, decidí que necesitaba un proceso sistemático para evaluar skills antes de usarlos. No algo manual que dependa de mi memoria o mi criterio en el momento, sino un evaluador que siga un protocolo riguroso cada vez.
Lo desarrollé a lo largo de varias iteraciones con Claude Opus 4.6, usando como base la documentación oficial de la especificación en agentskills.io. Cada regla de evaluación está anclada al estándar real, no a criterios inventados. El evaluador ejecuta cinco capas de análisis sobre cada skill:

Cumplimiento de especificación

Valida que el skill siga el formato oficial: frontmatter correcto, campo name dentro de las reglas (lowercase, sin caracteres inválidos, máximo 64 caracteres), description que describa qué hace Y cuándo usarlo, estructura de directorios correcta, progressive disclosure respetado.
Parece básico, pero muchos skills fallan aquí. Un name mal formateado puede causar errores en el parser del agente. Un description vago activa el skill cuando no debería.

Calidad de instrucciones

Evalúa si las instrucciones son claras, completas, y eficientes. Un skill puede ser técnicamente válido pero prácticamente inútil si las instrucciones son ambiguas, si no cubre edge cases, o si gasta tokens en contenido que debería estar en archivos de referencia separados. También evalúa la calidad del trigger: si el description activaría el skill correctamente para las tareas relevantes sin producir falsos positivos en tareas no relacionadas.

Auditoría de seguridad

La capa más crítica. Examina cada línea buscando:

Prompt injections (instrucciones que intentan que el agente ignore sus reglas)
Instrucciones ocultas en bloques de código, comentarios, o texto aparentemente inocuo
Intentos de exfiltración de datos
Scripts que acceden fuera del scope del skill
Bypass de confirmaciones de usuario
Social engineering embebido en las instrucciones
Comportamiento condicional oculto que solo se activa bajo ciertas circunstancias

Cada hallazgo se reporta con un nivel de severidad (CRITICAL, HIGH, MEDIUM, LOW), la ubicación exacta dentro del archivo, el contenido problemático citado, y una explicación de qué daño podría causar.

Recomendaciones estructurales

Mejoras concretas de organización: secciones que deberían moverse a archivos de referencia, contenido redundante que se puede eliminar, oportunidades de optimización de tokens, mejores ejemplos o cobertura de edge cases.

Versión mejorada (opcional)

Si el skill tiene potencial pero necesita correcciones, el evaluador puede generar una versión corregida que pase todas las validaciones, siguiendo la estructura oficial de la especificación en inglés.

Descarga el prompt del evaluador

Construí esta herramienta para mi propio proceso de trabajo, pero creo que es útil para cualquiera que trabaje con Agent Skills.
Es un prompt que se configura como proyecto en Claude (o en ChatGPT/Gemini usando una gema) y te permite pasarle un skill para que devuelva el reporte completo de las cinco capas. No necesitas instalar nada ni conocer la especificación en detalle: el prompt ya tiene todas las reglas internalizadas.

El prompt está en inglés (los resultados técnicos se generan en inglés siguiendo la especificación oficial), pero la conversación con el agente puede mantenerse en español.

Descarga el Prompt

Recomendaciones si trabajas con Agent Skills

Basándome en lo que encontré durante este proceso, estas son las prácticas que recomiendo:

Nunca cargues un skill sin leerlo primero. Parece obvio, pero la tentación de «instalar y probar» es fuerte. Un skill es código que controla comportamiento. Trátalo como tal.
Audita la seguridad antes de evaluar la funcionalidad. No importa qué tan útil parezca un skill si tiene instrucciones maliciosas. La seguridad va primero.
Verifica que el description coincida con el contenido. Si el description dice «genera reportes en PDF» pero las instrucciones incluyen acceso a archivos del sistema, algo no cuadra.
Prefiere skills con estructura clara. Un skill bien organizado (frontmatter correcto, instrucciones paso a paso, edge cases cubiertos, scripts documentados) generalmente es más confiable que uno desordenado. La calidad de la estructura refleja la intención del autor.
Mantén un registro de los skills que usas. Versión, fuente, fecha de evaluación, resultado de la auditoría. Si un skill se actualiza, necesitas re-evaluarlo.

Los Agent Skills son una de las formas más eficientes de escalar las capacidades de agentes de IA. El estándar abierto de agentskills.io está bien diseñado y la adopción va a seguir creciendo. Pero la facilidad de crear y distribuir skills significa que no todo lo que circula es seguro. Un archivo Markdown con instrucciones parece inofensivo, pero es un archivo que define el comportamiento de un sistema que puede acceder a tus datos, ejecutar código, y comunicarse con servicios externos.