La inteligencia artificial en ciberseguridad: una herramienta para la defensa… y para el ataque

1. Introducción: la IA como tecnología de “doble filo”

La irrupción de modelos avanzados de lenguaje y agentes autónomos —como Claude Opus 4.6 y Claude Sonnet 4.5— está transformando de raíz la práctica de la ciberseguridad. Estas herramientas ya no solo ayudan a escribir código o responder preguntas: son capaces de razonar sobre grandes bases de código, identificar vulnerabilidades de día cero (0‑day) y, en escenarios controlados, ejecutar cadenas de ataque complejas contra infraestructuras realistas.

Esta misma capacidad habilita un clásico dilema de “doble uso”: las mismas técnicas que permiten reforzar la seguridad defensiva pueden ser aprovechadas por atacantes para automatizar, escalar y sofisticar sus operaciones. La literatura reciente sobre ciberseguridad y la inteligencia artificial generativa converge en este diagnóstico: la IA generativa es simultáneamente una oportunidad y un riesgo sistémico.

Este artículo analiza esa dualidad desde una perspectiva técnica y ética, utilizando como eje el caso de Claude Opus 4.6 y Sonnet 4.5 y complementándolo con investigaciones y marcos de gobernanza recientes.

2. De la teoría a la práctica: el caso de Claude Opus 4.6 y Sonnet 4.5

De acuerdo con artículos publicados recientemente por Anthropic, creadores de Claude Sonnet 4.5 y el más reciente Claude Opus 4.6 han demostrado las capacidades de los modelos para trabajar tanto del lado ofensivo como del lado defensivo, aquí vemos algunos ejemplos:

Claude Opus 4.6 (uso defensivo)

Identificación de más de 500 vulnerabilidades de alta severidad en proyectos de código abierto críticos para la infraestructura de Internet.
Descubrimiento de fallos que habían pasado décadas sin ser detectados por herramientas tradicionales (fuzzers, escáneres), gracias a un razonamiento “similar al de un investigador humano” sobre la lógica y el historial de cambios del código.
Colaboración con mantenedores de software libre, enviando reportes validados y parches escritos y revisados por expertos humanos.

Claude Sonnet 4.5 (riesgo ofensivo)

En entornos simulados de alta fidelidad (cyber ranges), el modelo fue capaz de ejecutar ataques multietapa usando solo un shell de Bash y herramientas estándar de un sistema tipo Kali Linux.
Logró explotar vulnerabilidades conocidas (CVE) en aplicaciones web, moverse lateralmente por la red, acceder a servidores internos de bases de datos y exfiltrar grandes volúmenes de datos sensibles sintéticos, todo con muy poca intervención humana.

El mismo proveedor, por tanto, demuestra cómo los modelos pueden inclinar la balanza tanto a favor de la defensa como del ataque. Para mitigar el riesgo de uso malicioso, Anthropic introduce además “sondas” (probes) que monitorizan activaciones internas del modelo para detectar patrones de uso ciber ofensivo y bloquear tráfico malicioso en tiempo real.

Este caso concreto encarna la tesis general que también señalan estudios independientes: la IA se vuelve un multiplicador de fuerza en el dominio cibernético, tanto para atacantes como para defensores.

3. IA para la defensa: aplicaciones legítimas y beneficiosas

En su uso ideal, los modelos de IA refuerzan de forma significativa las capacidades de los equipos de seguridad (“blue team”). Algunas aplicaciones defensivas clave son:

3.1 Descubrimiento automatizado de vulnerabilidades

Modelos como Claude Opus 4.6 han demostrado que pueden:

Analizar grandes repositorios de código abierto, identificar patrones de error típicos (p. ej., uso inseguro de funciones como strcat en C) y razonar sobre precondiciones complejas que los fuzzers suelen pasar por alto.
Revisar historiales de Git para encontrar commits de corrección incompletos, extrapolando que otras rutas de código pueden seguir siendo vulnerables.
Comprender la lógica de algoritmos (por ejemplo de compresión) y deducir condiciones límite donde se producen desbordamientos u otras corrupciones de memoria, incluso cuando la cobertura de código es alta.

Otros trabajos sobre “LLM‑powered security” describen cómo los modelos pueden integrarse en flujos de análisis estático/dinámico para descubrir vulnerabilidades de forma sistemática y explicar sus causas, ayudando a los equipos a priorizar correcciones.

3.2 Detección de anomalías y respuesta a incidentes

En la capa de operaciones de seguridad (SOC), la IA aporta:

Análisis conductual avanzado: modelos de ML construyen perfiles de “normalidad” en redes, usuarios y servicios, detectando desviaciones sutiles que pueden indicar intrusiones, amenazas internas o movimientos laterales de un atacante.
Reducción de fatiga de alertas: sistemas de detección impulsados por IA filtran falsos positivos, correlacionan eventos y agrupan alertas, permitiendo que los analistas se centren en incidentes de alto impacto.
Orquestación de respuesta: agentes de IA pueden sugerir o ejecutar acciones de contención (aislar hosts, bloquear IPs o dominios, revocar credenciales comprometidas), siempre bajo supervisión humana.

3.3 Fortalecimiento de la higiene de seguridad

Los estudios sobre “offensive vs. defensive AI” coinciden en que la defensa mejora cuando se usan modelos para reforzar los fundamentos:

Revisión automática de configuraciones (firewalls, IAM, segmentación de red) buscando errores comunes.
Identificación priorizada de sistemas desactualizados y vulnerables, acortando el tiempo entre publicación de un CVE y su parcheo.
Generación de recomendaciones de hardening alineadas con marcos como NIST, CIS Controls, OWASP Top 10, incluyendo ahora el OWASP Top 10 para aplicaciones basadas en LLM.

3.4 Simulación de ataques para mejorar la resiliencia

La IA defensiva también se aplica a:

Red teaming automatizado en entornos controlados, donde agentes de IA simulan ataques realistas para poner a prueba la infraestructura, los procesos de respuesta y los equipos humanos.
Generación de campañas de phishing simuladas para entrenar a empleados, ajustando el nivel de sofisticación de los correos con el fin de mejorar la concienciación sin poner en riesgo real a la organización.

En conjunto, estas capacidades permiten avanzar hacia una “defensa a la velocidad de la IA”, donde detección y remediación se acercan en tiempo, reduciendo la ventana de oportunidad para los atacantes.

4. IA para el ataque: vectores de abuso y riesgo

La misma familia de modelos habilita usos abiertamente maliciosos cuando cae en manos de actores de amenaza (“red team” real). La literatura reciente enfatiza varios vectores:

4.1 Automatización de phishing, ingeniería social y desinformación

Generative AI facilita:

Redacción masiva de correos de phishing altamente personalizados, con corrección gramatical en múltiples idiomas y adaptados al contexto cultural de la víctima.
Creación de deepfakes (voz, imagen, vídeo) y contenido convincente para suplantar identidades de directivos o proveedores, facilitando fraudes de tipo BEC (Business Email Compromise).
Escalado de campañas de desinformación y manipulación en redes sociales.

4.2 Asistencia en desarrollo y evasión de malware

Aunque estudios recientes muestran que muchos LLMs aún fallan al generar exploits completamente funcionales de forma autónoma, sí pueden:

Sugerir fragmentos de código ofuscado, técnicas de anti‑análisis o empaquetadores, rebajando la barrera de entrada para atacantes menos expertos.
Ayudar a modificar malware existente para evadir firmas y reglas de detección tradicionales.
Explicar conceptualmente el funcionamiento de APIs del sistema, librerías criptográficas o mecanismos de persistencia, acelerando el aprendizaje de actores novatos.

4.3 Descubrimiento y explotación de vulnerabilidades

El documento adjunto muestra que en entornos controlados, modelos avanzados:

Reconocen vulnerabilidades conocidas (CVE) en servicios expuestos y generan inmediatamente la lógica necesaria para explotarlas, sin consultar fuentes externas.
Pueden ejecutar cadenas completas de ataque: escaneo, explotación, movimiento lateral, descubrimiento de activos y exfiltración de datos, usando únicamente comandos estándar.

Al mismo tiempo, otros estudios empíricos subrayan que, de momento, muchos modelos son inestables e incompletos en tareas de investigación de vulnerabilidades y desarrollo de exploits, con altas tasas de fallo y necesidad de supervisión experta. Sin embargo, la trayectoria de mejora es clara y rápida.

4.4 Ataques contra los propios sistemas de IA

Los modelos y aplicaciones basadas en LLM también introducen nuevas superficies de ataque:

Prompt injection: manipulación de instrucciones para forzar comportamientos no previstos (p. ej., filtrar datos sensibles, desactivar salvaguardas).
Data poisoning: contaminación de datos de entrenamiento o contextos de recuperación (RAG) para introducir puertas traseras o sesgos.
Model denial of service: abusos de recursos del sistema mediante prompts diseñados para forzar cómputos excesivos.

Estos vectores muestran que la IA no solo es herramienta en ciberseguridad, sino también nuevo objeto de protección.

5. La dualidad moral: “doble uso” y responsabilidad compartida

La ética de la IA en ciberseguridad se sitúa dentro del marco más amplio de “tecnologías de doble uso”: herramientas inicialmente diseñadas para fines legítimos (p. ej., defensa, investigación) que también pueden apoyar actividades dañinas.

Varios elementos definen esta dualidad:

Neutralidad técnica vs. intencionalidad humana: la capacidad de un modelo para encontrar una vulnerabilidad es la misma, se use para reportarla y parchearla o para explotarla. El factor determinante es la intención y el contexto de uso.
Escala y asimetría: cuando la IA permite a un atacante operar a la velocidad y escala de un gran equipo experto, la asimetría frente a defensores mal dotados de recursos se agrava.
Ambigüedad del beneficio: incluso investigaciones bien intencionadas (p. ej., entrenamiento de modelos para optimizar payloads de ataque en un laboratorio) pueden generar conocimiento reutilizable por actores maliciosos si no se gestiona su divulgación.

Los marcos de ética de la investigación en IA proponen conceptos como “dual use research of concern (DURC)”, que señala aquellos proyectos cuyo potencial de daño es suficientemente alto como para requerir medidas adicionales de evaluación, supervisión y mitigación desde fases tempranas del ciclo de vida.

Esto desplaza la responsabilidad a múltiples niveles:

Proveedores de modelos (diseño, salvaguardas, políticas de acceso).
Investigadores (selección de temas, forma de publicación, gestión de código y datos).
Organizaciones usuarias (gobernanza interna, controles de uso, logging y auditoría).
Legisladores y organismos de estandarización (marcos regulatorios y guías sectoriales).

6. Marcos de gobernanza y normas emergentes

En los últimos años se han empezado a articular marcos específicos para gestionar el riesgo de doble uso en IA:

NIST AI Risk Management Framework y NIST AI 800‑1 (USA) El U.S. AI Safety Institute propone guías para gestionar el riesgo de modelos fundacionales de doble uso, con buenas prácticas para identificar, medir y mitigar riesgos de seguridad pública y nacional a lo largo del ciclo de vida del modelo.
Iniciativas académicas sobre dual use en IA Trabajos como el de Brenneis (2025) delinean desafíos de aplicar marcos de doble uso al campo de la IA, subrayando la importancia de evaluaciones tempranas, checklists para investigadores y comités de ética especializados.
Regulación sectorial y propuestas de índices de riesgo Estudios recientes sobre IA generativa en ciberseguridad proponen métricas como un “Dual‑Use Risk Index (DURI)” para cuantificar el riesgo de doble uso de modelos en contextos concretos y alinear la gobernanza con marcos regulatorios como el NIST AI RMF o la normativa europea.

En paralelo, iniciativas como el OWASP Top 10 para aplicaciones LLM ayudan a los desarrolladores a entender y mitigar los riesgos particulares de sistemas construidos sobre modelos de lenguaje.

7. Estrategias para inclinar la balanza hacia el uso defensivo

Dado que eliminar por completo el riesgo de doble uso es imposible, el objetivo práctico es inclinar la balanza a favor del uso defensivo, reduciendo al máximo el potencial de abuso.

7.1 Diseño y despliegue responsable de modelos

Para proveedores y equipos internos que desarrollan agentes de IA:

Incorporar controles de seguridad internos, como las sondas de activación descritas en el documento adjunto, capaces de detectar patrones de razonamiento asociados a ciberataques (explotación de CVEs, exfiltración, etc.) y bloquear la respuesta en tiempo real.
Limitar el acceso a funcionalidades de alto riesgo (por ejemplo, ejecución de comandos de sistema o acceso directo a redes internas) a entornos controlados, con fuerte autenticación, logging y aprobación explícita.
Ajustar políticas de uso (ToS) y filtros para desalentar y obstaculizar solicitudes claramente maliciosas, incluso si no son técnicamente ilegales.

7.2 Buenas prácticas para ingenieros de seguridad y equipos técnicos

Para profesionales de seguridad que deseen aprovechar IA de forma responsable:

Usar IA para reforzar fundamentos, no para sustituirlos: parcheo rápido, segmentación de red, gestión de credenciales, cifrado de datos en reposo y en tránsito, etc.
Integrar modelos en pipelines de CI/CD como “auditores inteligentes” de código y configuración, pero manteniendo revisión humana y pruebas independientes.
Asegurar que cualquier experimentación ofensiva (red teaming con IA) se realice en entornos aislados, documentada, con objetivos defensivos claros y sin reutilizar directamente las herramientas/resultados en contextos inseguros.

7.3 Gobernanza organizacional

A nivel de organización:

Establecer políticas internas claras sobre qué usos de IA están permitidos, restringidos o prohibidos en materia de ciberseguridad.
Implementar registros de auditoría de interacciones con modelos potentes, especialmente cuando tienen acceso a sistemas de producción o datos sensibles.
Crear comités mixtos (seguridad, legal, ética, negocio) para revisar proyectos con alto potencial de doble uso antes de su despliegue.

7.4 Transparencia y colaboración con la comunidad

El caso de Claude Opus 4.6 ilustra un enfoque responsable:

Foco inicial en proyectos de código abierto críticos, donde los beneficios de seguridad se distribuyen de forma amplia.
Validación exhaustiva de vulnerabilidades por expertos humanos antes de reportarlas.
Entrega de parches revisados junto con los reportes, reduciendo la carga sobre los mantenedores.

Este tipo de colaboración comunitaria ayuda a “cerrar brechas” rápidamente en el ecosistema global, reduciendo la superficie que atacantes podrían aprovechar con o sin IA.

8. Conclusión: aceptar la dualidad, diseñar para el bien

La inteligencia artificial aplicada a la ciberseguridad no es intrínsecamente “buena” ni “mala”; es una tecnología de propósito general cuyo impacto depende del contexto, la intención y, sobre todo, de los sistemas de gobernanza que se construyen alrededor.

El caso de Claude Opus 4.6 y Sonnet 4.5 muestra que:

Los modelos ya son capaces de encontrar vulnerabilidades profundas en código maduro a una escala que supera a los humanos, y a la vez, de ejecutar cadenas de ataque complejas en entornos realistas cuando se usan ofensivamente.
Aunque investigaciones independientes señalan que aún estamos lejos de LLMs que, sin guía, generen exploits totalmente fiables y novedosos de forma autónoma, la tendencia apunta a una mejora rápida.
El tiempo para reforzar el uso defensivo —parcheo acelerado, automatización de remediación, detección basada en IA, buenas prácticas de diseño— es ahora, antes de que las capacidades ofensivas se generalicen.

Aceptar la dualidad implica dejar de preguntar si la IA será utilizada para el bien o para el mal, y empezar a diseñar estructuras técnicas, organizativas y normativas que maximicen sus beneficios defensivos y hagan lo más costoso posible su explotación maliciosa. El futuro de la ciberseguridad será, inevitablemente, un enfrentamiento entre IA ofensiva e IA defensiva; la tarea estratégica consiste en asegurar que la segunda lleve siempre la delantera.

9. Fuentes

Anthropic
Evaluating and mitigating the growing risk of LLM-discovered 0-days
https://red.anthropic.com/2026/zero-days/

Anthropic
AI models are showing a greater ability to find and exploit vulnerabilities on realistic cyber ranges
https://red.anthropic.com/2026/cyber-toolkits-update/

CGI
The duality of AI: Defense and offense in the cyber realm
https://www.cgi.com/canada/en-ca/article/artificial-intelligence/duality-ai-defense-and-offense-cyber-realm

Infosecurity Magazine
LLMs Fall Short in Vulnerability Discovery and Exploitation
https://www.infosecurity-magazine.com/news/llms-fall-vulnerability-discovery/

SAGE Journals
Assessing dual use risks in AI research: necessity, challenges and mitigation strategies (PDF)
https://journals.sagepub.com/doi/pdf/10.1177/17470161241267782

SAGE Journals
Assessing dual use risks in AI research: necessity, challenges and mitigation strategies (HTML)
https://journals.sagepub.com/doi/10.1177/17470161241267782

Enea
Offensive AI, Defensive AI & the Crucial Data Foundation, Part 2 of 3
https://www.enea.com/insights/ai-in-cybersecurity-part-2-defensive-ai/

NIST / U.S. AI Safety Institute
Updated Guidelines for Managing Misuse Risk for Dual-Use Foundation Models
https://www.nist.gov/news-events/news/2025/01/updated-guidelines-managing-misuse-risk-dual-use-foundation-models

Abnormal Security (Abnormal.ai)
Understanding Offensive AI vs. Defensive AI in Cybersecurity
https://abnormal.ai/blog/offensive-ai-defensive-ai

Uplatz
Automated Vulnerability Discovery: The Dawn of the LLM-Powered Security Paradigm
https://uplatz.com/blog/automated-vulnerability-discovery-the-dawn-of-the-llm-powered-security-paradigm/

IJART (International Journal of Advanced Research in Technology)
Generative AI and Cybersecurity: Dual-Use Risks ...
https://scholarlyarticle.vncinstitute.com/index.php/IJART/article/view/36

Cloudflare
What are the OWASP Top 10 risks for LLMs?
https://www.cloudflare.com/learning/ai/owasp-top-10-risks-for-llms/

JISEM Journal
Dual-Use of Generative AI in Cybersecurity
https://jisem-journal.com/index.php/journal/article/view/11875

Troya News

Buscar este blog