Patrick Binder Risk of LLMs in Cyber Operations
Blog heading visual

2026.03.30 • Patrick Binder • Cybersecurity Research

How Do Attackers Get Started with LLMs?

The real question is not whether large language models make attacks fully autonomous. The better question is: How fast is the adversarial scene industrializing the early and middle phases of the attack chain?

While many IT security experts have effectively stuck their heads in the sand—refusing to use these tools due to privacy concerns—attackers are operating without such limitations. We are seeing an adoption rate of 90-95% in the adversarial scene, compared to a mere 20-40% among security professionals. This delta is where the new risk of initial access is born.

Adversarial LLMs Initial Access Agentic Operators Red Team Perspective Patrick Binder

This blog post explores the transition from assistive LLMs to partially autonomous cyber operators. Between 2024 and 2026, the discussion shifted from speculation to empirical evidence: Codex CLI, Gemini CLI, and Claude CLI are already succeeding where traditional methods struggle.

The practical near-term impact is a massive acceleration of target understanding, hypothesis generation, and breadth-first vulnerability coverage. While the "Blue Team" is often restricted by data governance, attackers are using frontier models like Opus 4.6 to find high-severity findings in mature open-source projects at industrial tempo.

We must move beyond the "toy" mindset. Every IT-Security Expert in the Blue Team should at least know what an attacker can do with LLMs!

0x01

The Delta: Attackers are Winning the Adoption Race

LLMs are transforming cyber operations, but the most significant shift isn't technical—it's organizational. While many IT security experts have effectively stuck their heads in the sand, refusing to use these models due to fears of leaking customer data to OpenAI or Anthropic, attackers are operating without any such constraints.

In Germany and beyond, we see a stark "Adoption Delta." The adversarial scene is utilizing LLMs at a 90-95% efficiency rate, while legitimate security teams lag behind at 20-40%. This gap allows attackers to industrialize the early phases of the attack chain: target research, pretexting, and rapid variation of tactics. The risk starts here, with the cost of broad vulnerability search falling sharply.

Every IT-Security Expert in the Blue Team should at least know what an attacker can do with LLMs!

Chapter placeholder 1: Later you can extend this section with a stronger opening, a case study or a short thesis.
Futuristic city scene
The first impression is deliberate: infrastructure, scale and speed set the pace.

0x02

From Chatbots to Agentic Operators (CLI Power)

The era of "static prompting" is over. The new frontier is agentic. Attackers are no longer just asking a chatbot for a payload; they are using Codex CLI, Gemini CLI, and Claude CLI to maintain goals across long horizons.

These agentic operators can read code, inspect commit histories, and iterate based on environmental feedback. Research on frameworks like PentestGPT shows a 228.6% increase in task completion over naive prompting. By offloading the cognitive load of understanding complex routing and authentication states to the model, attackers can navigate multi-step preconditions with industrial tempo.

Chapter placeholder 2: Agentic CLIs enable a level of analysis and variation previously impossible for human operators alone.
AGENT_ORCHESTRATOR.SH
# Initializing agentic attack sequence
gemini-cli --task "Analyze routes and identify potential logic flaws in /api/v2"
claude-cli --task "Reason over recent commit history for incomplete security patches"
codex-cli --task "Generate multi-step exploit reproduction for identified CVE"
# Iterating on feedback loops...
AI analysis visual
LLMs deliver the most value in condensation, analysis and rapid variation.

0x03

Industrialized 0-Day Discovery

2026 marked a critical inflection point in vulnerability research. Frontier models like Opus 4.6 and Google’s Big Sleep (Naptime) have proven they can find high-severity vulnerabilities in mature, heavily tested open-source codebases. Google Project Zero reported a real SQLite vulnerability discovered by an LLM before its official release.

For attackers, this means the highest near-term value isn't just autonomous "black-box" attacks, but code-informed research. LLMs are now used to reason over source diffs, identify framework misuse, and search for incomplete fix propagation. The cost of breadth-oriented vulnerability research is falling, allowing attackers to find those crucial entry points that humans often overlook.

Chapter placeholder 3: 0-day discovery is moving from manual expertise to model-driven industrial tempo.
Team coordination visual
Operational impact is often produced by a workflow, not by one model alone.
ENTRA_HUNT.KQL
SigninLogs
| where TimeGenerated > ago(7d)
| where ResultType != 0
| summarize FailedAttempts = count(), Users = dcount(UserPrincipalName) by IPAddress
| order by FailedAttempts desc
Attack infrastructure visual
Attackers industrialize not only content, but also infrastructure and delivery.

0x04

Chaining Initial Access in the Agentic Era

The benchmark for initial access is no longer just "finding a bug." It's about the "operational glue"—managing sessions, tokens, and multi-step authentication. While benchmarks like CVE-Bench show a 13% success rate for autonomous agents, this number ignores the speed of adaptation.

Attackers are now using LLMs to solve logical hurdles like business-logic abuse and cross-tenant authorization flaws. Furthermore, a new attack surface has emerged: Prompt Injection against browser agents. If a target's internal workflow uses an AI agent for analysis or browser automation, the attacker can redirect that agent's behavior to exfiltrate data or bypass security controls entirely.

Chapter placeholder 4: Initial access now depends on the ability to chain logical flaws and bypass agentic safeguards.
Conditional access remediation visual
The most important countermeasures often look unspectacular, but they decide the outcome.
RESPONSE_RUNBOOK.SH
az login --use-device-code
az account show
python3 tools/export_timeline.py --source logs --output ./dist/timeline.md
python3 tools/render_report.py --input ./dist/timeline.md --format pdf

0x05

Future: Inference Budget as an Attack Multiplier

The future of cyber operations is tied to inference-time compute. Research shows that as you spend more tokens, agent performance scales log-linearly. Average steps completed on corporate attack chains have increased from 1.7 to nearly 10 in just 18 months.

A determined operator can now "buy" additional capability simply by increasing their token budget. The era of dismissing LLM-enabled attacks as "hype" is over. The web red teaming problem is expanding to include AI-mediated risks, retrieval pipelines, and agent toolchains. The competitive edge belongs to those who adapt fastest.

Each IT-Security Expert in Blue Team should at least know what an attacker can do with LLMs!

Chapter placeholder 5: In the agentic era, the speed of compromise is limited only by the inference budget.
Dream workplace visual
In the end, what matters is a workspace that supports observation, analysis and clean decisions.
Headerbild

30.03.2026 • Patrick Binder • Cybersecurity Research

Wie starten Angreifer mit LLMs?

Die eigentliche Frage ist nicht, ob Large Language Models Angriffe vollständig autonom machen. Die bessere Frage lautet: Wie schnell industrialisiert die Angreifer-Szene die frühen und mittleren Phasen der Angriffskette?

Während viele IT-Security-Experten den Kopf in den Sand gesteckt haben – und die Nutzung dieser Tools aus Sorge um den Datenschutz ablehnen –, agieren Angreifer ohne solche Einschränkungen. Wir sehen eine Adoptionsrate von 90-95 % in der Angreifer-Szene, verglichen mit mageren 20-40 % bei Sicherheitsexperten. Dieses Delta ist der Geburtsort des neuen Initial-Access-Risikos.

Adversarial LLMs Initial Access Agentic Operators Red Team Perspektive Patrick Binder

Dieser Blogpost beleuchtet den Übergang von assistierenden LLMs zu teilautonomen Cyber-Operatoren. Zwischen 2024 und 2026 hat sich die Diskussion von Spekulation zu empirischen Beweisen verschoben: Codex CLI, Gemini CLI und Claude CLI sind bereits dort erfolgreich, wo traditionelle Methoden scheitern.

Der praktische kurzfristige Effekt ist eine massive Beschleunigung des Zielverständnisses, der Hypothesengenerierung und der Schwachstellenabdeckung. Während das "Blue Team" oft durch Data Governance eingeschränkt ist, nutzen Angreifer Frontier-Modelle wie Opus 4.6, um hochgradige Findings in industriellem Tempo zu generieren.

Wir müssen die "Spielzeug"-Mentalität ablegen. Jeder IT-Security-Experte im Blue Team sollte zumindest wissen, was ein Angreifer mit LLMs tun kann!

0x01

Das Delta: Angreifer gewinnen das Adoptionsrennen

LLMs verändern die tägliche Arbeit von Cyberkriminellen nicht zuerst auf technischer Ebene, sondern auf organisatorischer. Während die legitime Security-Szene oft durch Bedenken hinsichtlich des Datenschutzes gelähmt ist, bewegt sich die Angreifer-Szene mit voller Geschwindigkeit voran. Angreifer warten nicht auf Compliance-Freigaben; sie skalieren.

Dies schafft ein massives operatives Delta. Wir schätzen, dass Angreifer LLMs mit einer Effizienz von 90-95 % einsetzen, während viele IT-Security-Teams – insbesondere in konservativen Märkten wie Deutschland – bei 20-40 % stagnieren. Diese Lücke ermöglicht es Angreifern, Kampagnen schneller vorzubereiten, endlose A/B-Varianten zu generieren und die Qualität ihrer Kommunikation auf ein Niveau zu heben, das früher in diesem Maßstab unmöglich war.

Jeder IT-Security-Experte im Blue Team sollte zumindest wissen, was ein Angreifer mit LLMs tun kann!

Kapitel-Placeholder 1: Spaeter kannst du diesen Abschnitt mit einem staerkeren Einstieg, einem Fallbeispiel oder einer kompakten These ausbauen.
Futuristische Stadtszene
Der erste Eindruck ist bewusst gesetzt: Infrastruktur, Skalierung und Geschwindigkeit geben den Takt vor.

0x02

Threat Modeling: Welche Teile des Angriffs sich wirklich verschieben

Fuer realistisches Threat Modeling hilft die Trennung zwischen Vorbereitung, Interaktion und Nachbereitung. LLMs sind besonders stark, wo Sprache, Struktur und Wiederholung eine Rolle spielen. Das bedeutet bessere Pretexts, schnellere Anpassung an Opfergruppen, bessere technische Dokumente und sauberere Uebergaben zwischen einzelnen Personen oder Tools.

Gleichzeitig bleiben die Kernrisiken sehr bodenstaendig. In Entra ID sind die relevanten Pfade weiterhin Passwort-Spray, Credential-Reuse, Session-Theft, OAuth-Missbrauch, Consent-Fehler, Device-Code-Missbrauch und schwach kontrollierte App-Registrierungen. LLMs machen diese Angriffe nicht magisch neu, aber sie machen sie professioneller, stabiler und leichter skalierbar.

Ein brauchbares Threat Model sollte deshalb nicht bei "boesartiger KI" stehen bleiben. Die bessere Frage lautet: Welche Angriffsschritte werden standardisiert, welche Kontrollen werden umgangen und wo braucht es echte Telemetrie statt Annahmen?

Kapitel-Placeholder 2: Spaeter kannst du daraus eine visuelle Angriffskette, eine Tabelle oder einen Szenario-Durchlauf machen.
ENV_BOOTSTRAP.SH
sudo apt update
sudo apt install -y git python3 python3-venv jq nmap
python3 -m venv .venv
source .venv/bin/activate
pip install -U pandas requests matplotlib
Analysevisual
LLMs liefern den groessten Mehrwert bei Verdichtung, Auswertung und schneller Variantenbildung.

0x03

Identity bleibt weiterhin das eigentliche Ziel

Wenn LLMs in Missbrauchsszenarien relevant werden, dann meist entlang der Identity- und Session-Ebene. Genau dort liegt auch in Microsoft Entra der groesste Hebel: Tokens, OAuth-Apps, Consent, MFA-Interaktionen, Sign-in-Policies, Lockout-Mechanismen und Post-Authentication-Aktivitaet.

Die riskantesten Muster sind nicht "der eine perfekte Bypass", sondern viele kleinere Teilprobleme, die zusammen wirken: ein glaubwuerdiger Pretext, ein sauberer Redirect- Flow, eine erfolgreiche Session-Uebernahme, eine schwache App-Freigabe oder eine unzureichend ueberwachte Workload-Identitaet. LLMs helfen hier durch Iteration und schnelle Anpassung an defensive Gegenmassnahmen.

Fuer Verteidiger veraendert das den Blick auf sinnvolle Weise. Nicht nur der Login ist relevant, sondern alles, was danach passiert: neue Geraete, neue Consent-Ereignisse, ungewoehnliche Token-Nutzung, Admin-Aktionen, Weiterleitungen und Seitwaertsbewegungen.

Kapitel-Placeholder 3: Spaeter kannst du hier eine saubere Entra-ID-Lageanalyse mit Beispielen aus Sign-in Logs, Audit Logs oder Risk Events ergaenzen.
Teamarbeit
Operative Wirkung entsteht haeufig durch einen Workflow und nicht durch ein einzelnes Modell.
ENTRA_HUNT.KQL
SigninLogs
| where TimeGenerated > ago(7d)
| where ResultType != 0
| summarize FailedAttempts = count(), Users = dcount(UserPrincipalName) by IPAddress
| order by FailedAttempts desc
Angriffsinfrastruktur
Angreifer industrialisieren nicht nur Inhalte, sondern auch Infrastruktur und Auslieferung.

0x04

Was die Verteidigung konkret tun muss

Die Antwort auf diese Entwicklung ist weder ein einzelnes Tool noch rein passives Monitoring. Verteidigung muss auf mehreren Ebenen gleichzeitig wirken: starke Authentisierung, saubere Conditional-Access-Policies, gutes Logging, gute Korrelation, klare Response-Runbooks und eindeutige Verantwortlichkeiten fuer Identities, Apps und Sessions.

Fuer Entra ID bedeutet das vor allem: Passwortoberflaeche reduzieren, Risikoereignisse ernst nehmen, App-Consent und Registrierungen pruefen, Revoke- und Lockout-Prozesse testen, Workload-Identitaeten als eigene Risikozone betrachten und den Helpdesk auf echte Kompromittierungsfaelle vorbereiten. Je staerker Angreifer automatisieren, desto wichtiger werden Geschwindigkeit und Praezision in der Response.

Die staerkste Verteidigung ist selten spektakulaer. Sie ist konsistent, dokumentiert und operationalisiert.

Kapitel-Placeholder 4: Spaeter kannst du hier konkrete Massnahmen, Playbooks oder harte Empfehlungen fuer Entra ID ergaenzen.
Conditional Access
Die wichtigsten Gegenmassnahmen wirken oft unspektakulaer, entscheiden aber ueber den Ausgang.
RESPONSE_RUNBOOK.SH
az login --use-device-code
az account show
python3 tools/export_timeline.py --source logs --output ./dist/timeline.md
python3 tools/render_report.py --input ./dist/timeline.md --format pdf

0x05

Was in den naechsten Jahren wahrscheinlicher wird

Die Zukunft besteht nicht aus "vollautonomen Superangriffen in Sekunden". Wahrscheinlicher ist eine schrittweise Professionalisierung: bessere Workflows, weniger Reibung, schnellere Anpassungszyklen und mehr Standardisierung in den wiederkehrenden Teilen eines Angriffs. Fuer Verteidiger bedeutet das vor allem mehr Volumen und kuerzere Reaktionsfenster.

Die groesste Veraenderung ist deshalb nicht die blosse Existenz von LLMs, sondern ihre Einbettung in operative Prozesse. Sobald Recherche, Content-Erstellung, Log-Auswertung und Reporting in demselben Fluss liegen, steigt die Taktfrequenz. Das betrifft Angreifer, Verteidiger, Incident-Response-Teams und Security Engineering gleichermassen.

Mein Fazit bleibt bewusst nuechtern: LLMs machen Angreifer nicht automatisch im abstrakten Sinn "staerker". Sie machen bestehende Muster billiger, schneller und besser reproduzierbar. Genau deshalb sollte das Thema jetzt ernst genommen werden.

Kapitel-Placeholder 5: Spaeter kannst du diesen Abschnitt mit deinem eigenen Fazit, einer Leser-Einordnung oder einer persoenlicheren Schlussnote abschliessen.
Arbeitsplatz
Am Ende zaehlt ein Arbeitsplatz, der Beobachtung, Analyse und saubere Entscheidungen ermoeglicht.