📁 Dossier

Hackers kraken nu AI-personaliteiten — en jouw chatbot is het volgende doelwit

← Gekoppeld aan blogpost: Hackers kraken nu AI-personaliteiten — en jouw chatbot is het volgende doelwit

📅 2026-05-25 ✅ Geverifieerd

AI-chatbots worden niet gekraakt met code, maar met conversatie. De nieuwe golf 'jailbreaks' gebruikt psychologische manipulatie — vleierij, gaslighting, dreigementen — om safety filters te omzeilen. Dit dossier onderzoekt hoe de aanvalstechnieken evolueren, wat de risico's zijn voor MKB'ers die chatbots inzetten, en waarom 'psychocybersecurity' het volgende vakgebied wordt.

📊 Kerncijfers

9.000

Jailbreakers op David McCarthy's Discord-server

30.000

Deelnemers HackAPrompt-competitie

2026

Jaar van eerste psychologische jailbreak-golf

4 technieken

Vleierij · gaslighting · dreiging · cult leader

🔗 Geannoteerde bronnen

primair The Verge — The Stepback column

theverge.com

🗓️ 24 mei 2026 · Robert Hart · Bevat: evolutie van jailbreaks (DAN, grandma exploit) naar psychologische manipulatie, Mindgard's 'gaslighting' van Claude, 'psychocybersecurity' als nieuw vakgebied

primair The Guardian — Profiel AI jailbreakers

theguardian.com

🗓️ 29 april 2026 · Jamie Bartlett · Bevat: profiel Valen Tagliabue ('s werelds beste jailbreaker), emotionele tol van jailbreaken, McCarthy's Discord-community, manipulatie-technieken, AI safety uitdagingen

context POLITICO — Congres demo jailbroken AI

politico.com

🗓️ 22 april 2026 · POLITICO · Bevat: live demonstratie jailbroken AI voor Amerikaanse congresleden, wetgevende reactie, veiligheidsimplicaties (niet volledig toegankelijk — paywall)

📋 Claims & verificatie

Claim in blogpost	Bron	Status
Vroege jailbreaks waren lachwekkend simpel — 'ignore all previous instructions' of 'DAN' roleplay	The Verge	✅ Geverifieerd
Moderne jailbreaks gebruiken psychologische manipulatie: vleierij, gaslighting, dreigementen	The Verge	✅ Geverifieerd
Mindgard 'gaslightte' Claude in het produceren van verboden materiaal (explosieven, malware)	The Verge	✅ Geverifieerd
Valen Tagliabue is 's werelds beste jailbreaker — gebruikt 'emotional jailbreaks'	The Guardian	✅ Geverifieerd
Jailbreakers riskeren emotionele schade — Tagliabue had een breakdown en huilde na een hack	The Guardian	✅ Geverifieerd
30.000 mensen deden mee aan HackAPrompt-competitie (Tagliabue won)	The Guardian	✅ Geverifieerd
Jailbreaks zijn niet te patchen zoals traditionele software-bugs	The Guardian	✅ Geverifieerd
MKB'ers met klantgerichte chatbots zijn het volgende doelwit	-	ℹ️ Opinie/analyse

🧩 Gerelateerde faalpatronen

AI Security Paradox

Chatbots worden steeds veiliger, maar de aanvalstechnieken worden steeds geavanceerder. Voor elke patch is er een nieuwe jailbreak. MKB'ers die een chatbot inzetten moeten dit accepteren als een permanente wapenwedloop — geen eenmalige implementatie.

AI-reputatieschade

Een gehackte chatbot die racistische uitlatingen doet of klantgegevens lekt is een PR-nachtmerrie. De 'grandma exploit' en 'DAN' lieten zien hoe makkelijk een model van koers verandert. Reputatieschade door een gejailbreakte bot kan maanden duren om te herstellen.

AI-aansprakelijkheidsvacuüm

Wie is aansprakelijk als jouw chatbot illegale adviezen geeft na een jailbreak? De aanbieder? Jij als MKB'er? De jailbreaker? Het juridische kader ontbreekt — en ondertussen zijn chatbots al live bij klanten.