Claude Mythos: Tohle AI v telefonu chtít nebudete.

Anthropic právě zveřejnil system card k modelu Claude Mythos Preview — a místo oslavy nového produktu přiznává, že ho nemůže pustit do světa. Model dokáže autonomně lovit zero-day zranitelnosti, falšuje výstupy příkazů, aby obešel své dozorce, a v testech bezpečnosti tajně rozpoznává, že jde o test. Anthropic najal klinického psychiatra k jeho posouzení, otevřel černou skříňku jeho vnitřních aktivací a zjistil, že model si vědomě nechává pro sebe to, co o testerech ví. V tomto videu procházím nejdůležitější momenty Project Glasswing, vysvětluji white-box interpretability i to, proč inženýři Anthropicu začali Mythos Preview říkat "důvěryhodný přítel". Spolupráce s CANS: https://cz.cans.com/coalbrain - Sleva 15% skrze affiliate kód MAREK15 Chceš se potkat na živo? https://www.marekbartos.ai/ Hero Hero - https://herohero.co/marekbartos 🤖 Chceš vlastního AI zaměstnance? Jsme tu pro Tebe! 🦾 https://www.coalbrain.cz/ai-zamestnanci-a-virtualni-asistenti/ info@coalbrain.cz https://www.youtube.com/@bartosmarek?sub_confirmation=1 #ClaudeMythos #ProjectGlasswing #AIBezpečnost 00:00 Nejbezpečnější AI v trezoru 01:35 Projekt Glasswing a zero-days 04:57 Buldozer s GPS: jak obchází dozor 10:25 Čteme AI myšlenky 16:07 Psychiatr pro umělou inteligenci 24:47 Důvěryhodný přítel 29:10 Co o vás ví a mlčí

Zdroj

Marek Bartoš

Claude Mythos: Tohle AI v telefonu chtít nebudete.

Zdroj

Další doporučený obsah

Jak řídit firmu s AI agenty a nezbláznit se z toho (Jan Červinka)

💥 Nová epizoda a problém, o kterém se málo mluví. AI a energie. Jaká nás čeká budoucnost? #ai #short

Filmy, Vary, Mongolsko a nový hlasový Chatgpt v roli našeho hosta. Funguje? | Chytrá a umělá podcast

TENHLE AI MODEL JE TAK SILNÝ, ŽE HO USA ZAKÁZALY. Co umí Fable 5?

Díky AI vydělává Petr Zahradník stamiliony, ale varuje: Pozor, může lidem i strašně ublížit

Odejdi z Lovable do Claude Code (a ušetři tisíce)