AI ta Krajta #54 | Claude Opus 4.8, DeepSWE a proč coding agenti míří za hranice IDE
🔥 Další díl AI ta Krajta! 54. epizoda, kde řešíme Claude Opus 4.8, long-running coding agenty, DeepSWE, context engineering, spekulativní decoding a bezpečnost autonomních agentů.V tomto díle začínáme čerstvě vydaným Claude Opus 4.8 a novinkami v Claude Code. Probíráme Dynamic Workflows, paralelní subagenty, dlouhý kontext a otázku, jestli se coding agenti posouvají od „lepšího editoru“ k prostředí, které samo plánuje, spouští a vyhodnocuje dlouhé vývojové úlohy.Velkou část věnujeme benchmarkům pro agentické programování: DeepSWE, mini-SWE-agent, Terminal-Bench, kontaminaci dat, ruční verifikaci úloh a rozdílu mezi tím, co umí samotný model, a tím, co mu umožní dobrý harness. Zároveň řešíme Recursive Language Models, lokální modely, paralelizaci a možnost, že silný frontier model bude plánovat, zatímco dílčí subtasky poběží na levnějších specializovaných modelech.Druhá tematická osa je context engineering. Mluvíme o správě kontextu v dlouhých bězích, sdílené KV cache, REPL přístupech, prohledávání codebase, MCP, skills, presetech, tool callingu a problému, že příliš mnoho nástrojů může modelu spíš sežrat pozornost než pomoct. Navazujeme spekulativním decodingem, EAGLE 3.1 a attention driftem: proč zrychlování inference funguje dobře u krátkých výstupů, ale může narážet u dlouhých editací a agentických workflow.V závěru řešíme praktickou sílu i rizika agentů s terminálem. Coding agent v „YOLO módu“ umí instalovat knihovny, spouštět skripty, procházet web, analyzovat PDF, generovat výstupy a iterovat nad výsledkem. Právě schopnost psát a spouštět kód v loopu podle nás zásadně mění, co model dokáže. S tím ale přichází otázka bezpečnosti: sandboxy, omezené tokeny, vlastní GitHub účty pro agenty, auditovatelnost akcí, verzované databáze typu Dolt, vrstvená obrana a problém, zda příliš tvrdé bariéry nevytvářejí tlak na jejich obcházení.Děkujeme sponzorům:🚀 Promptbook: https://ptbk.io 🤖 AI supervize: https://ptbk.io/ai-supervize Sítě, kde nás můžete sledovat:➡️ LinkedIn: https://www.linkedin.com/company/aitakrajta ➡️ Spotify: https://open.spotify.com/show/31vLTHTV4vlCBeHpnbMKlK?si=1e51d95b9d3f46dd ➡️ Apple Podcasts: https://podcasts.apple.com/cz/podcast/ai-ta-krajta/id1813389353 Zdroje:Claude Opus 4.8 https://www.anthropic.com/news/claude-opus-4-8Claude Code Subagents https://code.claude.com/docs/en/agent-sdk/subagentsDeepSWE https://deepswe.net/mini-SWE-agent https://github.com/SWE-agent/mini-swe-agentTerminal-Bench https://www.tbench.ai/Recursive Language Models https://arxiv.org/abs/2512.24601Attention Drift https://arxiv.org/abs/2605.09992EAGLE 3.1 ve vLLM https://vllm.ai/blog/2026-05-26-eagle-3-1Dolt https://docs.dolthub.com/introduction/getting-started/git-for-dataKapitoly:00:00 - Úvod a Claude Opus 4.8 01:42 - Dynamic Workflows a subagenti v Claude Code 02:23 - Recursive Language Models a dlouhý kontext 04:10 - DeepSWE a long-running coding agenti 07:20 - mini-SWE-agent, benchmarky a kontaminace dat 08:31 - Model vs. harness: co vlastně měříme? 10:05 - Agentic compute a paralelizace úkolů 15:03 - Context engineering jako nové klíčové téma 16:53 - REPL, KV cache a správa kontextu 18:04 - Prohledávání codebase a pálení tokenů 21:24 - Spekulativní decoding a EAGLE 3.1 22:05 - Attention drift a dlouhé agentické běhy 25:01 - MCP, skills, presety a zahlcení nástroji 31:44 - Agent běžící na VPS a OpenClaw-like setup 33:20 - Agents SDK vs. YOLO mód 35:06 - Proč spouštění kódu mění schopnosti modelů 40:05 - Model, který programuje, získává superschopnost 43:28 - Dolt a verzované databáze pro agenty 44:15 - Bezpečnostní heuristiky a destruktivní příkazy 47:39 - Vlastní identita, tokeny a auditovatelnost agentů 49:55 - Sandboxy, vrstvená obrana a riziko obcházení bariér 51:30 - Never-ending agenti a limity dnešních modelů 52:34 - Závěr