Die wunderbare Welt der AI
00:00:00: Neuigkeit in der AI-Welt.
00:00:02: Ein einzelner KI-Ansatz löste zuerst den größten Kurseinbruch bei Softwarewerten aus.
00:00:10: Wenige Wochen später vernichtete derselbe Impuls erneut Milliarden an Börsenwert im Cybersecurity Sektor.
00:00:19: Auslöser war die Beobachtung.
00:00:21: mit Claude Code übernimmt ein KI-Tool Aufgaben, die zuvor als Domäne hochspezialisierter Experten galten.
00:00:30: Du siehst den Ablauf in zwei Phasen.
00:00:33: Phase eins Ende Januar Neue Cloud Workflows an der Wall Street verstärkten die Erwartungen.
00:00:41: teure Spezial-Software-Lizenzen verlieren an Wert.
00:00:45: Die Sorge, wenn KI identische Ergebnisse über Open Source Tools liefert sinkt der Bedarf an solchen Lizenzen.
00:00:54: Phase zwei drei Wochen später Der Blick wechselte zur Cyber Security.
00:01:00: Wenn KI Code schreibt, Sicherheitslücken systematisch findet, bewertet und direkt Patches vorschlägt geraten Geschäftsmodelle unter Druck die an menschliche Expertise gekoppelt sind.
00:01:14: Konkret lautet die Behauptung.
00:01:16: Claude Code Security durchsucht ganze Codebasen autonom nach Schwachstellen.
00:01:23: In internen Tests fand das Tool über fünfhundert zuvor unbekannte Schwachstellen in Open Source Projekten Also Lücken, die vorher kein menschlicher Security-Researcher fand.
00:01:35: Damit verschiebt sich eine letzte Hürde.
00:01:38: Cybersecurity galt lange als Thema in dem menschliche Erfahrung schwer zu ersetzen ist.
00:01:45: Ein wichtiges Argument in der Debatte betrifft die autonome Arbeitszeit von KI-Agenten bis zum Scheitern.
00:01:53: Hier fällt oft METR – Model Evaluation and Threat Research.
00:01:59: Die Organisation nutzt einen Time-Horizon-Benschmack.
00:02:03: Ende Jahrzehntausend und zwanzig lag die Zeitspanne, in der ein Agent die Hälfte der Aufgaben erfolgreich löst im Sekundenbereich.
00:02:12: Zwei-tausenddreiundzwanzig stieg der Wert in den Minutenbereich.
00:02:17: Bei neueren Claurt-Varianten liegt er laut Angaben inzwischen bei vielen Stunden.
00:02:23: Bei weiterer Verdopplung dieser autonomen Arbeitsfähigkeit Deckenagenten bald einen vollständigen Arbeitstag am Stück ab.
00:02:31: Gemessen in menschequivalenter Zeit, während die KI dieselben Schritte oft viel schneller ausführt.
00:02:38: Ein Verantwortlicher bei Anthropic sagt passend dazu er lässt praktisch seinen gesamten Code von Claude Code schreiben und sendet täglich zahlreiche Pool-Requests ab, während mehrere Agenten parallel laufen.
00:02:53: Die Rolle des Menschen verändert sich Weg vom manuellen Tippen hin zur Architektur, Review und Qualitätskontrolle.
00:03:02: Diese Fähigkeiten korrelieren über Disziplinen hinweg.
00:03:06: Modellrankings zeigen – Mathematik dient als Indikator.
00:03:11: Steigt die Präzision dort, zieht Coding & Reasoning nach.
00:03:16: Viele Jobs am Bildschirm hängen an strukturierter Sprache und Regeln.
00:03:21: Als nächste Kandidaten rücken Themen wie Legal Finance oder Datenanalyse in Richtung Automatisierung.
00:03:29: Fundamental verändert sich dabei die Arbeitsweise mit Agenten, Subagent und Agent-Teams.
00:03:37: Ein zentraler Engpass bleibt Context Management – wenn das Kontextfenster voll läuft sinkt die Leistung, Fehler treten auf!
00:03:46: In typischen Setups liegen Fenster bei ein paar Hunderttausend Tokens.
00:03:51: Extremgroße Fenster bleiben möglich, verursachen aber hohe Kosten.
00:03:56: Subagents reduzieren dieses Problem teilweise – du behandelst sie wie ein kurzfristig zugeschaltetes Team!
00:04:04: Ein Lead-Agent delegiert Teilaufgaben nach unten.
00:04:08: Subagenz arbeiten parallel mit eigenem Kontextfenster und enden nach Abschluss.
00:04:14: Agent-Teams gehen einen Schritt weiter.
00:04:17: Mehrere getrennte Cloudcode Instanzen kommunizieren miteinander.
00:04:21: Jede Instanz hat eine eigene Session und läuft persistent.
00:04:26: Der Lead-Agent koordiniert, die Teammitglieder übernehmen Aufgaben und stimmen sich ab.
00:04:31: Das liefert mehr Flexibilität, bringt aber einen Tradeoff – du bezahlst mehrfach für parallele Arbeit!
00:04:39: Ein Beispiel aus dem Design macht das greifbar – wissenschaftliche Illustrationen.
00:04:45: Ein Paper von Google beschreibt eine Designagentur Pipeline aus mehreren Agenten.
00:04:50: Erstens Agent für Eingabe.
00:04:53: Zweitens, Agent für Planung.
00:04:56: Drittens, Agent for Styling.
00:04:58: Viertens, Kritiker.
00:05:01: In Blind-Tests bewerteten Prüfer dieses Team häufig besser als menschliche Beiträge.
00:05:07: Die Qualität verbessert sich messbar durch Iteration zwischen Designagent und Kritiker.
00:05:13: In der Praxis sieht ein Workflow mit ClaudeCode so aus Du arbeitest mit einer Projektstruktur mit Inputordnern für Dokumente und Outputordners für Resultate.
00:05:25: Für konsistentes Arbeiten fasst du Kontext vorab, in Dateien wie einer Claude.md zusammen.
00:05:33: Teammitglieder übernehmen die Historie des Lead Agents nicht automatisch – Du gibst Startprompter und Dateien explizit mit!
00:05:41: Auch die Modelauswahl beeinflusst Effizienz.
00:05:44: Oft läuft der Lead Agent auf einem leistungsstarken Modell.
00:05:48: Teammitglieder für Recherche oder Kritik greifen auf günstigere, schnellere Modelle zu.
00:05:55: Der Ablauf bleibt gleich!
00:06:18: Benutzeroberflächen verlieren Gewicht.
00:06:21: Wenn Agenten primäre Nutzer von Software werden, zählen APIs und Terminal-Workflows mehr als Klickstrecken.
00:06:29: Zweitens Infrastruktur wird kritisch.
00:06:33: Ohne saubere Schnittstellen verlierst du gegen Wettbewerber die agentische Workflows in Minuten anbinden.
00:06:40: Drittens Tätigkeiten brauchen neue Bewertung.
00:06:45: Alles was du Menschen heute über SOPs und Checklisten beibringst lässt sich als Agentenprozess beschreiben und schrittweise automatisieren.
00:06:54: Der Ausblick reicht weiter, hin zu Agenten die innerhalb definierter Regeln wirtschaftlich handeln, Zahlungen auslösen oder Tools einkaufen.
00:07:03: Parallel gewinnen Open Source-Modelle an Bedeutung weil sie günstiger sind und sich in Europa besser DSGVO konform selbst hosten lassen.
00:07:13: Aus dieser Entwicklung entsteht ein Szenario beschrieben als Hive Mind Informationen fließen in Echtzeit.
00:07:22: Standards entwickeln sich automatisch weiter, Produktzyklen verkürzen sich stark.
00:07:27: Agenten-Teams gehen über ein Tool für Entwickler hinaus – sie werden zum Modell für Wissensarbeit.
00:07:33: Tipparbeit verliert als Engpass.
00:07:37: Spezifikation und Kontextsteuerung rücken an diese Stelle.