AI REWRITE - Wie AI alles neu erfindet !

Die wunderbare Welt der AI

Transkript

Zurück zur Episode

00:00:00: Neuigkeit in der AI-Welt.

00:00:02: Ein einzelner KI-Ansatz löste zuerst den größten Kurseinbruch bei Softwarewerten aus.

00:00:10: Wenige Wochen später vernichtete derselbe Impuls erneut Milliarden an Börsenwert im Cybersecurity Sektor.

00:00:19: Auslöser war die Beobachtung.

00:00:21: mit Claude Code übernimmt ein KI-Tool Aufgaben, die zuvor als Domäne hochspezialisierter Experten galten.

00:00:30: Du siehst den Ablauf in zwei Phasen.

00:00:33: Phase eins Ende Januar Neue Cloud Workflows an der Wall Street verstärkten die Erwartungen.

00:00:41: teure Spezial-Software-Lizenzen verlieren an Wert.

00:00:45: Die Sorge, wenn KI identische Ergebnisse über Open Source Tools liefert sinkt der Bedarf an solchen Lizenzen.

00:00:54: Phase zwei drei Wochen später Der Blick wechselte zur Cyber Security.

00:01:00: Wenn KI Code schreibt, Sicherheitslücken systematisch findet, bewertet und direkt Patches vorschlägt geraten Geschäftsmodelle unter Druck die an menschliche Expertise gekoppelt sind.

00:01:14: Konkret lautet die Behauptung.

00:01:16: Claude Code Security durchsucht ganze Codebasen autonom nach Schwachstellen.

00:01:23: In internen Tests fand das Tool über fünfhundert zuvor unbekannte Schwachstellen in Open Source Projekten Also Lücken, die vorher kein menschlicher Security-Researcher fand.

00:01:35: Damit verschiebt sich eine letzte Hürde.

00:01:38: Cybersecurity galt lange als Thema in dem menschliche Erfahrung schwer zu ersetzen ist.

00:01:45: Ein wichtiges Argument in der Debatte betrifft die autonome Arbeitszeit von KI-Agenten bis zum Scheitern.

00:01:53: Hier fällt oft METR – Model Evaluation and Threat Research.

00:01:59: Die Organisation nutzt einen Time-Horizon-Benschmack.

00:02:03: Ende Jahrzehntausend und zwanzig lag die Zeitspanne, in der ein Agent die Hälfte der Aufgaben erfolgreich löst im Sekundenbereich.

00:02:12: Zwei-tausenddreiundzwanzig stieg der Wert in den Minutenbereich.

00:02:17: Bei neueren Claurt-Varianten liegt er laut Angaben inzwischen bei vielen Stunden.

00:02:23: Bei weiterer Verdopplung dieser autonomen Arbeitsfähigkeit Deckenagenten bald einen vollständigen Arbeitstag am Stück ab.

00:02:31: Gemessen in menschequivalenter Zeit, während die KI dieselben Schritte oft viel schneller ausführt.

00:02:38: Ein Verantwortlicher bei Anthropic sagt passend dazu er lässt praktisch seinen gesamten Code von Claude Code schreiben und sendet täglich zahlreiche Pool-Requests ab, während mehrere Agenten parallel laufen.

00:02:53: Die Rolle des Menschen verändert sich Weg vom manuellen Tippen hin zur Architektur, Review und Qualitätskontrolle.

00:03:02: Diese Fähigkeiten korrelieren über Disziplinen hinweg.

00:03:06: Modellrankings zeigen – Mathematik dient als Indikator.

00:03:11: Steigt die Präzision dort, zieht Coding & Reasoning nach.

00:03:16: Viele Jobs am Bildschirm hängen an strukturierter Sprache und Regeln.

00:03:21: Als nächste Kandidaten rücken Themen wie Legal Finance oder Datenanalyse in Richtung Automatisierung.

00:03:29: Fundamental verändert sich dabei die Arbeitsweise mit Agenten, Subagent und Agent-Teams.

00:03:37: Ein zentraler Engpass bleibt Context Management – wenn das Kontextfenster voll läuft sinkt die Leistung, Fehler treten auf!

00:03:46: In typischen Setups liegen Fenster bei ein paar Hunderttausend Tokens.

00:03:51: Extremgroße Fenster bleiben möglich, verursachen aber hohe Kosten.

00:03:56: Subagents reduzieren dieses Problem teilweise – du behandelst sie wie ein kurzfristig zugeschaltetes Team!

00:04:04: Ein Lead-Agent delegiert Teilaufgaben nach unten.

00:04:08: Subagenz arbeiten parallel mit eigenem Kontextfenster und enden nach Abschluss.

00:04:14: Agent-Teams gehen einen Schritt weiter.

00:04:17: Mehrere getrennte Cloudcode Instanzen kommunizieren miteinander.

00:04:21: Jede Instanz hat eine eigene Session und läuft persistent.

00:04:26: Der Lead-Agent koordiniert, die Teammitglieder übernehmen Aufgaben und stimmen sich ab.

00:04:31: Das liefert mehr Flexibilität, bringt aber einen Tradeoff – du bezahlst mehrfach für parallele Arbeit!

00:04:39: Ein Beispiel aus dem Design macht das greifbar – wissenschaftliche Illustrationen.

00:04:45: Ein Paper von Google beschreibt eine Designagentur Pipeline aus mehreren Agenten.

00:04:50: Erstens Agent für Eingabe.

00:04:53: Zweitens, Agent für Planung.

00:04:56: Drittens, Agent for Styling.

00:04:58: Viertens, Kritiker.

00:05:01: In Blind-Tests bewerteten Prüfer dieses Team häufig besser als menschliche Beiträge.

00:05:07: Die Qualität verbessert sich messbar durch Iteration zwischen Designagent und Kritiker.

00:05:13: In der Praxis sieht ein Workflow mit ClaudeCode so aus Du arbeitest mit einer Projektstruktur mit Inputordnern für Dokumente und Outputordners für Resultate.

00:05:25: Für konsistentes Arbeiten fasst du Kontext vorab, in Dateien wie einer Claude.md zusammen.

00:05:33: Teammitglieder übernehmen die Historie des Lead Agents nicht automatisch – Du gibst Startprompter und Dateien explizit mit!

00:05:41: Auch die Modelauswahl beeinflusst Effizienz.

00:05:44: Oft läuft der Lead Agent auf einem leistungsstarken Modell.

00:05:48: Teammitglieder für Recherche oder Kritik greifen auf günstigere, schnellere Modelle zu.

00:05:55: Der Ablauf bleibt gleich!

00:06:18: Benutzeroberflächen verlieren Gewicht.

00:06:21: Wenn Agenten primäre Nutzer von Software werden, zählen APIs und Terminal-Workflows mehr als Klickstrecken.

00:06:29: Zweitens Infrastruktur wird kritisch.

00:06:33: Ohne saubere Schnittstellen verlierst du gegen Wettbewerber die agentische Workflows in Minuten anbinden.

00:06:40: Drittens Tätigkeiten brauchen neue Bewertung.

00:06:45: Alles was du Menschen heute über SOPs und Checklisten beibringst lässt sich als Agentenprozess beschreiben und schrittweise automatisieren.

00:06:54: Der Ausblick reicht weiter, hin zu Agenten die innerhalb definierter Regeln wirtschaftlich handeln, Zahlungen auslösen oder Tools einkaufen.

00:07:03: Parallel gewinnen Open Source-Modelle an Bedeutung weil sie günstiger sind und sich in Europa besser DSGVO konform selbst hosten lassen.

00:07:13: Aus dieser Entwicklung entsteht ein Szenario beschrieben als Hive Mind Informationen fließen in Echtzeit.

00:07:22: Standards entwickeln sich automatisch weiter, Produktzyklen verkürzen sich stark.

00:07:27: Agenten-Teams gehen über ein Tool für Entwickler hinaus – sie werden zum Modell für Wissensarbeit.

00:07:33: Tipparbeit verliert als Engpass.

00:07:37: Spezifikation und Kontextsteuerung rücken an diese Stelle.