AI REWRITE - Wie AI alles neu erfindet !

Die wunderbare Welt der AI

Transkript

00:00:00: Neuigkeiten aus der AI-Welt.

00:00:02: Viele nehmen die CES als Show für Konsumgeräte wahr.

00:00:06: Zwei-tausend sechsundzwanzig wirkt die Messe vor allem als Koordinationspunkt für den nächsten industriellen Zyklus.

00:00:13: Hier gleichen OEMs Budgets ab, Betreiber synchronisieren Ausbaupläne für Rechenzentren, Partner stimmen Roadmaps für das Jahr aufeinander ab.

00:00:22: Das zentrale Signal vieler Ankündigungen lautet nicht mehr Gadgets.

00:00:28: Unternehmen richten Lieferketten auf Always-on-KI aus, mit Fokus auf günstige Kosten, hohe Verfügbarkeit und Skalierung.

00:00:37: Nvidia formuliert den Wandel direkt.

00:00:40: KI steht in einer industriellen Phase.

00:00:43: Industrie heißt hier Strom, Maschinen, Skalierung und eine klare Produktionslogik.

00:00:50: Auf der CES zählen darum weniger Endgeräte.

00:00:53: Im Fokus stehen Bausteine einer KI-Fabrik.

00:00:57: Rechenleistung, Speicher, Networking, Sicherheit, Energieversorgung und schnelle Bereitstellung.

00:01:04: Diese Faktoren bestimmen, wer Intelligenz im großen Maßstab liefert.

00:01:10: Die aktuelle Dynamik wirkt wie ein Nachfrage-Schock.

00:01:13: Akteure mit täglichen Nutzungsdaten planen, als legen sie bei der Nachfrage zurück.

00:01:19: Planung orientiert sich nicht an Überangebot.

00:01:22: Damit verschiebt sich die Optimierung.

00:01:25: Unternehmen sehen Inferenz als zentralen Kostentreiber, denn Inferenz übernimmt das dauerhafte Serving der Modelle im großen Maßstab.

00:01:34: Training bleibt strategisch wichtig für neue Fähigkeiten.

00:01:37: Operativ dominiert Inferenz.

00:01:40: Inferenz läuft kontinuierlich, hängt an Latenzen und reagiert stark auf Kosten.

00:01:46: Ziel?

00:01:47: Kosten pro Token senken und Zuverlässigkeit innerhalb der SLA-Vorgaben halten.

00:01:53: Ein Kernsignal der CES aus Sicht von NVIDIA, eine neue Chip-Generation reicht nicht.

00:02:00: NVIDIA positioniert sich als Rackscale-Plattform für die Inferenzökonomie.

00:02:05: Im Zentrum steht die Vera-Rubin-Plattform als Rackscale-System.

00:02:10: Vera-Rubin bündelt Komponenten zu einem Gesamtpaket.

00:02:14: Erst Vera-CPU, zwei Rubin-GPU, drei NVLink-Sex, Das Ziel lautet Tokenökonomie zuerst.

00:02:37: Inferenz soll effizienter und schneller laufen, damit große Modelle und große Kontextfenster besser bedient werden.

00:02:44: Dazu kommt die Idee einer zusätzlichen Speicherstufe für Kontext.

00:02:49: Daten wie der KV-Cache sollen effizient verwaltet werden, statt sie immer wieder neu zu berechnen.

00:02:56: Kontext wird damit zur aktiv gemanagten Ressource, ähnlich wie Cache oder Datenbank in klassischen Webstags.

00:03:04: Infarenzskalierung hängt damit nicht primär an Rechenleistung.

00:03:08: Speicher- und Datenbewegung rücken in den Vordergrund.

00:03:12: Als Referenz für dieses Bild der KI-Fabrik dienen Infrastruktur- und Lieferketten-Deals.

00:03:19: Rechenleistung wird hier als Energie und Kapazität in Gigawatt beschrieben.

00:03:24: Ein Beispiel ist die Absichtserklärung zwischen OpenAI und Nvidia vom Zweiundzwanzigsten September, zwei Tausendfünfundzwanzig.

00:03:33: Geplant ist der Aufbau von Systemen mit mindestens zehn Gigawatt für die nächste Infrastruktur von OpenAI.

00:03:40: Die erste Gigawattphase soll in der zweiten Jahreshälfte im Jahr- und Jahr- und Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr- Jahr.

00:04:08: Die erste Deployment-Welle startet mit einem Gigawatt in der zweiten Jahreshälfte, mit der ME-Fürhundertfünfzig-Serie.

00:04:18: Dazu kommt ein Warrant über bis zu Hundertsechzig Millionen AMD-Aktien, gekoppelt an das Erreichen von Meilenstein.

00:04:26: Neben GPU-Kapazität dienen Cloud-Verträge als Absicherung, um Serving stabil zu halten, während neue KI-Fabriken hochfahren.

00:04:35: Ein massiver Flaschenhals liegt weiter bei Speicher und Bandbreite.

00:04:40: Berichten zufolge stiegen die DRAM-Preise im vierten Quartal extrem, laut Reuters am siebten Januar, im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im Jahr im.

00:04:59: Die KI-Lieferkette blockiert damit auf mehreren Stufen, ähnlich wie bei anderen Schlüsselzulieferern in Fertigungsketten.

00:05:07: Für die nächsten zwölf bis achtzehn Monate gibt es wenig Hinweise auf eine schnelle Verdrängung von Nvidia als Standardplattform.

00:05:15: Langfristig zeichnet sich ein sinkender Anteil an den Inferenz-Ausgaben ab.

00:05:21: Der Treiber liegt in der Größe der Nachfrage, mehrere Ökosysteme werden wirtschaftlich tragfähig.

00:05:28: Drei Kräfte schieben diese Entwicklung.

00:05:31: Erstens, alternative GPUs wie von AMD getragen durch große Ankerkunden.

00:05:37: Zweitens, spezialisierte Chips für vorhersagbare Serving-Workloads.

00:05:42: Drittens, Export-Internat-Chips der Hyperscaler, sobald Preis, Leistung und Verfügbarkeit überzeugen.

00:05:50: Bei Inferenz ist diese Heterogenität operativ, oft einfacher als beim Training.

00:05:56: Physikel-KI erhöht den Inferenzdruck weiter.

00:05:59: Auf der CES siehst du, wie KI aus dem Rechenzentrum in Robotik, autonome Systeme und die Umgebung wandert.

00:06:08: Solche Anwendungen sind hart bei Latenz und Zuverlässigkeit.

00:06:12: Das wertet Inferenzoptimierung weiter auf und erklärt die Plattformstrategien.

00:06:18: CES-Zweitausendsechsundzwanzig verschiebt den Wettbewerb vom Chip-Rennen zum Fabrik-Rennen.

00:06:25: Inferenzökonomie, Speicher, Lieferketten und Energiebestimmen, wer Intelligenz ausliefert.

00:06:32: Plattformen wie die Vera Rubin NVL-II, stehen als Rackscale-KI-Fabriken im Fokus, inklusive neuem Context Management, weil Datenbewegung zur zentralen Skalierungsgrenze wird.

00:06:46: Das Ziel bleibt allgegenwärtige KI, zuverlässig und kosteneffizient.

00:06:52: Von Softwareoberflächen bis Robotik.