← Field Notes · 9. Februar 2026

Something Big Is Happening

AI-Agenten erledigen jetzt mehrstündige Expert:innen-Aufgaben autonom. Die Fähigkeitskurve verdoppelt sich alle 4–7 Monate. Shumer vergleicht den Moment mit der 'das klingt übertrieben'-Phase von Covid — nur mit größerer Tragweite.

Original: Matt Shumer (OthersideAI)

Wesentliche Insights

1 — Qualitätssprung Feb 2026: eine neue Ära

Ende 2025 hatten laut Shumer die besten Ingenieur:innen bereits den Großteil ihrer Coding-Arbeit an AI delegiert. Am 5. Feb 2026 kamen Modelle, die “alles davor wie eine andere Epoche aussehen lassen”. Wer AI in den letzten Monaten nicht ausprobiert hat, würde den heutigen Stand nicht wiedererkennen.

2 — METR-Daten: Verdopplungsrate beschleunigt sich

METR misst, wie lange real-world Tasks dauern, die ein Modell end-to-end ohne menschliche Hilfe löst. Vor einem Jahr: ~10 Minuten. Dann 1 Stunde, dann mehrere Stunden. Das jüngste Ergebnis (Claude Opus 4.5, Nov 2025): Aufgaben, die Expert:innen knapp 5 Stunden kosten. Verdopplungsrate: ~7 Monate, Tendenz Richtung 4 Monate.

3 — AI baut sich selbst: GPT-5.3 Codex

OpenAI schrieb in der technischen Dokumentation zu GPT-5.3 Codex (5. Feb 2026): “Our first model that was instrumental in creating itself.” Frühe Versionen haben eigenes Training debuggt und Deployment gemanagt. Für Shumer eine symbolisch entscheidende Schwelle — selbstverbessernde Systeme sind da.

4 — Urteilsvermögen statt nur Korrektheit

Die neuesten Modelle treffen Entscheidungen, die sich wie Judgment anfühlen — “ein intuitives Gespür für den richtigen Call, nicht nur den technisch korrekten”. Shumer beschreibt seine eigene Arbeit so: Er formuliert in Plain English, was er will, geht 4 Stunden weg und kommt zurück zu fertigem Output — kein Draft, sondern das Endprodukt.

5 — Die Covid-Analogie

“I think we’re in the ‘this seems overblown’ phase of something much, much bigger than Covid.” Er adressiert den Text explizit an “Non-Tech-Freunde und Familie” — das macht ihn zugänglich, aber auch angreifbar für den Vorwurf des Alarmismus.

6 — Handlungsempfehlung: Experimentieren, jetzt

Kernbotschaft an CNBC: “People in the workforce should start to use and experiment with AI tools so they can understand what’s coming.” Er impliziert, dass Zugang zu Premium-Modellen zum Differenzierungsfaktor wird — wer bezahlte Tools nutzt, wird schneller sein als wer nicht.

Kritische Einordnung

Was hält stand

Fähigkeitskurve ist real und datenbasiert (METR)
Self-improvement-Schwelle bei GPT-5.3 ist dokumentiert, nicht spekulativ
Aufforderung zum Experimentieren ist pragmatisch und verantwortbar
Fortune, Microsoft, DEV Community bestätigen: “Die Konversation, die die Industrie brauchte”

Was man einordnen muss

Interessenkonflikt: Shumer ist AI-CEO — Forbes nennt Teile des Textes “a sales pitch”
Tonalität: Fortune kritisiert “doomsday packaging”, das innovative Energie abwürgt
Track Record: Guardian erinnert an sein “world’s top open-source model”-Claim, der sich nicht bewahrheitete
Agency-Frage: DEV Community betont — es gibt “still a human hand on the tiller”. Trajectory hängt von menschlichen Entscheidungen ab (Funding, Regulierung, Infrastruktur)

Diskussionsfragen für das nächste Lab

01 Eigene Erfahrung matchen: Deckt sich die beschriebene Qualitätskurve mit dem, was wir in unseren Projekten sehen? Wo liegen die Gaps zwischen Shumers Darstellung und unserer Realität?

02 Service-Modell-Implikation: Wenn 5-Stunden-Tasks autonom lösbar werden — was ändert sich am Pricing, Staffing und Scoping unserer Fractional-Engagements?

03 Judgment vs. Handwerk: Shumers “AI hat jetzt Urteilsvermögen”-These — gilt das für Design-Entscheidungen? Wo bleibt menschliches Judgment unersetzbar?

04 Client Enablement: Wie bereiten wir unsere Kunden auf diese Shifts vor, ohne in den von Fortune kritisierten Alarmismus zu verfallen?

Quellen

Glossar

METR Organisation, die die Fähigkeiten von KI-Modellen anhand realer Aufgaben misst. Die Metrik erfasst, wie lange eine Aufgabe dauert, die ein Modell autonom — ohne menschliche Hilfe — lösen kann.

Self-Improvement Die Fähigkeit eines KI-Systems, an seiner eigenen Verbesserung mitzuwirken — etwa durch Debugging des eigenen Trainings oder Management des eigenen Deployments. GPT-5.3 Codex gilt als erstes dokumentiertes Beispiel.

Verdopplungsrate Das Zeitintervall, in dem sich die messbaren Fähigkeiten von KI-Modellen verdoppeln. Laut METR-Daten aktuell bei etwa 7 Monaten, mit Tendenz Richtung 4 Monate.