GPT-5 in Microsoft 365 Copilot -- Was sich für Entwickler ändert

GPT-5 in Microsoft 365 Copilot -- Was sich für Entwickler ändert

Letzte Woche hab ich bei einem Kunden einen Declarative Agent vorgeführt. Der Agent hat gut funktioniert – solide Antworten, ordentliches Reasoning, nichts zu meckern. Dann hat Microsoft am 7. August den Schalter für GPT-5 in M365 Copilot umgelegt. Ich hab den exakt gleichen Agent mit den exakt gleichen Prompts laufen lassen, und die Antworten waren merklich anders. Besser, meistens. Aber anders. Und “anders” in Produktion heißt, du solltest besser verstehen, was sich geändert hat.

Also hier ist, was tatsächlich passiert ist, was das bedeutet wenn du auf dem Zeug aufbaust, und was du jetzt sofort testen solltest.

Wie GPT-5 in Copilot verdrahtet ist

Microsoft hat nicht einfach GPT-4o gegen GPT-5 ausgetauscht und Feierabend gemacht. Die Integration ist interessanter als das. GPT-5 kommt mit einem Real-Time Router, der für jeden einzelnen Prompt die richtige Modellvariante auswählt.

Unter der Haube gibt es zwei Modi:

  • High-Throughput Model – schnell, leichtgewichtig, optimiert für Routinefragen. Denk an “fass diese E-Mail zusammen” oder “was steht morgen in meinem Kalender.” Geschwindigkeit hat hier Priorität.
  • Deep Reasoning Model – langsamer, überlegter, gebaut für komplexe Multi-Step Tasks. Planung, Analyse, uneindeutige Situationen. Hier zeigt sich die neue Intelligenz.

Der Router entscheidet automatisch, welchen Modus er basierend auf der Prompt-Komplexität nutzt. In Copilot Chat steuerst du das nicht direkt – aber in Copilot Studio schon.

User sehen einen “Try GPT-5” Button in Copilot Chat. Sobald sie den aktivieren, übernimmt GPT-5 diese Session. Microsoft hat gesagt, dass GPT-5 künftig das Default-Modell wird.

Was das für Declarative Agents bedeutet

Declarative Agents laufen auf dem Copilot Orchestrator, also bekommen sie das GPT-5 Upgrade automatisch, ohne dass du auf deiner Seite Code ändern musst. Klingt super, oder? Größtenteils ja.

Der Haken: GPT-5 folgt Instructions mit dem, was OpenAI “surgical precision” nennt. Es ist deutlich empfindlicher gegenüber widersprüchlichen oder vagen Instructions als GPT-4o. Wo das alte Modell einfach eine Interpretation genommen und losgelegt hat, verbringt GPT-5 tatsächlich Reasoning Tokens damit, Konflikte in deinen Instructions abzugleichen. Wenn deine Declarative Agent Instructions also Unklarheiten oder Widersprüche haben, siehst du möglicherweise schlechtere Performance, nicht bessere.

Ich bin drei meiner Declarative Agent Manifests durchgegangen und hab in jedem mindestens eine widersprüchliche Instruction gefunden. Ein Agent hatte eine Regel “always respond in the user’s language” und eine andere “format output in English.” GPT-4o hat den Konflikt einfach ignoriert. GPT-5 hat damit gekämpft.

Schritt eins nach dem Rollout: Deine Agent Instructions auf Konflikte prüfen.

Custom Engine Agents – weniger betroffen, mehr Möglichkeiten

Custom Engine Agents nutzen ihre eigenen Modelle und Orchestrierung, also ändert GPT-5 in Copilot nicht direkt, wie sie funktionieren. Dein Custom Engine Agent nutzt weiterhin das Modell, das du konfiguriert hast.

Trotzdem gibt es hier eine indirekte Chance. Wenn du Custom Engine Agents baust, weil Copilots Reasoning für dein Szenario nicht gut genug war, könnte es sich lohnen, das nochmal zu evaluieren. GPT-5s Deep Reasoning Model kommt mit Multi-Step Logik und uneindeutigen Situationen deutlich besser zurecht. Manche Szenarien, die früher einen Custom Engine Agent brauchten, könnten jetzt mit einem gut gebauten Declarative Agent funktionieren – und der ist günstiger und einfacher zu warten.

Was Entwickler jetzt sofort testen sollten

Wenn du Agents oder Copilot Extensions in Produktion hast, hier ist meine Checkliste:

  1. Lass deine bestehenden Prompts unverändert laufen. Vergleich die GPT-5 Antworten mit dem, was du vorher hattest. Schau auf Verhaltensunterschiede, nicht nur Qualitätsunterschiede.
  2. Prüf auf Instruction Conflicts. Geh jede Instruction in deinen Declarative Agent Manifests durch. Entferne Widersprüche. Leg klare Hierarchien fest, wenn Regeln kollidieren könnten.
  3. Teste Edge Cases härter. GPT-5 ist besser im Reasoning, aber auch wörtlicher. Prompts, die darauf vertraut haben, dass das Modell “es schon irgendwie checkt”, müssen jetzt vielleicht expliziter sein.
  4. Validiere Multi-Turn Conversations. GPT-5 hat verbesserte Kohärenz über Konversations-Turns hinweg, was super ist, aber es trägt auch mehr Kontext weiter – und das kann gelegentlich zu unerwartetem Verhalten führen, wenn frühere Turns Fehler enthielten.
  5. Überwache Antwortzeiten. Das Deep Reasoning Model ist langsamer. Wenn deine User Sub-Second Responses gewöhnt sind und GPT-5 ihren Prompt ans Reasoning Model routet, werden sie die Latenz bemerken.

Performance- und Genauigkeitsverbesserungen

Die Verbesserungen sind echt. Ich hab das über mehrere Enterprise-Szenarien getestet und hier ist, was ich gesehen hab:

Instruction Following ist merklich besser geworden. GPT-5 macht, was du ihm sagst. Jeder, der Agents gebaut hat, weiß wie viel Prompt Engineering nötig war, um GPT-4o dazu zu bringen, komplexe Instructions zuverlässig zu befolgen – also allein das ist schon ein großer Sprung.

Multi-Turn Kohärenz hat sich auch verbessert – das Modell behält den Kontext über längere Konversationen, ohne frühere Einschränkungen aus den Augen zu verlieren.

Das High-Throughput Model hat längere Context-Unterstützung, was bessere Ergebnisse liefert, wenn dein Agent über große SharePoint Dokumente oder lange E-Mail-Threads reasoned. Und uneindeutige Anfragen werden besser behandelt, weil das Reasoning Model die Mehrdeutigkeit tatsächlich durcharbeitet statt zu raten. Das ist in Business-Szenarien enorm wichtig, wo User-Anfragen selten sauber formuliert sind.

GPT-5 in Copilot Studio

Für Copilot Studio Builder ist das August Update ehrlich gesagt ein größerer Deal als das Copilot Chat Upgrade. Microsofts Copilot Studio Blog Post geht auf die Details ein, aber die Headline ist: Du hast jetzt explizite Modellauswahl:

  • GPT-5 Auto – nutzt den Real-Time Router, um pro Prompt zwischen High-Throughput und Deep Reasoning zu wählen. Guter Default für die meisten Agents.
  • GPT-5 Reasoning – zwingt den Agent, primär das Deep Reasoning Model zu verwenden. Nutz das, wenn dein Agent komplexe Business-Logik, Planung oder Analysen macht.

Du kannst GPT-5 auch in Custom Prompt Actions nutzen. Früher waren Custom Prompts auf das Default-Modell von Copilot Studio beschränkt. Jetzt kannst du einen bestimmten Prompt Node auf GPT-5 Reasoning zeigen für die Schritte, die schweres Denken brauchen, während der Rest des Agent Flow das schnellere Modell nutzt. Das ist ein großer Deal für alles mit gemischter Komplexität.

Ein praktisches Beispiel: Ich hab einen Agent gebaut, der Vertragsklauseln prüft. Der initiale Klassifizierungsschritt (was für eine Art von Klausel ist das?) funktioniert perfekt mit dem High-Throughput Model. Aber der Compliance-Analyseschritt (entspricht diese Klausel unseren internen Richtlinien?) profitiert massiv vom Reasoning Model. Mit GPT-5 Auto in Copilot Studio handhabt der Router diesen Split automatisch. Mit GPT-5 Reasoning kannst du es für die kritischen Schritte erzwingen.

Beachte, dass GPT-5 in Copilot Studio per August 2025 als “experimental” zuerst in Early Release Cycle Environments gelauncht ist, mit General Availability die später ausrollt. Prüf die Release Cycle Einstellung deines Tenants.

Kostenauswirkungen – Message Packs und PAYG

Jetzt zur Geldseite. GPT-5 kann mehr, aber das Reasoning Model ist auch teurer im Betrieb.

In Copilot Studio funktioniert die Abrechnung über Copilot Credits:

  • Eine Standard Generative Answer kostet 2 Credits.
  • Wenn ein Agent ein Reasoning Model nutzt, gibt es einen zusätzlichen Premium-Aufschlag: 100 Credits pro 10 Responses für den “Text and generative AI tools (premium)” Meter.
  • Ein Credit entspricht $0,01 bei Pay-as-you-go Pricing.

Bei Message Packs bekommst du 25.000 Credits für $200 pro Monat. Pay-as-you-go rechnet mit $0,01 pro verbrauchtem Credit ab.

In der Praxis? Wenn dein Agent die meisten Prompts ans Reasoning Model routet, steigen die Kosten. Wenn der Router das High-Throughput Model für Routineanfragen nutzt und nur bei Bedarf ans Reasoning eskaliert, ist der Anstieg überschaubar. GPT-5 Auto ist von Haus aus auf Kosteneffizienz ausgelegt.

Meine Empfehlung: Starte mit GPT-5 Auto und überwache deinen Credit-Verbrauch im Admin Center, bevor du flächendeckend auf GPT-5 Reasoning umstellst. Microsoft stellt auch ein Usage Estimator Tool bereit, mit dem du Kosten vor dem Deployment modellieren kannst.

Prompt Engineering in der GPT-5 Ära

Das ist wahrscheinlich die größte Veränderung in der täglichen Arbeit. GPT-5 belohnt Präzision und bestraft Unklarheit. Ein paar praktische Sachen:

Schmeiß den Füller raus. Phrasen wie “You are a world-class expert” oder “Take a deep breath and think step by step” – GPT-5 behandelt das als Rauschen. Es braucht keine Ermutigung. Es braucht eine klare Spec.

Sei explizit beim Output Format. GPT-5 folgt Formatierungs-Instructions genau. Wenn du Bullet Points willst, sag es. Wenn du ein bestimmtes JSON Schema willst, gib es an. Das Modell wird deine Spezifikation enger einhalten als GPT-4o das getan hat.

Aufpassen bei Over-Conciseness. GPT-5 ist von Natur aus weniger geschwätzig. Wenn deine alten Prompts “be concise” enthielten, bekommst du jetzt vielleicht zu kurze Antworten. Entsprechend anpassen.

Verwende strukturierte Tags. XML-Style Tags wie <instructions> oder <context> verbessern die Instruction Adherence. Nicht zwingend nötig, aber es hilft dem Modell, komplexe Prompts zu parsen.

Löse Instruction-Hierarchien auf. Wenn Regeln konfligieren, pickt sich GPT-5 nicht einfach eine raus. Es versucht sie abzugleichen, was Reasoning Tokens kostet und oft schlechtere Ergebnisse produziert. Leg explizite Prioritäten fest: “If rule A and rule B conflict, rule A takes precedence.”

Nutz den Verbosity Parameter. In Copilot Studio Custom Prompts kannst du jetzt Antwortlänge separat vom Reasoning Effort steuern. Das gibt dir granularere Kontrolle als vorher.

Ausblick

GPT-5 in M365 Copilot ist ein größerer Deal als ein typischer Modelltausch. Der Real-Time Router verändert, wie Copilot Prompts verarbeitet, und die Copilot Studio Modellauswahl gibt Buildern echte Kontrolle darüber, welches Intelligenz-Level ihre Agents nutzen. Diese Kombination ist wichtig.

Wenn du Entwickler bist, geh hin und prüf deine bestehenden Agents und teste sie. Dann schau dir Szenarien an, die vorher zu komplex für Declarative Agents waren – manche davon könnten jetzt in Reichweite sein. Ich glaube, Prompt Engineering bewegt sich von “das Modell dazu überreden, das zu tun was du willst” hin zu “eine präzise Spezifikation schreiben und das Modell ausführen lassen.” Dieser Shift passiert bereits.

Microsoft hat das am gleichen Tag ausgerollt, als OpenAI das Modell released hat, was dir einiges über das Tempo sagt. Teste deine Agents, und behalte die Credit Consumption Zahlen im Auge.

Weiterlesen

Enjoyed this post? Let's connect on LinkedIn:

Follow on LinkedIn →