Die versteckten Kosten manueller Auswertung: Warum automatisierte Testauswertung wichtig ist

Sie sind ein erfahrener Kliniker. Sie können einen PHQ-9 im Schlaf auswerten. Neun Zahlen addieren, den Schweregradbereich prüfen, fertig. Was soll da schiefgehen?

Mehr als Sie denken. Studien zeigen durchgängig, dass Auswertungsfehler bei der manuellen Bearbeitung klinischer Fragebögen deutlich häufiger vorkommen, als Kliniker erwarten -- mit realen Konsequenzen für die Patientenversorgung.

Wie häufig sind Auswertungsfehler?

Studien zu manuell ausgewerteten klinischen Fragebögen finden Fehlerquoten zwischen 15 % und 25 %. Das bedeutet: Etwa jede fünfte manuell ausgewertete Erhebung enthält einen Fehler.

Die meisten Fehler sind gering: eine 2 statt einer 3 für ein Item, eine Summe von 14 statt der korrekten 15. Viele sind klinisch irrelevant. Aber ein relevanter Anteil verändert die Schweregradeinstufung -- ein Patient mit tatsächlich 10 Punkten (mittelgradige Depression), der als 8 (leicht) oder 12 (mittelgradig) erfasst wird, beeinflusst klinische Entscheidungen.

Die Fehler sind selten dramatisch. Es sind die alltäglichen Flüchtigkeitsfehler, die beschäftigte Fachleute bei einfacher Arithmetik während eines vollen Praxistags machen: Handschrift falsch lesen, ein Item in der Summe überspringen, zwei Ziffern vertauschen, vergessen, ein Item umzupolen, bei Instrumenten, die das erfordern.

Wo Fehler die größten Auswirkungen haben

An der Schweregradgrenze. Ein Auswertungsfehler, der einen Patienten auf dem PHQ-9 von 9 auf 11 verschiebt, überschreitet die Schwelle von leichter zu mittelgradiger Depression. Diese Grenze kann bestimmen, ob eine Medikation besprochen wird, ob die Behandlungsintensität steigt oder ob der Patient enger überwacht wird.

Bei der Veränderungsmessung. Wenn der tatsächliche Wert eines Patienten von 16 auf 12 gefallen ist (eine klinisch bedeutsame Verbesserung um 4 Punkte), Auswertungsfehler aber 16 auf 14 ergeben (eine 2-Punkte-Veränderung innerhalb des Messfehlers), entgeht dem Kliniker möglicherweise ein echtes Therapieansprechen.

Bei Risikoitems. Instrumente mit Risikoitems (Suizidalität im PHQ-9, Selbstverletzungsitems im CORE-OM) erfordern eine korrekte Auswertung aus Sicherheitsgründen. Ein falsch ausgewertetes Risikoitem ist ein klinisches Sicherheitsproblem, nicht nur eine Frage der Datenqualität.

Bei komplexen Instrumenten. Instrumente mit Subskalen, umgepolten Items oder nicht-standardmäßigen Auswertungsalgorithmen (wie die Reduktion der 6-stufigen auf eine 4-stufige Bewertung beim EAT-26, die Verdopplung der Werte beim DASS-21 oder die multiplen Subskalen des SDQ) sind besonders fehleranfällig. Je mehr Rechenoperationen und Regeln beteiligt sind, desto mehr Fehlermöglichkeiten entstehen.

Über Arithmetik hinaus: Interpretationsfehler

Auswertungsfehler sind nur eine Kategorie der Probleme bei manueller Auswertung. Interpretationsfehler kommen hinzu:

Falsch erinnerte Grenzwerte. Liegt der PHQ-9-Grenzwert für mittelgradige Depression bei 10 oder 12? Liegt der GAD-7-Grenzwert für schwere Angst bei 15 oder 16? Kliniker, die mehrere Instrumente einsetzen, verwechseln möglicherweise Grenzwerte, was selbst bei korrekten Summen zu falschen Schweregradeinstufungen führt.

Veraltete Normen. Manche Instrumente haben im Laufe der Zeit aktualisierte Auswertungsrichtlinien erhalten. Kliniker, die auswendig gelernte Grenzwerte aus ihrer Ausbildung verwenden, wenden möglicherweise veraltete Kriterien an.

Fehlende populationsspezifische Anpassungen. Manche Instrumente haben unterschiedliche Grenzwerte für verschiedene Populationen (z. B. die niedrigeren Schwellenwerte des AUDIT für Frauen oder die altersadjustierten SDQ-Normen). Diese Anpassungen zu erinnern und korrekt anzuwenden, erhöht die kognitive Belastung bei der manuellen Auswertung.

Das Argument für automatisierte Auswertung

Automatisierte Auswertung eliminiert jede einzelne dieser Fehlerquellen:

Die Arithmetik ist immer korrekt. Computer verzählen sich nicht, überspringen keine Items und vertauschen keine Ziffern. Eine Summe von 9+3+2+1+0+2+3+1+2 wird immer als 23 berechnet, unabhängig davon, wie voll der Praxistag war.

Umpolung wird automatisch berücksichtigt. Instrumente mit umgepolten Items (wie die Prosozial-Subskala des SDQ) werden jedes Mal korrekt ausgewertet, ohne dass sich der Kliniker merken muss, welche Items umzupolen sind.

Schweregradeinstufungen verwenden korrekte, aktuelle Grenzwerte. Der Auswertungsalgorithmus wendet jedes Mal den richtigen Grenzwert für das richtige Instrument an, ohne auf Erinnerung angewiesen zu sein.

Subskalenberechnungen sind korrekt. Komplexe Instrumente wie der DASS-21 (drei Subskalen mit Verdopplung), der CORE-OM (vier Domänen mit unterschiedlichen Itemsets) und der SDQ (fünf Subskalen) werden über alle Bereiche hinweg korrekt ausgewertet.

Die Auswertung erfolgt sofort. Ergebnisse stehen in dem Moment zur Verfügung, in dem der Patient seine Antworten abgibt. Keine Verzögerung zwischen Durchführung und klinischer Nutzung, kein Auswertungsstau am Ende des Tages.

Was Automatisierung nicht ersetzt

Automatisierte Auswertung übernimmt den mechanischen Teil der Diagnostik -- die Addition, den Vergleich mit Grenzwerten, die Schweregradeinstufung. Sie ersetzt nicht:

Klinische Interpretation. Ein Wert von 15 auf dem PHQ-9 bedeutet für verschiedene Patienten in verschiedenen Kontexten Unterschiedliches. Die klinische Einschätzung, was mit dem Wert zu tun ist, bleibt unverzichtbar.

Itemebene-Review. Automatisierte Auswertung liefert typischerweise Gesamt- und Subskalenwerte, aber der Kliniker sollte weiterhin einzelne Items prüfen -- insbesondere Risikoitems und Items, die das Symptomprofil innerhalb des Gesamtwerts verdeutlichen.

Das therapeutische Gespräch. Werte mit Patienten besprechen, Diskrepanzen zwischen Werten und klinischem Erscheinungsbild erkunden und Werte zur Steuerung von Behandlungsentscheidungen nutzen -- das sind menschliche klinische Tätigkeiten. Automatisierung übernimmt die Mathematik; der Kliniker übernimmt die Bedeutung.

Eine Frage der Versorgungsqualität

Automatisierte Auswertung als Komfortfunktion einzuordnen, unterschätzt ihre Bedeutung. Korrekte Auswertung ist eine Frage der Versorgungsqualität. Wenn jede fünfte manuell ausgewertete Erhebung einen Fehler enthält und ein Teil dieser Fehler klinische Entscheidungen beeinflusst, ist die kumulative Auswirkung auf die Patientenversorgung einer Praxis -- oder der gesamten Versorgungslandschaft -- erheblich.

Der Wechsel von manueller zu automatisierter Auswertung dient nicht dazu, Klinikern das Leben leichter zu machen (obwohl er das tut). Er dient dazu, sicherzustellen, dass die klinischen Entscheidungen, die auf Diagnostikdaten aufbauen, auf korrekten Diagnostikdaten aufbauen.