PEDro-Skala lesen — eine praktische Anleitung für Therapeut:innen

Elf Items, eine Studie, eine Bewertung von null bis zehn. Die PEDro-Skala wirkt einfach — und ist es nicht. Warum die meisten Neuroreha-Studien nie über sieben Punkte hinauskommen, und wie sich der Score wirklich liest.

Eine RCT ist nicht eine RCT. Wer in einem klinischen Journal Club eine Studie zur robotergestützten Gangtherapie aufschlägt und den ersten Absatz der Diskussion liest, verlässt sich auf eine implizite methodische Vertrauensbasis — und diese Vertrauensbasis lässt sich quantifizieren. Die Physiotherapy Evidence Database (PEDro) hat dafür eine Skala etabliert, die in der internationalen Physiotherapie-Forschung zum Standard geworden ist. Sie ist auf den ersten Blick simpel: elf Items, je null oder ein Punkt, Gesamtscore null bis zehn. Auf den zweiten Blick ist sie ein präzises Instrument, das die Qualität einer Studie nicht abschließend bewertet, aber den methodischen Rahmen sauber abgrenzt.

Was die Skala ist und was sie nicht ist

Die PEDro-Skala basiert auf der Delphi-Liste der Maastricht-Konferenz von 1998 und wurde an der School of Physiotherapy der University of Sydney für den physiotherapeutischen Kontext adaptiert. Sie misst zwei Dinge: die interne Validität (sind die berichteten Effekte tatsächlich auf die Intervention zurückzuführen, oder gibt es methodische Verzerrungs-Quellen?) und die statistische Auswertbarkeit (lassen sich aus der berichteten Datenlage Aussagen über die Wirksamkeit treffen?).

Was die Skala explizit nicht misst: die externe Validität (Übertragbarkeit auf andere Settings) und die klinische Relevanz der gefundenen Effektgrößen. Eine 9/10-PEDro-Studie kann eine methodisch perfekte Untersuchung eines klinisch irrelevanten Outcomes sein. Wer den Score liest, ohne den Volltext zu lesen, verfehlt die Studie.

Die elf Items im Einzelnen

Das erste Item bewertet die Spezifikation der Einschlusskriterien. Es zählt nicht in den Gesamtscore — die PEDro-Skala hat zehn wertende Items plus dieses eine deskriptive — und ist trotzdem klinisch das wichtigste, weil es die externe Validität indiziert.

Item 2 — Randomisierung der Allokation. Wurden die Teilnehmer:innen zufällig auf die Gruppen verteilt? Methoden wie Münzwurf oder zufällige Zahlenfolge zählen. Eine alternierende Zuordnung („abwechselnd in Gruppe A und B”) oder eine Geburtsdatum-Zuordnung zählen nicht — sie sind quasi-randomisiert.

Item 3 — Verdeckte Allokation (Concealment). War die Gruppenzuteilung für die rekrutierende Person verborgen, bis die Patient:in eingeschlossen war? Praktisch heißt das: nummerierte, undurchsichtige, versiegelte Briefumschläge oder eine zentrale Telefon-Randomisierung. Das ist deshalb so wichtig, weil ohne verdeckte Allokation die Person, die die Patient:in einschließt, vorhersehen kann, in welcher Gruppe sie landen wird — und das verschiebt unbewusst die Patient:innen-Auswahl.

Item 4 — Vergleichbarkeit der Gruppen zu Studienbeginn. Waren die Gruppen in den prognostisch wichtigen Variablen ähnlich? Bei der Schlaganfall-Reha sind das typischerweise Alter, NIH Stroke Scale, betroffene Hemisphäre, Zeit seit Ereignis, prämorbider Barthel-Index. Ein Punkt wird vergeben, wenn die Studie diese Variablen berichtet und sie zwischen den Gruppen plausibel vergleichbar sind.

Item 5 — Verblindung der Patient:innen. In der Neuroreha praktisch nie erreichbar. Wer ein bilaterales Armtraining bekommt, weiß, dass beide Arme bewegt werden; wer eine Sham-tDCS bekommt, kann es manchmal erkennen. Außer in pharmakologischen Studien geben Neuroreha-RCTs hier nahezu immer null Punkte.

Item 6 — Verblindung der Therapeut:innen. Praktisch nie erreichbar. Therapeut:innen wissen, welche Intervention sie applizieren. Das ist die strukturelle Schwäche jeder Physiotherapie-RCT — und der Grund, warum eine 8/10-Studie in der Neuroreha oft das praktische Maximum ist.

Item 7 — Verblindung der Outcome-Assessor:innen. Hier liegt der entscheidende Hebel. Wenn die Person, die nach 6 Wochen den Fugl-Meyer-Score erhebt, nicht weiß, in welcher Gruppe die Patient:in war, ist eine zentrale Verzerrungs-Quelle ausgeschaltet. Studien, die diesen Punkt verfehlen, sind unter Verdacht — eine Therapeut:in, die weiß, dass sie ihre Intervention testet, scort unbewusst freundlicher.

Item 8 — Mindestens 85 Prozent Outcome-Daten für mindestens ein Schlüssel-Outcome. Wenn von 60 randomisierten Patient:innen nur 38 in der Endauswertung erscheinen, wird der Punkt nicht vergeben. Drop-out in der Neuroreha ist ein chronisches Problem (Wiedereinweisung, Tod, Entzug des Einverständnisses) — und 85 Prozent sind eine ehrliche Hürde.

Item 9 — Intention-to-Treat-Analyse. Wurden die Patient:innen in der Gruppe ausgewertet, der sie ursprünglich zugeteilt wurden — auch wenn sie die Intervention nicht oder nur teilweise erhalten haben? Per-Protocol-Analysen sind in Sonderfällen sinnvoll, aber ein methodisches Warnzeichen, wenn sie als Primärauswertung verwendet werden.

Item 10 — Statistischer Gruppenvergleich für mindestens ein Schlüssel-Outcome. Wird ein statistischer Test (t-Test, ANOVA, Mixed Model) zwischen den Gruppen berichtet, nicht nur Veränderungen innerhalb der Gruppen?

Item 11 — Punktschätzer und Streuungsmaße für mindestens ein Schlüssel-Outcome. Werden Mittelwerte mit Standardabweichungen oder Mediane mit Interquartilsbereichen berichtet, sodass eine Effektgröße ableitbar ist?

Warum Neuroreha-Studien selten 8/10 überschreiten

Die strukturelle Verblindungs-Lücke (Items 5 und 6) kostet jede Bewegungstherapie-RCT zwei Punkte. Wenn eine Studie sauber randomisiert, verdeckt alloziert, vergleichbare Gruppen hat, verblindet auswertet, mehr als 85 Prozent Daten hält, ITT analysiert und beide statistischen Anforderungen erfüllt, kommt sie auf 8/10 — und das ist hochwertige Evidenz.

Eine 6/10-Studie ist nicht schlecht — sie ist eine Studie, die methodisch ehrlich ist, aber zwei der Komfort-Items nicht erfüllt. Eine 8/10-Studie ist exzellent. Alles darüber ist die Ausnahme, die meist eine pharmakologische Begleitfrage hat.

In der Praxis lohnt es sich, zwei Schwellen im Kopf zu haben:

Ab 5/10 wird die Studie in der PEDro-Datenbank als „high quality” klassifiziert und ist in Meta-Analysen üblicherweise einschlussfähig.
Ab 7/10 ist die Studie methodisch belastbar genug, dass ihre Effektgrößen in Leitlinien-Empfehlungen verwertbar sind.

Drei Beispiele aus der Schlaganfall-Reha

Die ursprüngliche EXCITE-Studie zu CIMT (Wolf et al., JAMA) erreicht in der PEDro-Bewertung 8/10 — mit den erwartbaren Null-Punkten bei Patient:innen- und Therapeut:innen-Verblindung. Sie ist methodisch eines der Spitzenbeispiele der Neuroreha-Forschung.

Eine durchschnittliche Spiegeltherapie-RCT der mittleren Größenordnung (etwa 40 Teilnehmer:innen, Single-Site) liegt typischerweise zwischen 5/10 und 7/10. Häufige Stolperstellen: verdeckte Allokation nicht berichtet, Outcome-Assessor-Verblindung nur teilweise dokumentiert, Drop-out über 15 Prozent.

Eine pilotartige Studie zu einem neuen Stimulations-Protokoll mit 15 Teilnehmer:innen, ohne Sham-Kontrolle und ohne verblindete Auswertung, kann durchaus auf 4/10 oder darunter landen. Das macht die Studie nicht wertlos — sie ist möglicherweise eine ehrliche Pilot-Studie, die genau das tut, was sie soll: Effekt-Schätzer für die spätere RCT generieren. Sie sollte nur nicht als Grundlage für eine Praxis-Empfehlung gelesen werden.

PEDro versus GRADE — warum beides relevant ist

PEDro bewertet die einzelne Studie. GRADE (Grading of Recommendations Assessment, Development and Evaluation) bewertet den Gesamtkörper der Evidenz über mehrere Studien hinweg und integriert zusätzlich Effektgröße, Konsistenz, Direktheit und Publikations-Bias. Wer eine Cochrane-Review liest, liest GRADE-Bewertungen — und sieht oft eine hohe Anzahl methodisch solider PEDro-Studien, die in GRADE-Sprache als „low quality evidence” eingestuft werden. Der Grund ist meist Heterogenität (die Studien testen leicht unterschiedliche Protokolle) oder Indirektheit (die Outcomes der Studien sind nicht die Outcomes, die die Leitlinie eigentlich braucht).

Praktisch heißt das: PEDro sagt etwas über die methodische Qualität einer einzelnen Untersuchung — GRADE sagt etwas über das Vertrauen in die zusammengefasste Aussage. Beides braucht man.

Was die Praxis daraus mitnehmen sollte

Wer in einem klinischen Journal Club eine Neuroreha-Studie liest, kann in zwei Minuten zwei Dinge prüfen: den PEDro-Score (in der PEDro-Datenbank für die meisten Studien hinterlegt) und die Verblindung der Outcome-Assessor:innen (das ist das methodisch wichtigste der zehn wertenden Items in Verfahren, in denen Patient:innen und Therapeut:innen nicht verblindbar sind). Erst dann lohnt sich der Blick auf die Effektgröße.

Wer Studien selbst bewertet — etwa für eine Hausarbeit, eine Master-Thesis oder die kritische Lektüre für ein Klinik-Update — sollte zwei Hinweise beachten: Erstens lohnt sich der Vergleich mit der bereits vergebenen PEDro-Bewertung in der Datenbank, denn die offizielle Bewertung folgt einer strikten Lese-Regel, die im Alltag leicht zu übersehen ist. Zweitens ist die Skala bewusst konservativ — im Zweifel wird ein Punkt nicht vergeben.

Die PEDro-Skala löst nicht das Problem, dass Neuroreha-Studien schwer zu verblinden sind, und sie nimmt nicht der Therapeut:in die Aufgabe ab, die Studie selbst zu lesen. Sie tut etwas anderes — und das ist viel: Sie macht die methodische Vertrauensbasis vergleichbar. Wer sie zu lesen lernt, liest fortan jede Studie methodisch klarer als zuvor.

Ressort: Evidenz ¶

PEDro-Skala lesen — eine praktische Anleitung für Therapeut:innen

Was die Skala ist und was sie nicht ist

Die elf Items im Einzelnen

Warum Neuroreha-Studien selten 8/10 überschreiten

Drei Beispiele aus der Schlaganfall-Reha

PEDro versus GRADE — warum beides relevant ist

Was die Praxis daraus mitnehmen sollte

Weiter im Magazin.

Body-Weight-Support-Treadmill-Training nach Schlaganfall — was die Cochrane-Lage wirklich sagt

Transkranielle Gleichstromstimulation in der subakuten Phase — wo die Evidenz für tDCS heute steht

Bilaterales Armtraining nach Schlaganfall — Praxis-Übersicht zu modBATRAC und verwandten Protokollen