So ein oder zwei erläuternde Sätze dazu fände ich hilfreich.
Wenn man eine Korrelation aus vorliegenden Daten ermitteln möchte, kann man das nur mit einer bestimmten Unsicherheit tun. Nimmt man beispielsweise zwei Mengen von Zufallswerten, könnten sie ja auch bei einer kleinen Stichprobe zufällig scheinbar korrelieren. Also muss sich ein Statistiker immer überlegen, mit welcher Zuverlässigkeit (=Konfidenzintervall) er seine Aussagen treffen möchte. Wenn ein Statistiker dann sagt "das korreliert", meint er meist "das korreliert mit 95% Sicherheit".
In der Praxis bedeutet das, dass das Vorgehen bei der Suche nach der Korrelation wichtig ist. Macht man das ordentlich, dann überlegt man sich erst, was korrelieren könnte und prüft danach. Wenn dann tatsächlich die Messwerte eine Korrelation ergeben, darf man von "zu 95%" sicher reden.
Arbeitet man nicht sauber, wirft man einfach einen Haufen Werte in ein Statistiktool und sucht ungesteuert nach beliebigen Korrelationen.
Macht man das mit 20 verschiedenen Werten, gibt es ca. 200 mögliche Kombinationsmöglichkeiten, bei denen eine Korrelation gefunden werden könnte. Selbst wenn es überhaupt keinen Zusammenhang zwischen den Werten gibt, spuckt das Statistiktool bein einem Konfidenzintervall von 95% in 5% der Fälle eine falsche Erfolgsmeldung aus. Oft genug stellt sich der Untersuchende dann hin, und faselt etwas von "diese 10 Kombinationen korellieren mit 95% Wahrscheinlichkeit". Das ist dann natürlich offensichtlicher Blödsinn.
Es gibt sogar eine "Studie" dazu, in der Forscher genau das absichtlich gemacht haben: 20 Werte aus einer bestimmten Region mit 90% Konfidenzintervall. Das gab nicht weiter überraschend 20 Korrelationen. Diese 20 haben sie dann mit Werten aus einer anderen Region "überprüft". Übrig blieben wie zu erwarten zwei Korrelationen. Aber von denen könnte man behaupten, dass sie in zwei voneinander unabhängigen Untersuchungen bestätigt wurden 