Navigation

A) Stichprobengroesse, Standardabweichung und Standardfehler, Signifikanztest

Die wichtigsten Formeln der beschreibenden Statistik haben wir schon am letzten Kurstag gesehen. Fuer N normalverteilte Messwerte x1 bis xn ermittelt man den empirischen Mittelwert als

Mittelwert

und die empirische Standardabweichung als

Bild

Auch wenn es keine schlechte Uebung ist, diese Formeln einmal in Matlab umzusetzen, kann man stattdessen auch einfach die Befehle mean und std benutzen.

Allerdings ist bei der Berechnung von Mittelwert und Standardabweichung von Messwerten Vorsicht geboten: Man kennt nur eine begrenzte Stichprobe, die nicht unbedingt die gesamte Population repraesentieren muss. Je groesser diese Stichprobe ist, desto sicherer kann man sich sein, den tatsaechlichen Werten der ganzen Population nahe zu kommen.

Um abzuschaetzen, wie gut verwendete Stichprobengroessen eine Population charakterisieren, verwendet man den Standardfehler des Mittelwerts (standard error of the mean, SEM). Dieses Mass gibt die Streuung der Mittelwerte von verschiedenen, zufaellig aus der Population gezogenen gleich grossen Stichproben um den Erwartungswert (den wahren Populationsmittelwert) an. Der Standardfehler der Mittelwerte ist definiert als

Standardfehler

Wobei n die Groesse der Stichproben angibt (nicht die Anzahl der Stichproben!) und σ die Standardabweichung der Verteilung (diese ist normalerweise nicht bekannt und muss wie oben beschrieben empirisch geschaetzt werden).

Sehr haeufig ist bei der Auswertung Biologischer Daten nach Signifikanz gefragt. Wir haben im Kurs leider keine Zeit, umfangreich auf Signifikanztests und ihren mathematischen Hintergrund einzugehen, sondern werden nur mit zwei einfachen Beispielen die Anwendung von Signifikanztests in Matlab zeigen. Signifikanztests sind nicht im Standard-Programmunfang von Matlab enthalten, sondern finden sich in der Toolbox "statistics" (die hoffentlich auf allen Rechnern im Raum instaliert sein sollte.)

Das erste Beispiel ist der t-Test fuer den Erwartungswert einer normalverteilten Stichprobe. Bei diesem Test ist die Nullhypothese, dass eine Menge von Messwerten (unabhaengige, normalverteilte Zufallsvariablen) einer Verteilung mit einem gegebenen Mittelwert μ0 und unbekannter Varianz entstammt, also dass μ0 = μ. Dafuer wird mit dem empirischen Stichprobenmittelwert Bild (s.o.) und der empirischen Stichprobenstandardabweichung s (s.o., dort als sx bezeichnet) die Testpruefgroesse t berechnet:

t-test

Die Nullhypothese μ0 = μ wird zum Signifikanzniveau α abgelehnt, wenn

Bild

 also der Betrag von t groesser dem (1 - \tfrac{\alpha}{2})-Quantil der t-Verteilung mit n − 1 Freiheitsgraden (diese sind normalerweise in Tabellen abgelegt und Matlab natuerlich bekannt). In Matlab wird dieser Test durch den Befehl ttest umgesetzt (die Interpretation nimmt Matlab einem aber natuerlich nicht ab.)

Die Syntax lautet h=ttest(vektor,mittelwert) bzw h=ttest(vektor,mittelwert,alpha), der Rueckgabewert ist 1 wenn die Nullhypothese abgelehnt wird (also wenn der erwartete und der  empirische Mittelwert verschieden sind), sonst ist er 0.

Das zweite Beispiel ist ein t-Test fuer zwei unabhaengige Stichproben, ttest2. Bei diesem lautet die Nullhypothese, dass zwei Stichproben x und y zwei Normalverteilungen mit gleichem Mittelwert (aber eventuell verschiedener Varianz) entstammen, also H0: μx = μy. Hierzu wird mit den empirischen Stichprobenvarianzen und Stichprobenmittelwerten die sogenannte gewichtete Varianz

Bild

bestimmt, um damit die Pruefgroesse

Bild

zu berechnen. Mittels der Ungleichung

Bild

wird ueberprueft, ob die Nullhypothese zum Signifikanzniveau α abgelehnt werden kann und somit von einem signifikanten Unterschied der beiden Stichproben ausgegangen werden kann.

Die Syntax lautet h=ttest2(vektor1,vektor2) bzw h=ttest2(vektor1,vektor2,alpha), 

T7A1) Sie haben die Aufgabe, das Fressverhalten von Maeusen zu charakterisieren. Dazu  fuettern Sie die Maeuse ausschliesslich mit genorment Futterpellets und zaehlen taeglich, wieviele Pellets aus dem Futterbehaelter verschwinden.

a) Schreiben Sie eine Funktion, die zufaellig die Anzahl der von einer Maus gefressenen Pellets ermittelt und zurueckgibt. Dabei soll der Mittelwert der gesamten Maeusepopulation 30 Pellets und die Standardabweichung 5  Pellets betragen.

b) Benutzen Sie diese Funktion in einer weiteren Funktion, die als Eingabeargument die Stichprobengroesse bekommt und als Ausgabe die ermittelten Werte fuer Mittelwert und Standardabweichung zurueckgibt. Ausserdem soll diese Funktion die Verteilung der Werte grafisch als Histogramm darstellen.

c) Lassen Sie diese Funktion fuer verschiedene Stichprobengroessen laufen, z.B. N=1; N=3; N=5; N=10; N=20; N=50; N=100; N=1000. Wie wirkt sich die Stichprobengroesse auf Mittelwert, Standardabweichung und Histogramm aus? 

*T7A2) Programmieren Sie eine Funktion, die fuer Sie eine ganze Messreihe des Maeusefressverhaltens steuert. Die Funktion bekommt als Eingabeargumente die jeweilige Stichprobengroesse (also wieviele Maeuse pro Tag beobachtet werden sollen) und die Anzahl der Stichproben (also an wievielen Tagen gezaehlt werden soll) und liefert als Rueckgabewert den Standardfehler des Mittelwerts. Ausserdem zeigt sie die Verteilung der erzielten Mittelwerte als Histogram grafisch an.

Probieren Sie diese Funktion fuer verschiedene Kombinationen aus Stichprobengroesse und Anzahl der Stichproben aus, z.B. 3 Stichproben mit 3 Tieren, 10 Stichproben mit 3 Tieren, 3 Stichproben mit 10 Tieren, 10 Stichproben mit 10 Tieren, 10 Stichproben mit 100 Tieren, 100 Stichproben mit 10 Tieren, 100 Stichproben mit 100 Tieren, 1000 Stichproben mit 10 Tieren, 10 Stichproben mit 1000 Tieren. Wie wirken sich die beiden Parameter auf den Standardfehler des Mittelwerts aus? Wie auf die Verteilung der Mittelwerte?

T7A3) Die vorige Aufgabe war insofern unrealsistisch, als alle Tiere statistisch gleich viel Hunger hatten. Natuerlich gibt es aber bei echten Tieren individuelle Unterschiede. In folgender Matrix sind die Messungen von 30 Tieren an 30 Tagen dargestellt, wobei die Werte eines Tieres jeweils in der gleichen Zeile stehen: [pellets.mat]  bzw [pellets_v6.mat]

Schreiben Sie ein Skript, das die Mittelwerte und Standardabweichungen einerseits zwischen den Tagen, andererseits zwischen den Tieren berechnet und diese in zwei Abbildungen grafisch darstellt. Der Befehl, um eine Kurve mit Fehlerbalken zu zeichnen heisst errorbar(x,mw,standabw), wobei mw der Vektor der Mittelwerte ist, der gegen den Vektor x aufgetragen wird und standabw ist der Vektor der Standardabweichungen, die als symmetrische Balken zu beiden Seiten des Mittelwerts aufgetragen werden. 

Inwiefern unterscheiden sich die Ergebnisse fuer die beiden Arten, Mittelwerte und Standardabweichungen zu berechnen (zwischen Tagen vs. zwischen Tieren)?

Berechnen Sie fuer beide Wege den resultierenden Standardfehler des Mittelwerts. 

*)Fuehren Sie die gleichen Berechnungen noch einmal fuer folgende Messreihe durch [pellets2.mat] oder [pellets2_v6.mat], in der ebenfalls die Daten eines Tieres jeweils in einer Zeile stehen. Was sind die Unterschiede?

T7A4) Ein superschlauer Futtermittelhersteller behauptet, dass eine Maus im Durchschnitt 32 Futterpellets am Tag frisst.
a) Ueberpruefen Sie diese Aussage fuer ein Signifikanzniveau von 5% fuer Ihre gesamte Maeusepopulation anhand der Messdaten pellets und pellets2.
b) Wie sieht es bei einem Signifikanzniveau von 10% aus?
*c) Trifft die Behauptung auf irgendeine der Maeuse zu? Fuer welches Niveau?

T7A5) Untersuchen Sie fuer einen Ihrer beiden Datensaetze:
a) Haben die ersten beiden Maeuse signifikant unterschiedliche Mengen gefressen?
b) Sind am ersten und am fuenften Tag von der gesamten Maeusegruppe signifikant unterschiedlich viele Pellets gefressen worden?
*c) Gibt es Unterschiede zwischen irgendeinem Maeusepaar?
*d) Gibt es Unterschiede zwischen irgendeinem Paar von Tagen? 

B) Auswirkung von Abtastraten

T7B1) Plotten Sie eine Parabel:  x=-5:1:5, y=x.^2, plot(x,y)
Was faellt Ihnen an dieser Parabel auf? Machen Sie die einzelnen Punkte sichtbar.
Machen Sie die Schritte kleiner und plotten Sie die Parabel erneut.
Erstellen Sie einen gemeinsamen plot, bei dem die oben erzeugten Werte mit einzelnen Punkten und die Werte fuer x_fein=-5:0.01:5 mit einer durchgezogenen Linie in eine Abbildung gezeichnet werden.

T7B2) Wenn eine kontinuierliche Groesse gemessen wird, ist die Wahl der Abtastrate eine wichtig - zu geringe Abtastraten koennen zu grundlegend falschen Ergebnissen fuehren. Dieser Effekt soll mit folgendem Skript verdeutlicht werden:
[aliasing_effekt.m]

Versuchen Sie das Skript nachzuvollziehen. Warum kann das urspruengliche Signal am Schluss nicht mehr rekonstruiert werden? 

C) Sortieren

T7C1) Es kommt haeufig vor, dass man Daten nicht in der Reihenfolge belassen moechte, wie man sie gewonnen hat, sondern nach bestimmten Kriterien sortieren. Dazu gibt es in Matlab den praktischen Befehle sortrows. m2=sortrows(m1,n) sortiert die Zeilen der Matrix m1 gemaess ihren Eintraegen in der n-ten Spalte in aufsteigender Reihenfolge. [m2,index]=sortrows(m1,n) gibt zusaetzlich einen Vektor der Indizes zurueck.

Erzeugen Sie sich aus den in Aufgabe T7A3) gewonnen Mittelwerten und Standardabweichungen der einzelnen Tiere eine Matrix. Sortieren Sie diese Matrix einmal nach den Mittelwerten und einmal nach den Standardabweichungen und lassen beide mit errorbar grafisch anzeigen.  

D) Hausaufgaben 

T7H1) Benutzen Sie das am zur Aufgabe T4H8 entstandene Programm (wenn Sie selber die Aufgabe nicht geloest haben, laden Sie sich eine Musterloesung herunter: vogeltabelle_insa.m), um sich eine Matrix gefangener Voegel zu erstellen. Sortieren Sie diese so, dass, zuerst die Amseln, dann die Rotkehlchen und zuletzt die Meisen in der Matrix stehen, wobei innerhalb dieser Gruppen jeweils zuerst die Maennchen und dann die Weibchen aufgelistet werden. Die Tiere einer Art und eines Geschlechts sollen jeweils nach dem Gewicht sortiert sein.

*T7H2) Generieren Sie sich 10 Vogelfang-Matrizen und berechnen Sie fuer jede Kombination von Art und Geschlecht jeweils Mittelwerte und Standardabweichungen des Gewichts, sowie den Standardfehler Ihrer Gewichtsmessungen.
Ist das Gewicht der Arten signifikant verschieden?
Ist das Gewicht der Geschlechter einer Art signifikant verschieden?

*T7H3)  Wie wir bereits am Beispiel der Modellzelle gesehen haben, ist die Antwort einer Apparatur selbst ohne biologisches Praeparat nicht perfekt rauschfrei. Um das Geraeterauschen abzuschaetzen, wurden fuer die Apparatur mit der Modellzelle 100 Messungen (sogenannte "trials") mit dem gleichen Reiz [stimulus.mat] durchgefuehrt und die Antworten als Matrix unter [antworten1khz.mat] abgespeichert. 

Schauen Sie sich ein beliebiges "trial" zusammen mit dem Reiz an (entsprechend der Aufgabe von gestern).
Berechnen und plotten Sie den Zeitverlauf der ueber die trials gemittelten Antwort.
Berechnen und plotten Sie den Mittelwert und die Standardabweichung der jeweils letzten 300ms fuer jedes trial.  Gibt es eine Tendenz? Gibt es Ausreisser?
Sind Mittelwert und / oder Standardabweichung vor, waehrend und nach der Reizung unterschiedlich?

Zum 8. Kurstag

Webmigaster:ink Jkprautta Kxmcretzbjeberg (jutav8ottae12ig.kjlretz0hubergmrk@uoln74zg.d3wemlm) (Stand: 07.11.2019)