Τρ. 30 Σεπ 2014: Ημερολόγιο μαθήματος: παράδοξο Simpson. Αμερόληπτες στατιστικές συναρτήσεις. Δειγματική συνάρτηση κατανομής

Παράδοξο του Simpson:

Suppose that 6M (6 million) men and 6M women were infected with a certain disease,
making a total of 12M people. First we are told that 6M of these people were given a
certain treatment, of whom 2M recovered and 4M died; and that of the 6M who were not
treated, 4M recovered and 2M died. If this is all the information we have, then, clearly,
the treatment should not be given to people.

However, we are then told that amongst men, only 1M were treated, all of whom
recovered, and that of the 5M men not treated, 4M recovered. We deduce that amongst
women, 5M were treated of whom 1M recovered, and 1M were not treated and all of
those died. Given all this information, it is certainly best to treat a man, who is thereby
guaranteed a cure; and it is certainly best to treat a woman, for otherwise she will certainly
die.

Επίσης δες Berkeley Gender Bias Case στο http://en.wikipedia.org/wiki/Simpson's_paradox . Ωραίο interactive site γι' αυτό στο http://vudlab.com/simpsons/

Πληθυσμός: Ένα (συνήθως μεγάλο) σύνολο που κάθε στοιχείο του έχει μια ιδιότητα X την οποία θέλουμε να μελετήσουμε, αλλά αδυνατούμε να το κάνουμε εξετάζοντας όλα τα στοιχεία του συνόλου. Π.χ. ο πληθυσμός μπορεί να είναι το σύνολο όλων των κατοίκων μιας χώρας και το X να είναι το ύψος του κάθε ανθρώπου.

Μπορεί κανείς να δει τα άτομα του πληθυσμού ως τα στοιχεία ενός δειγματικού χώρου και τις τιμές του X των ατόμων ως μια τυχαία μεταβλητή. Η συνάρτηση πιθανότητας που έχουμε ορίσει πάνω στον πληθυσμό είναι κατά κανόνα η ομοιόμορφη: αν ο πληθυσμός έχει ν ατομα τότε το κάθε ένα άτομο έχει πιθανότητα 1/ν να επιλεγεί.

Είναι η κατανομή (πυκνότητα πιθανότητας, συνάρτηση κατανομής) της X που μας ενδιαφέρει να μελετήσουμε και συνήθως ψάχνουμε να βρούμε ποσότητες που εξαρτώνται από την κατανομή της X όπως η μέση τιμή και η διασπορά της ή και ποσότητες της μορφής \Prob{a \le X \le b}.

Πολλές φορές υποθέτουμε εξαρχής ότι η ΤΜ X έχει κατανομή όχι τελείως απροσδιόριστη αλλά που ανήκει σε μια κλάση συναρτήσεων και που για να προσδιοριστεί πλήρως πρέπει να καθοριστούν ορισμένες παράμετροι (εξ ου και το όνομα παραμετρική στατιστική). Π.χ. μπορούμε να υποθέσουμε (και αυτή είναι μια πολύ κοινή περίπτωση) ότι η X ακολουθεί κανονική κατανομή με παραμέτρους τη μέση τιμή της \mu και τη διασπορά της \sigma^2.

Για τη συνάρτηση πυκνότητας της X αυτό σημαίνει ότι είναι της μορφής

    F_X(x) = N(x, \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi} } e^{ -\frac{(x-\mu)^2}{2\sigma^2} }

και ότι δε γνωρίζουμε εξ αρχής τις τιμές των παραμέτρων \mu και \sigma.

Δείγμα: Από τον πληθυσμό παίρνουμε τυχαία N από τα μέλη του (με επανάθεση) και καταγράφουμε τις τιμές του X για αυτά τα άτομα, και έστω X_1, X_2, \ldots, X_N αυτές οι τιμές. Αυτό είναι ένα τυχαίο δείγμα από τον πληθυσμό και μέσω αυτών των τιμών προσπαθούμε να εξαγάγουμε συμπεράσματα για την τυχαία μεταβλητή X.

Είναι φανερό ότι οι ΤΜ X_1,\ldots,X_N είναι μεταξύ τους ισόνομες και ισόνομες με την X. Εϊναι επίσης μεταξύ τους ανεξάρτητες αφού η δειγματοληψία γίνεται με επανάθεση. Κάθε φορά που κάνουμε τη δειγματοληψία μας παίρνουμε N τιμές των ΤΜ X_1,\ldots,X_N, και πρέπει κανείς να ξεχωρίζει τις ΤΜ ως συναρτήσεις (οι οποίες έχουν άλλη τιμή κάθε φορά που πραγματοποιείται η δειγματοληψία και έχουν στατιστικές ιδιότητες όπως μέση τιμή και διασπορά) και τις τιμές που παίρνουμε μετά από κάθε δειγματοληψία που είναι απλά N αριθμοί.

Στατιστικές συναρτήσεις: Για να υπολογίσουμε την ποσότητα που μας ενδιαφέρει, ας την αποκαλέσουμε \theta, σχετικά με την ΤΜ X (π.χ. μπορεί να μας ενδιαφέρει η μέση τιμή \Mean{X}, η διασπορά \sigma^2(X), η ποσότητα \Prob{0 \le X \le 1} ή η ποσότητα \Mean{X^4}) κάνουμε κάποια διαδικασία έχοντας στη διάθεσή μας μόνο τις τιμές των X_1,\ldots,X_N και παράγουμε κάποιον αριθμό \ft\theta ως προσέγγιση του πραγματικού αριθμού \theta.

Ο αριθμός αυτός \ft\theta εξαρτάται μόνο από το δείγμα άρα πρόκειται για μια συνάρτηση

\ft\theta = \ft\theta(X_1, X_2, \ldots, X_N).

Τέτοιες συναρτήσεις ονομάζονται στατιστικές συναρτήσεις ή απλά στατιστικές.

Παραδείγματα στατιστικών:

  • δειγματικός μέσος (sample mean)
    \overline{X} = \frac{1}{N}(X_1+\cdots+X_N)
  • δειγματική διασπορά (sample variance)
    S^2 = \frac{1}{N-1} \sum_{i=1}^N (X_i-\overline{X})^2
  • δειγμ. ροπές (sample moments), για r \ge 1
    \overline{X^r} = \frac{1}{N} \sum_{i=1}^N X_i^r
  • δειγμ. διάμεσος (sample median)
    Διατάσσουμε τα X_1,\ldots,X_N κατά αύξουσα σειρά και παίρνουμε το μεσαίο (αν είναι περιττός ο αριθμός τους) ή ένα από τα δύο μεσαία (αν είναι άρτιος ο αριθμός τους).
  • δειγμ. μέγιστο (sample maximum)
    \max\Set{X_1,\ldots,X_N}
  • δειγμ, ελάχιστο (sample minimum)
    \min\Set{X_1,\ldots,X_N}
  • δειγμ. συνάρτηση κατανομής (sample distribution function)
    Είναι μια συνάρτηση του t \in \RR που ορίζεται ως εξής. Θεωρούμε την ΤΜ Y που ορίζεται παίρνοντας τυχαία ένα από τα X_1,\ldots,X_N. Για να οριστεί η Y πρέπει πρώτα να έχουμε κάνει τη δειγματοληψία μας. Π.χ. αν N=4 και κάνουμε τη δειγματοληψία μας και προκύψουν το δείγμα 1.1, 2, 2, 5 τότε η τυχαία μας μεταβλητή Y ορίζεται ισούται με 1.1 με πιθανότητα 1/4, να ισούται με 2 με πιθανότητα 2/4 και να ισούται με 5 με πιθανότητα 1/4. Αυτό καθορίζει πλήρως τη συνάρτηση κατανομής της Y και αυτή είναι που ονομάζουμε δειγματική συνάρτηση κατανομής
    F_N(t) = F_Y(t).
    Η συνάρτηση κατανομής εξαρτάται από τις ΤΜ X_1, \ldots, X_N άρα για κάθε t η F_N(t) είναι μια τυχαία μεταβλητή.
    Παρατηρούμε ότι μπορούμε να γράψουμε
    F_N(t) = \frac{1}{N} \sum_{i=1}^N \One{X_i \le t}.
    (Εδώ χρησιμοποιήσαμε τον πολύ χρήσιμο συμβολισμό \One{S}=1 αν ισχύει η συνθήκη S και \One{S}=0 αν δεν ισχύει η συνθήκη S.)
    Παίρνοντας μέση τιμή στα δύο μέλη της ισότητας αυτής, χρησιμοποιώντας τη γραμμικότητα της μέσης τιμής και το ότι
    \Mean{\One{X_i \le t}} = \Prob{X_i \le t} = F_X(t)
    προκύπτει ότι
    \Mean{F_N(t)} = F_X(t)
    άρα για κάθε t \in \RR προκύπτει ότι η στατιστική συνάρτηση F_N(t) είναι μια αμερόληπτη εκτιμήτρια της ποσότητας F_X(t), της πραγματικής συνάρτησης κατανομής δηλ.
Last modified: Tuesday, 30 September 2014, 10:18 PM