Site pages
Current course
Participants
General
22 September - 28 September
29 September - 5 October
6 October - 12 October
13 October - 19 October
20 October - 26 October
27 October - 2 November
3 November - 9 November
10 November - 16 November
17 November - 23 November
24 November - 30 November
1 December - 7 December
8 December - 14 December
15 December - 21 December
22 December - 28 December
29 December - 4 January
5 January - 11 January
12 January - 18 January
18 May - 24 May
15 June - 21 June
14 September - 20 September
21 September - 27 September
28 September - 4 October
Τρ. 30 Σεπ 2014: Ημερολόγιο μαθήματος: παράδοξο Simpson. Αμερόληπτες στατιστικές συναρτήσεις. Δειγματική συνάρτηση κατανομής
Παράδοξο του Simpson:
Suppose that 6M (6 million) men and 6M women were infected with a certain disease,
making a total of 12M people. First we are told that 6M of these people were given a
certain treatment, of whom 2M recovered and 4M died; and that of the 6M who were not
treated, 4M recovered and 2M died. If this is all the information we have, then, clearly,
the treatment should not be given to people.
However, we are then told that amongst men, only 1M were treated, all of whom
recovered, and that of the 5M men not treated, 4M recovered. We deduce that amongst
women, 5M were treated of whom 1M recovered, and 1M were not treated and all of
those died. Given all this information, it is certainly best to treat a man, who is thereby
guaranteed a cure; and it is certainly best to treat a woman, for otherwise she will certainly
die.
Επίσης δες Berkeley Gender Bias Case στο http://en.wikipedia.org/wiki/Simpson's_paradox . Ωραίο interactive site γι' αυτό στο http://vudlab.com/simpsons/
Πληθυσμός: Ένα (συνήθως μεγάλο) σύνολο που κάθε στοιχείο του έχει μια ιδιότητα την οποία θέλουμε να μελετήσουμε, αλλά αδυνατούμε να το κάνουμε εξετάζοντας όλα τα στοιχεία του συνόλου. Π.χ. ο πληθυσμός μπορεί να είναι το σύνολο όλων των κατοίκων μιας χώρας και το
να είναι το ύψος του κάθε ανθρώπου.
Μπορεί κανείς να δει τα άτομα του πληθυσμού ως τα στοιχεία ενός δειγματικού χώρου και τις τιμές του των ατόμων ως μια τυχαία μεταβλητή. Η συνάρτηση πιθανότητας που έχουμε ορίσει πάνω στον πληθυσμό είναι κατά κανόνα η ομοιόμορφη: αν ο πληθυσμός έχει ν ατομα τότε το κάθε ένα άτομο έχει πιθανότητα 1/ν να επιλεγεί.
Είναι η κατανομή (πυκνότητα πιθανότητας, συνάρτηση κατανομής) της που μας ενδιαφέρει να μελετήσουμε και συνήθως ψάχνουμε να βρούμε ποσότητες που εξαρτώνται από την κατανομή της
όπως η μέση τιμή και η διασπορά της ή και ποσότητες της μορφής
.
Πολλές φορές υποθέτουμε εξαρχής ότι η ΤΜ έχει κατανομή όχι τελείως απροσδιόριστη αλλά που ανήκει σε μια κλάση συναρτήσεων και που για να προσδιοριστεί πλήρως πρέπει να καθοριστούν ορισμένες παράμετροι (εξ ου και το όνομα παραμετρική στατιστική). Π.χ. μπορούμε να υποθέσουμε (και αυτή είναι μια πολύ κοινή περίπτωση) ότι η
ακολουθεί κανονική κατανομή με παραμέτρους τη μέση τιμή της
και τη διασπορά της
.
Για τη συνάρτηση πυκνότητας της αυτό σημαίνει ότι είναι της μορφής
και ότι δε γνωρίζουμε εξ αρχής τις τιμές των παραμέτρων και
.
Δείγμα: Από τον πληθυσμό παίρνουμε τυχαία από τα μέλη του (με επανάθεση) και καταγράφουμε τις τιμές του
για αυτά τα άτομα, και έστω
αυτές οι τιμές. Αυτό είναι ένα τυχαίο δείγμα από τον πληθυσμό και μέσω αυτών των τιμών προσπαθούμε να εξαγάγουμε συμπεράσματα για την τυχαία μεταβλητή
.
Είναι φανερό ότι οι ΤΜ είναι μεταξύ τους ισόνομες και ισόνομες με την
. Εϊναι επίσης μεταξύ τους ανεξάρτητες αφού η δειγματοληψία γίνεται με επανάθεση. Κάθε φορά που κάνουμε τη δειγματοληψία μας παίρνουμε
τιμές των ΤΜ
, και πρέπει κανείς να ξεχωρίζει τις ΤΜ ως συναρτήσεις (οι οποίες έχουν άλλη τιμή κάθε φορά που πραγματοποιείται η δειγματοληψία και έχουν στατιστικές ιδιότητες όπως μέση τιμή και διασπορά) και τις τιμές που παίρνουμε μετά από κάθε δειγματοληψία που είναι απλά
αριθμοί.
Στατιστικές συναρτήσεις: Για να υπολογίσουμε την ποσότητα που μας ενδιαφέρει, ας την αποκαλέσουμε , σχετικά με την ΤΜ
(π.χ. μπορεί να μας ενδιαφέρει η μέση τιμή
, η διασπορά
, η ποσότητα
ή η ποσότητα
) κάνουμε κάποια διαδικασία έχοντας στη διάθεσή μας μόνο τις τιμές των
και παράγουμε κάποιον αριθμό
ως προσέγγιση του πραγματικού αριθμού
.
Ο αριθμός αυτός εξαρτάται μόνο από το δείγμα άρα πρόκειται για μια συνάρτηση
Τέτοιες συναρτήσεις ονομάζονται στατιστικές συναρτήσεις ή απλά στατιστικές.
Παραδείγματα στατιστικών:
- δειγματικός μέσος (sample mean)
- δειγματική διασπορά (sample variance)
- δειγμ. ροπές (sample moments), για
- δειγμ. διάμεσος (sample median)
Διατάσσουμε τακατά αύξουσα σειρά και παίρνουμε το μεσαίο (αν είναι περιττός ο αριθμός τους) ή ένα από τα δύο μεσαία (αν είναι άρτιος ο αριθμός τους).
- δειγμ. μέγιστο (sample maximum)
- δειγμ, ελάχιστο (sample minimum)
- δειγμ. συνάρτηση κατανομής (sample distribution function)
Είναι μια συνάρτηση τουπου ορίζεται ως εξής. Θεωρούμε την ΤΜ
που ορίζεται παίρνοντας τυχαία ένα από τα
. Για να οριστεί η
πρέπει πρώτα να έχουμε κάνει τη δειγματοληψία μας. Π.χ. αν
και κάνουμε τη δειγματοληψία μας και προκύψουν το δείγμα
τότε η τυχαία μας μεταβλητή
ορίζεται ισούται με 1.1 με πιθανότητα 1/4, να ισούται με 2 με πιθανότητα 2/4 και να ισούται με 5 με πιθανότητα 1/4. Αυτό καθορίζει πλήρως τη συνάρτηση κατανομής της
και αυτή είναι που ονομάζουμε δειγματική συνάρτηση κατανομής
.
Η συνάρτηση κατανομής εξαρτάται από τις ΤΜάρα για κάθε
η
είναι μια τυχαία μεταβλητή.
Παρατηρούμε ότι μπορούμε να γράψουμε.
(Εδώ χρησιμοποιήσαμε τον πολύ χρήσιμο συμβολισμόαν ισχύει η συνθήκη
και
αν δεν ισχύει η συνθήκη
.)
Παίρνοντας μέση τιμή στα δύο μέλη της ισότητας αυτής, χρησιμοποιώντας τη γραμμικότητα της μέσης τιμής και το ότι
προκύπτει ότι
άρα για κάθεπροκύπτει ότι η στατιστική συνάρτηση
είναι μια αμερόληπτη εκτιμήτρια της ποσότητας
, της πραγματικής συνάρτησης κατανομής δηλ.