Πέ. 2 Οκτ. 2014: Ημερολόγιο μαθήματος: Σχέση αμεροληψίας και συνέπειας εκτιμητριών. Κανονική κατανομή. Κεντρικό οριακό θεώρημα.

Αμεροληψία δε διατηρείται από κάποιες πράξεις:

Μπορεί μια εκτιμήτρια \ft\theta μιας ποσότητας \theta να είναι αμερόληπτη αλλή η ΤΜ \ft\theta^2 να μην είναι αμερόληπτη εκτιμήτρια της \theta^2. Πάρτε για παράδειγμα την X να είναι ομοιόμορφα κατανεμημένη στο [-1/2, 1/2] και \ft\theta(X_1,\ldots,X_N) = \overline{X}_N = \frac{X_1+\cdots+X_N}{N} να είναι ο δειγματικός μέσος που είναι αμερόληπτη εκτιμήτρια της ποσότητας \theta = \Mean{X} = 0.

Μπορεί η \ft\theta^2 να είναι αμερόληπτη εκτιμήτρια της \theta^2 = 0; Αυτό θα προϋπέθετε ότι \Mean{\ft\theta^2} = \Mean{\overline{X}_N^2} = 0. Αλλά η ΤΜ \overline{X}_N^2 είναι μη αρνητική και μη σταθερή ίση με 0, άρα αποκλείεται να έχει μέση τιμή 0.

Κανονική κατανομή:

Η κανονική κατανομή (normal or gaussian distribution)  N(\mu, \sigma) με μέσο \mu \in \RR και διασπορά \sigma^2 > 0 είναι η πυκνότητα

\Ds f(x) = \frac{1}{\sigma \sqrt{2\pi} } e^{ -\frac{(x-\mu)^2}{2\sigma^2} }

Η κανονική κατανομή είναι πάρα πολύ κοινή στη Στατιστική αλλά και στην Επιστήμη γενικά. Πολλά φυσικά φαινόμενα ή διαδικασίες που παράγουν κάποια ποσότητα που είναι τυχαία προκύπτει ότι αυτή η ποσότητα ακολουθεί μια κανονική κατανομή ή, ακόμη κι αν αυτό δε συμβαίνει ακριβώς, η υπόθεση ότι η κατανομή είναι κανονική είναι μια πολύ καλή προσέγγιση της πραγματικότητας.

Η μεγάλη συχνότητα με την οποία απαντάται η κανονική κατανομή οφείλεται κυρίως στο Κεντρικό Οριακό Θεώρημα (δείτε παρακάτω) σύμφωνα με το οποίο, και με λίγο ασαφή γλώσσα, αν κάποια τυχαία μεταβλητή προκύπτει από άθροισμα πολλών ανεξαρτήτων ΤΜ τότε ο κατανομή της είναι κατά προσέγγιση κανονική. Επειδή λοιπόν πολλή από την τυχαιότητα που απαντάται στη φύση είναι αποτέλεσμα επαλληλίας πολλών παραγόντων έχουμε το φαινόμενο αυτό, να είναι δηλ. οι περισσότερες κατανομές που εμφανίζονται κατά προσέγγιση κανονικές.

Κεντρικό Οριακό Θεώρημα:

Ας είναι X_1, X_2, \ldots μια ακολουθία ανεξάρτητων και ισόνομων ΤΜ με μέση τιμή \mu = \Mean{X_1} και διασπορά \sigma^2 = \sigma^2(X_1). Γράφουμε

\Ds S_N = \frac{X_1+\cdots+X_N}{N}

για την ακολουθία των μέσων όρων των X_i. Τότε οι ΤΜ \sqrt{N}(S_N-\mu) συγκλίνουν κατά κατανομή στην κανονική κατανομή N(0, \sigma^2).

Σύγκλιση κατά κατανομή:

Λέμε ότι η ακολουθία ΤΜ Y_n, n=1,2,\ldots, συγκλίνει κατά κατανομή στη συνάρτηση κατανομής F(x) αν ισχύει F_{Y_n}(x) \to F(x) για κάθε x\in\RR στο οποίο η  F(x) είναι συνεχής.

Αφού λοιπόν η κατανομή της N(0, \sigma^2) είναι συνεχής παντού το Κεντρικό Οριακό Θεώρημα μας λέει ότι η συνάρτηση κατανομής της \sqrt{N}(S_N-\mu) συγκλίνει στη συνάρτηση κατανομής της N(0, \sigma^2) για κάθε x. Με άλλα λόγια ισχύει

\Ds \Prob{\sqrt{N}\Abs{S_N - \mu} \le t} \to \frac{1}{\sigma\sqrt{2\pi}} \int_{-\infty}^t e^{-x^2/(2\sigma^2)}\,dx

για κάθε t \in \RR. Αυτό με τη σειρά του συνεπάγεται (αν το χρησιμοποιήσουμε για t=a, b και αφαιρέσουμε) ότι

\Ds \Prob{a \le\sqrt{N} \Abs{S_N - \mu} \le b} \to\frac{1}{\sigma\sqrt{2\pi}} \int_a^b e^{-x^2/(2\sigma^2)}\,dx.

Μια ωραία επίδειξη του Κεντρικού Οριακού Θεωρήματος μπορείτε να δείτε στο

http://blog.vctr.me/posts/central-limit-theorem.html

Αυξείστε τη παράμετρο bins σε 20 και ελαττώστε το delay σε 50 (για να το δείτε πιο γρήγορα). Κάθε μπάλα που πέφτει από πάνω και μέχρι να φτάσει κάτω μετακινείται δεξιά ή αριστερά με ίση πιθανότητα 1/2 και ανεξάρτητα για κάθε μετακίνηση, άρα η τελική θέση S_N στην οποία καταλήγει η κάθε μπάλα ισούται με X_1+\cdots+X_N όπου N είναι ο αριθμός των επιπέδων (το μισό του αριθμού bins) και οι ΤΜ είναι ανεξάρτητες και \pm 1 με ίση πιθανότητα. Σύμφωνα με το Κεντρικό Οριακό Θεώρημα η S_N έχει κατά προσέγγιση κανονική κατανομή και η προσέγγιση είναι τόσο καλύτερη όσο το N είναι πιο μεγάλο.

Last modified: Friday, 3 October 2014, 1:14 AM