R

Εισαγωγη στην R

Κατανομές

Άννα Μοσχά
Κέντρο Η/Υ, Ε.Μ.Π.

Περιεχομενα

  1. Βασικές έννοιες
  2. Συνάρτηση πυκνότητας πιθανότητας
  3. Συνάρτηση κατανομής
  4. Γνωστές κατανομές
  5. Κανονική κατανομή
  6. Τυπική κανονική κατανομή
  7. Κατανομές στην R
  8. Γραφ. Παραστάσεις Κατανομών στην R
  9. Γραφ. έλεγχος καταλληλότητας κατανομής
  10. Έλεγχος Κανονικότητας κατανομής
  11. Γραφ. έλεγχος Κανονικής κατανομής
  12. Μέτρα Ασυμμετρίας
  13. Κεντρικό Οριακό Θεώρημα

Βασικές έννοιες

  • Πείραμα τύχης:
  • Κάθε πείραμα το οποίο είναι δυνατό να επαναληφθεί πολλές φορές, πρακτικά κάτω από τις ίδιες συνθήκες, αλλά το αποτέλεσμα του δεν είναι δυνατόν να προβλεφθεί με βεβαιότητα.
  • Δειγματοχώρος ενός πειράματος τύχης:
  • Είναι το σύνολο όλων των δυνατών αποτελεσμάτων του συγκεκριμένου πειράματος τύχης. \[ Ω=\{ω_1, ω_2, ...,ω_n\}\] όπου \[ ω_1, ω_2, ...,ω_n \] τα δυνατά αποτελέσματα.

Βασικές έννοιες

  • Ενδεχόμενο ή γεγονός ενός πειράματος τύχης:
  • Είναι κάθε υποσύνολο του δειγματικού χώρου. Δηλαδή, κάθε δυνατό αποτέλεσμα ή συνδυασμός δυνατών αποτελεσμάτων.
  • Παράδειγμα:
  • Ρίχνουμε δύο φορές ένα νόμισμα και καταγράφουμε την επάνω όψη που εμφανίζεται. Ο δειγματοχώρος είναι ο \[ Ω=\{ΚΚ, ΓΓ, ΓΛ, ΚΓ\}\] Το υποσύνολο \[ Α=\{ΚΚ, ΓΓ\}\] που εκφράζει το αποτέλεσμα: "Οι δύο ενδείξεις να είναι ίδιες" είναι ένα ενδεχόμενο του συγκεκριμένου πειράματος τύχης.

Βασικές έννοιες

  • Σχετική συχνότητα ενός ενδεχόμενου:
  • Αν ένα πείραμα τύχης επαναληφθεί Ν φορές και ένα συγκεκριμένο ενδεχόμενο Α εμφανιστεί \( Ν_Α \) φορές σε αυτές τις επαναλήψεις, τότε το πηλίκο \[ f_A=\frac{Ν_Α}{Ν} \] είναι η σχετική συχνότητα του ενδεχόμενου Α.
  • Πιθανότητα ενός ενδεχομένου: (στατιστικός ορισμός)
  • Είναι το όριο της σχετικής συχνότητας του ενδεχομένου καθώς οι επαναλήψεις του πειράματος τείνουν στο άπειρο. Δηλαδή η πιθανότητα του ενδεχόμενου Α είναι: \[ P(A)= \lim_{N \to \infty} \frac{Ν_Α}{Ν} \]

Βασικές έννοιες

  • Κλασικός ορισμός πιθανότητας:
  • Έστω Ω ο δειγματικός χώρος ενός πειράματος τύχης, με ισοπίθανα απλά ενδεχόμενα. Τότε ορίζουμε ως πιθανότητα του ενδεχομένου Α τον αριθμό P(Α) για τον οποίο ισχύει: \[ P(A)= \frac{ \text{Πλήθος ευνοϊκών περιπτώσεων}}{ \text{Πλήθος όλων των δυνατών περιπτώσεων} } \] Ισοδύναμα γράφουμε: \[ P(A)= \frac{Ν(Α)}{Ν(Ω)} \]

Βασικές έννοιες

  • Ο προηγούμενος ορισμός έχει τρεις συνέπειες:
    • \[ P(Ω)= \frac{Ν(Ω)}{Ν(Ω)} = 1 \]
    • \[ P({\varnothing})= \frac{0}{Ν(Ω)} = 0 \]
    • \[ 0 \le P(A) \le 1 \]
  • Παράδειγμα:
  • Η πιθανότητα του ενδεχόμενου "Οι δύο ενδείξεις να είναι ίδιες" του προηγούμενου παραδείγματος είναι: \[ P(A)= \frac{Ν(Α)}{Ν(Ω)} = \frac{2}{4} =\frac{1}{2} \]

Βασικές έννοιες

  • Τυχαία μεταβλητή:
  • λέγεται η συνάρτηση που απεικονίζει το σύνολο των δυνατών αποτελεσμάτων ενός πειράματος τύχης στο σύνολο των πραγματικών αριθμών. π.χ. \[ X: Ω \to \mathbb{R} \]
    • Παρατήρηση:
    • Τις τυχαίες μεταβλητές συμβολίζουμε με κεφαλαία γράμματα του αλφαβήτου, ενώ με μικρά γράμματα τις τιμές που παίρνουν.

Βασικές έννοιες

  • Συνεχής τυχαία μεταβλητή:
  • λέγεται η μεταβλητή της οποίας η τιμή είναι οποιοσδήποτε παραγματικός αριθμός από ένα διάστημα πραγματικών αριθμών.
    • Παράδειγμα: Χρόνος ζωής ενός ανταλακτικού μιας μηχανής.
  • Διακριτή τυχαία μεταβλητή:
  • λέγεται η μεταβλητή της οποίας η τιμή είναι από κάποιο πεπερασμένο σύνολο διακριτών αιθμών ή από κάποιο άπειρο αλλά αριθμήσιμο σύνολο.
    • Παράδειγμα: Αριθμός παιδιών μιας οικογένειας

Συνάρτηση πυκνότητας πιθανότητας (1)

  • Συνάρτηση πυκνότητας πιθανότητας για διακριτή τ.μ.:
  • Για την διακριτή τ.μ. X θα λέμε ότι η συνάρτηση f(x) είναι σ.π.π. αν μέσω της f απεικονίζονται οι τιμές x της τ.μ. X στις πιθανότητες τους, δηλαδή \[ f(x)=P(X=x) \] Η f(x) πρέπει να ικανοποιεί τις συνθήκες:
    1. \( f(x) \ge 0 , \forall x \in \mathbb{R} \)
    2. \( \sum_{x} f(x) = 1 \)
probability density function

Συνάρτηση πυκνότητας πιθανότητας (2)

  • Συνάρτηση πυκνότητας πιθανότητας για συνεχή τ.μ.:
  • Για την συνεχή τ.μ. X θα λέμε ότι η συνάρτηση f(x) είναι σ.π.π. αν \( \forall α, β \in \mathbb{R} \text { με } α \lt β \text { ισχύει: } P(α \le x \le β) = \int_{α}^{β} f(x)dx \) Η f(x) πρέπει να ικανοποιεί τις συνθήκες:
    1. \( f(x) \ge 0 , \forall x \in \mathbb{R} \)
    2. \( \int_{-\infty}^{\infty} f(x)dx = 1 \)
probability density function Το εμβαδόν που περικλείεται από την καμπύλη της f(x) και τον οριζόντιο άξονα των τιμών της τυχαίας μεταβλητής X, είναι ίσο με 1.

Συνάρτηση κατανομής (1)

  • Συνάρτηση κατανομής:
  • Για την τ.μ. X λέμε ότι η συνάρτηση F(x) είναι συνάρτηση κατανομής αν \[ F(x)= P(-\infty \lt X \le x)= P(X \le x) =\] \[= \{_{\int_{-\infty}^{x} f(u)du \text { αν η X είναι συνεχής}}^{\sum_{u \le x} f(u) \text { αν η X είναι διακριτή}} \] \[ \text{ όπου x οποιαδήποτε τιμή της τ.μ. X, } x \in \mathbb{R} \] Η συνάρτηση F(x) έχει τις παρακάτω ιδιότητες:
    1. \( F(x) \ge 0 , \forall x \in \mathbb{R} \)
    2. \( F(-\infty)= \lim_{x \to -\infty} F(x)= 0 \text{ , } F(+\infty)= \lim_{x \to +\infty} F(x)= 1 \)
    3. \( F(x_{1}) \le F(x_{2}) , \forall x_{1}, x_{2} \in \mathbb{R} \text { με } x_{1} \le x_{2} \)
  • Στην περίπτωση που η τ.μ. X είναι συνεχής η σχέση μεταξύ της σ.π.π. f(x) και της σ.κ. F(x) είναι: \( f(x)= \frac{dF(x)}{dx} \)

Συνάρτηση κατανομής (2)

Συνάρτηση κατανομής διακριτής τ.μ. Συνάρτηση κατανομής συνεχής τ.μ.
cumulative distribution function
cumulative distribution function

Γνωστές κατανομές (1)

  • Κατανομές διακριτών τ.μ.:
    1. Κατανομή Bernoulli: δίτιμη, μετρά αριθμό "επιτυχιών" (π.χ. Κορώνα-Γράμματα) \( f(x) = p^x (1-p)^{1-x}, x=0,1 \)
    2. Διωνυμική κατανομή: σε n επαναλήψεις μετρά "επιτυχίες" \( f(x) = {n \choose x} p^x (1-p)^{n-x}, x=0,1,...,n \)
    3. Κατανομή Poisson: μετρά αριθμό σπάνιων "συμβάντων" που εμφανίζονται μέσα σ' ενα διάνυσμα (0,t)\( P(X=x)= f(x) = e^{-λ} \frac{λ^x}{x!}, x=0,1,2,.. \)

Γνωστές κατανομές (2)

  • Κατανομές συνεχών τ.μ.:
    1. Ομοιόμορφη κατανομή: \( f(x) = \{_{0 \text { , αλλού }} ^ {\frac {1}{β-α} \text { , }α \le x \le β } \)
    2. Εκθετική κατανομή: μετρά το χρόνο αναμονής μέχρι την πραγματοποίηση ενός γεγονότος \( f(x) = \{_{0 \text { , αλλού }} ^ {λe^{-λx} \text { , } x \gt 0 } \)
    3. Κανονική κατανομή: είναι η σημαντικότερη κατανομή με σ.π.π. : \[ f(x) = \frac{1}{σ \sqrt{2π}} e ^ {-\frac{1}{2} {(\frac{x-μ}{σ}})^2} , μ \in \mathbb{R}, σ \gt 0, x \in \mathbb{R} \]
    4. Οι παράμετροι μ και σ είναι αντίστοιχα η μέση τιμή και η τυπική απόκλιση της κατανομής την οποία συμβολίζουμε με \( N(μ, σ^2) \). Γνωρίζοντας τις δύο αυτές παραμέτρους μπορούμε να προσδιορίσουμε πλήρως την κατανομή.

Κανονική κατανομή

  • Γράφημα της κανονικής κατανομής (Καμπάνα):
  • Normal distribution
  • Η κανονική κατανομή εξασφαλίζει συμμετρία και ομαλότητα στον τρόπο κατανομής των τιμών της.
  • Σημαντική γιατί α)πολλές ποσότητες που απαντάμε στην φύση ακολουθούν κανονική κατανομή και β)το Κ.Ο.Θ. που θα αναφερθεί παρακάτω μας επιτρέπει να προσεγγίσουμε την κατανομή κάποιων τ.μ. με την κανονική κατανομή.

Κανονική κατανομή

  • Η συνάρτηση πυκνότητας της κανονικής κατανομής δεν ορίζει μια συγκεκριμένη κανονική καμπύλη αλλά μια οικογένεια κανονικών καμπύλων. Έτσι, για διαφορετικές τιμές των παραμέτρων μ και σ παίρνουμε διαφορετικές κανονικές καμπύλες.
  • Στο 1ο σχήμα οι κατανομές είναι όλες κανονικές κατανομές, με ίδια μέση τιμή και διαφορετικές τυπικές αποκλίσεις.
  • Normal distributions with the same mean Normal distributions with the same standard deviation
  • Στο 2ο σχήμα οι κατανομές είναι όλες κανονικές κατανομές με ίδιες τυπικές αποκλίσεις και διαφορετικές μέσες τιμές.

Κανονική κατανομή

  • Ιδιότητες της Κανονικής κατανομής
    • Η κανονική κατανομή είναι συμμετρική, ως προς άξονα συμμετρίας την κάθετο που διέρχεται από την κορυφή της καμπύλης και από το σημείο μ, το οποίο είναι η μέση τιμή της.
    • Η μέση τιμή, η διάμεσος και η επικρατούσα τιμή στην κανονική κατανομή συμπίπτουν. Τα εμβαδά αριστερά και δεξιά του άξονα συμμετρίας είναι ίσα (αποτελέσματα της συμμετρίας).
    • Το εμβαδόν της περιοχής που ορίζεται από την καμπύλη της κανονικής κατανομής και τον οριζόντιο άξονα, είναι ίσο με 1 και εκφράζει την πιθανότητα η μεταβλητή Χ να πάρει κάποια τιμή μεταξύ − ∞ και + ∞.

Κανονική κατανομή

  • Το εμβαδόν του σκιαγραφημένου χωρίου Α στο επόμενο σχήμα, εκφράζει την πιθανότητα η Χ να πάρει κάποια τιμή μεταξύ των τιμών α και β, δηλαδή, A = P(α ≤ X ≤ β).
  • Probability_a<X<b
  • Το εμβαδόν του σκιαγραφημένου χωρίου Β στο επόμενο σχήμα, εκφράζει την πιθανότητα η Χ να πάρει κάποια τιμή μικρότερη ή ίση του α, δηλαδή, B = P(X ≤ α).
  • Probability_X<a

Κανονική κατανομή

  • Το εμβαδόν του σκιαγραφημένου χωρίου Γ στο επόμενο σχήμα, εκφράζει την πιθανότητα η Χ να πάρει κάποια τιμή μεγαλύτερη ή ίση του α, δηλαδή, Γ = P(X ≥ a).
  • Probability_X>a

Κανονική κατανομή

  • Aν µία τ.µ. \(Χ \sim Ν(µ,σ^2) \) τότε παίρνει τιμές
    • µεταξύ του µ−3σ και του µ+3σ µε πιθανότητα σχεδόν 1
    • µεταξύ του µ−2σ και του µ+2σ µε πιθανότητα περίπου 95% και
    • µεταξύ του µ−σ και του µ+σ µε πιθανότητα περίπου 68%.
    Confidence Intervals Δηλαδή, η κανονική κατανομή εξαντλείται μέσα σε 6 τυπικές αποκλίσεις. Αν R το εύρος της, τότε \( R \simeq 6σ\)

Τυπική κανονική κατανομή

  • Aν µία τ.µ. \(Χ \sim Ν(µ,σ^2) \) τότε μπορεί να μετασχηματιστεί σε τυπική κανονική κατανομή \(Ζ= \frac{X-μ}{σ} \sim Ν(0,1) \)
  • Η τυπική κανονική κατανομή έχει μέση τιμή ίση με μηδέν (και διάμεσος και επικρατούσα τιμή ίση με 0) και τυπική απόκλιση ίση με 1.
  •  Standardized Normal Distribution

Τυπική κανονική κατανομή

  • Κάθε τιμή : \( z_{i}= \frac{x_{i}-\bar{x}}{s} \) ενός δείγματος μας λέει πόσες τυπικές αποκλίσεις s μακρυά από το \( \bar{x} \) είναι.
  • To \( z_{i} \) είναι καθαρός αριθμός, δεν έχει μονάδες.
  • Γνωρίζουμε ότι σε κανονική κατανομή μόνο το 5% των δεδομένων είναι πάνω από 2 φορές το s από τον μέσο όρο. (αφού το 95% των δεδομένων βρίσκεται στο \( [ \bar{x}-2s, \bar{x}+2s ] \) που στην περίπτωση της τυπικής κ.κ. είναι \( [-2, 2] \) ). Άρα αν έχω μια τιμή \( z_{i} \gt 2 \) καταλαβαίνω αμέσως ότι η τιμή μου είναι πολύ μακρυά από το μέσο όρο της κατανομή μου και έχει μικρή πιθανότητα να εμφανιστεί.

Τυπική κανονική κατανομή

  • Η συνάρτηση π.π. και η αθροιστική συνάρτηση κατανοµής της Ν(0,1) συµβολίζονται µε φ(x) και Φ(x) αντίστοιχα.
  • Η φ(x) είναι συµµετρική ως προς τον κάθετο άξονα που περνά από το 0. Εποµένως το εµβαδόν κάτω από την φ (σ.π.π. της Ν(0,1)) από το −∞ ως το 0 είναι ίσο µε το εµβαδόν από το 0 έως το ∞ και ίσο με 0.5 (επειδή το συνολικό εµβαδόν είναι ίσο µε 1). Επίσης, λόγω της συµµετρίας θα είναι Φ(−x) =1− Φ(x), x∈ R .
  • Symmetry of Standardized Normal Distribution

Κατανομές στην R

  • Στην R υπάρχουν πολλές συναρτήσεις που σχετίζονται με γνωστές κατανομές και υπολογισμό ποσοτήτων από αυτές. Κάθε κατανομή έχει ένα όνομα και βάζοντας μπροστά το κατάλληλο πρόθεμα - γράμμα καθορίζουμε το είδος της συνάρτησης:
    • r: Γεννήτρια τυχαίων αριθμών. π.χ. rnorm (n,0,1)
    • n: το πλήθος των τυχαίων αριθμών και 0,1: μέση τιμή και τυπική απόκλιση (παράμετροι) της κανονικής κατανομής
    • d: Συνάρτηση Πυκνότητας Πιθανότητας (σ.π.π.), f(x) π.χ. dnorm(x,0,1)
    • Δίνει την τιμής της συνάρτησης πυκνότητας πιθανότητας στο σημείο x για την κατανομή με τις παραμέτρους της.

Κατανομές στην R

  • συνέχεια:
    • p: Αθροιστική Συνάρτηση Κατανομής, F(x). π.χ. pnorm(x,0,1)
    • Δίνει την αθροιστική πιθανότητα έως το σημείο x για την κατανομή με τις παραμέτρους της.
    • q: Υπολογισμός Ποσοστιαίων σημείων ή ισοδύναμα αντίστροφη Συνάρτηση Κατανομής Πιθανότητας \( F^{-1}(p)\) π.χ. qnorm (p,0,1)
    • \( \text{Δίνει το x που έχει αθροιστική πιθανότητα ίση με p: } F^{-1}(p)=x \text{ τέτοιο ώστε } F(x)=P(X \le x)=p \)

Κατανομές στην R

  • Διαθέσιμες κατανομές στην R που κάθε μια έχει τις δικές της παραμέτρους τις οποίες βλέπουμε με π.χ.:
    > help(dnorm)
Κατανομή Εντολή R Κατανομή Εντολή R
Διωνυμική binom Γεωμετρική geom
Poisson pois Υπεργεωμετρική hyper
Βήτα beta Γάμμα gamma
Εκθετική exp Ομοιόμορφη unif
Κανονική norm Λογαριθμοκανονική lnorm
\( X^2 \) chisq Cauchy cauchy
Student t t Weibull weibull

Κατανομές στην R - Παραδείγματα

  • Υπολογισμός συναρτήσεων πυκνότητας πιθανότητας:
  • > dbinom(5, size=10, prob=0.4)
    [1] 0.2006581
    Υπολογίζει την πιθανότητα (ίση με 20%) να έχουμε 5 επιτυχίες σε ένα διωνυμικό πείραμα με 10 επαναλήψεις και πιθανότητα επιτυχίας 40%.
    > dnorm(180, mean=170, sd=5)
    [1] 0.01079819
    Υπολογίζει την πυκνότητα της πιθανότητας της τιμής 180 ίση με 0.010798 για την κανονική κατανομή με μέσο 170 και τυπική απόκλιση (όχι διασπορά) 5.

Κατανομές στην R - Παραδείγματα

  • Υπολογισμός συναρτήσεων κατανομής:
  • > pbinom(5, size=10, prob = 0.4)
    [1] 0.8337614
    Υπολογίζει την πιθανότητα να έχουμε μέχρι και 5 επιτυχίες σε ένα διωνυμικό πείραμα με 10 επαναλήψεις και πιθανότητα επιτυχίας 40%. Η πιθανότητα αυτή είναι 83.4%.
    > pnorm(180,170, 5)
    [1] 0.9772499
    Υπολογίζει την πιθανότητα να έχουμε τιμή μικρότερη ή ίση του 180 σε μια κανονική κατανομή με μέσο 170 και τυπική απόκλιση 5. Η πιθανότητα αυτή είναι 0.977.

Κατανομές - Παραδείγματα

  • Υπολογισμός πιθανοτήτων για ενδεχόμενα μεγαλύτερα από κάποια τιμή:
    • Είτε χρησιμοποιούμε την παράμετρο lower.tail=FALSE :
    • > pbinom(5, size=10, prob = 0.4, lower.tail = FALSE)
      [1] 0.1662386
      > pnorm(180,170, 5, lower.tail = FALSE)
      [1] 0.02275013
      Στο 1ο παράδειγμα υπολογίζεται η πιθανότητα (είναι 16.6%) να έχουμε πάνω από 5 επιτυχίες σε ένα διωνυμικό πείραμα με 10 επαναλήψεις και πιθανότητα επιτυχίας 40%. Ενώ στο 2ο παράδειγμα υπολογίζεται η πιθανότητα (είναι 0.02275) να έχουμε τιμή μεγαλύτερη του 180 σε μια κανονική κατανομή με μέσο 170 και τυπική απόκλιση 5.
    • Είτε απλά αφαιρούμε τις αρχικές τιμές από την μονάδα (λόγω συμμετρίας):
    • > 1-pbinom(5, size=10, prob = 0.4)
      [1] 0.1662386
      > 1-pnorm(180,170, 5)
      [1] 0.02275013

Κατανομές στην R-Παραδείγματα

  • Υπολογισμός ποσοστιαίων σημείων:
  • > qbinom(0.8337, size=10, prob = 0.4)
    [1] 5
    > qnorm(0.977,170, 5)
    [1] 179.977
    Υπολογίζει τις τιμές των x (ή έστω κοντινές) που είχαμε δώσει ως παραμέτρους εισαγωγής στις εντολές pbinom και pnorm, ανίστοιχα (λόγω της αντίστροφης σχέσης μεταξύ των δύο συναρτήσεων).
    > qbinom(0.90, size=100, prob=0.7)
    [1] 76
    Αν υποθέσουμε ότι έχουμε ένα τεστ με 100 ερωτήσεις και πιθανότητα σωστής απάντησης 70% τότε η παραπάνω εντολή μας λέει ότι το 90% αυτών που κάνουν το τεστ απαντά σε 76 ερωτήσεις. Αν εμείς θέλουμε να είμαστε στο 10% αυτών με τις καλύτερες επιδόσεις (δηλαδή πάνω από το 90%) θα πρέπει να απαντήσουμε σε 76 ερωτήσεις και πάνω.

Κατανομές στην R - Παραδείγματα

  • Τα ορίσματα των τριών συναρτήσεων (πυκνότητας πιθανότητας, κατανομής και ποσοστιαίων σημείων) μπορεί να είναι και διανύσματα π.χ.:
  • > qnorm(c(0.025, 0.05, 0.50, 0.90, 0.95, 0.975), 0, 1)
    [1] -1.959964 -1.644854  0.000000  1.281552  1.644854  1.959964
    Υπολογίζει τα 2.5%, 5%, 50%, 90%, 95%, 97.5% ποσοστιαία σημεία της τυποποιημένης κανονικής κατανομής.
    > dpois(0:3, c(1.1, 4, 3))
    [1] 0.33287108 0.07326256 0.22404181 0.07384190
    Υπολογίζει τις πιθανότητες P(X=0), P(X=1), P(X=2), P(X=3) για τις κατανομές Poisson με μέσους 1.1, 4, 3 και 1.1 αντίστοιχα. Επειδή το διάνυσμα των μέσων είναι μικρότερο από αυτό των τιμών γίνεται ανακύκλωση του μικρότερου διανύσματος και έτσι υπολογίζεται η P(X=3) με μέσο 1.1.

Κατανομές στην R - Παραδείγματα

  • Γεννήτρια τυχαίων αριθμών κατανομής:
  • > runif(5, min = -2, max= 2)
    [1] -1.4891919  0.3295584  1.7385991  0.9405638  0.2557699
    Μας δίνει 5 τυχαίους αριθμούς από την ομοιόμορφη κατανομή στο (-2,2). Προφανώς, εφόσον πρόκειται για τυχαίους αριθμούς, κάθε φορά που θα καλούμε τη συνάρτηση θα παίρνουμε και άλλες τιμές.
    > rpois(c(1,4,5,1), lambda = 1)
    [1] 1 0 1 1
    Το πλήθος των τυχαίων αριθμών δεν μπορεί να είναι διάνυσμα όπως στις άλλες τρεις συναρτήσεις. Όπως φαίνεται στο παραπάνω παράδειγμα, αν δοθεί διάνυσμα στη θέση του n τότε λαμβάνει ως n το μήκος του διανύσματος, στην προκειμένη περίπτωση το μήκος είναι 4 οπότε μας έδωσε 4 τυχαίους αριθμούς από την κατανομή Poisson με μέσο 1.

Κατανομές στην R - Παραδείγματα

  • Για πολλές κατανομές υπάρχουν προκαθορισμένες τιμές στις παραμέτρους, π.χ.:
  • > rnorm(10)
     [1] -0.51467720  0.36575108 -1.47031580  0.03036902  0.04572528 -1.59271340
     [7] -0.83190632 -1.91952930 -0.55397817 -0.37685925
    Μας δίνει 10 τυχαίους αριθμούς από την τυπική κανονική κατανομή. Στο παραπάνω παράδειγμα, λείπουν οι τιμές για τις 2 παραμέτρους της κανονικής κατανομής, οι προκαθορισμένες τιμές της είναι 0 για τη μέση τιμή και 1 για την τυπική απόκλιση δηλαδή, η τυπική κανονική κατανομή.

Κατανομές στην R - Παραδείγματα

  • Οι λογικές παράμετροι log και log.p των συναρτήσεων πυκνότητας πιθανότητας και κατανομής αντίστοιχα, υπολογίζουν τις αντίστοιχες συναρτήσεις σε λογαριθμική κλίμακα π.χ.:
  • > dt(2,3)
    [1] 0.06750966
    > dt(2,3, log = TRUE)
    [1] -2.695485
    > pnorm(1.96)
    [1] 0.9750021
    > pnorm(1.96, log.p = TRUE)
    [1] -0.02531565
    Οι συναρτήσεις σε λογαριθμική κλίμακα χρησιμοποιούνται για την αποφυγή υπερχείλισης (overflows) και υποχείλισης (underflows).

Γραφ. Παραστάσεις Κατανομών

  • Για τη γραφική παράσταση μιας σ.π.π. δίνουμε πρώτα μια ακολουθία αριθμών και υπολογίζουμε την σ.π.π. για την συγκεκριμένη ακολουθία.
  • Παράδειγμα: Κανονική κατανομή με μέση τιμή 1 και τυπική απόκλιση 2.
    > x<-seq(-3, 5, 0.01)
    > plot(x, dnorm(x, mean=1, sd=2), type = "l")
    Κανονική κατανομή

Γραφ. Παραστάσεις Κατανομών στην R

  • Παράδειγμα: Διωνυμική κατανομή με παραμέτρους n=6 και p=0.2.
  • > n<-6
    > p<-0.2
    > x<-0:6
    > plot(x, dbinom(x, n, p), type = "h")
    > points(x, dbinom(x, n, p), pch=20, col="red")
    Διωνυμική κατανομή

Γραφ. έλεγχος καταλληλότητας κατανομής

  • Για να ελέγξουμε γραφικά αν ένα δείγμα προέρχεται από έναν πληθυσμό που γνωρίζουμε την κατανομή του
    • Είτε συγκρίνουμε το ιστόγρραμμα του δείγματος με την γραφική παράσταση της κατανομής. Παράδειγμα:
    • > hist(mtcars$mpg, breaks=20)
      Ιστόγραμμα

Γραφ. έλεγχος καταλληλότητας κατανομής

  • Είτε χρησιμοποιούμε την γραφική παράσταση της μη παραμετρικής εκτιμήτριας της σ.π.π. που μας δίνει η συνάρτηση density() της R.
  • > plot(density(mtcars$mpg))
    Μη παραμετρική εκτιμήτρια της σ.π.π.

Έλεγχος Κανονικότητας κατανομής

  • Ειδικά για να ελέγξουμε αν μια κατανομή είναι κανονική, ο έλεγχος μπορεί να γίνει:
    1. Με το κατάλληλο κριτήριο ελέγχου υποθέσεων που θα δούμε παρακάτω
    2. Γραφικά, με τα γραφήματα όπως: Normal QQ-Plot, Box Plot (Θηκόγραμμα) (ελέγχει την ύπαρξη συμμετρίας), ιστόγραμμα, φυλλογράφημα (stem and leaf plot)
    3. Με τη βοήθεια των συντελεστών στρεβλότητας και κύρτωσης (ποσοτικοποίηση μη ύπαρξης κανονικότητας).

Γραφ. έλεγχος Κανονικότητας

  • Ο κλασικός τρόπος να ελέγξουμε γραφικά αν ένα δείγμα προέρχεται από έναν πληθυσμό που ακολουθεί Κανονική κατανομή είναι με το Normal QQ-Plot όπου αναπαραστούμε γραφικά τα ποσοστημόρια του δείγματος σε σχέση με τα θεωρητικά ποσοστημόρια της Κανονικής κατανομής χρησιμοποιώντας τις συναρτήσεις της R, qqnorm(), qqline(). Παράδειγμα:
  • > data<-read.table("das.txt", header = T)
    > str(data)
    'data.frame':	100 obs. of  1 variable:
     $ y: num  2.51 2.56 2.46 2.7 2.57 ...
    > qqnorm(data$y)
    > qqline(data$y)
    Από το αρχείο "das.txt" δημιουργούμε ένα dataframe με το όνομα data που περιέχει μία αριθμητική μεταβλητή y. Παίρνουμε το Normal QQ-Plot για την y.

Γραφ. έλεγχος Κανονικότητας

  • Όσο πιο κοντά πάνω στην γραμμή (που αναπαριστά τα θεωρητικά ποσοστημόρια) είναι τα δειγματικά ποσοστημόρια τόσο καλύτερη προσαρμογή έχουμε.
  • > data<-read.table("das.txt", header = T)
    > str(data)
    'data.frame':	100 obs. of  1 variable:
     $ y: num  2.51 2.56 2.46 2.7 2.57 ...
    > qqnorm(data$y)
    > qqline(data$y)
    QQ-Plot

Γραφ. έλεγχος Κανονικότητας

  • Μια προϊδέαση αν πρόκειται για κανονική κατανομή παίρνουμε γραφικά και από το boxplot
  • Το θηκόγραμμα δεν ελέγχει την ύπαρξη ή μη κανονικότητας αλλά την ύπαρξη συμμετρίας.
  • Μία κανονική κατανομή δεν είναι δυνατόν να μην είναι συμμετρική, αφού η συμμετρία είναι μία από τις ιδιότητες της κανονικής κατανομής.
  • Με άλλα λόγια η συμμετρία είναι ένας προάγγελος της κανονικότητας.

Γραφ. έλεγχος Κανονικότητας

  • Αντιστοίχιση boxplot με κανονική κατανομή
  • Αντιστοίχιση boxplot με γράφημα Κανονικής κατανομής Το θηκόγραμμα δεν ελέγχει την ύπαρξη ή μη κανονικότητας αλλά την ύπαρξη συμμετρίας. Ωστόσο μία κανονική συνάρτηση, δεν είναι δυνατόν να μην είναι συμμετρική, αφού η συμμετρία είναι μία από τις ιδιότητες της κανονικής κατανομής. Με άλλα λόγια η συμμετρία είναι ένας προάγγελος της κανονικότητας.

Γραφ. έλεγχος Κανονικότητας

  • Παράδειγμα:
  • > boxplot(data$y)
    Boxplot της μεταβλητής y Το θηκόγραμμα δείχνει μια σχετική ύπαρξη συμμετρίας.

Γραφ. έλεγχος Κανονικότητας

  • Με το ιστόγραμμα του δείγματος ή την εκτιμήτρια της σ.π.π. ελέγχουμε αν η κατανομή του δείγματος μας έχει την μορφή της καμπάνας της κανονικής κατανομής:
  • > hist(data$y)
    > plot(density(data$y))
    Ιστόγραμμα της μεταβλητής y Μη παραμετρική εκτιμήτρια της σ.π.π.

Γραφ. έλεγχος Κανονικότητας

  • Ή και τα δύο μαζί
  • > hist(data$y, probability = T)
    > lines(density(data$y))
    Rplot_hist_density.png Θα πρέπει να έχουμε ιστόγραμμα σχετικών συχνοτήτων για να έχουμε και την εκτιμήτρια της σ.π.π μαζί.

Γραφ. έλεγχος Κανονικότητας

  • Ένας άλλος τρόπος από το ιστόγραμμα της αναπαράστασης μιας κατανομής είναι το φυλλογράφημα (stem and leaf plot) όπου μας επιτρέπει να δούμε και τις πραγματικές τιμές
  • > stem(mtcars$mpg)
    
      The decimal point is at the |
    
      10 | 44
      12 | 3
      14 | 3702258
      16 | 438
      18 | 17227
      20 | 00445
      22 | 88
      24 | 4
      26 | 03
      28 | 
      30 | 44
      32 | 49
    > table(mtcars$mpg)
    
    10.4 13.3 14.3 14.7   15 15.2 15.5 15.8 16.4 17.3 17.8 18.1 18.7 19.2 19.7   21 
       2    1    1    1    1    2    1    1    1    1    1    1    1    2    1    2 
    21.4 21.5 22.8 24.4   26 27.3 30.4 32.4 33.9 
       2    1    2    1    1    1    2    1    1 
    Για παράδειγμα, έχουμε δύο τιμές 10.4 οι οποίες φαίνονται στην πρώτη σειρά του φυλλογραφήματος.

Γραφ. έλεγχος Κανονικότητας

  • Παράδειγμα φυλλογραφήματος όπου φαίνεται η κατανομή:
  • > stem(data$y)
    
      The decimal point is 1 digit(s) to the left of the |
    
      18 | 0149
      20 | 068880144568889
      22 | 02224445588991233444577889
      24 | 000112223455567890114444556677789
      26 | 00012445023467
      28 | 22359258
    
    > sort(data$y)
      [1] 1.903978 1.906798 1.937146 1.985627 2.000298 2.059432 2.076285 2.077131 2.081546 2.097015
     [11] 2.109007 2.136956 2.140605 2.149282 2.158843 2.175082 2.179386 2.183855 2.190121 2.200713
     [21] 2.217043 2.220095 2.220165 2.236754 2.239864 2.241998 2.247568 2.249943 2.281581 2.283651
     [31] 2.292031 2.294658 2.307361 2.322484 2.328721 2.333454 2.336182 2.337260 2.342899 2.346185
     [41] 2.369505 2.373164 2.377481 2.381485 2.390297 2.395475 2.396329 2.402222 2.412833 2.413188
     [51] 2.415086 2.420495 2.422223 2.431930 2.439249 2.448915 2.451872 2.451893 2.460061 2.465442
     [61] 2.482827 2.488961 2.495500 2.507694 2.514542 2.536774 2.537191 2.537403 2.541672 2.546616
     [71] 2.552261 2.557486 2.559668 2.566859 2.567168 2.571997 2.582622 2.585695 2.595381 2.596121
     [81] 2.599028 2.609252 2.623291 2.642713 2.644003 2.654196 2.702720 2.721783 2.729194 2.741588
     [91] 2.762524 2.772203 2.824415 2.824470 2.834250 2.845045 2.890469 2.922274 2.945534 2.984053
    Σε αυτό το παράδειγμα η υποδιαστολή είναι 1 ψηφίο αριστερά της γραμμής | και γίνεται και στρογγυλοποίηση.

Γραφ. έλεγχος Κανονικότητας

  • Οι γραφικές αναπαραστάσεις για τον έλεγχο κανονικότητας αποτελούν ενδείξεις για την ύπαρξη ή μη κανονικότητας. Οι ενδείξεις αυτές καθίστανται περισσότερο αναιμικές στην περίπτωση μικρών δειγμάτων. Τότε οι αναπαραστάσεις στις οποίες αναφερθήκαμε δεν μπορούν να δείξουν και επομένως δεν μας βοηθούν να καταλάβουμε, αν υπάρχει ή όχι πραγματική κανονικότητα.
  • Ο επιστημονικά τεκμηριωμένος έλεγχος κανονικότητας γίνεται με τη βοήθεια στατιστικών κριτηρίων (έλεγχο υποθέσεων) Kolmogorov-Smirnov, Lillefors, και Shapiro-Wilk που θα δούμε αναλυτικά παρακάτω.

Γραφ. έλεγχος Κανονικότητας

  • Στις περιπτώσεις μικρών δειγμάτων, τα πορίσματα των ερευνών αναφέρουν ότι ενδείκνυται ισχυρά η χρήση, πρώτα και κύρια του στατιστικού κριτηρίου Shapiro–Wilk για τον έλεγχο της κανονικότητας.
  • Ενδείξεις για την κανονικότητα μιας κατανομής παίρνουμε και από τα μέτρα ασυμμετρίας.

Μέτρα Ασυμμετρίας

  • Τα μέτρα ασυμμετρίας δείχνουν πόσο απέχει η κατανομή των δεδομένων από την συμμετρία και είναι:
    • η Ασυμμετρία ή λοξότητα (skewness) και
    • η Κύρτωση (kurtosis)
  • Τα μέτρα ασυμμετρίας τα χρησιμοποιούμε και για να ποσοτικοποιήσουμε πόσο απέχει μια κατανομή από την κανονική δεδομένου ότι η κανονική κατανομή είναι συμμετρική.
  • Είναι μέτρα της περιγραφικής στατιστικής.

Μέτρα Ασυμμετρίας

  • Ασυμμετρία ή λοξότητα (skewness): το σημείο συγκέντρωσης των περισσότερων τιμών βρίσκεται δεξιά ή αριστερά στον άξονα τιμών:
  • Αρνητική ασυμμετρία ή Ασύμμετρη αριστερά κατανομή: Συμμετρική κατανομή: Θετική ασυμμετρία ή Ασύμμετρη δεξιά κατανομή:
    Ασύμμετρη αριστερά Συμμετρική κατανομή Ασύμμετρη δεξιά
    Ασύμμετρη κατανομή, όπου οι μεγάλες συχνότητες συγκεντρώνονται στο δεξί τμήμα της κατανομής (που αντιστοιχεί στις υψηλότερες τιμές της κλίμακας μέτρησης). Αρνητικός δείκτης συμμετρίας ( SK < 0 ). Συμμετρική κατανομή με δείκτη ασυμμετρίας μηδέν (SK=0) π.χ. κανονική Ασύμμετρη κατανομή, όπου οι μεγάλες συχνότητες συγκεντρώνονται στο αριστερό τμήμα της κατανομής (που αντιστοιχεί στις χαμηλότερες τιμές της κλίμακας μέτρησης). Θετικός δείκτης συμμετρίας ( SK>0 ).

Μέτρα Ασυμμετρίας

  • Γραφική αναπαράσταση των δεικτών κεντρικής τάσης σε ασύμμετρες και συμμετρικές κατανομές:
    • Οι δείκτες κεντρικής τάσης στην συμμετρική:
    • Οι δείκτες κεντρικής τάσης στην συμμετρική
    Στην συμμετρική κατανομή ο μέσος όρος , η διάμεσος και η επικρατούσα (δεσπόζουσα) τιμή συμπίπτουν.

Μέτρα Ασυμμετρίας

  • Γραφική αναπαράσταση των δεικτών κεντρικής τάσης σε ασύμμετρες και συμμετρικές κατανομές:
    • Οι δείκτες κεντρικής τάσης στην ασύμμετρη αριστερά:
    • Οι δείκτες κεντρικής τάσης στην ασύμμετρη αριστερά
    Όταν η κατανομή παρουσιάζει αριστερή ασυμμετρία, ο μέσος όρος είναι μικρότερος από τη διάμεσο. Σ' αυτή την περίπτωση η διάμεσος περιγράφει καλύτερα την κατανομή.

Μέτρα Ασυμμετρίας

  • Γραφική αναπαράσταση των δεικτών κεντρικής τάσης σε ασύμμετρες και συμμετρικές κατανομές:
    • Οι δείκτες κεντρικής τάσης στην ασύμμετρη δεξιά:
    • Οι δείκτες κεντρικής τάσης στην ασύμμετρη δεξιά
    Όταν η κατανομή παρουσιάζει δεξιά ασυμμετρία, ο μέσος όρος είναι μεγαλύτερος από τη διάμεσο. Σ' αυτή την περίπτωση η διάμεσος περιγράφει καλύτερα την κατανομή.

Μέτρα Ασυμμετρίας

  • Ασυμμετρία ή λοξότητα (skewness) τύπος:
    • \[ SK=\frac{\frac{\displaystyle\sum_{i=1}^{n}(x-\overline{x})^3}{n}}{(\sqrt{s^2})^3} \]
  • Τυπικό σφάλμα ασυμμετρίας ή λοξότητας (skewness):
    • \( se_{SK}= \sqrt{\frac{6n(n-1)}{(n-2)(n+1)(n+3)}} \text{ ή μια προσέγγιση του } \sqrt{\frac{6}{n}} \)
Ο τύπος της ασυμμετρίας καθώς και το τυπικό σφάλμα της ασυμμετρίας επηρεάζονται πολύ από το μέγεθος του δείγματος. Η προσέγγιση του τυπικού σφάλματος αφορά μεγάλα δείγματα. Η κανονική κατανομή έχει SK=0 άρα μια τιμή ασυμμετρίας κοντά στο 0 αποτελεί ένδειξη κανονικότητας.

Μέτρα Ασυμμετρίας

  • Κύρτωση (kurtosis): ο βαθμός συγκέντρωσης των τιμών γύρω από το κέντρο της κατανομής:
  • Πλατύκυρτη κατανομή: Μεσόκυρτη κατανομή: Λεπτόκυρτη κατανομή:
    Πλατύκυρτη κατανομή Μεσόκυρτη κατανομή Λεπτόκυρτη κατανομή
    Συμμετρική καμπύλη που χαρακτηρίζεται από μικρό βαθμό συγκέντρωσης των τιμών γύρω από το κέντρο της κατανομής. Αρνητικός δείκτης κύρτωσης (KU < 0). Συμμετρική κατανομή με συντελεστή κύρτωσης μηδέν (KU=0) π.χ. Κανονική κατανομής Συμμετρική καμπύλη που χαρακτηρίζεται από τη συγκέντρωση των τιμών γύρω από το κέντρο της κατανομής. Θετικός βαθμός κύρτωσης (KU>0).

Μέτρα Ασυμμετρίας

  • Κύρτωση (kurtosis) τύπος:
    • \[ KU=\frac{\frac{\displaystyle\sum_{i=1}^{n}(x-\overline{x})^4}{n}}{(\sqrt{s^2})^4}-3 \]
  • Τυπικό σφάλμα κύρτωσης:
    • \( se_{KU}= 2(se_{SK})\sqrt{\frac{(n^2-1)}{(n-3)(n+5)}} \text{ ή μια προσέγγιση του } \sqrt{\frac{24}{n}} \)
Ο τύπος της κύρτωσης καθώς και το τυπικό σφάλμα της επηρεάζονται και αυτά πολύ από το μέγεθος του δείγματος. Η προσέγγιση του τυπικού σφάλματος αφορά μεγάλα δείγματα. Κανονικά, η Κανονική κατανομή έχει κύρτωση ίση με 3 αφαιρούμε όμως το 3 στον παραπάνω τύπο της κύρτωσης (πολλές φορές αναφέρεται ως ecxess kurtosis) για να έχουμε KU=0 για την Κανονική κατανομή.

Μέτρα Ασυμμετρίας

  • Μορφές κατανομών σε σχέση με ασυμμετρία και κύρτωση:
  • Μορφές κατανομών σε σχέση με ασυμμετρία και κύρτωση α) Θετική και δεξιά ασυμμετρία, β) Αρνητική και αριστερή ασυμμετρία, γ) Λεπτόκυρτη, Θετική κύρτωση, δ) Πλατύκυρτη, Αρνητική κύρτωση

Μέτρα Ασυμμετρίας-Έλεγχος κανονικότητας

  • Ένας απλός κανόνας για να δεχτούμε ότι μία μεταβλητή σχηματίζει κανονική κατανομή είναι με τη βοήθεια του λόγου t, όπου \[ t= \frac{\text{statistic}}{\text{standard error of statistic}} \] Διαιρώ τους δείκτες κύρτωσης και ασυμμετρίας με το αντίστοιχο τυπικό σφάλμα. Αν ο λόγος πέφτει μεταξύ -2 και 2, τότε η κατανομή είναι κατά προσέγγιση κανονική. Ένας πιο αυστηρός κανόνας συνιστά το εύρος από -1 έως 1.

Μέτρα Ασυμμετρίας-Έλεγχος κανονικότητας

  • Ένας άλλος τρόπος να ελέγξουμε την κανονικότητα είναι να ελέγξουμε αν η τιμή του λόγου \(\frac{{SK}}{se_{SK}} \) ή \( \frac{{KU}}{se_{KU}} \) μπορεί να θεωρηθεί ότι είναι 0. Αυτό το κάνουμε με χρήση του κατάλληλου έλεγχου υπόθεσης που θα δούμε στη συνέχεια.
  • Τα μέτρα ασυμμετρίας κυρίως τα χρησιμοποιούμε για να ποσοτικοποιήσουμε πόσο απέχει μία κατανομή από την κανονική. Ο δείκτης ασυμμετρίας μας χρησιμεύει και για να επιλέξουμε τον κατάλληλο μετασχηματισμό (π.χ. λογαριθμικό ή τετραγωνικής ρίζας) μιας κατανομής προκειμένου να γίνει κανονική.

Μέτρα Ασυμμετρίας στην R

  • Στο βασικό πακέτο της R δεν υπάρχουν η ασυμμετρία και η κύρτωση. Υπάρχουν στο πακέτο moments που μπορούμε να εγκαταστήσουμε:
  • > install.packages("moments")
    Installing package into ‘/home/anna/R/x86_64-pc-linux-gnu-library/3.1’
    .................................................................................
    	‘/tmp/Rtmpq1w8P0/downloaded_packages’
    > library("moments")
    > skewness(data$y)
    [1] 0.1160687
    > kurtosis(data$y)
    [1] 2.631189
    > kurtosis(data$y)-3
    [1] -0.3688106
    Παρατηρήστε ότι ο δείκτης κύρτωσης στο πακέτο moments δεν αφαιρεί τον αριθμό 3 από τον τύπο της κύρτωσης. Οι τιμές είναι κοντά στο μηδέν. Έχουμε ελαφριά θετική ασυμμετρία και ελαφριά αρνητική κύρτωση δηλαδή ελαφρώς πλατύκυρτη κατανομή. Αυτά φαίνονται και από το ιστόγραμμα της κατανομής.

Μέτρα Ασυμμετρίας στην R

  • Οι τιμές των δεικτών της ασυμμετρίας και της κύρτωσης της μεταβλητής y συμφωνούν με τις παρακάτω γραφικές παραστάσεις που είδαμε νωρίτερα:
  • > hist(data$y)
    > plot(density(data$y))
    Ιστόγραμμα της μεταβλητής y Μη παραμετρική εκτιμήτρια της σ.π.π.

Μέτρα Ασυμμετρίας στην R

  • Υπολογίζουμε τα τυπικά σφάλματα και βρίσκουμε τους λόγους της ασυμμετρίας και της κύρτωση προς το τυπικό τους σφάλμα αντίστοιχα:
  • > n<-length(data$y)
    > se_s<-sqrt(6*n*(n-1)/(n-2)*(n+1)*(n+3))
    > skewness(data$y)/se_s
    [1] 4.622273e-05
    > se_k<-2*se_s*sqrt((n^2-1)/(n-3)*(n+5))
    > (kurtosis(data$y)-3)/se_k
    [1] -7.058735e-07
    Οι λόγοι και των δύο μέτρων είναι πολύ κοντά στο μηδέν οπότε αποτελούν μια ένδειξη ότι η κατανομή είναι κανονική.

Μέτρα Ασυμμετρίας στην R

  • Εναλλακτικά, χωρίς να χρησιμοποιήσουμε το πακέτο moments μπορούμε να κάνουμε τις δικές μας συναρτήσεις για τους δείκτες ασυμμετρίας και κύρτωσης:
  • > detach("package:moments")
    > skew<-function(x){
    +   m3<-sum((x-mean(x))^3)/length(x)
    +   s3<-sqrt(var(x))^3
    +   m3/s3
    + }
    > skew(data$y)
    [1] 0.114332
    > kurtosis<-function(x){
    +   m4<-sum((x-mean(x))^4)/length(x)
    +   s4<-var(x)^2
    +   m4/s4 -3
    + }
    > kurtosis(data$y)
    [1] -0.4211713
    Παρατηρήστε ότι τα αποτελέσματα των παραπάνω συναρτήσεων προσεγγίζουν τα αντίστοιχα των συναρτήσεων του πακέτου moments.

Κεντρικό Οριακό Θεώρημα

    Αν
  • οι τ.μ. \( X_{1}, X_{2}, ... , X_{n} \) είναι ανεξάρτητες και ισόνομες και
  • έχουν πεπερασμένη μέση τιμή \( μ \) και διασπορά \( σ^2 \) δηλ.
  • \[ EX_{i}= μ , Var X_{i}= σ^2\] τότε \[ S_{n}=\frac{\displaystyle\sum_{i=1}^{n} X_{i} -nμ}{σ \sqrt{n}} \xrightarrow{\text{κ.Ν}} Z=\frac{\overline{X} - μ}{\frac{σ}{\sqrt{n}}} \sim N(0,1) \] κατά Nόμο σύγκλιση που σημαίνει για αρκετά μεγάλες τιμές του n , πρακτικά n>30. Iσοδύναμα : \[ \text{η τ.μ. } \overline{X} \sim Ν(µ,\frac{σ^2}{n}) \text{ κατά νόμο καθώς } n \to \infty \]

Κεντρικό Οριακό Θεώρημα

  • Με απλά λόγια το Κ.Ο.Θ. αναφέρει ότι αν επιλέξουμε με τυχαία δειγματοληψία πολλά μεγάλα σε πλήθος και ίσα μεταξύ τους δείγματα από έναν πληθυσμό (που μπορεί να μην ακολουθεί κατ' ανάγκη κανονική κατανομή), η κατανομή των μέσων όρων των εν λόγω δειγμάτων θα είναι μια κανονική κατανομή.
  • Επιπρόσθετα, ο μέσος όρος των μέσων όρων των συγκεκριμένων δειγμάτων θα είναι σχεδόν ίδιος με τον μέσο όρο του πληθυσμού ενώ η τυπική απόκλιση περιορίζεται δραστικά ( \( \frac{σ}{\sqrt{n}} \) , όσο μεγαλύτερο n τόσο μικρότερη η τυπική απόκλιση).
  • Αυτή η κατανομή των μέσων όρων ονομάζεται δειγματοληπτική κατανομή (sampling distribution).

Κεντρικό Οριακό Θεώρημα

  • Η δειγματοληπτική κατανομή των μέσων όρων ενός δείγματος.
  • Η δειγματοληπτική κατανομή των μέσων όρων ενός δείγματος

Κεντρικό Οριακό Θεώρημα

  • H δειγματοληπτική κατανομή αποτελεί θεμέλιο λίθο σε κάθε διαδικασία στην επαγωγική στατιστική, καθώς μας πληροφορεί τι τιμές πρέπει (ή δεν πρέπει) να αναμένουμε ότι θα βρεθούν από την εφαρμογή ενός συγκεκριμένου στατιστικού κριτηρίου μέσα σε ένα προκαθορισμένο πλαίσιο κανόνων.
  • Όταν υπολογίζουμε το μέσο όρο ενός δείγματος είμαστε σε θέση να γνωρίζουμε (όπως σε κάθε κανονική κατανομή) ότι η πιθανότητα ο δειγματικός μέσος όρος μας να βρίσκεται μέσα σε διάστημα [μ-s, μ+s] είναι 68%, σε διάστημα [μ-2s, μ+2s] η πιθανότητα είναι 95% ενώ σχεδόν σίγουρα (πιθανότητα 1) θα βρίσκεται σε διάστημα [μ-3s, μ+3s].
  • Το σφάλμα εκτίμησης: \( e=\overline{X}-μ \sim Ν(0,\frac{σ^2}{n}) \)