R

Εισαγωγη στην R

Έλεγχος Υποθέσεων

Άννα Μοσχά
Κέντρο Η/Υ, Ε.Μ.Π.

Περιεχομενα

  1. Επαγωγική στατιστική
  2. Έλεγχος Υποθέσεων
  3. Σφάλματα στους ελέγχους υποθέσεων
  4. Διάστημα εμπιστοσύνης
  5. Έλεγχοι Κανονικότητας
  6. Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής
  7. Έλεγχοι ποσοτικών μετ. σε δύο ανεξάρτητα δείγματα
  8. Έλεγχοι ποσοτικών μετ. σε δύο εξαρτημένα δείγματα
  9. Έλεγχοι ποσοστού ενός δείγματος
  10. Έλεγχος ποσοστών σε δύο ανεξάρτητα δείγματα
  11. Έλεγχος ανεξαρτησίας κατηγορικών μεταβλητών. Πίνακες σύναφειας 2Χ2
  12. Έλεγχος ποσοστών σε δύο εξαρτημένα δείγματα

Επαγωγική στατιστική

  • Σε δεύτερο επίπεδο μιας έρευνας, εφόσον ολοκληρώθηκε η περιγραφή των δεδομένων (με την περιγραφική στατιστική), όταν θέλουμε να εξαγάγουμε κάποια συμπεράσματα για τον πληθυσμό της έρευνας, βασιζόμενοι σε αντιπροσωπευτικό δείγμα του πληθυσμού, χρησιμοποιούμε μία άλλη ομάδα στατιστικών μεθόδων που ονομάζεται επαγωγική στατιστική (inferential statistics).
  • Η επαγωγική στατιστική ελέγχει υποθέσεις και κάνει εκτιμήσεις

Επαγωγική στατιστική

  • H διαδικασία αυτή πραγματοποιείται μέσω ενός επαγωγικού μοντέλου σκέψης, το οποίο βασίζεται στη μαθηματική θεωρία πιθανοτήτων για την εξαγωγή συμπερασμάτων για έναν πληθυσμό, από τα δεδομένα που έχουμε συλλέξει για ένα δείγμα του πληθυσμού.
  • Στην περίπτωση που το δείγμα είναι αντιπροσωπευτικό (αποτελεί μικρογραφία του πληθυσμού) και τυχαίο, έχουμε το δικαίωμα να εξάγουμε τα συμπεράσματα που απορρέουν από το δείγμα στο σύνολο του πληθυσμού.

Επαγωγική στατιστική

  • Κάθε στατιστικός δείκτης ή μέγεθος που αφορά τον πληθυσμό λέγεται παράμετρος (parameter) π.χ. ο μέσος όρος ενός πληθυσμού και συμβολίζεται με μ
  • Ενώ κάθε δείκτης που αφορά το δείγμα ονομάζεται στατιστικό (statistics) π.χ. ο μέσος όρος ενός δείγματος συμβολίζεται με \( \overline{X} \)

Επαγωγική στατιστική

  • Διαφορετικά δείγματα από τον ίδιο πληθυσμό έχουν διαφορετικά χαρακτηριστικά π.χ. έχουν διαφορετικό μέσο όρο \( \overline{X} \).
  • Σφάλμα δειγματοληψίας (sampling error) : Η διακύμανση ενός στατιστικού δείκτη από δείγμα σε δείγμα.
  • Το σφάλμα δειγματοληψίας οφείλεται στη διακύμανση λόγω τυχαίων παραγόντων π.χ. στις ατομικές διαφορές και δεν μπορεί να αποφευχθεί.

Επαγωγική στατιστική

  • Κάθε δείγμα έχει διαφορετικά χαρακτηριστικά από αυτά του πληθυσμού π.χ. ο μέσος όρος ενός πληθυσμού μ είναι σχεδόν αδύνατο να είναι ακριβώς ίσος με τον μέσο όρο οποιουδήποτε τυχαίου δείγματος από τον πληθυσμό \( \overline{X} \) .
  • Ο υπολογισμός των διαφόρων παραμέτρων του πληθυσμού από τους στατιστικούς δείκτες που απορρέουν από κάποιο δείγμα δεν είναι απόλυτα ακριβής (π.χ. από τον \( \overline{X} \) να εκτιμήσουμε τον μ). Εμπεριέχει αναπόφευκτα ένα βαθμό σφάλματος.
  • Η επαγωγική στατιστική παρέχει την δυνατότητα στον ερευνητή να καθορίσει με σχετική ακρίβεια την πιθανότητα σφάλματος η οποία περιέχεται στα συμπεράσματα που διατυπώνει μετά την στατιστική ανάλυση.

Επαγωγική στατιστική

  • H δειγματοληπτική κατανομή, όπως προαναφέρθηκε, αποτελεί θεμέλιο λίθο σε κάθε διαδικασία στην επαγωγική στατιστική, καθώς μας πληροφορεί τι τιμές πρέπει (ή δεν πρέπει) να αναμένουμε ότι θα βρεθούν από την εφαρμογή ενός συγκεκριμένου στατιστικού κριτηρίου μέσα σε ένα προκαθορισμένο πλαίσιο κανόνων.
  • Όταν υπολογίζουμε το μέσο όρο ενός δείγματος είμαστε σε θέση να γνωρίζουμε (όπως σε κάθε κανονική κατανομή) ότι η πιθανότητα ο δειγματικός μέσος όρος μας να βρίσκεται μέσα σε διάστημα [μ-s, μ+s] είναι 68%, σε διάστημα [μ-2s, μ+2s] η πιθανότητα είναι 95% ενώ σχεδόν σίγουρα (πιθανότητα 1) θα βρίσκεται σε διάστημα [μ-3s, μ+3s].
  • Το σφάλμα εκτίμησης: \( e=\overline{X}-μ \sim Ν(0,\frac{σ^2}{n}) \)

Έλεγχος Υποθέσεων

  • Έλεγχος υποθέσεων: είναι ένα μοντέλο λήψης αποφάσεων σχετικά με τις τιμές των παραμέτρων.
  • Σε ένα οποιοδήποτε στατιστικό έλεγχο εμπλέκονται πάντα δύο στατιστικές υποθέσεις. Η πρώτη από αυτές ονομάζεται μηδενική υπόθεση και τη συμβολίζουμε με \( H_0 \), ενώ η δεύτερη ονομάζεται εναλλακτική υπόθεση και τη συμβολίζουμε με \( H_1 \).
  • Δεν υπάρχει γενικός ορισμός ούτε για την μηδενική ούτε για την εναλλακτική υπόθεση. Διατυπώνονται ανάλογα με τον έλεγχο που απαιτείται να γίνει κάθε φορά. Η μηδενική υπόθεση, όταν ελέγχεται η σχέση κάποιων μεταβλητών, υποστηρίζει ότι δεν υπάρχει σχέση μεταξύ τους, ενώ η εναλλακτική ότι υπάρχει.

Έλεγχος Υποθέσεων

  • Με την βοήθεια του ελέγχου υποθέσεων αποφασίζουμε αν θα δεχτούμε ή θα απορρίψουμε την υπόθεση που έχουμε διατυπώσει. Ο έλεγχος πάντα γίνεται για την μηδενική υπόθεση.
  • Στον έλεγχο υποθέσεων προσπαθούμε να διαπιστώσουμε κατά πόσο τα αποτελέσματα που πήραμε από την ανάλυσή μας οφείλονται σε τυχαίους παράγοντες (σφάλμα δειγματοληψίας) ή όχι (π.χ. οφείλονται στην επίδραση μιας μεταβλητής)

Έλεγχος Υποθέσεων

  • Τα βήματα που ακολουθούμε για την διεξαγωγή ενός ελέγχου υποθέσεων είναι τα ακόλουθα:
    1. Η διατύπωση των υποθέσεων.
    2. Η επιλογή του κατάλληλου στατιστικού κριτηρίου.
    3. Η επιλογή του επιπέδου σημαντικότητας.
    4. Ο καθορισμός της περιοχής απόρριψης.
    5. Η διατύπωση συμπερασμάτων.

Έλεγχος Υποθέσεων

  • Όπως προαναφέρθηκε η διατύπωση των υποθέσεων γίνεται ανά περίπτωση.
  • Παράδειγμα:
    • Έστω ότι θέλουμε να μελετήσουμε την επίδραση του αλκοόλ στην ικανότητα οδήγησης. Κάνουμε ένα πείραμα όπου έχουμε δύο ομάδες ατόμων: η ομάδα ατόμων που πίνει αλκοολούχο ποτό (πειραματική ομάδα) και η ομάδα που πίνει μη αλκοολούχο ποτό (ομάδα ελέγχου). Ενδιαφερόμαστε να μελετήσουμε κατά πόσο ο αριθμός των λαθών που κάνουν οι δύο συμμετέχουσες ομάδες διαφέρει.

Έλεγχος Υποθέσεων

  • Οι υποθέσεις διατυπώνονται ως εξής:
    • \( H_0 \) : Δεν υπάρχει σημαντική διαφορά στον αριθμό των λαθών κατά την οδήγηση ανάμεσα στα άτομα που πίνουν αλκοολούχο ποτό και στα άτομα που δεν πίνουν αλκοολούχο ποτό δηλ. \( μ_Π = μ_Ε\) ή \( μ_Π - μ_Ε = 0\)
    • \( H_1 \) : Υπάρχει σημαντική διαφορά στον αριθμό των λαθών κατά την οδήγηση ανάμεσα στα άτομα που πίνουν αλκοολούχο ποτό και στα άτομα που δεν πίνουν αλκοολούχο ποτό δηλ. \( μ_Π \neq μ_Ε\) ή \( μ_Π - μ_Ε \neq 0\)
    Παρατηρήστε ότι δεν επιχειρούμε κάποια συγκεκριμένη πρόβλεψη π.χ. ότι τα άτομα που πίνουν αλκοόλ θα κάνουν περισσότερα λάθη. Η \( H_1 \) ονομάζεται αμφίπλευρη υπόθεση (two-tailed hypothesis) και ο έλεγχος που κάνουμε αμφίπλευρος ή δίπλευρος έλεγχος.

Έλεγχος Υποθέσεων

  • Σε μονόπλευρο έλεγχο οι υποθέσεις διατυπώνονται ως εξής:
    • \( H_0 \) : Τα άτομα που πίνουν αλκοολούχο ποτό δεν θα κάνουν περισσότερα λάθη κατά την οδήγηση από τα άτομα που δεν πίνουν αλκοολούχο ποτό δηλ. \( μ_Π = μ_Ε\)
    • \( H_1 \) : Τα άτομα που πίνουν αλκοολούχο ποτό θα κάνουν περισσότερα λάθη κατά την οδήγηση από τα άτομα που δεν πίνουν αλκοολούχο ποτό δηλ. \( μ_Π > μ_Ε\)
  • Σε αυτήν την περίπτωση επιχειρούμε συγκεκριμένη πρόβλεψη. Η \( H_1 \) ονομάζεται μονόπλευρη υπόθεση (one-tailed hypothesis) και ο έλεγχος που κάνουμε μονόπλευρος έλεγχος.

Έλεγχος Υποθέσεων

  • Επίσης μονόπλευρος έλεγχος:
    • \( H_0 \) : Τα άτομα που πίνουν αλκοολούχο ποτό δεν θα κάνουν λιγότερα λάθη κατά την οδήγηση από τα άτομα που δεν πίνουν αλκοολούχο ποτό δηλ. \( μ_Π = μ_Ε\)
    • \( H_1 \) : Τα άτομα που πίνουν αλκοολούχο ποτό θα κάνουν λιγότερα λάθη κατά την οδήγηση από τα άτομα που δεν πίνουν αλκοολούχο ποτό δηλ. \( μ_Π \lt μ_Ε\)
  • Και σ' αυτήν την περίπτωση επιχειρούμε συγκεκριμένη πρόβλεψη. Η \( H_1 \) ονομάζεται μονόπλευρη υπόθεση (one-tailed hypothesis) και ο έλεγχος που κάνουμε μονόπλευρος έλεγχος.

Έλεγχος Υποθέσεων

  • Παράδειγμα:
  • Έστω ότι θέλουμε να ελέγξουμε την κανονικότητα ενός δείγματος. Τότε οι υποθέσεις διατυπώνονται ως εξής:
    • \( H_0 \) : Η κατανομή του δείγματος μας δεν απέχει πολύ από την κανονική κατανομή.
    • \( H_1 \) : Η κατανομή του δείγματος μας απέχει πολύ από την κανονική κατανομή.

Έλεγχος Υποθέσεων

  • Παράδειγμα:
  • Έστω Χ η διάρκεια ζωής συγκεκριμένων λαμπτήρων φθορίου. Ενδιαφερόμαστε να ελέγξουμε αν η μέση τιμή της τυχαίας μεταβλητής Χ, έστω μ, είναι 2000h. Τότε οι υποθέσεις διατυπώνονται ως εξής:
    • \( H_0 \) : Η κατανομή του δείγματος μας έχει μέση διάρκεια ζωής που δεν απέχει πολύ από τις 2000 ώρες δηλ. \( μ = 2000 \)
    • \( H_1 \) : Η κατανομή του δείγματος μας έχει μέση διάρκεια ζωής που απέχει πολύ από τις 2000 ώρες δηλ. \( μ \ne 2000 \)

Έλεγχος Υποθέσεων

  • Επιλογή του κατάλληλου στατιστικού κριτηρίου:
  • Οι παράγοντες που παίζουν σημαντικό ρόλο στην επιλογή του κατάλληλου στατιστικού κριτηρίου είναι:
    • Το είδος των μεταβλητών (π.χ. ποσοτικές ή κατηγορικές)
    • Η κλίμακα μέτρησης των μεταβλητών (π.χ. κατηγορική κλίμακα, ιεραρχική, ίσων διαστημάτων ή αναλογική).
    • Η φύση του πληθυσμού από το οποίο προέρχεται το δείγμα (π.χ. αν ακολουθεί κανονική κατανομή). Με βάση τη φύση του πληθυσμού κάνουμε διάκριση σε παραμετρικά και μη παραμετρικά στατιστικά κριτήρια.

Έλεγχος Υποθέσεων

  • Οι στατιστικές μέθοδοι που βασίζονται στην πρότερη γνώση ή υπόθεση αναφορικά με συγκεκριμένα χαρακτηριστικά του πληθυσμού (π.χ. κατανομή τιμών) ονομάζονται παραμετρικές μέθοδοι και αποτελούν τις πιο παλαιές και πιο συχνά χρησιμοποιούμενες στατιστικές τεχνικές (π.χ. T-test, Anova, συντελεστής συσχέτισης του Pearson, Παλινδρόμηση κ.α.).
  • Πολλές φορές όμως στην πράξη, δεν είμαστε σε θέση να προβλέπουμε ή να κάνουμε υποθέσεις σχετικά με τα χαρακτηριστικά του πληθυσμού, με συνέπεια να μην μπορούμε να χρησιμοποιούμε τις παραμετρικές μεθόδους.

Έλεγχος Υποθέσεων

  • Για τον λόγο αυτό έχουν αναπτυχθεί στατιστικές τεχνικές, οι οποίες δεν προϋποθέτουν υποθέσεις για τις πληθυσμιακές παραμέτρους. Αυτές οι τεχνικές ονομάζονται μη παραμετρικές μέθοδοι (π.χ. Kruskal- Wallis, Mann-Whitney, Συντελεστής συσχέτισης του Spearman και του Kendall, Χ-τετράγωνο έλεγχος ανεξαρτησίας, Shapiro-Wilk και Kolmogorov για έλεγχο κανονικής κατανομής κ.α.).

Έλεγχος Υποθέσεων

  • Συνήθως το στατιστικό ελέγχου (test statistic) του κριτηρίου είναι της μορφής \[\frac{\text{(Εκτιμήτρια του θ)} − \text{(Τιμή του θ με βάση την } Η_0)} {\text{(Τυπικό Σφάλμα Εκτιμήτριας του θ)}},\] όπου θ η άγνωστη παράμετρο του πληθυσμού που εξετάζουμε
  • Παρατηρήστε ότι το στατιστικό ελέγχου είναι μια δειγματοσυνάρτηση. Αυτό σημαίνει ότι από διαφορετικό δείγμα ίδιου μεγέθους ενδέχεται να προκύψουν διαφορετικές τιμές για την παραπάνω παράσταση.

Έλεγχος Υποθέσεων

  • Μετά την επιλογή και την εφαρμογή του στατιστικού κριτηρίου η υπόθεση που κρίνεται είναι η μηδενική υπόθεση.
  • Ο λόγος που κρίνεται η μηδενική έναντι της εναλλακτικής είναι ότι οι στατιστικές τεχνικές που έχουν αναπτυχθεί στην επαγωγική στατιστική έχουν σχεδιαστεί με τέτοιο τρόπο, ώστε να μας επιτρέπουν να υπολογίζουμε πόσο πάνω ή πόσο κάτω από το 0 πρέπει να κυμαίνεται η συσχέτιση ή η διαφορά μεταξύ δύο μεταβλητών (π.χ. \( μ_Π - μ_Ε =0\)) για μην οφείλεται στο τυχαίο σφάλμα δειγματοληψίας.

Έλεγχος Υποθέσεων

  • Όσο πάνω ή κάτω από το 0 βρίσκεται η διαφορά ή η συσχέτιση, τόσο μικρότερη είναι η πιθανότητα να έχει προκύψει εξαιτίας του σφάλματος δειγματοληψίας και τόσο μεγαλύτερη είναι η πιθανότητα η διαφορά αυτή ή η συσχέτιση να είναι στατιστικώς σημαντική (statistically significant).
  • Στατιστικώς σημαντικό αποτέλεσμα είναι το αποτέλεσμα που δεν έχει προέλθει από τυχαίους παράγοντες. Η στατιστικώς σημαντική διαφορά οφείλεται στη δράση ενός συστηματικού εξωτερικού παράγοντα και όχι στην τυχαία δειγματοληψία.
  • Στην αντίθετη περίπτωση λέμε ότι το αποτέλεσμα είναι στατιστικώς μη σημαντικό.

Έλεγχος Υποθέσεων

  • Για να κριθεί η υπόθεση χρειάζεται να καθοριστεί ένα πιθανοθεωρητικό όριο το επίπεδο στατιστικής σημαντικότητας α, πάνω από το οποίο θα δεχτούμε ως αληθινή την μηδενική υπόθεση, ενώ κάτω από αυτό το όριο θα την απορρίψουμε ως ψευδή.
  • Επίπεδο στατιστικής σημαντικότητας είναι το ανώτατο αποδεκτό όριο να έχει εμφανιστεί το αποτέλεσμα που βρήκαμε λόγω τυχαίων παραγόντων.
  • Συνήθως χρησιμοποιούμε ως επίπεδο στατιστικής σημαντικότητας α=0,05 (ή πιο αυστηρό α=0,01) που σημαίνει ότι η πιθανότητα το τελικό μας αποτέλεσμα να έχει προέλθει από τυχαίους παράγοντες είναι μόνο 5% (ή 1% αντίστοιχα).

Έλεγχος Υποθέσεων

  • Για παράδειγμα, αν εκτελέσουμε ένα πείραμα και διαπιστώσουμε την "ύπαρξη στατιστικώς σημαντικής διαφοράς σε επίπεδο 5%", με την έκφραση αυτή εννοούμε ότι αν το συγκεκριμένο πείραμα εκτελεστεί άπειρες φορές και μάλιστα κάτω από τις ίδιες συνθήκες αναμένεται να έχουμε το ίδιο αποτέλεσμα στο 95% των εκτελέσεων του πειράματος ενώ διαφορετικό αποτέλεσμα, αναμένεται να έχουμε στο 5% των εκτελέσεων.

Έλεγχος Υποθέσεων

  • Με τη εφαρμογή του στατιστικού κριτηρίου υπολογίζουμε την στατιστική τιμή (statistical value) που προκύπτει από το στατιστικό ελέγχου. Το στατιστικό ελέγχου που χρησιμοποιούμε ακολουθεί μια κατανομή και με βάση την κατανομή αυτή για κάθε στατιστική τιμή υπάρχουν πίνακες που μας δίνουν την πιθανότητα εμφάνισης μιας τιμής τουλάχιστον ίδιας με αυτή (ίδιας ή μικρότερης).
  • Κρίσιμη τιμή είναι η τιμή σε ένα στατιστικό κριτήριο πέρα από την οποία η \( Η_0 \) απορρίππτεται.
  • Οι κρίσιμες τιμές για κάθε στατιστικό κριτήριο έχουν συγκεντρωθεί σε ειδικούς πίνακες και είναι διαφορετικές για κάθε επίπεδο στατιστικής σημαντικότητας.

Έλεγχος Υποθέσεων

  • Εν συνεχεία, χωρίζουμε τον παραμετρικό χώρο σε περιοχή αποδοχής (οι τιμές του στατιστικού ελέγχου για τις οποίες δεν απορρίπτουμε την \( Η_0 \)) και σε περιοχή απόρριψης (οι τιμές του στατιστικού ελέγχου για τις οποίες απορρίπτουμε την \( Η_0 \)).
  • Ο εν λόγω διαχωρισμός του παραμετρικού χώρου εξαρτάται από το στατιστικό κριτήριο που έχει επιλεγεί και από το επίπεδο σημαντικότητας \( α \) που μας δίνει τις κρίσιμες τιμές.
  • Αν η τιμή που πήραμε από την εφαρμογή του στατιστικού κριτηρίου βρίσκεται μέσα στα όρια της περιοχής απόρριψης της \( Η_0 \) απορρίπτουμε την μηδενική υπόθεση, στην αντίθετη περίπτωση την δεχόμαστε.

Έλεγχος Υποθέσεων

  • Στην περίπτωση αμφίπλευρου τεστ για στατιστικό που ακολουθεί για παράδειγμα την κανονική κατανομή ο διαχωρισμός γίνεται ως εξής:
Reject area two-sided hypothesis test

Έλεγχος Υποθέσεων

  • Στην περίπτωση μονόπλευρου τεστ για στατιστικό που ακολουθεί για παράδειγμα την t κατανομή ο διαχωρισμός γίνεται ως εξής:
Reject area one-sided hypothesis test

Έλεγχος Υποθέσεων

  • Όπως προαναφέρθηκε κατά την εφαρμογή στατιστικών κριτηρίων ενδιαφερόμαστε για την πιθανότητα που υπάρχει για μία διαφορά ή συσχέτιση να έχει προκύψει εξαιτίας τυχαίων παραγόντων και όχι λόγω π.χ. της σχέσης που υπάρχει μεταξύ των μεταβλητών. Η πιθανότητα αυτή ονομάζεται τιμή p (p-value).
  • Στην εφαρμογή στατιστικών κριτηρίων με την R η τιμή p δίνεται μεταξύ των αποτελεσμάτων.

Έλεγχος Υποθέσεων

  • Η τιµή p-value του ελέγχου είναι η πιθανότητα το στατιστικό ελέγχου που χρησιμοποιούμε να πάρει σε κάποιο άλλο δείγμα μία τόσο “ακραία” ή και ακόμα περισσότερο τιμή με αυτή που έχουμε παρατηρήσει, δεχόμενοι την μηδενική υπόθεση (δηλ. κάτω από την κατανομή που υποδεικνύει η μηδενική υπόθεση).
  • Η στατιστική συνάρτηση, το στατιστικό ελέγχου για να λάβει μία ακραία τιμή ( και για π.χ. το pdf της να είναι \( \lt 0.05 \)) θα πρέπει στην ουσία να υπάρχουν μεγάλες διαφορές (π.χ. στους μέσους όρους) και συνεπώς οι διαφορές αυτές να μην προέκυψαν από τυχαίους παράγοντες.
  • Σε αυτή την περίπτωση απορρίπτουμε τη μηδενική υπόθεση της ισότητας για παράδειγμα των μέσων.

Έλεγχος Υποθέσεων

  • Αν η πιθανότητα να έχει εμφανιστεί μία διαφορά ή μία συσχέτιση λόγω τυχαίων παραγόντων (δηλαδή η p-value) είναι μικρή , τότε απορρίπτουμε την μηδενική υπόθεση.
  • Το ανώτατο αποδεκτό όριο που αποδεχόμαστε για τα αποτελέσματα μας να προέρχονται από τυχαίους παράγοντες αναφέραμε ότι είναι το επίπεδο σημαντικότητας α.
  • Ουσιαστικά, αν \( p \lt α \) δεν δεχόμαστε την \( Η_0\).

Έλεγχος Υποθέσεων

  • p-value μεγάλο (στατιστικό μικρό) : οι διαφορές προέκυψαν λόγω τυχαίων παραγόντων.
  • p-value μικρό (στατιστικό μεγάλο) : οι διαφορές προέκυψαν λόγω μη τυχαίων παραγόντων.

Σφάλματα στους ελ. υποθέσεων

  • Σφάλματα στους ελέγχους υποθέσεων:
    • Σφάλμα τύπου Ι:
    • Το λάθος να απορρίψουμε την υπόθεση \( Η_0\) ενώ είναι σωστή. Η πιθανότητα του λάθος αυτού είναι το α , το επίπεδο σημαντικότητας που ορίσαμε.
    • Σφάλμα τύπου ΙI:
    • Το λάθος να δεχτούμε την υπόθεση \( Η_0\) ενώ είναι λανθασμένη. Η πιθανότητα του λάθος αυτού συμβολίζεται με β .
  • Η πιθανότητα P=1-β λέγεται ισχύ (power) του τεστ. Είναι η πιθανότητα να απορρίψουμε την \( Η_0\) που είναι πράγματι λανθασμένη. Δείχνει πόσο βέβαιοι είμαστε ότι δεν διαπράξαμε σφάλμα τύπου ΙΙ.

Σφάλματα στους ελ. υποθέσεων

  • Σφάλματα στους ελέγχους υποθέσεων:
  • Απόφαση
    Πραγματικότητα Αποδοχή \( Η_0\) Απόρριψη \( Η_0\)
    \(Η_0\) αληθινή
    Σωστή απόφαση
    Σφάλμα τύπου Ι Πιθανότητα α
    \(Η_0\) λανθασμένη Σφάλμα τύπου ΙΙ Πιθανότητα β
    Σωστή απόφαση
    Ισχύς 1-β

Σφάλματα στους ελ. υποθέσεων

  • Οι πιθανότητες των σφαλμάτων τύπου Ι και ΙΙ, α και β δεν είναι σταθερού αθροίσματος, παρά το γεγονός ότι αυξανομένου του ενός, μειώνεται το άλλο.
  • Επιλέγουμε την κρίσιμη περιοχή έτσι ώστε να ελαχιστοποιούνται οι πιθανότητες των 2 ειδών σφαλμάτων.
  • Κάτι τέτοιο δεν είναι πάντοτε εφικτό, οπότε στην πράξη κρατάμε το α σταθερό (π.χ. α=0.05) και ελαχιστοποιούμε το β.
  • Το β είναι πιο δύσκολο να βρεθεί γιατί εξαρτάται από τιμές της παραμέτρου που μας είναι άγνωστες.

Σφάλματα στους ελ. υποθέσεων

  • Την \( Η_0\) μπορούμε να την απορρίψουμε χωρίς προβλήματα αλλά όταν τη δεχτούμε, θα πρέπει να υπολογίσουμε κανονικά και το β για να είμαστε περισσότερο σίγουροι για την απάντηση μας.
  • Γι' αυτό αντί να λέμε σαν συμπέρασμα ότι "δεχόμαστε την \( Η_0\)" είναι πιο σωστό να λέμε "δεν έχουμε αρκετή μαρτυρία για να απορρίψουμε την \( Η_0\)", οπότε δεν είμαστε υποχρεωμένοι να υπολογίσουμε το β.

Διάστημα εμπιστοσύνης

  • Όπως προαναφέρθηκε, για να εκτιμήσουμε την παράμετρο θ ενός πληθυσμού χρησιμοποιούμε ένα δείγμα, όσο όμως αντιπροσωπευτικό κι αν είναι το δείγμα, είναι αδύνατο να συμπέσει ο στατιστικός δείκτης του δείγματος με την αληθινή παράμετρο του πληθυσμού.
  • Για παράδειγμα, αν θέλουμε να εκτιμήσουμε τη μέση τιμή μ ενός πληθυσμού λαμβάνοντας ένα αντιπροσωπευτικό και τυχαίο δείγμα που ο δειγματικός μέσος είναι \( \overline{X} \), η διαφορά \( \overline{X}-μ \) θα είναι πάντα υπαρκτή είτε μικρή είτε μεγάλη.
  • Έτσι όταν θέλουμε να εκτιμήσουμε την παράμετρο θ ενός πληθυσμού συνήθως προσδιορίζουμε με τη βοηθεια ενός τυχαίου δείγματος ένα διάστημα το οποίο με κάποια πιθανότητα θα περιέχει την πραγματική τιμή του θ.

Διάστημα εμπιστοσύνης

  • Διάστημα εμπιστοσύνης (Δ.Ε.) (confidence interval) με συντελεστή εμπιστοσύνης (σ.ε.) 1-α για την παράμετρο θ ενός πληθυσμού, θα λέγεται το διάστημα \( (θ_1,θ_2) \) για το οποίο ισχύει: \[ P(θ_1\ltθ\ltθ_2)=1-α \] όπου 1-α : ο συντελεστής ή το επίπεδο ή το διάστημα εμπιστοσύνης, \( θ_1,θ_2 \) : το κατώτερο και το ανώτερο όριο αντίστοιχα του διαστήματος εμπιστοσύνης.
  • Το διάστημα εμπιστοσύνης του θ προσδιορίζεται με βάση την κατανομή της εκτιμήτριας του θ από το τυχαίο δείγμα, συνεπώς οι τιμές \( θ_1,θ_2 \) είναι τυχαίες μεταβλητές. Αυτό σημαίνει ότι από διαφορετικό δείγμα ίδιου μεγέθους ενδέχεται να προκύψουν διαφορετικά Δ.Ε. για το θ.

Διάστημα εμπιστοσύνης

  • Γραφική παράσταση του διαστήματος εμπιστοσύνης με συντελεστή εμπιστοσύνης 1-α για την παράμετρο θ ενός πληθυσμού:
  • confidence interval

Διάστημα εμπιστοσύνης

  • Αν ορίσουμε α=0.05, τότε 1-α=0.95 οπότε το διάστημα εμπιστοσύνης θα είναι το 95%. Με συντελεστή εμπιστοσύνης σταθερό εάν πάρουμε πολλά δείγματα (θεωρητικά άπειρα) από τον ίδιο πληθυσμό, ίδιου μεγέθους \( n \), σε κάθε δειγματική εκτίμηση, προφανώς θα αντιστοιχεί και ένα διαφορετικό δ.ε. Ωστόσο, το 95% αυτών θα περιέχει την εκτιμούμενη παράμετρο \( \hatθ \) του πληθυσμού, ενώ το 5% δεν θα την έχει.
  • Αν θέλουμε να είμαστε περισσότερο σίγουροι μπορούμε να πάρουμε ένα 98% ή 99% δ.ε.
  • Το δ.ε. έχει μεγαλύτερη έκταση όσο ο συντελεστής εμπιστοσύνης είναι μεγαλύτερος.

Διάστημα εμπιστοσύνης

  • Παράδειγμα: Έστω \( X_1,...,X_n \) τυχαίο δείγμα από πληθυσμό με μέση τιμή μ (άγνωστη) και διασπορά \( σ^2 \) (γνωστή). Θα κατασκευάσουμε το (1-α)% δ.ε. για το άγνωστο μ.
  • Μια εκτιμήτρια για το μ είναι ο δειγματικός μέσος \( \overline{X} \).
  • Για μεγάλο \( n \) από το Κ.Ο.Θ. ξέρουμε ότι \( \overline{X} ∼ N(μ, \frac{σ^2}{n}) \).
  • Συνεπώς το τυπικό σφάλμα της εκτιμήτριάς μας είναι \( \frac{σ}{\sqrt{n}} \).
  • Τότε όμως η τ.μ. \( Z= \frac{\overline{X}−μ}{\frac{σ}{\sqrt{n}}} ∼ N(0,1) \) και συνεπώς αν \( z_{\frac{a}{2}} \) το σημείο εκείνο της τυποποιημένης Κανονικής κατανομής για το οποίο \( P(Z>z_{\frac{a}{2}})=\frac{a}{2} \) έχουμε \( P(-z_{\frac{a}{2}} \lt Ζ \lt z_{\frac{a}{2}} )=1-α.\)

Διάστημα εμπιστοσύνης

  • Από την σχέση \[ -z_{\frac{a}{2}} \lt Ζ \lt z_{\frac{a}{2}} \] αντικαθιστώντας το \( Ζ \) παίρνουμε: \[ -z_{\frac{a}{2}} \lt \frac{\overline{X}−μ}{\frac{σ}{\sqrt{n}}} \lt z_{\frac{a}{2}} \] και λύνοντας ως προς \( μ \) έχουμε το (1-α)% δ.ε. για την άγνωστη παράμετρο \( μ \) του πληθυσμού: \[ \overline{X}-z_{\frac{a}{2}}{\frac{σ}{\sqrt{n}}} \lt μ \lt \overline{X}+z_{\frac{a}{2}}{\frac{σ}{\sqrt{n}}} \]
  • Αντίστοιχα υπολογίζονται τα δ.ε. και για άλλες κατανομές.

Έλεγχοι Κανονικότητας

  • Όπως είδαμε προηγουμένως μπορούμε να κάνουμε γραφικά έλεγχο κανονικότητας μιας κατανομής αλλά και τα μέτρα της λοξότητας(ή ασυμμετρίας) και της κύρτωσης αποτελούν ενδείξεις κανονικότητας.
  • Ωστόσο, ο επιστημονικά τεκμηριωμένος έλεγχος κανονικότητας γίνεται με τη βοήθεια στατιστικών κριτηρίων (έλεγχο υποθέσεων) όπως Kolmogorov-Smirnov, Lillefors, και Shapiro-Wilk.
  • Στις περιπτώσεις μικρών δειγμάτων (\(n \le 50\)), τα πορίσματα των ερευνών αναφέρουν ότι ενδείκνυται ισχυρά η χρήση, πρώτα και κύρια του στατιστικού κριτηρίου Shapiro–Wilk για τον έλεγχο της κανονικότητας.

Έλεγχοι Κανονικότητας

  • Ο έλεγχος Shapiro–Wilk μπορεί να εφαρμοστεί στην R με την σύνταξη.
  • shapiro.test(x)
  • Παράδειγμα 1: Ας θυμηθούμε το παράδειγμα δεδομένων cars που αποτελείται από 50 παρατηρήσεις. Θα ελέγξουμε αν η μεταβλητή speed προέρχεται από πληθυσμό που ακολουθεί την κανονική κατανομή.
  • > str(cars)
    'data.frame':	50 obs. of  2 variables:
     $ speed: num  4 4 7 7 8 9 10 10 10 11 ...
     $ dist : num  2 10 4 22 16 10 18 26 34 17 ...

Έλεγχοι Κανονικότητας

  • Στην προκειμένη περίπτωση η μηδενική κι η εναλλακτική υπόθεση διατυπώνονται ως εξής:
    • \( Η_0\) : Η κατανομή της μεταβλητής speed του δείγματος μας ΔΕΝ απέχει πολύ από την κανονική κατανομή.
    • \( Η_1\) : Η κατανομή της μεταβλητής speed του δείγματος μας απέχει πολύ από την κανονική κατανομή.
  • Θα κάνουμε πρώτα γραφικό έλεγχο κανονικότητας της μεταβλητής speed.
  • > qqnorm(cars$speed)
    > qqline(cars$speed)

Έλεγχοι Κανονικότητας

  • Παρατηρούμε ότι φαίνεται γραφικά ότι η μεταβλητή speed ακολουθεί την κανονική κατανομή:
  • Γραφικός έλεγχος κανονικότητας της speed

Έλεγχοι Κανονικότητας

  • Εφαρμόζοντας τον έλεγχο Shapiro–Wilk έχουμε:
  • > shapiro.test(cars$speed)
    
    	Shapiro-Wilk normality test
    
    data:  cars$speed
    W = 0.97765, p-value = 0.4576
    
  • Παρατηρούμε ότι παίρνουμε σαν αποτέλεσμα το όνομα του στατιστικού ελέγχου που γίνεται, τα δεδομένα που χρησιμοποιούνται, την τιμή του στατιστικού W και την τιμή της p-value.

Έλεγχοι Κανονικότητας

  • Παρατηρούμε ότι η τιμή της p-value είναι 0.4576>α=0.05 άρα δεν μπορούμε να απορρίψουμε την μηδενική υπόθεση η οποία θεωρεί ότι η μεταβλητή speed ακολουθεί κανονική κατανομή, γεγονός που συμφωνεί με τον προηγούμενο γραφικό έλεγχο.
  • Υπενθύμιση: Η p-value είναι η πιθανότητα το στατιστικό να πάρει τιμή παρόμοια ή ακόμα πιο ακραία από αυτή που υπολογίσαμε από το συγκεκριμένο δείγμα σε άλλη περίπτωση όπου θα είχαμε κάποιο άλλο δείγμα από την ίδια κατανομή της μεταβλητής speed. Δηλ. απαντά στο ερώτημα "Πόσο πιθανόν είναι να ξαναπάρουμε παρόμοια ή ακόμα πιο ακραία από αυτή την τιμή του στατιστικού χρησιμοποιώντας άλλο δείγμα;"

Έλεγχοι Κανονικότητας

  • Παρατηρήστε ότι μπορούμε να αναθέσουμε σε μια μεταβλητή (π.χ. στο παράδειγμα μας shspeed) το αποτέλεσμα ενός ελέγχου υπόθεσης. Η μεταβλητή αυτή είναι ένα αντικείμενο της μορφής λίστας και ως συνέπεια μπορούν να αποθηκευτούν το περιεχόμενο του (όλα ή κομμάτια του) και να ανακληθούν αργότερα. Παράδειγμα:
  • > shspeed<-shapiro.test(cars$speed)
    > mode(shspeed)
    [1] "list"
    > class(shspeed)
    [1] "htest"
    > names(shspeed)
    [1] "statistic" "p.value"   "method"    "data.name"
    > shspeed$statistic
            W 
    0.9776489 
    > shspeed$p.value
    [1] 0.4576319
    > shspeed$method
    [1] "Shapiro-Wilk normality test"
    > shspeed$data.name
    [1] "cars$speed"

Έλεγχοι Κανονικότητας

  • Ας θυμηθούμε το dataframe z με τις βαθμολογίες των φοιτητών μεταλλειολόγων στα Αγγλικά:
  • > names(z)[3]<-'Course_total_pos'
    > str(z)
    'data.frame':	47 obs. of  7 variables:
     $ ID_number        : chr  "mm12023" "mm12038" "mm12054" "mm12554" ...
     $ Sex              : Factor w/ 2 levels "F","M": 2 2 2 1 1 1 1 1 2 1 ...
     $ Course_total_pos : num  65.8 77.67 86.75 3.33 84.13 ...
     $ Technical_English: num  2 2 2 0 2 2 1.8 2 2 2 ...
     $ EAP              : int  1 0 0 0 1 0 0 0 0 0 ...
     $ Exam             : num  4 3.6 2.5 2.5 6.6 3.9 1.3 1 3.5 4.6 ...
     $ Final_mark       : int  7 6 2 2 10 6 2 1 6 7 ...
Αλλάζουμε το όνομα της μεταβλητής Course_total_% (αν δεν έχει ήδη γίνει η αλλαγή) ώστε να μην περιέχει το σύμβολο % που δημιουργεί προβλήματα όταν την καλούμε.

Έλεγχοι Κανονικότητας

  • Θα ελέγξουμε αν η μεταβλητή Course_total_pos που μετρά την βαθμολογία των φοιτητών στο ηλεκτρονικό μάθημα Αγγλικών ακολουθεί κανονική κατανομή. Κάνουμε πρώτα γραφικό έλεγχο:
  • > qqnorm(z$Course_total_pos)
    > qqline(z$Course_total_pos)
    Γραφικός έλεγχος κανονικότητας της Course_total_pos Παρατηρούμε ότι γραφικά φαίνεται ότι δεν ακολουθεί κανονική κατανομή.

Έλεγχοι Κανονικότητας

  • Εφαρμόζοντας το Shapiro-Wilk τεστ για την Course_total_pos παρατηρούμε ότι απορρίπτεται η μηδενική υπόθεση που αναφέρει ότι η βαθμολογία στο ηλ. μάθημα ακολουθεί κανονική κατανομή αφού το p-value είναι πολύ μικρό:
  • > shapiro.test(z$Course_total_pos)
    
    	Shapiro-Wilk normality test
    
    data:  z$Course_total_pos
    W = 0.70306, p-value = 1.909e-08

Έλεγχοι Κανονικότητας

  • Για έλεγχο κανονικότητας σε μεγάλα δείγματα συνήθως πιο σωστό θεωρείτε να χρησιμοποιούμε το Lilliefors τεστ που διόρθωσε το Kolmogorov-Smirnov καλής προσαρμογής τεστ το οποίο υποθέτει ότι η μέση τιμή κι η διακύμανση είναι γννωστές σε αντίθεση με τον έλεγχο του Lilliefors που επιτρέπει την εκτίμηση των παραμέτρων από το δείγμα.
  • Ο έλεγχος Lilliefors είναι διαθέσιμος στην βιβλιοθήκη nortest με την εντολή lillie.test. Στη βιβλιοθήκη αυτή είναι διαθέσιμοι κι άλλοι έλεγχοι όπως των Anderson-Darling με την εντολή ad.test, του Cramer-von Mises με την εντολή cvm.test κ.α.

Έλεγχοι Κανονικότητας

  • Ας θυμηθούμε το dataframe data που περιέχει μόνο μία αριθμητική μεταβλητή y που φαίνεται να ακολουθεί κανονική κατανομή:
  • > data<-read.table("das.txt", header = T)
    > str(data)
    'data.frame':	100 obs. of  1 variable:
     $ y: num  2.51 2.56 2.46 2.7 2.57 ...
    > qqnorm(data$y)
    > qqline(data$y)
    Γραφικός έλεγχος κανονικότητας της y

Έλεγχοι Κανονικότητας

  • Εφαρμόζοντας τον έλεγχο Lilliefors έχουμε:
  • > install.packages("nortest")
    Installing package into ‘/home/anna/R/x86_64-pc-linux-gnu-library/3.4’
    ..................................................................
    ..............................................................
    > library("nortest")
    > lillie.test(data$y)
    
    	Lilliefors (Kolmogorov-Smirnov) normality test
    
    data:  data$y
    D = 0.038617, p-value = 0.9716
  • Παρατηρούμε ότι παίρνουμε σαν αποτέλεσμα ίδιου τύπου αντικείμενα με το shapiro.test.
  • H τιμή της p-value είναι 0.9716>α=0.05 άρα δεν μπορούμε να απορρίψουμε την μηδενική υπόθεση η οποία θεωρεί ότι η μεταβλητή y ακολουθεί κανονική κατανομή.

Έλεγχοι Κανονικότητας

  • Παρόμοιο αποτέλεσμα θα είχαμε αν εφαρμόζαμε τον Kolmogorov-Smirnov καλής προσαρμογής έλεγχο αν θεωρούσαμε ότι ξέραμε τις πραγματικές τιμές των παραμέτρων και δεν τις υπολογίζαμε από το δείγμα μας:
  • > mean(data$y)
    [1] 2.419456
    > sd(data$y)
    [1] 0.2415189
    > ks.test(data$y, "pnorm", 2.419456, 0.2415189)
    
    	One-sample Kolmogorov-Smirnov test
    
    data:  data$y
    D = 0.038617, p-value = 0.9983
    alternative hypothesis: two-sided
    Το τεστ ks.test ελέγχει κατά πόσο η μεταβλητή y προέρχεται από κανονική κατανομή με μέση τιμή 2.419456 και τυπική απόκλιση 0.2415189. Θα μπορούσε να συγκρίνει την μεταβλητή με κάποια άλλη κατανομή.

Έλεγχοι Κανονικότητας

  • Παρόμοιο αποτέλεσμα έχουμε και αν εφαρμόσουμε τον έλεγχο Shapiro–Wilk παρόλο που το δείγμα μας είναι μεγάλο (n=100>50):
  • > shapiro.test(data$y)
    
    	Shapiro-Wilk normality test
    
    data:  data$y
    W = 0.9911, p-value = 0.753
  • H τιμή της p-value είναι μεγάλη άρα δεν μπορούμε να απορρίψουμε την μηδενική υπόθεση η οποία θεωρεί ότι η μεταβλητή y ακολουθεί κανονική κατανομή.

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Πολλές φορές μας ενδιαφέρει να ελέγξουμε αν τα δεδομένα που έχουμε συλλέξει από ένα δείγμα διαφέρουν σημαντικά από τα δεδομένα του πληθυσμού από τον οποίο υποτίθεται ότι προέρχεται το συγκεκριμένο δείγμα.
  • Στην περίπτωση ποσοτικής μεταβλητής ελέγχουμε αν ο μέσος όρος του δείγματος είναι διαφορετικός από τον μέσο όρο του πληθυσμού από τον οποίο προέρχεται το δείγμα.
  • Δηλαδή, στην περίπτωση που έχουμε ένα δείγμα, μας ενδιαφέρει να γνωρίζουμε αν ο μέσος όρος του δείγματος διαφέρει από μια υποτιθέμενη τιμή \( μ_0 \).

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Αν X η τ.μ. από τον πληθυσμό με \( μ \) και \( σ^2\) άγνωστα, ενδιαφερόμαστε να ελέγξουμε την \(Η_0: μ=μ_Ο\) έναντι της \(Η_1: μ \neq μ_Ο\). Έστω \(Χ_1,Χ_2,...Χ_n\) το τυχαίο δείγμα τότε το στατιστικό ελέγχου είναι το \[ Z= \frac{\overline{X}-μ_0}{\frac{σ}{\sqrt{n}}} \sim Ν(0,1) \] Επειδή το σ είναι άγνωστο το εκτιμούμε από την δειγματική τυπική απόκλιση s και το στατιστικό ελέγχου γίνεται: \[ T= \frac{\overline{X}-μ_0}{\frac{s}{\sqrt{n}}} \sim St(n-1) \]

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Ο έλεγχος αυτός ονομάζεται One sample T-test.
  • Η κατανομή t - Student που πρωτοαναφέρθηκε από τον William Gosset μοιάζει με την κανονική κατανομή και για μεγάλα δείγματα προσεγγίζεται από την κανονική.
  • Κατανομή t - Student Υπάρχουν διαφορετικές κατανομές t για κάθε αριθμό δείγματος. Για να προσδιορίσουμε συγκεκριμένη κατανομή t χρησιμοποιούμε μία παράμετρο που ονομάζεται βαθμοί ελευθερίας (df) και εκφράζει τον αριθμό των τιμών μιας κατανομής που είναι ελεύθερες να μεταβάλλονται.

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Η p-value βρίσκεται από τους πίνακες της Student κατανομής για τους αντίστοιχους βαθμούς ελευθερίας df=n-1 και εξαρτάται από την εναλλακτική υπόθεση:
    • Αν \( Η_1 : μ \neq μ_0 \) η p-value είναι 2 φορές η πιθανότητα δεξιά του |Τ|.
    • Αν \( Η_1 : μ \lt μ_0 \) η p-value είναι η πιθανότητα αριστερά του Τ.
    • Αν \( Η_1 : μ > μ_0 \) η p-value είναι η πιθανότητα δεξιά του Τ.

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Ισοδύναμα με τον παραπάνω αμφίπλευρο έλεγχο θα μπορούσαμε να κατασκευάζαμε ένα συμμετρικό (1-α)% Δ.Ε. για το μ, και να ελέγχαμε αν η υποτιθέμενη τιμή \( μ_0 \) ανήκει σε αυτό το διάστημα: \[( \overline{X}-t_{n-1, \frac{a}{2}}{\frac{s}{\sqrt{n}}} , \overline{X}+t_{n-1,\frac{a}{2}}{\frac{s}{\sqrt{n}}}) \]

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Απαραίτητες προϋποθέσεις για να χρησιμοποιήσουμε όλες τις μορφές του ελέγχου T-test είναι:
    • τα δεδομένα μας να ακολουθούν κανονική κατανομή
    • το δείγμα μας να είναι τυχαίο και
    • τα δεδομένα μας προφανώς να είναι ποσοτικά.
  • Αν τα δεδομένα μας δεν ακολουθούν κανονική κατανομή ή τα μετασχηματίζουμε κατάλληλα ώστε να επιτευχθεί η κανονικότητα ή χρησιμοποιούμε άλλο μη παραμετρικό τεστ που θα δούμε στη συνέχεια.

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Παράδειγμα: Μια εταιρεία αυτοκινήτων, ισχυρίζεται ότι ένα ορισμένο μοντέλο, καίει ένα γαλόνι κανονικής βενζίνης κάθε 31 μίλια. Πήραμε τυχαία 9 αυτοκίνητα και βάλαμε στο καθένα 1 γαλόνι κανονικής βενζίνης. Είχαμε τα ακόλουθα αποτελέσματα ως προς τα μίλια που διένυσαν: 32.25 27.85 28.57 30.22 27.39 33.01 25.45 30.74 36.07. Τι μπορούμε να συμπεράνουμε για τον ισχυρισμό της εταιρείας;
  • Διατυπώνουμε πρώτα τις υποθέσεις: \[ Η_0 : μ = 31 \] \[ Η_1 : μ \neq 31 \] σε ε.σ. 0.05

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Στη συνέχεια εισάγουμε τα δεδομένα μας στη R και ελέγχουμε πρώτα γραφικά αν το δείγμα μας ακολουθεί κανονική κατανομή ώστε να μπορέσουμε να εφαρμόσουμε το T-test.
  • > mg<-c(32.25, 27.85, 28.57, 30.22, 27.39, 33.01, 25.45, 30.74, 36.07)
    > par(mfrow=c(1,2))
    > hist(mg)
    > qqnorm(mg)
    > qqline(mg)
    > par(mfrow=c(1,1))
    Θα τυπωθούν και τα δύο γραφήματα σε μια σειρά και στη συνέχεια πάλι θα επανέλθει η αρχική ρύθμιση δηλαδή να τυπώνεται κάθε γράφημα σε μια γραμμή.

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Παρατηρούμε ότι φαίνεται ότι η μεταβλητή mg προέρχεται από κανονική κατανομή κυρίως από το Normal Q-Q Plot (είναι πολύ μικρό το δείγμα για να φανεί και στο ιστόγραμμα).Είναι απαραίτητος ωστόσο και ο έλεγχος με το κατάλληλο τεστ.
  • Γραφικός έλεγχος κανονικότητας της mg

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Παρατηρούμε ότι και το Shapiro-Wilk test δείγχει ότι τα δεδομένα μας προέρχονατι από κανονική κατανομή αφού η p-value είναι πολύ μεγάλη.
  • > shapiro.test(mg)
    
    	Shapiro-Wilk normality test
    
    data:  mg
    W = 0.97997, p-value = 0.9641
    Εφαρμόσαμε το Shapiro-Wilk test γιατί τα δεδομένα μας ήταν λίγα \((n=9 \lt 50) \).
  • \( Η_0\) : Η κατανομή της μεταβλητής mg του δείγματος μας ΔΕΝ απέχει πολύ από την κανονική κατανομή.
  • \( Η_1\) : Η κατανομή της μεταβλητής mg του δείγματος μας απέχει πολύ από την κανονική κατανομή.

  • p-value=0.9641>a=0.05 άρα δεν μπορούμε να απορρίψουμε την \( Η_0\)

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Εφαρμόζουμε το one sample t-test για την μεταβλητή mg χρησιμοποιώντας την συνάρτηση t.test της R που παίρνει ως βασικά ορίσματα την μεταβλητή της οποίας εξετάζουμε τα δεδομένα και την υποτιθέμενη τιμή \( μ_0 \):
  • > tmg<-t.test(mg, mu=31)
    > tmg
    
    	One Sample t-test
    
    data:  mg
    t = -0.75972, df = 8, p-value = 0.4692
    alternative hypothesis: true mean is not equal to 31
    95 percent confidence interval:
     27.65963 32.68482
    sample estimates:
    mean of x 
     30.17222 

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

    Παρατηρήστε ότι μας δίνονται:
  • η τιμή t του ελέγχου (statistc),
  • οι βαθμοί ελευθερίας df (parameter),
  • η p-value,
  • η εναλλακτική υπόθεση (alternative), στην προκειμένη περίπτωση που εμείς δεν την ορίσαμε θεωρεί by default την "two.sided" δηλ. \( Η_1 : μ \neq 31 \),
  • το διάστημα εμπιστοσύνης (conf.int), by default το 0.95%,
  • η δειγματική εκτίμηση της παραμέτρου που χρησιμοποιείται στις υποθέσεις ελέγχου (estimate) στην προκειμένη περίπτωση \( \overline{X} \)

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Τα στοιχεία ενός αντικειμένου κλάσης htest ελέγχου t-test είναι τα ακόλουθα:
  • > names(tmg)
    [1] "statistic"   "parameter"   "p.value"     "conf.int"    "estimate"    "null.value" 
    [7] "alternative" "method"      "data.name"  
    > tmg$conf.int
    [1] 27.65963 32.68482
    attr(,"conf.level")
    [1] 0.95
    > tmg$parameter
    df 
     8 
    > tmg$null.value
    mean 
      31 
    > tmg$alternative
    [1] "two.sided"
    > tmg$estimate
    mean of x 
     30.17222  

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Στα αποτελέσματα της εφαρμογής του ελέγχου t-test παρατηρούμε ότι η p.value=0.4692 > a=0.05 οπότε δεν μπορούμε να απορρίψουμε τον ισχυρισμό της εταιρείας ότι το συγκεκριμένο μοντέλο αυτοκινήτου καίει ένα γαλόνι κανονικής βενζίνης κάθε 31 μίλια.
  • Παρατηρούμε επίσης ότι και η τιμή \( μ_0 = 31 \) ανήκει στο 95% Δ.Ε. (27.65963, 32.68482) γεγονός που μας οδηγεί στο ίδιο συμπέρασμα.

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Η συνάρτηση t.test() της R θεωρεί ως προκαθορισμένη τιμή για το α (το ε.σ. του ελέγχου) το 5%. Αν θέλουμε μια άλλη τιμή την περνάμε σαν όρισμα. Αυτό θα έχει ως αποτέλεσμα να αλλάξει το Δ.Ε. :
  • > tmg99<-t.test(mg, mu=31, conf.level=0.99)
    > tmg99
    
    	One Sample t-test
    
    data:  mg
    t = -0.75972, df = 8, p-value = 0.4692
    alternative hypothesis: true mean is not equal to 31
    99 percent confidence interval:
     26.51623 33.82821
    sample estimates:
    mean of x 
     30.17222   

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Επίσης θα μπορούσαμε να είχαμε θεωρήσει και κάποιον μονόπλευρο έλεγχο, π.χ. \[ Η_0 : μ = 31 \] \[ Η_1 : μ \lt 31 \] με την βοήθεια του ορίσματος alternative.
  • Η προκαθορισμένη του τιμή του ορίσματος alternative είναι "two.sided" (≠) ενώ εναλλακτικά μπορούμε να χρησιμοποιήσουμε "greater" (>) or "less" (<).

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής One sample T-test

  • Παρατηρήστε ότι σε αυτήν την περίπτωση αλλάζει και η p-value και το Δ.Ε. και φυσικά και η εναλλακτική υπόθεση:
  • > tmgless<-t.test(mg, mu=31, alternative = "less")
    > tmgless
    
    	One Sample t-test
    
    data:  mg
    t = -0.75972, df = 8, p-value = 0.2346
    alternative hypothesis: true mean is less than 31
    95 percent confidence interval:
         -Inf 32.19836
    sample estimates:
    mean of x 
     30.17222 
     
    Πάλι όμως δεν μπορούμε να απορρίψουμε την μηδενική υπόθεση.

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής

  • Στην περίπτωση που για τα δεδομένα μας δεν ισχύει η κανονικότητα ο αντίστοιχος μη παραμετρικός έλεγχος του t-test είναι ο Wilcoxon test. Οι έλεγχοι του Wilcoxon αφορούν την διάμεσο σε αντίθεση με τα t-test που αφορούν την μέση τιμή.
  • Παράδειγμα: Είδαμε ότι η μεταβλητή Course_total_pos που μετρά την βαθμολογία των φοιτητών στο ηλεκτρονικό μάθημα Αγγλικών δεν ακολουθεί κανονική κατανομή.
  • > shapiro.test(z$Course_total_pos)
    
    	Shapiro-Wilk normality test
    
    data:  z$Course_total_pos
    W = 0.70306, p-value = 1.909e-08

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής

  • Αν θέλουμε να ελέγξουμε ότι η κατανομή της Course_total_pos είναι συμμετρική γύρω από την τιμή 80% θα εφαρμόσουμε το Wilcoxon signed rank test και οι υποθέσεις διαμορφώνονται ως εξής: \[ Η_0 : Μ_\text{Course_total_pos} = 80 \] \[ Η_1 : Μ_\text{Course_total_pos} \neq 80 \]
  • > wilcox.test(z$Course_total_pos, mu=80)
    
    	Wilcoxon signed rank test
    
    data:  z$Course_total_pos
    V = 616, p-value = 0.589
    alternative hypothesis: true location is not equal to 80 
    Τα ορίσματα της συνάρτησης wilcox.test() είναι παρόμοια με αυτά της t.test() όπως και τα αποτελέσματα που παίρνουμε από την εφαρμογή της.

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής

  • Παρατηρούμε ότι η p-value=0.589>a=0.05 οπότε δεν μπορούμε να απορρίψουμε την μηδενική υπόθεση. Άρα η βαθμολογία των μεταλλειολόγων στο ηλ. μάθημα της Αγγλικής Ορολογίας είναι συμμετρική γύρω από την τιμή 80%.
  • Γενικά, οι μη παραμετρικοί έλεγχοι χρησιμοποιούν την διάταξη των παρατηρήσεων. Για το λόγο αυτό, χρησιμοποιούν λιγότερη πληροφορία από τα παραμετρικά, που χρησιμοποιούν τις πραγματικές τιμές, καταλήγοντας σε ελέγχους με μικρότερη ισχύ, που στην πράξη σημαίνει ότι οι πραγματικές διαφορές (αν υπάρχουν) μπορούν να εντοπιστούν δυσκολότερα (με μικρότερη συχνότητα).

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής

  • Για τους προηγούμενους λόγους πολλές φορές συμπληρωματικά με έναν μη παραμετρικό έλεγχο γίνεται παράλληλη χρήση και της προσομοιωτικής μεθόδου Bootstrapping.
  • To Bootstrapping προέρχεται από την φράση "pulling yourself up by your own bootlaces". Είναι η προσομοιωτική μέθοδος με την οποία μπορούμε να εκτιμήσουμε την δειγματική κατανομή μιας παραμέτρου, όπως για παράδειγμα ο μέσος όρος, με τη λήψη επαναληπτικών δειγμάτων, δηλ. δειγμάτων με επανάθεση, από ένα συγκεκριμένο δείγμα.

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής

  • Ένα απλό παράδειγμα Bootstrapping μπορούμε να έχουμε χρησιμοποιώντας το αρχικό δείγμα μας με τις βαθμολογίες των μεταλλειολόγων (την μεταβλητή Course_total_pos). Παίρνουμε 10.000 δείγματα από το ήδη υπάρχον δείγμα αφήνοντας κάποιες τιμές να υπάρχουν παραπάνω από μία φορές ενώ άλλες να μην τις συμπεριλαμβάνουμε στο νέο δείγμα (επανάληψη με επανάθεση) και για κάθε δείγμα εκτιμούμε την μέση τιμή του. Στη συνέχεια, υπολογίζουμε ένα 95% Δ.Ε. για την μέση τιμή.

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής

  • Η μέση τιμή του δείγματος μας είναι 78.7. Το ερώτημα μας: είναι πιθανόν η μέση τιμή του πληθυσμού που προσπαθούμε να εκτιμήσουμε από το δείγμα μας να είναι 80;
  • > mean(z$Course_total_pos)
    [1] 78.73617
    > a<-numeric(10000)
    > for (i in 1:10000){a[i]<-mean(sample(z$Course_total_pos, replace=T))}
    > hist(a)
    > quantile(a, c(0.025,0.975))
        2.5%    97.5% 
    74.21190 82.29416  

Έλεγχοι ενός δείγματος ποσοτικής μεταβλητής

  • Παρατηρούμε από το ιστόγραμμα αλλά και από το Δ.Ε. που υπολογίσαμε (δείχνει την μικρότερη και την πιθανή μεγαλύτερη τιμή) ότι δεν είναι παράλογο να πούμε ότι η μέση τιμή του πληθυσμού μας είναι 80.
  • Αποτελέσματα bootstrap Να επισημάνουμε ότι υπάρχει και έτοιμη συνάρτηση boot() για bootstrapping η οποία περιέχεται στο πακέτο που ονομάζεται boot.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Στην περίπτωση που έχουμε δύο ανεξάρτητα δείγματα (δηλαδή οι τιμές του ενός δείγματος δεν επηρεάζουν τις τιμές του άλλου δείγματος) και έχουμε μετρήσεις του ίδιου χαρακτηριστικού (της ίδιας ποσοτικής μεταβλητής) των δύο δειγμάτων είναι εύλογο να θέλουμε να εξετάσουμε αν στους πληθυσμούς των δύο δειγμάτων το αντίστοιχο χαρακτηριστικό δεν παρουσιάζει διαφορά. Τότε, ελέγχουμε αν διαφέρουν οι μέσες τιμές των συγκεκριμένων χαρακτηριστικών στους δύο πληθυσμούς.
  • Αν X το χαρακτηριστικό από τον έναν πληθυσμό με \( μ_1 \) και \( σ_1^2\) άγνωστα και Υ το ίδιο χαρακτηριστικό από τον δεύτερο πληθυσμό με \( μ_2 \) και \( σ_2^2\) άγνωστα, ελέγxουμε την \(Η_0: μ_1=μ_2\) (ή \(μ_1-μ_2=0\)) έναντι της \(Η_1: μ_1 \neq μ_2\) (ή \(μ_1-μ_2\neq0\)).

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Έστω \(Χ_1,Χ_2,...Χ_{n_1}\) και \(Υ_1,Υ_2,...Υ_{n_2}\) τα τυχαία δείγματα από τους δύο πληθυσμούς τότε το στατιστικό ελέγχου είναι το \[ \frac{(\overline{X}-\overline{Υ})- (μ_1-μ_2)}{SE(\overline{X}-\overline{Υ})}=\frac{\overline{X}-\overline{Υ}}{\sqrt{\frac{σ_1^2}{n_1}+\frac{σ_2^2}{n_2}}} \sim Ν(0,1) \] Επειδή το σ είναι άγνωστο το εκτιμούμε από την δειγματική τυπική απόκλιση s και το στατιστικό ελέγχου γίνεται: \[\frac{\overline{X}-\overline{Υ}}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}} \]

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Με δεδομένο ότι τα δύο δείγματα προέρχονται από κανονικούς πληθυσμούς ξεχωρίζουμε δύο περιπτώσεις:
    1. Οι πληθυσμοί έχουν ίσες διακυμάνσεις, δηλαδή \( {σ_1}^2={σ_2}^2 =σ^2 \text{ (άγνωστη)} \). Στην περίπτωση αυτή υπολογίζουμε την κοινή (pooled variance) δειγματική διασπορά:
    2. \[ S^2=\frac{(n_1-1){S_1}^2 +(n_2-1){S_2}^2}{n_1+n_2-2}\] όπου \( {S_1}^2, {S_2}^2 \) οι δύο δειγματικές διασπορές.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • και το στατιστικό ελέγχου γίνεται:
  • \[ Τ= \frac{\overline{X}-\overline{Υ}}{S\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim St(n_1+n_2-2) \]
  • Υπολογίζουμε το Τ και η p-value του ελέγχου (όπως και προηγουμένως) είναι 2 φορές η πιθανότητα της περιοχής της \(St(n_1+n_2-2) \) δεξιά από το |T|. Ενώ, αν ο έλεγχος είναι μονόπλευρος, η p-value είναι η πιθανότητα της περιοχής της \(St(n_1+n_2-2) \) δεξιά ή αριστερά από το T ανάλογα με την εναλλακτική. Ο έλεγχος αυτός ονομάζεται two sample t-test .

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Ισοδύναμα με τον παραπάνω αμφίπλευρο έλεγχο θα μπορούσαμε να είχαμε κατασκευάσει ένα συμμετρικό (1-α)% Δ.Ε. για την διαφορά των μέσων και να ελέγχαμε αν περιέχει το 0.
  • \[ μ_1-μ_2 \in \{(\overline{X}-\overline{Υ}) \pm {t_{n_1+n_2-2,\frac{α}{2}}} S\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\} \]

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

    1. Οι πληθυσμοί έχουν άνισες διακυμάνσεις, δηλαδή \( {σ_1}^2 \neq {σ_2}^2 \). Στην περίπτωση αυτή το στατιστικό ελέγχου γίνεται:
    2. \[ Τ= \frac{\overline{X}-\overline{Υ}}{\sqrt{\frac{{S_1}^2}{n_1}+\frac{{S_2}^2 }{n_2}}} \sim St(v) \] όπου \( {S_1}^2, {S_2}^2 \) οι δύο δειγματικές διασπορές και \( v \) προσεγγιστικά: \[ v= \frac{({\frac{{S_1}^2}{n_1}+\frac{{S_2}^2 }{n_2}})^2} {\frac{(\frac{{S_1}^2}{n_1})^2}{n_1-1} + \frac{(\frac{{S_2}^2}{n_2})^2}{n_2-1} } \]

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Ο έλεγχος αυτός δίνει προσεγγιστικά αποτελέσματα και ονομάζεται Welch Two Sample t-test .
  • Ισοδύναμα με τον παραπάνω αμφίπλευρο έλεγχο θα μπορούσαμε να είχαμε κατασκευάσει ένα συμμετρικό (1-α)% Δ.Ε. για την διαφορά των μέσων και να ελέγχαμε αν περιέχει το 0.
  • \[ μ_1-μ_2 \in \{(\overline{X}-\overline{Υ}) \pm {t_{v,\frac{α}{2}}} \sqrt{\frac{{S_1}^2}{n_1}+\frac{{S_2}^2}{n_2}}\} \]

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Για να αποφασίσουμε ποιο t-test θα χρησιμοποιήσουμε αυτό με τις ίσες ή τις άνισες διακυμάνσεις πραγματοποιούμε έλεγχο για τις διασπορές των δύο πληθυσμών.
  • Δηλαδή έχουμε τον έλεγχο: \[Η_0: {σ_1}^2={σ_2}^2 \text{ έναντι της } Η_1: {σ_1}^2 \neq {σ_2}^2\] ή με μορφή λόγου : \[Η_0: \frac{{σ_1}^2}{{σ_2}^2}= 1 \text{ έναντι της } Η_1: \frac{{σ_1}^2}{{σ_2}^2} \neq 1\]
  • Ανάλογα με τα αποτελέσματα του ελέγχου (ίσες ή άνισες διακυμάνσεις) επιλέγουμε το κατάλληλο t-test.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Ο έλεγχος αυτός ονομάζεται variance test ή F-test και το στατιστικό ελέγχου ακολουθεί την F-κατανομή:
  • \[ F= \frac{{S_1}^2}{{S_2}^2} \sim F(n_1-1, n_2-1) \]
  • Ισοδύναμα με τον παραπάνω αμφίπλευρο έλεγχο θα μπορούσαμε να είχαμε κατασκευάσει ένα συμμετρικό (1-α)% Δ.Ε. για τον λόγο των διασπορών και να ελέγχαμε αν περιέχει το 1.
  • \[ \frac{1}{F_{n_1-1, n_2-2,\frac{α}{2}}} \frac{{S_1}^2}{{S_2}^2} \lt \frac{{σ_1}^2}{{σ_2}^2} \lt \frac{1}{F_{n_1-1, n_2-2, 1-\frac{α}{2}}} \frac{{S_1}^2}{{S_2}^2} \] Ο έλεγχος αυτός προϋποθέτει κανονικότητατα, σε αντίθετη περίπτωση χρησιμοποιούμε για τον έλεγχο διασπορών τον Fligner-Killeen test που στην R δίνεται από την συνάρτηση fligner.test()

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Στην R για τoν έλεγχο ισότητας δύο μέσων τιμών δύο πληθυσμών χρησιμοποιούμε πάλι τη συνάρτηση t.test(x,y) βάζοντας ως ορίσματα δύο διανύσματα.
  • Για να χρησιμοποιήσουμε T-test θα πρέπει πρώτα να κάνουμε έλεγχο κανονικότητας για τους δύο πληθυσμούς έτσι ώστε να εξασφαλιστεί η κανονικότητα.
  • Στη συνέχεια, θα πρέπει να γίνει έλεγχος με την βοήθεια της συνάρτησης var.test() της ισότητας ή όχι των διασπορών των δύο πληθυσμών.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Βάζοντας το κατάλληλο όρισμα για την ισότητα ή ανισότητα των διαφορών δηλ. t.test(x, y, var.equal= TRUE) ή t.test(x, y, var.equal= FALSE) (default τιμή) εκτελείται αντίστοιχα Two Sample t-test ή Welch Two Sample t-test.
  • Τα υπόλοιπα ορίσματα της συνάρτησης t.test() είναι παρόμοια με αυτά της περίπτωσης ενός δείγματος.
  • Στην περίπτωση που δεν ισχύει η κανονικότητα εκτελούμε άλλο μη παραμετρικό τεστ που θα δούμε στη συνέχεια.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Παράδειγμα: Έχουμε τα δεδομένα ενός δείγματος στο αρχείο mice_pheno.csv που αφορά τα βάρη ποντικιών αρσενικών και θηλυκών που ακολούθησαν διαφορετικές δίαιτες "chow" και "hf". Θέλουμε να δούμε αν πράγματι η δίαιτα με πολλά λιπαρά που εφαρμόστηκε στα αρσενικά ποντίκια διαφοροποιεί το βάρος των αρσενικών ποντικιών σε σχέση με την άλλη δίαιτα.
  • Ας μελετήσουμε λίγο το δείγμα μας:
  • > mice<-read.csv("mice_pheno.csv")
    > str(mice)
    'data.frame':	846 obs. of  3 variables:
     $ Sex       : Factor w/ 2 levels "F","M": 1 1 1 1 1 1 1 1 1 1 ...
     $ Diet      : Factor w/ 2 levels "chow","hf": 2 2 2 2 2 2 2 2 2 2 ...
     $ Bodyweight: num  31.9 32.5 22.8 19.9 32.2 ... 

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Απομονώνουμε τα αρσενικά ποντίκια και μελετάμε το δείγμα:
  • > mice_M<-mice[mice$Sex=="M",]
    > mice_M<-mice_M[,-1]
    > str(mice_M)
    'data.frame':	421 obs. of  2 variables:
     $ Diet      : Factor w/ 2 levels "chow","hf": 2 2 2 2 2 2 2 2 2 2 ...
     $ Bodyweight: num  27.8 29.4 35.1 31.2 38.3 ... 
    > tapply(mice_M$Bodyweight, mice_M$Diet, mean)
    chow   hf 
      NA   NA 
    > tapply(mice_M$Bodyweight, mice_M$Diet, mean, na.rm=T)
        chow       hf 
    30.96381 34.84793 
    Αφαιρούμε την στήλη "Sex" που περιέχει πλέον μόνο τα αρσενικά ποντίκια δηλ. το "M". Εφαρμόζουμε στην συνάρτηση tapply() τη συνάρτηση mean() για να βρούμε το μέσο βάρος των αρσενικών ποντικιών ανά δίαιτα. Επειδή περιέχονται NA φροντίζουμε να μην ληφθούν υπόψη στον υπολογισμό της μέσης τιμής.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Μπορούμε να δούμε τα βασικά περιγραφικά στατιστικά της μεταβλητής που μετρά τα βάρη των αρσενικών ποντικιών ανά δίαιτα και να τα δούμε και γραφικά:
  • > tapply(mice_M$Bodyweight, mice_M$Diet, summary)
    $chow
       Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
      20.72   27.85   30.87   30.96   33.41   46.71       1 
    
    $hf
       Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
      22.48   30.92   34.83   34.85   38.34   54.08       4 
    
    > tapply(mice_M$Bodyweight, mice_M$Diet, length)
    chow   hf 
     224  197 
    > boxplot(mice_M$Bodyweight~mice_M$Diet) 
    Παρατηρούμε ότι η μέση τιμή είναι πολύ κοντά στη διάμεσο και για τα δύο δείγματα και πρόκειται για μεγάλα άνισα δείγματα.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Τα βάρη των αρσενικών ποντικιών ανά δίαιτα:
  • Βάρη  αρσενικών ποντικιών ανά δίαιτα Παρατηρούμε τόσο από το γράφημα όσο και από τον υπολογισμό των μέσων βαρών ανά δίαιτα ότι υπάρχει πράγματι μια διαφορά. Θα ελέγξουμε αν η διαφορά αυτή είναι τυχαία ή πράγματι μπορούμε να συμπεράνουμε ότι η διαφορά αυτή θα ισχύει και για τους πληθυσμούς των αρσενικών ποντικιών που ακολουθούν τις συγκεκριμένες δίαιτες.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Θέλουμε επομένως να συγκρίνουμε την μέση τιμή βάρους των αρσενικών ποντικών που ακολούθησαν την δίαιτα "chow" με τη μέση τιμή βάρους των αρσενικών ποντικών που ακολούθησαν την δίαιτα "hf".
  • Διατυπώνουμε πρώτα τις υποθέσεις: \[ Η_0 : μ_1 = μ_2 \] \[ Η_1 : μ_1 \neq μ_2 \] σε ε.σ. 0.05
  • Θα χρησιμοποιήσουμε ή το t-test για σύγκριση δύο μέσων ή τον αντίστοιχο μη παραμετρικό έλεγχο.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Για να χρησιμοποιήσουμε το t-test θα πρέπει πρώτα να εξασφαλίσουμε την κανονικότητα. Ελέγχουμε την κανονικότητα πρώτα γραφικά:
  • > miceMaleschow<-mice_M$Bodyweight[mice_M$Diet=="chow"]
    > miceMaleshf<-mice_M$Bodyweight[mice_M$Diet=="hf"]
    > par(mfrow=c(2,2))
    > hist(miceMaleschow)
    > qqnorm(miceMaleschow)
    > qqline(miceMaleschow)
    > hist(miceMaleshf)
    > qqnorm(miceMaleshf)
    > qqline(miceMaleshf)
    > par(mfrow=c(1,1))
    Αναθέτουμε στις δύο μεταβλητές miceMaleschow, miceMaleshf τα βάρη των αρσενικών ποντικιών για την κάθε μία δίαιτα για λόγους ευχρηστίας.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Τα ιστογράμματα και τα Normal Q-Q plot για τα βάρη των αρσενικών ποντικιών ανά δίαιτα:
  • Γρ. έλεγχος κανονικότητας για τα βάρη των αρσενικών ποντικιών ανά δίαιτα Παρατηρούμε από τα γραφήματα ότι δεν φαίνεται παράλογoς ο ισχυρισμός ότι οι δύο πληθυσμοί ακολουθούν την κανονική κατανομή.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Ελέγχουμε την κανονικότητα και με το κατάλληλο στατιστικό κριτήριο στην προκειμένη περίπτωση που τα δείγματα μας είναι μεγάλα χρησιμοποιούμε το Lilliefors τεστ:
  • > library("nortest", lib.loc="~/R/x86_64-pc-linux-gnu-library/3.4")
    > tapply(mice_M$Bodyweight, mice_M$Diet, lillie.test)
    $chow
    
    	Lilliefors (Kolmogorov-Smirnov) normality test
    
    data:  X[[i]]
    D = 0.051001, p-value = 0.1689
    
    
    $hf
    
    	Lilliefors (Kolmogorov-Smirnov) normality test
    
    data:  X[[i]]
    D = 0.035825, p-value = 0.7893

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Τα ίδια αποτελέσματα θα είχαμε αν εφαρμόζαμε το lillie.test() για κάθε μία μεταβλητή miceMaleschow, miceMaleshf ξεχωριστά και όχι μέσω της tapply() :
  • > lillie.test(miceMaleschow)
    
    	Lilliefors (Kolmogorov-Smirnov) normality test
    
    data:  miceMaleschow
    D = 0.051001, p-value = 0.1689
    
    > lillie.test(miceMaleshf)
    
    	Lilliefors (Kolmogorov-Smirnov) normality test
    
    data:  miceMaleshf
    D = 0.035825, p-value = 0.7893
    Και τα δύο p-value είναι μεγαλύτερα από α=0.05 άρα δεν μπορούμε να απορρίψουμε την \(Η_0\) και για τα δύο δείγματα που θεωρεί ότι οι αντίστοιχοι πληθυσμοί ακολουθούν κανονική κατανομή.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Εφόσον ισχύει η κανονικότητα μπορούμε να εφαρμόσουμε το t-test για έλεγχο δύο μέσων τιμών. Πρέπει όμως να ελέγξουμε αν οι διάμεσοι των δύο πληθυσμών είναι ίσες ή όχι. Με μια πρώτη ματιά από τα δείγματα φαίνεται ότι διαφέρουν κατά πολύ:
  • > var(miceMaleschow, na.rm=T)
    [1] 19.62885
    > var(miceMaleshf, na.rm=T)
    [1] 31.23812
  • Θα κάνουμε τον αντίστοιχο στατιστικό έλεγχο, δηλ. \(Η_0: \frac{{σ_1}^2}{{σ_2}^2}= 1 \) έναντι της \( Η_1: \frac{{σ_1}^2}{{σ_2}^2} \neq 1\) και θα χρησιμοποιήσουμε το F-test.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Για να κάνω το F-test χρησιμοποιώ την var.test(x,y, ratio=1, alternative="two.sided", conf.level=0.95,...) που έχει παρόμοιο αποτέλεσμα με τις συναρτήσεις ελέγχου υποθέσεων:
  • > var.test(miceMaleschow, miceMaleshf)
    
    	F test to compare two variances
    
    data:  miceMaleschow and miceMaleshf
    F = 0.62836, num df = 222, denom df = 192, p-value = 0.0008475
    alternative hypothesis: true ratio of variances is not equal to 1
    95 percent confidence interval:
     0.4771385 0.8252381
    sample estimates:
    ratio of variances 
              0.628362 
    > var.test(mice_M$Bodyweight~mice_M$Diet) # ίδιο με το παραπάνω

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Μεταξύ των αποτελεσμάτων του ελέγχου διαπορών F-test δίνεται το F που είναι το στατιστικό ελέγχου, οι δύο β.ε της συνάρτησης, η p-value, η εναλλακτική υπόθεση, το 95% διάστημα εμπιστοσύνης και η αναλογία των δύο διασπορών \( \frac{{S_1}^2}{{S_2}^2} \).
  • Παρατηρούμε ότι η p-value=0.0008475<α=0.05 άρα απορρίπτουμε την μηδενική υπόθεση και συμπεραίνουμε ότι οι διασπορές είναι διαφορετικές. Επίσης παρατηρούμε ότι το 1 δεν περιέχεται στο 95% διάστημα εμπιστοσύνης και έχουμε \( {{σ_1}^2} \lt {{σ_2}^2} \).

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Εφαρμόζω το Welch Two Sample t-test εφόσον οι διασπορές είναι διαφορετικές:
  • > t.test(miceMaleschow, miceMaleshf)
    
    	Welch Two Sample t-test
    
    data:  miceMaleschow and miceMaleshf
    t = -7.7701, df = 364.41, p-value = 8.065e-14
    alternative hypothesis: true difference in means is not equal to 0
    95 percent confidence interval:
     -4.867122 -2.901110
    sample estimates:
    mean of x mean of y 
     30.96381  34.84793 
    
    > t.test(mice_M$Bodyweight~mice_M$Diet) # ίδιο με το παραπάνω
    Η σύναρτηση t.test() έχει by default τα ορίσματα t.test(x, y = NULL,alternative = "two.sided", mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...).

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Παρατηρούμε ότι η p-value είναι πολύ μικρή άρα απορρίπτουμε την μηδενική υπόθεση και μπορούμε να συμπεράνουμε ότι η διαφορά στις μέσες τιμές του βάρους των αρσενικών ποντικιών που παρατηρήθηκε στα δείγματα δεν είναι τυχαία και επομένως πράγματι η δίαιτα με τα υψηλά λιπαρά έχει ως αποτέλεσμα μεγαλύτερα βάρη.
  • Θα μπορούσαμε σαν εναλλακτική να είχαμε την \( Η_1 : μ_1 \lt μ_2 \) ή \(μ_1 - μ_2 \lt 0 \) οπότε και για παράδειγμα, για διαφορετικό διάστημα εμπιστοσύνης, θα είχαμε πάλι τα ίδια συμπεράσματα.

Δύο ανεξάρτητα δείγματα ποσοτικών μεταβλητών

  • Μονόπλευρος έλεγχος:
  • > t.test(miceMaleschow, miceMaleshf, alternative = "less", conf.level=0.90)
    
    	Welch Two Sample t-test
    
    data:  miceMaleschow and miceMaleshf
    t = -7.7701, df = 364.41, p-value = 4.033e-14
    alternative hypothesis: true difference in means is less than 0
    90 percent confidence interval:
          -Inf -3.242334
    sample estimates:
    mean of x mean of y 
     30.96381  34.84793 
    Η δίαιτα με τα υψηλά λιπαρά έχει ως αποτέλεσμα την αύξηση του μέσου βάρους των αρσενικών ποντικιών.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Στην περίπτωση που οι διασπορές ήταν ίσες θα είχαμε:
  • > t.test(miceMaleschow, miceMaleshf, var.equal = T)
    
    	Two Sample t-test
    
    data:  miceMaleschow and miceMaleshf
    t = -7.8994, df = 414, p-value = 2.551e-14
    alternative hypothesis: true difference in means is not equal to 0
    95 percent confidence interval:
     -4.850649 -2.917582
    sample estimates:
    mean of x mean of y 
     30.96381  34.84793  
    Εφαρμόζεται το Two Sample t-test.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Όταν δεν ισχύει η υπόθεση της κανονικότητας χρησιμοποιούμε τον αντίστοιχο μη παραμετρικό έλεγχο Wilcoxon rank sum test που συγκρίνει διαμέσους.
  • Στο παραπάνω παράδειγμα με τα βάρη των ποντικιών αν απομονώναμε τα θηλυκά ποντίκια για αυτά όπως αποδεικνύεται δεν ισχύει η κανονικότητα και για τα δύο δείγματα με τις διαφορετικές δίαιτες οπότε για να μπορέσουμε να βγάλουμε συμπεράσματα για την σύγκριση των μέσων τιμών των βαρών τους χρησιμοποιούμε το Wilcoxon rank sum test.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Παράδειγμα με τα θηλυκά ποντίκια:
  • > mice_F<-mice[mice$Sex=="F",-1]
    > str(mice_F)
    'data.frame':	425 obs. of  2 variables:
     $ Diet      : Factor w/ 2 levels "chow","hf": 2 2 2 2 2 2 2 2 2 2 ...
     $ Bodyweight: num  31.9 32.5 22.8 19.9 32.2 ...
    > tapply(mice_F$Bodyweight, mice_F$Diet, summary)
    $chow
       Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      15.51   21.51   23.54   23.89   26.08   36.84 
    
    $hf
       Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
      15.97   22.85   25.52   26.27   28.91   50.49 
    
    > tapply(mice_F$Bodyweight, mice_F$Diet, length)
    chow   hf 
     225  200 

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Κανονικότητα για τα θηλυκά ποντίκια ανά δίαιτα:
  • > tapply(mice_F$Bodyweight, mice_F$Diet, lillie.test)
    $chow
    
    	Lilliefors (Kolmogorov-Smirnov) normality test
    
    data:  X[[i]]
    D = 0.055563, p-value = 0.08865
    
    
    $hf
    
    	Lilliefors (Kolmogorov-Smirnov) normality test
    
    data:  X[[i]]
    D = 0.066866, p-value = 0.02984
    Παρατηρούμε ότι ο έλεγχος κανονικότητας για το δεύτερο δείγμα με την "hf" δίαιτα έχει \(p-value=0.02984 \lt a=0.05\) άρα δεν μπορούμε να ισχυριστούμε ότι ο αντίστοιχος πληθυσμός ακολουθεί κανονική κατανομή οπότε δεν μπορούμε να εφαρμόσουμε το t-test για την σύγκριση των μέσων τιμών των δειγμάτων.

Δύο ανεξάρτητα δειγμάτα ποσοτικών μεταβλητών

  • Σύγκριση μέσων τιμών για τα θηλυκά ποντίκια ανά δίαιτα:
  • > miceFemaleschow<-mice_F$Bodyweight[mice_F$Diet=="chow"]
    > miceFemaleshf<-mice_F$Bodyweight[mice_F$Diet=="hf"]
    > wilcox.test(miceFemaleschow, miceFemaleshf)
    
    	Wilcoxon rank sum test with continuity correction
    
    data:  miceFemaleschow and miceFemaleshf
    W = 15942, p-value = 2.119e-07
    alternative hypothesis: true location shift is not equal to 0
    
    Παρατηρούμε ότι ο έλεγχος των μέσων τιμών των δειγμάτων δίνει πολύ μικρή p-value. Οπότε συμπεραίνουμε ότι η διαφορά στις μέσες τιμές του βάρους των θηλυκών ποντικιών που παρατηρήθηκε στα δείγματα δεν είναι τυχαία και επομένως πράγματι η δίαιτα με τα υψηλά λιπαρά έχει ως αποτέλεσμα μεγαλύτερα βάρη.

Δύο εξαρτημένα δειγμάτα ποσοτικών μεταβλητών

  • Υπάρχουν περιπτώσεις που έχουμε δύο εξαρτημένα δείγματα δηλαδή, έχουμε ζευγάρια τιμών. Το πιο σύνηθες παράδειγμα εξαρτημένων δειγμάτων είναι όταν έχουμε μετρήσεις της ίδιας ποσοτικής μεταβλητής που αναφέρονται στα ίδια άτομα σε 2 διαφορετικές χρονικές περιόδους.
  • Αν X η μεταβλητή την χρονική στιγμή \(t_1\) η οποία προέρχεται από τον έναν πληθυσμό με \( μ_1 \) και \( σ_1^2\) άγνωστα και Υ η ίδια μεταβλητή την χρονική στιγμή \(t_2\) που προέρχεται από τον πληθυσμό με \( μ_2 \) και \( σ_2^2\) άγνωστα, έχουμε το τυχαίο δείγμα με τα ζεύγη \( (X_1,Y_1), (X_2, Y_2), ..., (X_n,Y_n) \).

Δύο εξαρτημένα δειγμάτα ποσοτικών μεταβλητών

  • Ενδιαφερόμαστε να δούμε αν η υπό μελέτη τυχαία μεταβλητή διαφοροποιείται κατά μέσο όρο στις 2 χρονικές περιόδους, δηλαδή ελέγxουμε την \(Η_0: μ_1=μ_2\) έναντι της \(Η_1: μ_1 \neq μ_2\). Ο έλεγχος αυτός ονομάζεται paired t-test
  • Δημιουργώντας τις διαφορές των παραπάνω ζευγών \((Z_1=X_1-Y_1),...,(Z_n=X_n-Y_n)\), οι διαφορές αυτές αποτελούν τυχαίο δείγμα που προέρχεται από πληθυσμό με άγνωστη μέση τιμή \(μ_1-μ_2\) και άγνωστη τυπική απόκλιση \(σ_1+σ_2-2·Cov(X,Y)\). Μπορούμε επομένως ισοδύναμα να ελέγξουμε την διαφορά με one sample t-test δηλαδή ελέγχουμε \(Η_0 : μ_1 - μ_2 =0 \) έναντι της \(Η_1 : μ_1 - μ_2 \neq 0 \).

Δύο εξαρτημένα δειγμάτα ποσοτικών μεταβλητών

  • Τα δύο διανύσματα των εξαρτημένων δειγμάτων θα πρέπει να έχουν το ίδιο μήκος και οι αντίστοιχοι πληθυσμοί τους να ακολουθούν κανονική κατανομή.
  • Παράδειγμα: Θέλουμε να διαπιστώσουμε αν ένα χάπι έχει σαν ανεπιθύμητο αποτέλεσμα να κατεβάζει την πίεση αυτού που το παίρνει. Για να διαπιστωθεί αυτό χρησιμοποιήθηκε ένα δείγμα 15 γυναικών 20-25χρόνων που μετρήθηκε η πίεση τους: 70,80,72,76,76,76,72,78,82, 64,74,92,74,68,84. Μετά από 6 μήνες που έπαιρναν το χάπι κανονικά ξαναμετρήθηκε η πίεση τους: 68,72,62,70, 58,66,68,52,64,72,74,60,74,72,74. Μπορούμε να συμπεράνουμε (α=0.05) ότι το χάπι ελαττώνει την πίεση;

Δύο εξαρτημένα δειγμάτα ποσοτικών μεταβλητών

  • Πρόκειται προφανώς για εξαρτημένα δείγματα. Θέλω να ελέγξω \(Η_0: μ_1=μ_2\) έναντι της \(Η_1: μ_1 > μ_2\)
  • Ελέγχω πρώτα γραφικά την κανονικότητα:
  • > x<-c(70,80,72,76,76,76,72,78,82,64,74,92,74,68,84)
    > y<-c(68,72,62,70,58,66,68,52,64,72,74,60,74,72,74)
    > length(x);length(y)
    [1] 15
    [1] 15
    > par(mfrow=c(2,2))
    > hist(x)
    > qqnorm(x)
    > qqline(x)
    > hist(y)
    > qqnorm(y)
    > qqline(y)
    > par(mfrow=c(1,1))

Δύο εξαρτημένα δειγμάτα ποσοτικών μεταβλητών

  • Τα ιστογράμματα και τα Normal Q-Q plot για τιμές της πίεσης των γυναικών στις δύο χρονικές στιγμές:
  • Γρ. έλεγχος κανονικότητας για τις τιμές πίεσης των γυναικών Παρατηρούμε από τα γραφήματα ότι δεν φαίνεται παράλογoς ο ισχυρισμός ότι οι δύο πληθυσμοί ακολουθούν την κανονική κατανομή.

Δύο εξαρτημένα δειγμάτα ποσοτικών μεταβλητών

  • Έλεγχος κανονικότητας και με το Shapiro test:
  • > shapiro.test(x)
    
    	Shapiro-Wilk normality test
    
    data:  x
    W = 0.96874, p-value = 0.839
    
    > shapiro.test(y)
    
    	Shapiro-Wilk normality test
    
    data:  y
    W = 0.90078, p-value = 0.09782
    Παρατηρούμε ότι από τον έλεγχο κανονικότητας και για τα δύο δείγματα (και οι δύο p-value είναι μεγαλύτερες από το α=0.05) μπορούμε να ισχυριστούμε ότι και δύο πληθυσμοί ακολουθούν κανονική κατανομή οπότε μπορούμε να εφαρμόσουμε το t-test για την σύγκριση των μέσων τιμών των εξαρτημένων δειγμάτων.

Δύο εξαρτημένα δειγμάτα ποσοτικών μεταβλητών

  • Εφαρμόζω το t-test για εξαρτημένα δείγματα και για μονόπλευρο έλεγχο:
  • > t.test(x,y, paired = T, alternative = "greater")
    
    	Paired t-test
    
    data:  x and y
    t = 3.1054, df = 14, p-value = 0.003875
    alternative hypothesis: true difference in means is greater than 0
    95 percent confidence interval:
     3.808783      Inf
    sample estimates:
    mean of the differences 
                        8.8 
    Παρατηρούμε ότι η p-value=0.003875< α=0.05 άρα δεν μπορούμε να δεχτούμε την μηδενική υπόθεση και επομένως συμπεραίνουμε ότι πράγματι το συγκεκριμένο χάπι ελαττώνει την πίεση.

Δύο εξαρτημένα δειγμάτα ποσοτικών μεταβλητών

  • Το ίδιο ακριβώς αποτέλεσμα θα είχαμε αν εφαρμόζαμε το t-test για την διαφορά των εξαρτημένων δειγμάτων:
  • > t.test(x-y, alternative = "greater")
    
    	One Sample t-test
    
    data:  x - y
    t = 3.1054, df = 14, p-value = 0.003875
    alternative hypothesis: true mean is greater than 0
    95 percent confidence interval:
     3.808783      Inf
    sample estimates:
    mean of x 
          8.8 
    Παρατηρούμε ότι ο έλεγχος στο τέλος μας δίνει την μέση τιμή της διαφοράς.

Δύο εξαρτημένα δειγμάτα ποσοτικών μεταβλητών

  • Στην περίπτωση που δεν ισχύει η κανονικότητα και για τα δύο εξαρτημένα δείγματα χρησιμοποιώ όπως και στις προηγούμενες περιπτώσεις το μη παραμετρικό έλεγχο Wilcoxon signed rank test. Για το προηγούμενο παράδειγμα (αν και ισχύει η κανονικότητα) θα είχαμε:
  • > wilcox.test(x,y, paired=T, alternative = "greater")
    
    	Wilcoxon signed rank test with continuity correction
    
    data:  x and y
    V = 83, p-value = 0.004781
    alternative hypothesis: true location shift is greater than 0
    
    Warning messages:
    1: In wilcox.test.default(x, y, paired = T, alternative = "greater") :
      cannot compute exact p-value with ties
    2: In wilcox.test.default(x, y, paired = T, alternative = "greater") :
      cannot compute exact p-value with zeroes 

Δύο εξαρτημένα δειγμάτα ποσοτικών μεταβλητών

  • Παρατηρούμε ότι μας βγάζει προειδοποιητικό μήνυμα που μας πληροφορεί ότι στο δείγμα υπάρχουν ισοπαλίες (παρατηρήσεις με την ίδια τιμή) ή μηδενικά στα μετασχηματισμένα δεδομένα που προκύπτουν αφαιρώντας από τα αρχικά δεδομένα την υποτιθέμενη κάτω από την μηδενική υπόθεση τιμή του μ και έτσι δεν υπολογίζει την ακριβή p-value του ελέγχου αλλά αυτή που προκύπτει από μια κανονική προσέγγιση.
  • > wilcox.test(x-y, alternative = "greater")
    Το ίδιο αποτέλεσμα παίρνουμε αν χρησιμοποιούσαμε ένα δείγμα με την διαφορά των τιμών των δύο εξαρτημένων δειγμάτων.

Έλεγχος ποσοστού ενός δείγματος

  • Έστω ότι έχω μια κατηγορική μεταβλητή X δίτιμη που μετρά αποτυχίες 0 και επιτυχίες 1 με πιθανότητα P(X=1)=p. θέλω να ελέγξω αν οι επιτυχίες μπορούν να αγγίξουν ένα συγκεκριμένο ποσοστό \(p_0\).
  • Δηλαδή θέλω να ελέγξω \(Η_0: p=p_0\) έναντι της \(Η_1: p \neq p_0\).
  • Το στατιστικό που χρησιμοποιώ είναι το \[ Z=\frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}\] όπου \( \hat{p}\) είναι η σχετική συχνότητα της επιτυχίας στο δείγμα μας.

Έλεγχος ποσοστού ενός δείγματος

  • Το \( Z^2 \sim X^2\) κατανομή με 1 β.ε.
  • Όταν το δείγμα μου είναι μεγάλο, πρακτικά όταν ισχύει \[n*p_0 ≥ 5 \text{ και} \] \[n *(1 − p_0) ≥ 5\] μπορώ να χρησιμοποιήσω στην R την prop.test():
    prop.test(x, n, p = NULL,
              alternative = c("two.sided", "less", "greater"),
              conf.level = 0.95, correct = TRUE)
  • Ενώ, αν το δείγμα μου είναι μικρό και δεν ισχύουν οι παραπάνω προϋποθέσεις χρησιμοποιώ την binom.test():
    binom.test(x, n, p = 0.5,
               alternative = c("two.sided", "less", "greater"),
               conf.level = 0.95)

Έλεγχος ποσοστού ενός δείγματος

  • Παράδειγμα:Ας θυμηθούμε την κατηγορική μεταβλητή της βαθμολογίας των φοιτητών. Αν μας ενδιαφέρει μόνο το ποσοστό των φοιτητών που δεν πήρε προβιβάσιμο βαθμό δηλαδή πήρε D και έστω ότι θέλουμε να ελέγξουμε αν αυτό το ποσοστό αντιστοιχεί στο 40% όλου του πληθυσμού των Μεταλλειολόγων που έδωσαν το ηλ. μάθημα.
  • > table(z$Letter_Final_mark)
    
     D  C  B  A 
    16 11 15  3 
    > prop.table(table(z$Letter_Final_mark))
    
             D          C          B          A 
    0.35555556 0.24444444 0.33333333 0.06666667  
  • Δηλ. ελέγχουμε \(Η_0: p_D=0.4\) έναντι της \(Η_1: p_D \neq 0.4\).

Έλεγχος ποσοστού ενός δείγματος

  • Παρατηρούμε ότι ισχύουν οι προϋποθέσεις του μεγάλου δείγματος και εφαρμόζοντας την prop.test() για 16 βαθμολογίες D στις συνολικά 47 έχουμε:
  • > length(z$Letter_Final_mark)*0.4
    [1] 18.8
    > length(z$Letter_Final_mark)*(1-0.4)
    [1] 28.2
    > prop.test(16, 47, p=0.4)
    
    	1-sample proportions test with continuity correction
    
    data:  16 out of 47, null probability 0.4
    X-squared = 0.46897, df = 1, p-value = 0.4935
    alternative hypothesis: true p is not equal to 0.4
    95 percent confidence interval:
     0.2127800 0.4939986
    sample estimates:
            p 
    0.3404255 

Έλεγχος ποσοστού ενός δείγματος

  • Παρατηρούμε ότι έχουμε τα αποτελέσματα με την διόρθωση συνέχειας (παίρνει ως δεδομένο correct=TRUE) και p-value>0.05 άρα δεν μπορούμε να απορρίψουμε την μηδενική υπόθεση που υποστηρίζει ότι το 40% όλων των Μεταλλειολόγων αποτυγχάνει στο ηλ. μάθημα.
  • Έστω ότι θέλουμε να ελέγξουμε αν το ποσοστό που αρίστεψε δηλαδή αυτών που πήραν Α (έχουμε 3 στους 47) είναι ίσο με 10% του πληθυσμού. Παρατηρούμε ότι δεν ισχύουν οι προϋποθέσεις του μεγάλου δείγματος:
  • > length(z$Letter_Final_mark)*(0.1)
    [1] 4.7
    > length(z$Letter_Final_mark)*(1-0.1)
    [1] 42.3

Έλεγχος ποσοστού ενός δείγματος

  • Η εφαρμογή του ελέγχου με την prop.tests() σε αυτήν την περίπτωση που δεν ισχύουν οι προϋποθέσεις οδηγεί σε ειδοποίηση για την μη εγγυρότητα του:
  • > prop.test(3, 47, p=0.1)
    
    	1-sample proportions test with continuity correction
    
    data:  3 out of 47, null probability 0.1
    X-squared = 0.34043, df = 1, p-value = 0.5596
    alternative hypothesis: true p is not equal to 0.1
    95 percent confidence interval:
     0.01663081 0.18562271
    sample estimates:
             p 
    0.06382979 
    
    Warning message:
    In prop.test(3, 47, p = 0.1) : Chi-squared approximation may be incorrect

Έλεγχος ποσοστού ενός δείγματος

  • Σε αυτήν την περίπτωση που δεν ισχύουν οι προϋποθέσεις του μεγάλου δείγματος θα γίνει ο έλεγχος με την binom.test():
  • > binom.test(3,47,p=0.1)
    
    	Exact binomial test
    
    data:  3 and 47
    number of successes = 3, number of trials = 47, p-value = 0.6242
    alternative hypothesis: true probability of success is not equal to 0.1
    95 percent confidence interval:
     0.01336177 0.17539243
    sample estimates:
    probability of success 
                0.06382979 
    Παρατηρούμε ότι πράγματι το 10% όλου του πληθυσμού των Μεταλλειολόγων αριστεύει στο ηλ. μάθημα.

Έλεγχος ποσοστών σε δύο ανεξ. δείγματα

  • Έστω ότι έχω δύο κατηγορικές μεταβλητές X και Y δίτιμες που μετρούν επιτυχίες 1 με πιθανότητα \(P(X=1)=p_1 \) και \(P(Y=1)=p_2\). Αν σε \(n_1\) τυχαίες προσπάθειες από το πρώτο δείγμα έχω x επιτυχίες και σε \(n_2\) τυχαίες προσπάθειες από το δεύτερο δείγμα έχω y επιτυχίες θέλουμε να συγκρίνουμε τα δύο ποσοστά επιτυχίας.
  • Δηλαδή θέλω να ελέγξω \(Η_0: p_1=p_2\) έναντι της \(Η_1: p_1 \neq p_2\).

Έλεγχος ποσοστών σε δύο ανεξ. δείγματα

  • Το στατιστικό που χρησιμοποιώ είναι το \[ Z=\frac{(\hat{p_1} -\hat{p_2})- (p_1-p_2)}{\sqrt{\hat{p}(1-\hat{p}) (\frac{1}{n_1}+\frac{1}{n_2})}}\] όπου \(\hat{p_1}=\frac{x}{n_1}, \hat{p_2}=\frac{y}{n_2}, \hat{p}=\frac{x+y}{n_1+n_2}\)
  • Το \( Z^2 \sim X^2\) κατανομή
  • Όταν τα δείγματα είναι μεγάλα, πρακτικά όταν ισχύει \[n_1*\hat{p} ≥ 5,\text{ } n_2*\hat{p} ≥ 5 \text{ και} \] \[n_1 *(1 − \hat{p}) ≥ 5,\text{ } n_2 *(1 − \hat{p}) ≥ 5\] όπου \( \hat{p}= \frac{x+y}{n_1+n_2} \) μπορώ να χρησιμοποιήσω στην R την prop.test()

Έλεγχος ποσοστών σε δύο ανεξ. δείγματα

  • Παράδειγμα:Έχουμε δύο δείγματα από δύο διαφορετικές πόλεις όπου μετρήσαμε 500 και 400 οικογένειες αντίστοιχα. Από αυτές 91 οικογένειες χαρακτηρίστηκαν φτωχές από την πρώτη πόλη και 83 από την δεύτερη. Θέλουμε να ελέγξουμε αν οι δύο πόλεις έχουν την ίδια αναλογία φτώχιας δηλ. \(Η_0: p_1=p_2\) έναντι της \(Η_1: p_1 \neq p_2\). Βλέπουμε πρώτα ότι ισχύουν οι προϋποθέσεις των μεγάλων δειγμάτων:
  • > ft<-c(91,83)
    > n<-c(500, 400)
    > pk<-(91+83)/(500+400)
    > pk
    [1] 0.1933333
    > pk*n
    [1] 96.66667 77.33333
    > n*(1-pk)
    [1] 403.3333 322.6667

Έλεγχος ποσοστών σε δύο ανεξ. δείγματα

  • Με την εφαρμογή του ελέγχου έχουμε:
  • > prop.test(ft,n)
    
    	2-sample test for equality of proportions with continuity correction
    
    data:  ft out of n
    X-squared = 0.77025, df = 1, p-value = 0.3801
    alternative hypothesis: two.sided
    95 percent confidence interval:
     -0.07993296  0.02893296
    sample estimates:
    prop 1 prop 2 
    0.1820 0.2075 
    Παρατηρούμε ότι πράγματι η p-value είναι μεγαλύτερη από 0.05 άρα δεχόμαστε την μηδενική υπόθεση που ισχυρίζεται ότι οι δύο πόλεις έχουν το ίδιο ποσοστό φτώχιας. Συγκεκριμένα στη μία εκτιμήθηκε 18% και στην άλλη 21%.

Έλεγχος ανεξαρτησίας κατηγορικών μεταβλητών Πίνακες συνάφειας 2X2

  • Πολλές φορές μας ενδιαφέρει να ελέγξουμε αν δύο κατηγορικές μεταβλητές είναι ανεξάρτητες ή εξαρτημένες μεταξύ τους. Οι κατηγορικές μεταβλητές είναι τοποθετημένες σε πίνακες συνάφειας.
  • Σε αυτές τις περιπτώσεις ελέγχουμε:
    • \(Η_0: \) Οι δύο μεταβλητές είναι ανεξάτητες, έναντι
    • \(Η_1:\) Οι δύο μεταβλητές είναι εξαρτημένες.
  • Το τεστ που χρησιμοποιούμε λέγεται \(X^2\) τεστ ανεξαρτησίας.

Έλεγχος ανεξαρτησίας κατηγορικών μεταβλητών

  • Ένα παράδειγμα με πίνακα συνάφειας 2Χ2 αποτελεί το:
  • Πίνακας συνάφειας μαλλιών-ματιών Ο παραπάνω πίνακας περιέχει τα δεδομένα 114 ατόμων τα οποία χωρίστηκαν σε τέσσερις κατηγορίες ανάλογα με το χρώμα των ματιών και των μαλλιών τους. Πρόκειται για δύο κατηγορικές μεταβλητές, η μία αφορρά το χρώμα των μαλλιών και έχει 2 κατηγορίες τα ανοιχτόχρωμα και τα σκουρόχρωμα μαλλιά και η δεύτερη αφορά το χρώμα των ματιών και έχει κι αυτή 2 κατηγορίες τα ανοιχτά (μπλε μάτια) και τα σκούρα (καστανά μάταια). Σε αυτό το παράδειγμα θέλουμε να ελέγξουμε αν το χρώμα των ματιών εξαρτάται από το χρώμα των μαλλιών.

Έλεγχος ανεξαρτησίας κατηγορικών μεταβλητών

  • Το στατιστικό ελέγχου σε αυτή την περίπτωση υπολογίζεται από τουν τύπο:
  • \[ X^2=\sum \frac{(\text{Observed frequencies}-\text{Expected freq.})^2}{\text{Expected frequencies}}=\sum \frac{(O-E)^2}{E}\] όπου \[ \text{Expected frequencies}= \frac{(\text{Row total})X(\text{Column total})}{\text{sample size}}\] Στηρίζεται στο γεγονός ότι δύο γεγονότα είναι ανεξάρτητα αν \( P(AB)=P(A)P(B) \).
  • Το στατιστικό αυτό ακολουθεί \( X^2\) κατανομή με β.ε. \(df=(r-1)x(c-1)\) όπου r και c είναι ο αριθμός κατηγοριών των δύο μεταβλητών.
  • Στην προκειμένη περίπτωση \(df=(2-1)x(2-1)=1\)

Έλεγχος ανεξαρτησίας κατηγορικών μεταβλητών

  • Μια πιο ικανοποιητική προσέγγιση για πίκακα 2x2 είναι αυτή με την διόρθωση συνέχειας του Yates:
  • \[X^2=\sum\frac{(O-E-0.5)^2}{E}\]
  • Απαραίτητη προϋπόθεση για την χρήση του \( Χ^2\) ελέγχου ανεξαρτησίας είναι όλες οι αναμενόμενες συχνότητες να είναι ≥ 5
  • Στην R ο έλεγχος αυτός παραγματοποιείται με την:
  • chisq.test(x, y = NULL, correct = TRUE,
               p = rep(1/length(x), length(x)), rescale.p = FALSE,
               simulate.p.value = FALSE, B = 2000) 

Έλεγχος ανεξαρτησίας κατηγορικών μεταβλητών

  • Στην συνάρτηση chisq.test() μπορούμε να δώσουμε για έλεγχο ή δύο κατηγορικές μεταβλητές ή ένα πίνακα συνάφειας
  • Επιλέγουμε να εφαρμοστεί ή όχι η διόρθωση συνέχειας του Yates για πίκακα 2x2 με το όρισμα correct.
  • Το όρισμα simulate.p.value χρησιμοποιείται για να γίνει εκτίμηση του p-value μέσω Monte Carlo προσομοίωσης και Β οι πίνακες που θα παραχθούν από την προσομοίωση. (Η Monte Carlo είναι πιο κατάλληλη όταν κάποιες αναμενόμενες τιμές είναι \( \lt 5\)).

Έλεγχος ανεξαρτησίας κατηγορικών μεταβλητών

  • Άρα για το προηγούμενο παράδειγμα έχουμε:
  • > am<-c(38,11)
    > sm<-c(14,51)
    > haireye<-rbind(am,sm)
    > haireye
       [,1] [,2]
    am   38   11
    sm   14   51
    > ch_H_E<-chisq.test(haireye)
    > ch_H_E
    
    	Pearson's Chi-squared test with Yates' continuity correction
    
    data:  haireye
    X-squared = 33.112, df = 1, p-value = 8.7e-09 
    Παρατηρούμε ότι δεν βγήκε κάποιο μήνυμα ειδοποίησης άρα σωστά μπορούσε να εφαρμοστεί ο έλεγχος Pearson's Chi-squares και έδωσε όπως αναμενόταν ένα πολύ μικρό p-value που σημαίνει ότι το χρώμα των ματιών σαφώς εξαρτάται από το χρώμα των μαλλιών.

Έλεγχος ανεξαρτησίας κατηγορικών μεταβλητών

  • Μπορούμε να πάρουμε αναλυτικά και απομονωμένα τα αποτελέσματα της chisq.test():
  • > ch_H_E$expected
           [,1]     [,2]
    am 22.35088 26.64912
    sm 29.64912 35.35088
    > names(ch_H_E)
    [1] "statistic" "parameter" "p.value"   "method"    "data.name" "observed" 
    [7] "expected"  "residuals" "stdres"   
    > ch_H_E$observed
       [,1] [,2]
    am   38   11
    sm   14   51 
    Τα expected είναι οι αναμενόμενες τιμές που όπως φαίνεται είναι όλες > 5 άρα σωστά εφαρμόστηκε ο έλεγχος. Μπορούμε να έχουμε και τα κατάλοιπα \(residuals=\frac{observed - expected}{\sqrt{expected}}\) και τα τυποποιημένα κατάλοιπα \(stdres=\frac{residuals}{\sqrt{var(residuals)}}\)

Έλεγχος ανεξαρτησίας κατηγορικών μεταβλητών

  • Αν είχαμε ένα πιο μικρό δείγμα από συνολικά 20 άτομα που κατανέμονταν πάλι στις ίδιες 4 κατηγορίες δεν θα μπορούσαμε να εφαρμόσουμε το chisq.test()(οι expected \(\lt 5\)) και θα έβγαινε προειδοποιητκό μήνυμα:
  • > am1<-c(6,2)
    > sm1<-c(2,10)
    > haireye1<-rbind(am1,sm1)
    > haireye1
        [,1] [,2]
    am1    6    2
    sm1    2   10
    > ch_H_E1<-chisq.test(haireye1)
    Warning message:
    In chisq.test(haireye1) : Chi-squared approximation may be incorrect
    > ch_H_E1$expected
        [,1] [,2]
    am1  3.2  4.8
    sm1  4.8  7.2 

Έλεγχος ανεξαρτησίας κατηγορικών μεταβλητών

  • Σε αυτή την περίπτωση για πίνακα συνάφειας 2X2 εφαρμόζουμε τον ακριβή έλεγχο του Fisher με την fisher.test():
  • > fisher.test(haireye1)
    
    	Fisher's Exact Test for Count Data
    
    data:  haireye1
    p-value = 0.01937
    alternative hypothesis: true odds ratio is not equal to 1
    95 percent confidence interval:
       1.191683 228.451626
    sample estimates:
    odds ratio 
       12.4628 
    Παρατηρούμε ότι η p-value \( \lt 0.05 \) οπότε πάλι συμπεραίνουμε ότι το χρώμα των ματιών εξαρτάται από το χρώμα των μαλλιών.

Έλεγχος ανεξαρτησίας κατηγορικών μεταβλητών

  • Στην περίπτωση της prop.test() που ελέγχουμε την ισότητα δύο ποσοστών μπορούμε να μετατρέψουμε τα δεδομένα μας και να έχουμε πίνακα συνάφειας οπότε θα έχουμε τα ίδια αποτελέσματα με το αν εφαρμόσουμε το chisq.test().
  • Επίσης, στην περίπτωση που ελέγχουμε δύο ποσοστά με την prop.test() και δεν ικανοποιούνται οι προϋποθέσεις για μεγάλα δείγματα εφαρμόζουμε πάλι τον ακριβή έλεγχο του Fisher με την fisher.test() ενώ παίρνουμε προειδοποιητικό μήνυμα για την μη εγκυροτητα του prop.test()

Έλεγχος ποσοστών σε εξαρτημένα δείγματα

  • Στην περίπτωση που θέλω να ελέγξω ποσοστά σε εξαρτημένα δείγματα (π.χ. μέτρηση του ίδιου χαρακτηριστικού στον ίδιο άνθρωπο αλλά σε διαφορετικές στιγμές) χρησιμοποιώ τον έλεγχο McNemar.
  • Ένα παράδειγμα εξαρτημένων δειγμάτων (δύο έρευνες σε ίδια άτομα σε διαφορετικές στιγμές) αποτελεί το παρακάτω:
  • Πίνακας πολιτικής

Έλεγχος ποσοστών σε εξαρτημένα δείγματα

  • Παράδειγμα στην R:
  • > pol<-rbind(c(10,15), c(12,17))
    > pol
         [,1] [,2]
    [1,]   10   15
    [2,]   12   17
    > mcnemar.test(pol)
    
    	McNemar's Chi-squared test with continuity correction
    
    data:  pol
    McNemar's chi-squared = 0.14815, df = 1, p-value = 0.7003
    Παρατηρούμε ότι p-value>0.05 άρα δεν μπορούμε να απορρίψουμε την μηδενική υπόθεση που υποστηρίζει ότι οι δύο έρευνες έχουν τα ίδια αποτελέσματα.