יום שני, 24 בספטמבר 2012

סטטיסטיקה תיאורית- שונות וסטיית תקן


שונות. זה כל השוני!‎

שונות היא מושג מרכזי ביותר בסטטיסטיקה, ובקורס "מבוא לסטטיסטיקה למדעי החברה", חשוב להבין את המשמעות של שונות, ולא רק כיצד מחשבים אותה.

בכיתה ח'1 הציונים הם: 50, 70, 90

בכיתה ח'2: 69,70,71

בכיתה ח'3: 70, 70, 70

הסתכלו על הציונים בכל כיתה. באיזו כיתה השונות (מהמילה שוני) היא הגבוהה ביותר?

בכיתה ח'3 אין שונות, כלומר, השונות שווה ל- 0, כי הציונים לא שונים אחד מהשני בכלל.

בכיתות ח'1 וח'2 יש שונות, הציונים לא שווים אחד לשני, אבל, אפילו ברפרוף, ניתן לראות שהציונים בכיתה ח'2 קרובים יותר אחד לשני מאשר בח'1. ולכן, ניתן לומר שהשונות בח'1 גדולה יותר.
לא סתם שונות נקראת "מדד פיזור". אנחנו מעוניינים לדעת כמה הציונים "מפוזרים"

בכיתה ח'3 אין פיזור בכלל, ולכן השונות שווה ל-0 (שזה הכי נמוך! אין שונות שלילית)
בכיתה ח1' הציונים הכי "רחוקים אחד מהשני" ולכן השונות בה היא הגבוהה ביותר.
עכשיו כשהבנו את המשמעות של שונות (חשוב במיוחד לחלק של הטענות), נוכל לגשת לחישוב:
אם הציונים "קרובים" אחד לשני, הם גם יהיו קרובים לממוצע.

למשל, בכיתה ח'3 הממוצע הוא 70, ואם ניקח כל ציון ונפחית אותו מהממוצע, נקבל 0 סטיות:


בכיתה ח'2 הממוצע הוא 70. ויש סטיות קטנות מהממוצע:

בכיתה ח'3 הממוצע הוא 70 והסטיות מהממוצע גדולות יותר: 

אם נסכום את הסטיות מהממוצע תמיד יצא לנו 0: סכום הסטיות מהממוצע שווה תמיד ל- 0

לכן בחישוב השונות מעלים כל סטייה בריבוע.

הנוסחא הראשונה (בשתי השורות) היא "נוסחת ההגדרה" של שונות, ובמילים: ממוצע הסטיות הריבועיות מהממוצע
בעזרת הנוסחא השנייה (בשתי השורות) ניתן לחשב את השונות בצורה יותר מהירה. זוהי "נוסחת העבודה", ובה מעלים כל X בריבוע, סוכמים, מחלקים הכל ב n ובסוף מפחיתים את הממוצע בריבוע. 

נוסחא המתאימה למצב שבו כל ערך חוזר על עצמו פעם אחת

מתאימה למצב שבו ערכים מופיעים מספר פעמים (כמו בטבלת שכיחויות) 

סטיית התקן - סטיית התקן שווה לשורש של השונות

לא חשוב לדעת, אבל את מי שמעניין: הסיבה שבגללה סטיית התקן מחושבת כשורש ריבועי של השונות היא שבתהליך חישוב השונות יש העלאה בריבוע, ולכן הערך המתקבל אינו באותן יחידות של הערכים. סטיית התקן היא כן באותן יחידות.

יום שבת, 22 בספטמבר 2012

סטטיסטיקה תיאורית- יחידות 2-3 חישוב חציון