განვიხილოთ მონაცემთა განლაგების კიდევ ერთი საზომი – კვარტილები. ისინი არ ახასიათებს განაწილების ცენტრს, თუმცა, წარმოადგენს მნიშვნელოვან სიდიდეებს მთლიანი განაწილების დასახასიათებლად. როგორც ვიხილეთ, მედიანა მონაცემთა დალაგებულ მწკრივს ორ თანაბარ ნაწილად ჰყოფს. კვარტილები, ფაქტიურად, სწორედ ამ თანაბარი ნაწილების მედიანებია, ანუ ისინი ამ თანაბარ ნაწილებს, თავის მხრივ, კიდევ ორ ტოლ ნაწილად ჰყოფს.
მონაცემთა სიმრავლის პირველი კვარტილი (აღინიშნება $ Q_1 $-ით) ეწოდება ისეთ რიცხვით მნიშვნელობას, რომელზე ნაკლებიცაა ზრდადობით დალაგებულ მონაცემთა არაუმეტეს 25%.
მეორე კვარტილი ეწოდება ისეთ რიცხვით მნიშვნელობას, რომელზე ნაკლებიცაა ზრდადობით დალაგებულ მონაცემთა არაუმეტეს 50% (ანუ მეორე კვარტილი იგივე მედიანაა და აღინიშნება $ Q_2 $-ით).
მესამე კვარტილი ეწოდება ისეთ რიცხვით მნიშვნელობას, რომელზე ნაკლებიცაა ზრდადობით დალაგებულ მონაცემთა არაუმეტეს 75% (აღინიშნება $ Q_3 $-ით).
განმარტებიდან გამომდინარეობს, რომ კვარტილები მონაცემთა დალაგებულ სიმრავლეს 4 სეგმენტად ჰყოფს:
თუ მთლიანი დალაგებული სიმრავლის მედიანა – იგივე მეორე კვარტილი $ Q_2 $ – მოთავსებულია $ 0.5(n + 1) $-ე პოზიციაზე, სადაც $ n $ არის მონაცემთა რაოდენობა, პირველი კვარტილი $ Q_1 $ მოთავსებულია $ 0.25(n + 1) $-ე, ხოლო მესამე კვარტილი $ Q_3 $ კი – $ 0.75(n + 1) $-ეზე. ისევე, როგორც მედიანის შემთხვევაში, კვარტილების ძიებისას ვსარგებლობთ შემდეგი წესით: თუ კვარტილის პოზიცია არ არის მთელი რიცხვი, მაშინ მისი მნიშვნელობა გამოითვლება მეზობელ პოზიციებზე არსებულ მნიშვნელობებზე დაყრდნობით:
დავუშვათ, პირველი კვარტილის პოზიცია მივიღეთ $ 2.5 $-ის ტოლი. ეს ნიშნავს, რომ დალაგებულ მწკრივში პირველი კვარტილი მოთავსებულია მე-$ 2 $ და მე- $ 3 $ მონაცემს შორის შუა პოზიციაზე. ასევე დავუშვათ, რომ მე-$ 2 $ მონაცემი უდრის $ 11 $-ს, ხოლო მე-$ 3 $ მონაცემი კი – $ 19 $-ს. მაშინ
$$ Q_1 = 11 + 0.5*(19 – 11) = 15 $$
ანუ, $ 11 $-დან „გადავდგით“ $ 19 $-მდე გასავლელი მანძილის $ 0.5 $-ის სიგრძის (ე.ი. ნახევარი სიგრძის) ნაბიჯი, რაც ფაქტიურად $ 11 $-ის და $ 19 $-ის საშუალო არითმეტიკულის გამოთვლას ნიშნავს.
ახლა დავუშვათ, პირველი კვარტილის პოზიცია მივიღეთ $ 3.75 $-ის ტოლი. ეს ნიშნავს, რომ დალაგებულ მწკრივში პირველი კვარტილი მოთავსებულია მე-$ 3 $ და მე-$ 4 $ მონაცემს შორის, თუმცა უფრო ახლოს მე-$ 4 $-სთან ($ 3.75 $ უფრო ახლოსაა $ 4 $-თან, ვიდრე $ 3 $-თან). ასევე დავუშვათ, რომ მე-$ 3 $ მონაცემი უდრის $ 7 $-ს, ხოლო მე-$ 4 $ მონაცემი კი – $ 10 $-ს. მაშინ
$$ Q_1 = 7 + 0.75*(10 – 7) = 9.25 $$
ანუ, $ 7 $-დან „გადავდგით“ $ 10 $-მდე გასავლელი მანძილის $ 0.75 $ სიგრძის ნაბიჯი.
თუკი, დავუშვათ, მესამე კვარტილის პოზიცია მივიღეთ $ 8.25 $-ის ტოლი, ეს ნიშნავს, რომ დალაგებულ მწკრივში მესამე კვარტილი მოთავსებულია მე-$ 8 $ და მე-$ 9 $ მონაცემს შორის, თუმცა უფრო ახლოს მე-$ 8 $-სთან ($ 8.25 $ უფრო ახლოსაა $ 8 $-თან, ვიდრე $ 9 $-თან). ასევე დავუშვათ, რომ მე-$ 8 $ მონაცემი უდრის $ 20 $-ს, ხოლო მე-$ 9 $ მონაცემი კი – $ 25 $-ს. მაშინ
$$ Q_3 = 20 + 0.25*(25 – 20) = 21.25 $$
ანუ, $ 20 $-დან „გადავდგით“ $ 25 $-მდე გასავლელი მანძილის $ 0.25 $ სიგრძის ნაბიჯი.
მაგალითი. ქვემოთ მოცემულია $ 18 $ მონაცემი სტუდენტების საგამოცდო შეფასებებიდან. ვიპოვოთ კვარტილების მნიშვნელობები.
6.35 | 0.1 | 6.76 | 5.66 | 2.14 | 1.02 | 4.18 | 1.49 | 2.62 | 6.8 |
0.93 | 3.87 | 0.14 | 3.79 | 5.36 | 0.32 | 4.84 | 1.82 |
ამოხსნა. თავდაპირველად დავალაგოთ მონაცემები ზრდადობით:
0.1 | 0.14 | 0.32 | 0.93 | 1.02 | 1.49 | 1.82 | 2.14 | 2.62 | 3.79 |
3.87 | 4.18 | 4.84 | 5.36 | 5.66 | 6.35 | 6.76 | 6.8 |
ვიპოვოთ მედიანა (მეორე კვარტილი), რომელიც $ 0.5*(18 + 1) = 9.5 $-ე პოზიციაზეა და ამიტომ უდრის $ 3.205 $-ს. შემდგომ ვიპოვოთ პირველი კვარტილი, რომელიც მოთავსებული იქნება $ 0.25*(18 + 1) = 4.75 $-ე პოზიციაზე, ანუ მისი მნიშვნელობა იქნება მე-$ 4 $ და მე-$ 5 $ მონაცემს შორის: $ 0.93 + 0.75 * (1.02 – 0.93) =0.9975 $. ანალოგიურად, მესამე კვარტილის საპოვნელად უნდა გამოვთვალოთ $ 0.75*(18 + 1) = 14.25 $-ე პოზიციაზე მდგარი მნიშვნელობა, ანუ $ 14 $-ე და $ 15 $-ე მონაცემს შორის: $ 5.36 + 0.25*(5.66 – 5.36) = 5.435 $.
ცენტრალური ტენდენციის საზომები არ გვთავაზობს მონაცემთა სიმრავლის საკმარის ან სრულ აღწერას. კერძოდ, შეიძლება დაგვებადოს კითხვა: საშუალოდ რამდენად არის მონაცემები დაშორებული განაწილების ცენტრს? ისინი შეჯგუფებულია მის ირგვლივ თუ გაფანტული? რიცხობრივად როგორ შეიძლება დახასიათდეს ეს? მოვიყვანოთ მაგალითი.
მაგალითი. დავუშვათ, $ A $ და $ B $ ბანკის მოგება (მლნ ლარი) უკანასკნელ $ 5 $ წელიწადში შემდეგი იყო:
ბანკი | 2007 | 2008 | 2009 | 2010 | 2011 |
A | 8 | 9 | 10 | 12 | 11 |
B | 18 | 1 | 11 | 15 | 5 |
თუ დავითვლით თითოეული ბანკისთვის საშუალო მნიშვნელობებს, ისინი ტოლი აღმოჩნდება ($ =10 $), მაგრამ აშკარაა, რომ თუ $ A $ ბანკის მოგება მეტ-ნაკლებად სტაბილური იყო და საშუალო მნიშვნელობის ირგვლივ „ტრიალებდა“, $ B $ ბანკის შემთხვევაში მეტი ცვალებადობა (გაფანტულობა) გვაქვს, რაც ამ უკანასკნელის მეტ რისკიანობაზე შესაძლოა მეტყველებდეს. მაშასადამე, მხოლოდ საშუალო მნიშვნელობა არასრულ ინფორმაციას გვაწვდის ბანკების ფინანსურ შედეგებზე და საჭიროა გაგვაჩნდეს სხვა საზომიც.
მონაცემთა გაფანტულობის ერთ-ერთი უმარტივესი საზომია გაბნევის დიაპაზონი, რომელიც წარმოადგენს მაქსიმალურ და მინიმალურ დაკვირვებათა შორის სხვაობას.
გაბნევის დიაპაზონი ეწოდება მონაცემთა სიმრავლეში მაქსიმალურ და მინიმალურ დაკვირვებათა შორის სხვაობას: $$ RNG=max\{x_i\}-min\{x_i\}, \,\, i=1,2,..,N $$ სადაც $ x_i $ დაკვირვებების ზოგადი აღნიშვნაა, ხოლო $ N $ მონაცემთა რაოდენობა.
ზემოგანხილულ მაგალითში $ A $ ბანკისთვის $ RNG_A = 12 – 8 = 4 $, ხოლო $ B $ ბანკისთვის $ RNG_B = 18 – 1 = 17 $. განსხვავება, როგორც ვხედავთ, საკმაოდ დიდია.
საშუალო მნიშვნელობის დარად, გაბნევის დიაპაზონიც საკმაოდ მგრძნობიარეა ამოვარდნილი მონაცემების მიმართ, რადგან მხოლოდ ორ – უდიდეს და უმცირეს მონაცემს იღებს მხედველობაში. შესაბამისად, იგი სათანადოდ ვერ აღწერს მონაცემთა ძირითადი მასის გაფანტულობას მაშინ, როცა ან მაქსიმუმი და/ან მინიმუმი ამოვარდნილია. ამ ნაკლს ნაწილობრივ კვარტილური დიაპაზონი აღმოფხვრის.
კვარტილური დიაპაზონი ზომავს მონაცემთა დალაგებულ სიმრავლეში შუა 50%-ის გაფანტულობას (ანუ მესამე და პირველ კვარტილს შორის არსებულ მონაცემთა გაფანტულობას) და უდრის შემდეგ სხვაობას: $$ IQR=Q_3-Q_1 $$ სადაც IQR-ით აღნიშნულია კვარტილური დიაპაზონი.
როცა, მაგალითად, $ Q_3=6.78 $ და $ Q_1=1.655 $, მაშინ კვარტილური დიაპაზონი უდრის $ IQR=6.78 – 1.655 = 5.125 $.
სხვა თანაბარ პირობებში, რაც უფრო დიდია მონაცემთა გაფანტულობის საზომი, მით მეტია მონაცემთა გაბნევა.