1.1. მონაცემთა ტიპები. მონაცემთა რიცხობრივი და გრაფიკული წარმოდგენა

მონაცემები, რომელთა დამუშავება და ანალიზიც ხორციელდება სტატისტიკური მეთოდებით, შეგვიძლია ორ ტიპად დავყოთ:

  • რაოდენობრივი – ასეთი მონაცემები იძლევა ინფორმაციას რაიმეს რაოდენობის შესახებ. მაგალითად, სტუდენტთა რაოდენობები უნივერსიტეტის სალექციო ოთახებში დილის $ 9 $ საათზე, ავარიების დღიური რაოდენობები მთავარ ავტომაგისტრალზე სადღესასწაულო დღეებში, კერძების ფასები რესტორნის მენიუში, მოთამაშეთა სიმაღლეები საკალათბურთო გუნდში და ა.შ.
  • კატეგორიული (იგივე ხარისხობრივი, თვისობრივი) – ასეთი მონაცემები იძლევა არარაოდენობრივ ინფორმაციას რაიმეს შესახებ, მისი თვისობრივი მახასიათებლის შესახებ. მაგალითად, ლექციაზე მყოფ სტუდენტთა სქესი, ავარიაში მოხვედრილი ავტომობილების ტიპი (სედანი, ჯიპი, …), მენიუს კერძის სახეობა: ვეგეტარიანული/არავეგეტარიანული, კალათბურთელთა ეროვნება და ა.შ.

თავის მხრივ, რაოდენობრივი მონაცემი შესაძლოა იყოს დისკრეტული ან უწყვეტი.

დისკრეტულია ის რაოდენობრივი მონაცემი, რომელიც თვლის შედეგია. მაგალითად, $ 30 $ სტუდენტი ოთახში, $ 5 $ საავტომობილო ავარია კვირის ბოლო დღეს, მენიუში ხაჭაპურის ფასი $ 3.50 $ ლარი და ა.შ.. ყველა დანარჩენი რაოდენობრივი მონაცემი უწყვეტი ტიპისაა. მათ, როგორც წესი, გაზომვის შედეგად იღებენ: კალათბურთელის სიმაღლე $ 198.55 $ სმ, ოთახის ტემპერატურა $ 22 $ გრადუსი, ძაბვა ქსელში $ 220 $ ვოლტი და ა.შ.

მონაცემთა ტიპი განსაზღვრავს იმას, თუ როგორი ფორმით შეიძლება მათი აღწერა და წარმოდგენა. ჩვენ განვიხილავთ რაოდენობრივ მონაცემთა წარმოდგენის ერთ-ერთ ხერხს – სიხშირულ განაწილებას.

მონაცემთა სიხშირული განაწილება გვაძლევს წარმოდგენას რამდენად ხშირად მეორდება ერთმანეთის მსგავსი მონაცემები მონაცემთა სიმრავლეში.

მაგალითად, თუ მენეჯერს სურს დაადგინოს რა ასაკის მომხმარებლები ყიდულობენ კომპანიის პროდუქტს ყველაზე ხშირად/ყველაზე იშვიათად, მას შეუძლია ააგოს სიხშირული განაწილების ცხრილი, სადაც დაითვლება: მყიდველთა შორის რამდენი მომხმარებელი იყო $ 20 $-დან $ 25 $ წლის ასაკის? რამდენი იყო $ 25 $-დან $ 30 $ წლამდე ასაკის? $ 30 $-დან $ 35 $ წლამდე ასაკის? და ა.შ. ფაქტიურად ეს ნიშნავს, რომ უნდა ავაგოთ რიცხვითი ინტერვალები $ (20-25, 25-30, 30-35, …) $ და შემდგომ დავითვალოთ მონაცემებიდან რამდენი მათგანი ხვდება თითოეულ ამ ინტერვალში. დავუშვათ, მოგროვებული მონაცემებია: $$ 28, 19, 34, 54, 21, 26, 33, 31, 33, 29, 41, 52, 32, 27, 22 $$ თუ პირველ ინტერვალს $ 20 $-სა და $ 25 $-ს შორის ავაგებთ, დავადგენთ, რომ მონაცემი $ 19 $ „თამაშგარე“ მდგომარეობაში აღმოჩნდება და ანალიზში საერთოდ არ მოხვდება. ასევე, თუ ავაგებთ $ 55-60 $ ინტერვალს, ის სრულიად ზედმეტი იქნება, რადგან მონაცემებში $ 55 $ წელზე მეტი მყიდველი არ გვყავს, ხოლო თუ ავაგებთ $ 35 $-დან $ 38 $-მდე ინტერვალს, მისი ზომა უფრო მცირე იქნება, ვიდრე სხვა ინტერვალებისა, რაც გამოიწვევს სხვა და სხვა ასაკის მომხმარებლების შესახებ მონაცემების არათანაბარ პოზიციაში ჩაყენებას. მაშასადამე, გვჭირდება გარკვეული წესები, რომელიც მსგავსი შეცდომებისგან დაგვაზღვევს. ჯერ განვიხილოთ წესები იმ შემთხვევისთვის, როცა მონაცემები მთელი რიცხვებია.

წესი 1: კარგად მოიფიქრეთ რამდენი ინტერვალი გსურთ ანალიზისთვის. თუკი მონაცემთა რაოდენობა მცირეა, როგორც წესი, $ 3 $ ინტერვალი სრულიად საკმარისია ხოლმე, ხოლო $ 6 $-ზე მეტი ინტერვალი კი – ზედმეტად ბევრი. ჩვენს მაგალითში სწორედ $ 3 $ ინტერვალს ავაგებთ.

წესი 2: როცა ჩამოყალიბდებით ინტერვალთა რაოდენობაზე (აღვნიშნოთ ის \( n \)-ით), გამოთვალეთ თითოეული ინტერვალის სიგრძე, რათა მიიღოთ თანაბარი ზომის ინტერვალები. ამისათვის მაქსიმალურ (უდიდეს) მონაცემს გამოაკელით მინიმალური (უმცირესი) და გაყავით \( n \)-ზე: $$ w=\frac{max-min}{n} $$

სადაც \( w \)-ით აღნიშნულია ინტერვალის სიგრძე. თუკი პასუხად მიიღებთ ათწილად რიცხვს, დაამრგვალეთ ის ზედა უახლოეს მთელ რიცხვამდე, რადგან მთელ რიცხვებთან მუშაობა გაცილებით მოსახერხებელია. ჩვენს მაგალითში გვექნება, რომ $$ w=\frac{54-19}{3}=11.66667 $$

ზედა უახლოეს რიცხვამდე დამრგვალებით კი მივიღებთ \( w=12 \).

წესი 3: პირველი ინტერვალის საწყის წერტილად აიღეთ მინიმალური მონაცემი, ხოლო ამავე ინტერვალის ბოლო წერტილად კი – საწყის წერტილს პლიუს ინტერვალის სიგრძე. მაშასადამე, ჩვენს მაგალითში პირველი ინტერვალი იქნება $ 19 $-დან $ 31 $-მდე.

წესი 4: ყოველი შემდეგი ინტერვალი უნდა დაიწყოს იმ წერტილიდან, სადაც დასრულდა წინა ინტერვალი, ანუ ჩვენს მაგალითში, მეორე ინტერვალი დაიწყება $ 31 $-დან და ბუნებრივია, დასრულდება $ 43 $-ში.

საბოლოოდ გვექნება შემდეგი ინტერვალები:

$ 19-31 $

$ 31-43 $

$ 43-55 $

ამ წესების დაცვის შემდგომ შეგვიძლია ავაგოთ სიხშირული განაწილების ცხრილი, თუმცა მანამდე შევნიშნოთ, რომ $ 31 $ წარმოადგენს როგორც პირველი ინტერვალის საბოლოო წერტილს, ასევე მეორე ინტერვალის საწყის წერტილს და თუკი მონაცემებში მართლაც გვექნება $ 31 $, რომელს უნდა მივაკუთვნოთ იგი? მე გირჩევთ მსგავს სიტუაციებში მონაცემი ყოველთვის მიაკუთვნოთ წინა ინტერვალს და არა შემდეგს (ანუ $ 31 $, ასეთის არსებობის შემთხვევაში, მიაკუთვნეთ პირველ ინტერვალს). საბოლოოდ, დავითვალოთ რამდენი მონაცემი ხვდება $ 19 $-სა და $ 31 $-ს შორის: ასეთია $ 8 $ მონაცემი, ანუ სიხშირე უდრის $ 8 $-ს; შემდეგ დავითვალოთ რამდენი ხვდება მეორე ინტერვალში და ა.შ.

#ინტერვალისიხშირე
I$ 19-31 $$ 8 $
II$ 31-43 $$ 5 $
III$ 43-55 $$ 2 $

როცა მონაცემები ათწილადი რიცხვებია, ზემოთჩამოთვლილ წესებში მცირე ცვლილება უნდა შევიტანოთ. კერძოდ, ინტერვალთა სიგრძე უნდა გამოვითვალოთ შემდეგი ფორმულით: $$ w=\frac{UP(max)-DOWN(min)}{n} $$

სადაც $ DOWN(min) $ აღნიშნავს ქვედა მთელ რიცხვამდე დამრგვალებას, ხოლო $ UP(max) $ კი ზედა მთელ რიცხვამდე დამრგვალებას. მაგალითად, თუ აღმოჩნდა, რომ მონაცემებში უმცირესი რიცხვია $ 2.81 $, ხოლო უდიდესი კი $ 84.143 $, მაშინ $ DOWN(min)=2 $ და $ UP(max)=85 $, რაც საბოლოოდ მოგვცემს $ 3 $ ინტერვალისთვის შემდეგ სიგრძეს: $$ w=\frac{85-2}{3}=27.66667 $$

რაც, როგორც ზემოთ აღვნიშნეთ, თავის მხრივ უნდა დამრგვალდეს ზედა მთელ რიცხვამდე ($ 28 $-მდე). გარდა ამისა, პირველი ინტერვალის აგება უნდა დაიწყოთ $ DOWN(min) $-დან.

ალბათ მიხვდით, რომ წესებში ეს კორექტივები ემსახურება იმ მიზანს, რომ ანალიზის პროცესში თავიდან ავიცილოთ ათწილად რიცხვებთან მუშაობის დისკომფორტი და შედეგებიც უფრო კომპაქტური და ნათელი იყოს.

გარდა სიხშირეებისა, სიხშირული განაწილების ცხრილში ასევე ითვლიან ხოლმე ფარდობით და კუმულატიურ სიხშირეებსაც.

ფარდობითი სიხშირე წარმოადგენს მოცემული ინტერვალის სიხშირეს გაყოფილს მთლიან მონაცემთა რაოდენობასთან.

ზემოთ დათვლილ სიხშირეებზე დაყრდნობით გვექნება:

#ინტერვალისიხშირეფარდ.სიხშირე
I$ 19-31 $$ 8 $ $ 8/15=0.533=53.3\% $
II$ 31-43 $$ 5 $ $ 5/15=0.333=33.3\% $
III$ 43-55 $$ 2 $ $ 2/15=0.133=13.3\% $

ფაქტიურად, ფარდობითი სიხშირე გვიჩვენებს მონაცემთა რა წილი მოხვდა პირველ, მეორე და ა.შ. ინტერვალში.

კუმულატიური სიხშირე წარმოადგენს დაჯამებულ სიხშირეებს პირველი ინტერვალიდან მიმდინარე ინტერვალის ჩათვლით.

მაგალითად, ჩვენს მაგალითში, მეორე ინტერვალის კუმულატიური სიხშირე იქნება პირველი და მეორე ინტერვალების სიხშირეთა ჯამი, ხოლო მესამე ინტერვალის კუმულატიური სიხშირე კი იქნება პირველი, მეორე და მესამე ინტერვალების სიხშირეთა ჯამი:

#ინტერვალისიხშირეფარდ.სიხშირეკუმ.სიხშირე
I$ 19-31 $$ 8 $ $ 8/15=0.533=53.3\% $$ 8 $
II$ 31-43 $$ 5 $ $ 5/15=0.333=33.3\% $$ 8+5=13 $
III$ 43-55 $$ 2 $ $ 2/15=0.133=13.3\% $$ 8+5+2=15 $

და ბოლოს, შეგვიძლია ასევე დავითვალოთ კუმულატიური ფარდობითი სიხშირეც:

#ინტერვალისიხშირეფარდ.სიხშირეკუმ.სიხშირეკუმ.ფარდ.სიხშ.
I$ 19-31 $$ 8 $ $ 8/15=0.533=53.3\% $$ 8 $ $ 8/15=53.3\% $
II$ 31-43 $$ 5 $ $ 5/15=0.333=33.3\% $$ 8+5=13 $ $ 13/15 = 86.7\% $
III$ 43-55 $$ 2 $ $ 2/15=0.133=13.3\% $$ 8+5+2=15 $ $ 15/15 = 100\% $

გამოთვლილ ფარდობით სიხშირეებს გრაფიკული სახითაც გამოსახავენ ხოლმე – სვეტოვანი დიაგრამების საშუალებით. ასეთ დიაგრამას ჰისტოგრამას უწოდებენ ხოლმე. მის ჰორიზონტალურ ღერძზე ინტერვალებია გადაზომილი, ხოლო ვერტიკალურ ღერძზე კი – თავად ფარდობითი სიხშირის სიდიდეები, ანუ თითოეული სვეტის სიმაღლე შეესაბამება მოცემული ინტერვალის ფარდობით სიხშირეს:

სტატისტიკური ხასიათის ლიტერატურაში ხშირად წააწყდებით მონაცემების კიდევ ერთი თვისებით დაყოფას. კერძოდ, განიხილავენ ჯვარედინ მონაცემებსა და დროით მწკრივებს. პირველი მათგანი ისეთ მონაცემებს აღნიშნავს, რომლებიც მთლიანად შეგროვებულია დროის ერთსა და იმავე პერიოდში. დროითი მწკრივი კი დროის სხვა და სხვა პერიოდში შეგროვებულ მონაცემებს მოიცავს. მაგალითად, საქართველოს ეროვნული ბანკის საიტიდან შეგროვებული რომელიმე წლის $ 22 $ მარტის მონაცემები ლარის სხვა და სხვა ვალუტასთან გაცვლითი კურსების შესახებ ჯვარედინია, ხოლო თუკი წლის განმავლობაში ყოველ დღეს შევაგროვებთ ლარის აშშ დოლართან გაცვლით კურსს, მაშინ ეს ერთობლიობა დროით მწკრივს წარმოადგენს.