3.4. მონაცემთა შორის დამოკიდებულების საზომები: კოვარიაცია და კორელაცია

ამ ქვეთავში განვიხილავთ მონაცემთა შორის წრფივი დამოკიდებულების რიცხობრივი საზომებს: კოვარიაციასა და კორელაციას. თუ პირველი მათგანი ასახავს ორ მონაცემთა დალაგებულ სიმრავლეს შორის წრფივი დამოკიდებულების მიმართულებას (ზრდადი ან კლებადი), მეორე მათგანი მიმართულების გარდა დამოკიდებულების სიძლიერეზე გვაძლევს წარმოდგენას.

აქამდე ვიხილავდით მონაცემებს, რომელიც წარმოადგენდა ერთ კონკრეტულ ფენომენზე დაკვირვებულ მნიშვნელობებს. თუმცა, ხშირად დგება საჭიროება ერთდროულად ორ (ან რამდენიმე) ფენომენზე დაკვირვებული მნიშვნელობების გამოყენებისა, რათა დადგინდეს კავშირი მათ შორის. ვთქვათ, გვაინტერესებს რა სახის კავშირია პიროვნების ხელფასსა და მის სამუშაო გამოცდილებას შორის. ცხადია, ამ კითხვაზე პასუხის გასაცემად ერთ-ერთი გზაა, რომ შეგროვდეს მონაცემები (დაკვირვებები) აღნიშნულ ორ ფენომენზე და მოინახოს რაიმე ხერხი მათ შორის კავშირის დასადგენად. ერთ-ერთი ასეთი ხერხია ვიზუალური მეთოდი, როდესაც მონაცემებს დიაგრამაზე გამოსახავენ და აკვირდებიან, ჯგუფდება თუ არა ისინი რაიმე წრფის ან მრუდის გარშემო. ამ მეთოდის პოპულარული ალტერნატივაა კორელაციის კოეფიციენტი, რომელიც წარმოადგენს ორ ცვლადს შორის წრფივი კავშირის სიძლიერის საზომს. თუმცა, თავდაპირველად განვმარტოთ კოვარიაციის კოეფიციენტი, რომელიც ზომავს ორ მონაცემთა ჯგუფს შორის წრფივი დამოკიდებულების მიმართულებას.

რაიმე $ x_i $ და $ y_i $ პოპულაციური მონაცემებისთვის ($ i=1,2,…,N $) პოპულაციური კოვარიაციის კოეფიციენტი გამოითვლება შემდეგნაირად: $$ Cov(x,y)= \frac{\sum^{N}_{i=1}(x_i-\mu_x)(y_i-\mu_y)}{N} $$ შერჩევითი კოვარიაციის კოეფიციენტი გამოითვლება შემდეგნაირად: $$ Cov(x,y)= \frac{\sum^{n}_{i=1}(x_i-\bar{x})(y_i-\bar{y})}{n-1} $$

როგორც ვხედავთ, კოვარიაცია წარმოადგენს ორი მწკრივის, $ x $ და $ y $-ის საშუალოდან გადახრების ნამრავლთა ჯამის საშუალო არითმეტიკულს. თუ მისი მნიშვნელობა დადებითია, მაშინ ამბობენ, რომ ორ მონაცემთა მწკრივს შორის დამოკიდებულება ზრდადია, ანუ ერთი მწკრივის მეტ მნიშვნელობას შეესაბამება მეტი მნიშვნელობა მეორე მწკრივიდან. თუ მისი მნიშვნელობა კლებადია, მაშინ ერთი მწკრივის მეტ მნიშვნელობას შეესაბამება ნაკლები მნიშვნელობა მეორე მწკრივიდან. კოვარიაციის ნულთან ტოლობა მწკრივებს შორის წრფივი კავშირის არარსებობაზე მიანიშნებს.

პოპულაციის კორელაციის კოეფიციენტი გამოითვლება შემდეგნაირად: $$ \rho=\frac{Cov(x,y)}{\sigma_x \sigma_y} $$ შერჩევითი კორელაციის კოეფიციენტი გამოითვლება შემდეგნაირად: $$ r=\frac{Cov(x,y)}{s_x s_y} $$

დავუშვათ, გვსურს დავადგინოთ, არსებობს თუ არა წრფივი კავშირი ინდივიდის შემოსავალსა და მის სამუშაო გამოცდილებას შორის (ეს უკანასკნელი გავზომოთ იმ პერიოდით, რა პერიოდის განმავლობაშიც დასაქმებულია იგი). განვიხილოთ 6 ინდივიდის მონაცემი:

ინდივიდიგამოცდილება (x)შემოსავალი (y)
A51300
B122100
C82300
D102500
E132400
F91900

ჯერ განვახორციელოთ ამ მონაცემთა გრაფიკული ანალიზი. ქვემოთ მოცემული გრაფიკის ვერტიკალურ ღერძზე გადაზომილია შემოსავალი, ხოლო ჰორიზონტალურზე – გამოცდილება. თითოეული წერტილი შეესაბამება მონაცემთა წყვილს.

მონაცემთა ვიზუალური წარმოდგენა ცხადყოფს, რომ ისინი განლაგებულია გარკვეული წრფის ირგვლივ (იგი დახრილი ხაზითაა აღნიშნული), რომელიც მიმართულია „ზემოთ“. ასეთ დროს ამბობენ, რომ მონაცემთა ორ ჯგუფს შორის დადებითი კორელაციური კავშირია და ჩვენ შემთხვევაში ეს ნიშნავს, რომ არსებული მონაცემების საფუძველზე, გამოცდილების მატებასთან ერთად იზრდება შემოსავალიც დაკვირვების ქვეშ მყოფ ინდივიდებს შორის. გამოვთვალოთ კოვარიაციისა და კორელაციის კოეფიციენტები. ჯერ ვიპოვოთ საშუალო მნიშვნელობა და სტანდარტული გადახრა თითოეული ჯგუფისთვის:

$$ \bar{x}=\frac{5+12+8+10+13+9}{6}=9.5 $$
$$ \bar{y}=\frac{1300+2100+2300+2500+2400+1900}{6}=2083.333… $$
$$ s_x=2.88… $$
$$ s_y=440.07… $$
$$ Cov(x,y)=\frac{(5-9.5)(1300-2083.333)+(12-9.5)(2100-2083.333)+…+(9-9.5)(1900-2083.333)}{5}=\frac{4650}{5}=930 $$
$$ r=\frac{Cov(x,y)}{s_x s_y}=\frac{930}{2.88×440.07}=0.73… $$

როგორც მოსალოდნელი იყო, კორელაციის კოეფიციენტი დადებითია. გარდა ამისა, იგი ახლოსაა 1-თან, რაც ძლიერ წრფივ კავშირზე მიუთითებს.