2. ეკონომიკურ მონაცემთა სტრუქტურა

ეკონომიკური მონაცემები სხვადასხვა ტიპისაა. ხშირად საჭიროა ამ ტიპთა გათვალისწინება ეკონომეტრიკული ანალიზისას, რათა დამაჯერებელი შედეგები მივიღოთ. ქვემოთ განვიხილავთ ძირითად ტიპებს.

ჯვარედინ-სექციური მონაცემების კომპლექტი

ინგლ. cross-sectional data

ამ ტიპის კომპლექტი შეიცავს ინფორმაციას ადამიანების, ოჯახების, ქალაქების, ქვეყნების და სხვათა შესახებ და ის შეგროვებულია დროის მოცემულ მომენტში. თუმცა, აუცილებელი არაა, რომ მონაცემთა შეგროვება ზუსტად ერთ დროს განხორციელდეს. მაგალითად, 100 ოჯახის გამოკითხვა მათი შემოსავლის შესახებ შესაძლოა რამდენიმე კვირა გაგრძელდეს, მაგრამ ჯვარედინ-სექციურ ანალიზში ამ ფაქტს უგულვებელვყოფთ და ვთვლით, რომ მონაცემები ფაქტიურად ერთ დროის შუალედს ეკუთვნის.

მთავარი პრინციპი ჯვარედინ-სექციური მონაცემების შეგროვებისას მისი შემთხვევითი ხასიათია, ანუ, ოჯახების შერჩევა სამომხმარებლო დანახარჯების კვლევის პროცესში, მაგალითად, ხორციელდება ყოველგვარი წინასწარ განსაზღვრული წესის გარეშე, რათა გამოირიცხოს ერთი ან რამდენიმე ნიშნით გამორჩეული (მდიდარი, უშვილო, გარეუბანში მცხოვრები …) ოჯახების განზრახ შერჩევა. წინააღმდეგ შემთხვევაში, ბუნებრივია, ეს გამოიწვევდა მიკერძოებული თვისებების მქონე მონაცემთა აღმოჩენას ჩვენს ხელში.

თუმცა, ხანდახან სურვილის მიუხედავად შემთხვევითი შერჩევა შეუძლებელია ხოლმე. მაგალითად, ოჯახების გამოკითხვისას მათი შემოსავლების შესახებ შესაძლოა ზოგიერთმა ოჯახმა უარი განაცხადოს პირადი ინფორმაციის გამომზეურებაზე, რაც გამოიწვევს მიღებული შედეგების მიკერძოებულობას და მათ არაშემთხვევითობას.

ჯვარედინ-სექციური მონაცემების მაგალითი შეგიძლიათ იხილოთ ცხრილი 1-ში. ცხრილის პირველი სტრიქონი განსაზღვრავს მონაცემების სახელს, ხოლო პირველი სვეტი კი – დაკვირვების ნომერს. როგორც ვხედავთ, შეგროვებულია 526 მონაცემი ხელფასზე (wage), განათლებაზე (educ), სამუშაო გამოცდილებაზე (exper), სქესსა (female) და ოჯახურ მდგომარეობაზე (married). ამასთან იგულისხმება, რომ მონაცემების რიგითობას არანაირი მნიშვნელობა არ აქვს, რაც წარმოადგენს კიდეც შემთხვევითი შერჩევის ერთ-ერთ მთავარ მახასიათებელს.

obsnowageeducexperfemalemarried
13.1011210
23.24122211
33.0011200
46.0084401
55.3012701
… … … … … … … … … … … … … … … … … … … … … … … … … … … … … …
… … … … … … … … … … … … … … … … … … … … … … … … … … … … … …
… … … … … … … … … … … … … … … … … … … … … … … … … … … … … …
52511.5616501
5263.5014510

ცხრილი 1. ჯვარედინ-სექციური მონაცემები

დროითი მწკრივები

ინგლ. time series

როგორც ზემოთ აღვნიშნეთ, ჯვარედინ-სექციურ მონაცემებში მნიშვნელობა არ აქვს დაკვირვებათა რიგითობას, რაც დროითი მწკრივების შემთხვევაში აღარ შეეფერება სიმართლეს. საქმე იმაშია, რომ დროითი მწკრივის მონაცემები, რომლებიც წარმოადგენს დაკვირვებებს დროის მიხედვით (მაგალითად, აქციების ფასები დღეების მიხედვით), ხშირად ხასიათდებიან ერთმანეთზე ზეგავლენით: რომელიმე ცვლადის წარსული მნიშვნელობა ზემოქმედებს მის ან სხვა ცვლადის მომავალ მნიშვნელობაზე და შესაბამისად, ქრონოლოგიური რიგითობის დაცვა ასეთ შემთხვევაში აუცილებელია. თუმცა, იმავდროულად, აღნიშნული ზემოქმედება წარმოადგენს შემაფერხებელ ფაქტორსაც ეკონომეტრიკული ანალიზისას, რადგან საზოგადოდ, ეკონომიკური ცვლადი იშვიათადაა დამოუკიდებელი დროში და ზეგავლენას განიცდის თავისივე ისტორიული მნიშვნელობებისგან. მაგალითად, მშპ-ს მოცულობა წინა კვარტალში გვაძლევს მნიშვნელოვან ინფორმაციას მშპ-ს მოცულობისა მიმდინარე კვარტალში, რადგან საზოგადოდ, მშპ ხასიათდება მეტნაკლები სტაბილური ოდენობით დროის ასეთ შუალედში. შესაბამისად, დროითი მწკრივების ეკონომეტრიკული დამუშავებისას გამოიყენება დამატებითი ეკონომეტრიკული ხელსაწყოები ანალიზის დამაჯერებელი შედეგების მისაღწევად.

დროითი მწკრივები სხვადასხვა სიხშირისაა. ეკონომიკური ცვლადების შემთხვევაში არსებობს დღიური, თვიური, კვარტალური, წლიური დაკვირვებები. სიხშირე ხშირად განსაზღვრავს მონაცემების სეზონურ ხასიათს, ანუ, მაგალითად, თუ ჩვენ განვიხილავთ ყოველკვარტალურ ინფორმაციას ნაყინის მოხმარებაზე თბილისში, ცხადია, მესამე კვარტალში (ივლისი-აგვისტო-სექტემბერი) მაჩვენებელი ყოველთვის მაღალი იქნება სხვა კვარტლებთან შედარებით და ანალიზისას ეს ფაქტორი ყოველთვის უნდა გავითვალისწინოთ. კიდევ ერთი ფაქტორი, რაც ხშირად დროითი მწკრივების ანალიზს ართულებს, მათი არასტაციონარული ხასიათია. ამ ცნებაზე ჩვენ მომავალში უფრო დეტალურად ვისაუბრებთ, თუმცა, მანამდე დავაკვირდეთ დიაგრამა 1-ს. როგორც ვხედავთ, მაჩვენებელი, მცირე გამონაკლისების გარდა, განუხრელად იზრდება (ანუ, გააჩნია ე.წ. ტრენდი), რაც იმას ნიშნავს, რომ საშუალოდ მისი ნომინალური მნიშვნელობა და მნიშვნელობათა ცვლილების დონე არაა მუდმივი, ანუ არ არის სტაციონარული.

დიაგრამა 1. M1 (სარეზერვო ფული) აშშ-ში 1959-2019 წლებში, მილიარდი აშშ დოლარი

ცხრილი 2-ში მოცემულია 5 დროითი მწკრივი, რომელთაგან პირველი (year) დაკვირვების წლებს შეიცავს, ხოლო დანარჩენი კი წლის მინიმალურ ხელფასს (avgmin), მინიმალური ხელფასით მოსარგებლეთა წილს (avgcov), უმუშევრობის დონეს (unemp) და მთლიან ეროვნულ პროდუქტს (gnp).

obsnoyearavgminavgcovunempgnp
119500.2020.115.4878.7
219510.2120.716.0925.0
319520.2322.614.81015.9
… … … … … … … … … … … … … … … … … … … … … … … … … … … … … …
… … … … … … … … … … … … … … … … … … … … … … … … … … … … … …
… … … … … … … … … … … … … … … … … … … … … … … … … … … … … …
3719863.3558.118.94281.6
3819873.3558.216.84496.7

ცხრილი 2. დროითი მწკრივები

შეერთებული ჯვარედინ-სექცია

ინგლ. pooled cross-section

ზოგიერთი მონაცემთა სიმრავლე შეიცავს როგორც ჯვარედინ-სექციურ, ისე დროით მონაცემებს. მაგალითად, შესაძლებელია მონაცემები ოჯახების შესახებ შეგროვდეს ორ სხვადასხვა წელიწადს, 1985 და 1990 წელს. კერძოდ, 1985 წელს შეგროვდეს მონაცემები შემთხვევით შერჩეული ოჯახების შემოსავლისა და დანაზოგების შესახებ, ხოლო იმავე ინფორმაციისთვის 1990 წელს შეგროვდეს უკვე სხვა შემთხვევით შერჩეული ოჯახების მონაცემები და ანალიზი ჩატარდეს ამ მონაცემების აგრეგირებულ სიმრავლეზე. მონაცემთა ასეთი ტიპის სიმრავლეს შეერთებული ჯვარედინ-სექცია ეწოდება. ისევე, როგორც დროით მწკრივში, შეერთებულ ჯვარედინ-სექციაში რიგითობას დიდი მნიშვნელობა ენიჭება, რადგან ხშირად ანალიზის ობიექტი ცვლადების ცვლილებაა დაკვირვების სხვადასხვა წლებს შორის.

პანელური კომპლექტი

ინგლ. panel data

პანელური კომპლექტი (იგივე პანელი) საკუთარი სტრუქტურით საკმაოდ ჩამოჰგავს შეერთებულ ჯვარედინ-სექციას, მაგრამ უმთავრესი განსხვავება ის არის, რომ დროის განმავლობაში პანელში თავს იყრის ერთსა და იმავე ინდივიდზე, ოჯახზე, კომპანიაზე დაკვირვების შედეგები. მაგალითად, იხილეთ ცხრილი 3, სადაც მოცემულია 1986-სა და 1990 წელს 150 ქალაქიდან მოპოვებული მონაცემები დანაშაულის დონესა და მასთან დაკავშირებულ ინფორმაციაზე. შევნიშნოთ, რომ თითოეულ ქალაქს გააჩნია საკუთარი ნომერი (city), რითიც ხდება მათზე არსებული მონაცემების იდენტიფიკაცია პანელში.

obsnocityyearmurderspopulationunempolice
11198653500008.7440
21199083592007.2471
3219862643005.475
4219901651005.575
… … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … … …
2971491986102607009.6286
298149199062450009.8334
2991501986255430004.3520
3001501990325462005.2493

ცხრილი 3. პანელი

მონაცემთა წყაროები

ანალიზში გამოყენებული მონაცემები შეიძლება შეგროვებულ იქნას სახელმწიფო ორგანოს (მაგ., საქართველოს სტატისტიკის ეროვნული სამსახურის, საქართველოს ეროვნული ბანკის) მიერ, საერთაშორისო ორგანიზაციის (მაგ., საერთაშორისო სავალუტო ფონდის, მსოფლიო ბანკის) მიერ, კერძო ორგანიზაციისა ან  ინდივიდის მიერ.

ინტერნეტი საუკეთესოა წყაროა უკვე შეგროვებული მონაცემების კომპლექტების საძიებლად. მონაცემები საქართველოს შესახებ შეგიძლიათ მოიძიოთ შემდეგ ვებ-გვერდებზე:

მონაცემები, რომელიც გროვდება სხვადასხვა ორგანიზაციებისა თუ ინდივიდების მიერ, ორი სახისაა: ექსპერიმენტალური და არაექსპერიმენტალური. როგორც სახელწოდებიდან ჩანს, პირველი მათგანი ექსპერიმენტის საშუალებით მიიღება, სადაც მკვლევარი, ორ ობიექტს შორის მიზეზ-შედეგობრივი კავშირის დასადგენად, თავად აკონტროლებს სხვა გარეშე პირობებს და მათ თანაბარ მდგომარეობაში აყენებს. თუმცა, საზოგადოდ, ეკონომიკური მონაცემები არაექსპერიმენტალური ხასიათისაა, რაც ართულებს მიზეზ-შედეგობრივი კავშირების ზუსტ იდენტიფიცირებას.

მონაცემთა სიზუსტე

მიუხედავად იმისა, რომ ამჟამად უკვე ხელმისაწვდომია მონაცემთა უდიდესი კომპლექტები, მათი ხარისხი ხშირად ეჭვს იწვევს. საქმე იმაშია, რომ:

– როგორც ზემოთ ავღნიშნეთ, მონაცემების დიდი ნაწილი არაექსპერიმენტალურია, ამიტომ გამორიცხული არაა დაკვირვების დროს დაშვებული შეცდომები და გამოტოვებები;

– თვით ექსპერიმენტალურ მონაცემებშიც კი შეცდომებს იწვევს დამრგვალებები და მიახლოებები;

– გამოკითხვითი ტიპის კვლევებში სერიოზულ პრობლემას წარმოშობს ინდივიდთა გადაწყვეტილება არ გასცენ პასუხი შეკითხვებს, რადგან დიდი რაოდენობის უარის შემთხვევაში შესაძლოა ჭეშმარიტება სწორედ მათ პასუხებში ყოფილიყო დამალული;

– მონაცემთა სხვადასხვა ჯგუფის მოპოვების მეთოდები ისე შეიძლება განსხვადებოდეს ერთმანეთისგან, რომ შეუძლებელი გახდეს სხვადასხვა ჯგუფიდან მიღებული შედეგების შედარება;

– ბევრი ეკონომიკური მონაცემი აგრეგირებულ დონეზე გროვდება (მაგ,: უმუშევრობა, მშპ, ინფლაცია), რაც მათ მიკრო დონეზე დაკვირვებას (სუბიექტების დონეზე) შეუძლებელს ხდის. გარდა ამისა, მონაცემთა აგრეგირება ხშირად კონფიდენციალურობის გამო ხდება (მაგ,: კომერციული ბანკების ფინანსური მაჩვენებლები)

ზემოაღწერილი მიზეზების გამო, კვლევის არადამაკმაყოფილებელი შედეგები ხანდახან არა მცდარი ეკონომეტრიკული ანალიზით, არამედ მონაცემთა დაბალი ხარისხითაა გამოწვეული.

მონაცემთა მასშტაბირება და ერთეული

მონაცემები (და მათი შესაბამისი ცვლადები) ოთხ ძირითად კატეგორიაში ნაწილდებიან იმისდა მიხედვით, თუ როგორი ტიპის მასშტაბირება შეიძლება განხორციელდეს მათზე: ფარდობითი, ინტერვალური, ორდინალური თუ ნომინალური.

ფარდობითი მასშტაბირება ნიშნავს, რომ რაიმე X ცვლადისთვის, რომელიც იღებს ორ მნიშვნელობას, X1-სა და X2-ს, აზრი გააჩნია შემდეგ გამოსახულებებს: 1) X1 / X2; 2) X1 – X2; 3) X1 ≤ X2 და X1 ≥ X2. უმრავლესობა ცვლადებისა ასეთი ტიპისაა; მაგალითად, სრულებით ადეკვატური შეკითხვაა თუ რამდენჯერაა მეტი მიმდინარე წლის მშპ გასული წლის მშპ-ზე;

ინტერვალური მასშტაბირება ახასიათებს ისეთ მონაცემებს, რომელთათვისაც სამართლიანია ფარდობითი მასშტაბირების მეორე თვისება, მაგრამ არა პირველი. მაგალითად, 2011 და 2000 წლებისთვის სხვაობა (2011 – 2000) აზრიანია, მაგრამ არა ფარდობა 2011 / 2000.

ორდინალური მასშტაბირებისას სამართლიანია ფარდობითი მასშტაბირების მხოლოდ მესამე თვისება. ასეთი ტიპის ცვლადებს მიეკუთვნება, მაგალითად, ფასიანი ქაღალდების რეიტინგები (Aaa ≥ Aa ≥ A);

ნომინალურ მასშტაბირებას არ გააჩნია ფარდობითი მასშტაბირების არცერთი თვისება, მაგალითად, ასეთ ცვლადებს მიეკუთვნება სქესი, ოჯახური მდგომარეობა და ა.შ.

საზოგადოდ, ეკონომეტრიკული ანალიზის შედეგები არ იცვლება თუ მონაცემთა ერთეულს გავზრდით ან შევამცირებთ. მაგალითად, პირველ ლექციაში ჩატარებულ ანალიზში შემოსავალსა და მოხმარებაზე, ცვლადები მილიარდებში იყო მოცემული, მაგრამ მათი ერთდროული გადაყვანა მილიონებსა ან ათასებში არ შეცვლიდა კოეფიციენტთა მნიშვნელობებს და შესაბამის დასკვნებს. თუმცა, მკვლევარები ხშირად მონაცემებს ლოგარითმულ ფორმაში წარმოადგენენ, რათა გააწრფივონ არაწრფივი გამოსახულებები ლოგარითმების ორი მარტივი თვისების გამო:

$$ \log{(X \times Y)} = \log{(X)} + \log{(Y)} $$

$$ \log{(X / Y)} = \log{(X)} – \log{(Y)} $$