ბიზნეს ანალიტიკოსის ლექსიკონი

ტერმინების ორობითი მატრიცა

ტერმინების ორობითი მატრიცა აიგება ტექსტის მაინინგის პროცესში და ასახავს სხვადასხვა ტერმინების არსებობა/არარსებობას ტექსტურ ერთეულებში (დოკუმენტებში).

მატრიცის სტრიქონები შეესაბამება დოკუმენტებს, ხოლო სვეტები კი – ტერმინებს. არსებობა აღინიშნება, როგორც წესი, 1-ით, ხოლო არარსებობა – 0-ით.

მაგალითად, თუკი ტექსტი შედგება ორი დოკუმენტისგან:

  1. “ძალიან მომეწონა”
  2. “ძალიან კარგია”

მაშინ შესაბამისი ორობითი მატრიცა იქნება:

#“ძალიან”“მომეწონა”“კარგია”
1110
2101
ცხრილი 1. ტერმინების ორობითი მატრიცა