ლ
კ
ი
მარკირება
ინგლ. tokenization. ტექსტის მაინინგის ერთ-ერთი საწყისი ეტაპი, რომლის დროსაც დასამუშავებელი ტექსტური ინფორმაცია აღიწერება სინონიმების ცნებაზე დაყრდნობით, საერთო განზოგადებული ტერმინების (მარკერების) საშუალებით.
ტერმინების სიხშირული მატრიცა
(ინგლ. frequency term-document matrix) ცხრილი, რომელიც აიგება ტექსტის მაინინგის პროცესში და ასახავს სხვადასხვა ტერმინის სიხშირეს (ტერმინის განმეორებათა რაოდენობას) ტექსტურ ერთეულებში (დოკუმენტებში).
დოკუმენტი
(ინგლ. document): ტექსტის მაინინგის პროცესში ანალიზის ცალკეული ობიექტი, ტექსტური ერთეული.
ტერმინების ორობითი მატრიცა
ინგლ. binary term-document matrix
6.2. ბაიეზის წესი
წინა ქვეთავში მოყვანილი, დანადგარებზე მაგალითის გაგრძელების კუთხით, დავუშვათ, გვსურს გავიგოთ რას უდრის $ P(B_1 | A) $, ანუ თუკი შემთხვევით შერჩეული დეტალი ხარვეზიანი აღმოჩნდა, რა არის ალბათობა იმისა, რომ ის პირველმა დანადგარმა დაამზადა. როგორც ვიცით, $$ P(B_1 | A) = \frac{P(B_1 \cap A)}{P(A)}. $$ აქედან: $$ P(B_1 \cap A) = P(B_1)P(A | B_1). $$ ასევე, […]
6.1. სრული ალბათობა

განვიხილოთ რაიმე სამი ურთიერთგამომრიცხავი და ერთობლივად ამომწურავი ხდომილება: \( B_1, B_2 \) და \( B_3 \). გავიხსენოთ, რომ “ურთიერთგამომრიცხავი” ნიშნავს იმას, რომ ამ ხდომილებებს არ გააჩნია თანაკვეთა ერთმანეთთან, ხოლო “ერთობლივად ამომწურავი” კი ნიშნავს იმას, რომ მათი გაერთიანებით მიიღება სრული სივრცე \( S \). შესაბამისად, ვენის დიაგრამების გამოყენებით, მათი გრაფიკული გამოსახვა შესაძლებელია შემდეგნაირად: გრაფიკი 6.1.1. სამი […]
მონაცემთა მაინინგი
ინგლ. data mining

