მარკირება

ინგლ. tokenization. ტექსტის მაინინგის ერთ-ერთი საწყისი ეტაპი, რომლის დროსაც დასამუშავებელი ტექსტური ინფორმაცია აღიწერება სინონიმების ცნებაზე დაყრდნობით, საერთო განზოგადებული ტერმინების (მარკერების) საშუალებით.

ტერმინების სიხშირული მატრიცა

(ინგლ. frequency term-document matrix) ცხრილი, რომელიც აიგება ტექსტის მაინინგის პროცესში და ასახავს სხვადასხვა ტერმინის სიხშირეს (ტერმინის განმეორებათა რაოდენობას) ტექსტურ ერთეულებში (დოკუმენტებში).

დოკუმენტი

(ინგლ. document): ტექსტის მაინინგის პროცესში ანალიზის ცალკეული ობიექტი, ტექსტური ერთეული.

6.2. ბაიეზის წესი

წინა ქვეთავში მოყვანილი, დანადგარებზე მაგალითის გაგრძელების კუთხით, დავუშვათ, გვსურს გავიგოთ რას უდრის $ P(B_1 | A) $, ანუ თუკი შემთხვევით შერჩეული დეტალი ხარვეზიანი აღმოჩნდა, რა არის ალბათობა იმისა, რომ ის პირველმა დანადგარმა დაამზადა. როგორც ვიცით, $$ P(B_1 | A) = \frac{P(B_1 \cap A)}{P(A)}. $$ აქედან: $$ P(B_1 \cap A) = P(B_1)P(A | B_1). $$ ასევე, […]

6.1. სრული ალბათობა

განვიხილოთ რაიმე სამი ურთიერთგამომრიცხავი და ერთობლივად ამომწურავი ხდომილება: \( B_1, B_2 \) და \( B_3 \). გავიხსენოთ, რომ “ურთიერთგამომრიცხავი” ნიშნავს იმას, რომ ამ ხდომილებებს არ გააჩნია თანაკვეთა ერთმანეთთან, ხოლო “ერთობლივად ამომწურავი” კი ნიშნავს იმას, რომ მათი გაერთიანებით მიიღება სრული სივრცე \( S \). შესაბამისად, ვენის დიაგრამების გამოყენებით, მათი გრაფიკული გამოსახვა შესაძლებელია შემდეგნაირად: გრაფიკი 6.1.1. სამი […]

6. სრული ალბათობა. ბაიეზის წესი

შესავალი წინამდებარე თავი შედარებით მცირე ზომის იქნება, რადგან მხოლოდ ორი ახალი რამ უნდა განვიხილოთ: სრული ალბათობა და ბაიეზის წესი. ორივე მათგანი, ძირითადად, პირობითი ალბათობის ცნებას ეფუძნება და ამიტომ, სანამ კითხვას გააგრძელებდეთ, გირჩევთ კიდევ ერთხელ კარგად გაიაზროთ პირობით ალბათობაში რას წარმოადგენს, ერთი მხრივ, პირობა და, მეორე მხრივ, ხდომილება, რომლის ალბათობასაც ვეძებთ ამ პირობით. მოვიყვანოთ მაგალითი, თუ […]