ინგლ. tokenization
მარკირება ტექსტის მაინინგის ერთ-ერთი საწყისი ეტაპია, რომლის დროსაც დასამუშავებელი ტექსტური ინფორმაცია აღიწერება სინონიმების ცნებაზე დაყრდნობით, საერთო განზოგადებული ტერმინების (მარკერების) საშუალებით.
მაგალითად, თუკი ტექსტში გვხვდება ‘გამარჯობა’, ‘#გამარჯობა’, ‘სალამი’ და ‘მოგესალმებით’, ისინი შეგვიძლია გავაერთიანოთ ‘გამარჯობა’ მარკერის ქვეშ. ამდენად, მარკირება მიზნად ისახავს შეამციროს განსხვავებული ტექსტური ერთეულების რაოდენობა მათი შემდგომი დამუშავების გასამარტივებლად.