Mova Institute Part of Speech Dataset¤
Mova Institute Part of Speech tagging dataset to train a model using the Ukrainian language.
Info
Total number of files: 647
Tokens: 141 286
Words: 111 739
Sentences: 8016
Example of usage¤
Our API¤
from ua_datasets import MovaInstitutePOSDataset
mova = MovaInstitutePOSDataset(root='data/', download=True)
print(mova.data)
print(mova.labels)
Sample output:
Sample: ['У', 'домі', 'римського', 'патриція', 'Руфіна', 'була', 'прегарна', 'фреска', ',', ...]
Labels: ['ADP', 'NOUN', 'ADJ', 'NOUN', 'PROPN', 'VERB', 'ADJ', 'NOUN', 'PUNCT', ...]
Labels description¤
Primary parts of speech | Definition | Example |
---|---|---|
NOUN | Іменник | зображення,футбол,людина |
VERB | Дієслово | робити,грати,співати |
NUMR | Числівник | один,два,сто |
ADV | Прислівник | абсолютно,безумовно,точно,яскраво |
ADJ | Прийменник | звичайна,веселий,грайливий,радісний |
PREP | Прийменник | в,у,на,під,за |
CONJ | Сполучник | і,та,й,але,а |
PART | Частка | не,хай,нехай,де,аби |
Additional parts of speech | ||
PRON | Займенник | ти,ми,вони,я |
ADJP | Дієприкметник | Кохана,написана,прочитана,заспівана |
NUMR | Порядковий числівник | перший,сотий,другий |
Samples and corresponding labels:
У[ADP] домі[NOUN] римського[ADJ] патриція[NOUN] Руфіна[PROPN] була[VERB] прегарна[ADJ] фреска[NOUN] ...
Ходить[VERB] постійно[ADV] у[PREP] драній[ADJP].
Зробив[VERB] перший[NUMR] крок[NOUN] для[PREP] неї[PRON].
Якось[ADV] зібралися[VERB] у[PREP] нього[PRON],[PUNCT] ховаючися[VERB] від[PREP] переслідувань[NOUN] ...