Listy frekwencyjne


Lista frekwencyjna lematów w korpusie

Na potrzeby projektu stworzona została lista frekwencyjna lematów (form podstawowych) wyrazów występujących w korpusie. Z obu wersji korpusu – otagowanej przez tagery Toygger oraz Concraft – oddzielnie wydobyte zostały wszystkie lematy wraz z informacją o frekwencji. Pominięto jedynie elementy oznakowane jako obce, znaki interpunkcyjne lub liczby. Przy podliczaniu frekwencji braliśmy pod uwagę jedynie postać lematu (formy podstawowej), zatem np. frekwencja spójnika żeby i partykuły żeby podliczona została łącznie. Decyzja taka została podyktowana tym, że dla wielu wyrazów, zwłaszcza nieodmiennych, interpretacja co do klasy fleksyjnej bywa w wielu kontekstach dyskusyjna. Następnie zostały one połączone w jedną listę, na której w dwóch kolumnach zachowaliśmy informację o frekwencji w obu wersjach korpusu. Na tak utworzonej liście znalazło się 286 980 lematów. Wiele z nich było jednak rezultatem różnorakich błędów, zatem lista wymagała dalszej edycji, która zostanie opisana w kolejnym podpunkcie.

Poniżej przedstawiamy najczęstsze 200 lematów korpusu wraz z ich frekwencją w dwóch wersjach korpusu: otagowanej tagerem Toygger oraz otagowanej tagerem Concraft. Frekwencja dla poszczególnych wyrazów w tych dwóch wersjach korpusu może się różnić, gdyż niektóre segmenty zostały różnie zinterpretowane przez oba tagery i przypisane do różnych form podstawowych. Na przykład we fragmencie:

Wniosł w sądzie niniejszym ilację alias zalił się wójt pomieniony na Stanisława Ogorzalka, który porwał się do kija na wójta, jako się pokazało, zaczym popada winę grzywien 2, grzywna jedna na wosk do kościoła tutejszego, i plag 30 postronkiem sąd nasz przykazuje in instanti.

wyróżniony segment winę został przez Toygger zinterpretowany jako forma rzeczownika wina, a przez Concraft – jako forma czasownika winąć.

Lematy są posegregowane domyślnie według frekwencji w wersji otagowanej tagerem Toygger.


Sposób utworzenia listy frekwencyjnej

Zgodnie z przyjętymi przez nas założeniami lista frekwencyjna form podstawowych w korpusie powinna odzwierciedlać zasady hasłowania przyjęte w Elektronicznym słowniku języka polskiego XVII i XVIII w. Na ile było to możliwe, należało więc pominąć lematy, które nie stanowiłyby jednostki słownikowej, a także interpretacje błędne. Lematy są, rzecz jasna, w postaci transkrybowanej, nie transliterowanej (więcej na temat transliteracji i transkrypcji zob. w zakładce „Instrukcja”).

Jak już zostało wspomniane, przy jej tworzeniu pominięte zostały zatem wyrazy oznaczone jako obce (w językach obcych), znaki interpunkcyjne oraz liczby (także rzymskie).

Spośród wyodrębnionych w ten sposób 286 980 lematów 6198 zawierało znaki spoza polskiego alfabetu, co wskazywało, że prawdopodobnie nie są to prawidłowo wskazane formy podstawowe leksemów polskich. Znalazły się tu znaki interpunkcyjne i symbole (np. lematy to_jest, arcy-biskup, w-tobie, k'myśli, po-, bę-, otwierał', ś^o^, G**, \), cyfry (np. 6-funtowy, ½, niesie1318), a także litery alfabetów innych języków (np. jɛy, εkstractu,). Jak widać, znalazły się tu rozwiązania skrótów (to_jest) oraz same skróty, nierozwiązane celowo bądź omyłkowo (G**, ś^o^). Wiele jest przymiotników zapisanych z użyciem cyfr (6-funtowy). Poza tym wśród tych lematów są rezultaty nieprawidłowej segmentacji lub transkrypcji (wyrazy urwane: po-, bę-, doczepienie znaku interpunkcyjnego do wyrazu: otwierał', zbitki typu k’myśli, w-tobie, niesie1318, które powinny były być rozdzielone, brak uwspółcześnienia zapisu typu arcy-biskup), rzadziej innych błędów nieuniknionych na różnych etapach pracy nad tak dużym materiałem. Spośród tego rodzaju lematów pozostawiliśmy na liście jedynie partykuły , +że oraz przysłówek +kroć, które znajdują się w bazie analizatora morfologicznego Korbeusz. Po usunięciu 6195 form zawierających znaki spoza polskiego alfabetu na liście pozostało 280 785 lematów.

Następnie z listy usunięto 214 600 lematów, które zostały przypisane przez tagery segmentom nierozpoznanym przez analizator morfologiczny Korbeusz. W takich przypadkach niezmiernie rzadko lemat był tożsamy z formą podstawową wyrazu polskiego. Znacznie częściej była to jakaś forma zależna leksemu niewystępującego jeszcze w bazie analizatora morfologicznego lub zawierająca jakiś błąd w zapisie. Jeśli bowiem jakiś segment nie został rozpoznany przez analizator Korbeusz, tagery zgadywały interpretację, wykorzystując schematy wyuczone na materiale znakowanym ręcznie. Jako lemat przypisywana była wówczas niezmieniona postać segmentu. Tego rodzaju błędy mogły wynikać choćby z zastosowania w trakcie transkrypcji (błędnie) innych zasad niż te stosowane w bazie Korbeusza. Stąd np. segmentowi materyjej przypisany został błędny lemat materyjej (Korbeusz nie zawiera schematu odmiany leksemu materyja, a jedynie materia). Forma materyjej nie jest pożądana na liście frekwencyjnej, gdyż w rzeczywistości wszystkie zinterpretowane w ten sposób segmenty powinny otrzymać lemat materia, który już znalazł się na liście frekwencyjnej w innym miejscu. Z tych powodów postanowiliśmy wszystkie lematy nierozpoznawane przez Korbeusza usunąć z prezentowanej listy frekwencyjnej; wyszukanie wśród nich prawdziwych kandydatów na hasła słownikowe będzie dalszym, czasochłonnym zadaniem, którego nie obejmował niniejszy projekt. Większość z nich to lematy (a właściwie ciągi znaków) występujące w korpusie rzadko lub bardzo rzadko. W pierwszym tysiącu na liście frekwencyjnej są jedynie 3 takie lematy, w kolejnym tysiącu jest ich 5, w trzecim – 4, a w czwartym – 8. Dopiero dalej ich zagęszczenie na liście zaczyna się stopniowo zwiększać. Ponad połowa z nich to lematy o pojedynczej frekwencji. Zatem pomimo że jest ich stosunkowo dużo na liście lematów, to w całym korpusie odsetek segmentów zlematyzowanych w ten sposób jest stosunkowo niewielki.

Po odrzuceniu omówionych lematów uzyskaliśmy listę zawierającą 66 185 pozycji. Wydawać by się mogło, że w korpusie bardzo wiele wyrazów zostało rozpoznanych błędnie – ponad 220 tys. lematów usunięto z listy frekwencyjnej. A jednak zlematyzowane w ten sposób segmenty stanowią zaledwie 4% wszystkich segmentów korpusu.

Pozostawiliśmy na liście frekwencyjnej lematy rozpoczynające się wielką literą, gdyż współtworzą one faktyczną zawartość korpusu, zwłaszcza jeśli chodzi o początkową część listy. Lematów mających co najmniej pierwszą literę wielką jest na omawianej liście 14 595 (w sumie było ich znacznie więcej, lecz zostały one odrzucone w przedstawionych powyżej krokach). Nie zaskakuje, że najczęstszy jest tu wyraz Bóg. Poza tym przeważają nazwy własne i nazwy narodowości (np. Chrystus, Turek, Polak, Wojciech, Marcin, Mahomet, Rzeczpospolita, Lwów, Potocki, Jowisz, Pegaz), jest też trochę zapisów zinterpretowanych jako współczesne skrótowce (np. BC, SA, CD). W tej grupie dość licznie trafiają się rzeczowniki pospolite nieprawidłowo zinterpretowane jako nazwiska (stąd np. na liście frekwencyjnej znajdują się dwa lematy Zwadazwada zamiast jednego zwada). Jednak z reguły mają one niską frekwencję.

Ostatecznie otrzymaliśmy listę liczącą 66 185 lematów, a poniżej prezentujemy pierwsze 200.

Uwaga: przy wyszukiwaniu wybranych lematów w korpusie należy pamiętać, aby wybrać opcję “odrzuć obce segmenty”. W przeciwnym razie wynik niejednokrotnie będzie wyższy od tego podanego na liście frekwencyjnej.

Lemat                 Liczba wystąpień - Toygger   Liczba wystąpień - Concraft  
i 368873 368666
być 262116 261846
w 246195 246196
z 219308 213025
on 214170 212091
się 184744 184744
na 184692 184692
nie 182146 182785
ten 147993 148927
to 117827 114197
który 117419 117419
do 113801 113455
a 113550 111727
mieć 85040 84448
co 73163 73186
swój 69302 68799
że 67147 67147
od 58168 58101
tak 57176 57164
o 54757 54976
jako 53898 53887
za 47162 47162
ja 46430 46265
pan 45694 45476
wielki 43846 29877
po 43792 43734
mój 41790 29601
ale 38635 38619
by 37857 37857
móc 35210 35070
siebie 34296 34139
gdy 32551 32551
sam 32194 32110
jeden 31753 31763
aby 29185 29185
przez 27463 27463
bo 27431 27431
dla 27113 27113
albo 26860 26896
też 26661 26661
król 26616 22506
Bóg 25825 24487
ty 25470 25695
człowiek 25069 25030
drugi 24981 24458
rok 24316 24081
dać 23348 22725
my 23307 23305
chcieć 22842 22781
już 22553 22553
tylko 22358 22146
nasz 20809 18555
dzień 20557 18086
przy 20362 20362
czas 20316 19845
20176 20176
tam 19944 19907
pod 19739 19739
19687 19687
kto 18868 18820
wszystek 18384 18338
u 18320 18312
dobry 18151 17472
święty 17927 17474
taki 17894 17794
twój 17762 17426
rzecz 17747 17491
miasto 17325 28170
jak 17131 17099
nad 17100 18689
żeby 16932 16932
mówić 16925 16784
gdzie 16875 16875
tedy 16788 16616
wszytek 16778 15702
kiedy 16551 16531
zaś 16059 16059
widzieć 15748 15663
tu 15460 15460
dwa 15434 15434
czynić 15151 15114
każdy 14950 14950
ani 14919 14905
inszy 14855 14601
+że 14711 14711
wiele 14596 14596
ziemia 14434 14396
bez 13992 13605
jaki 13743 13631
przed 13230 13230
wziąć 13006 12829
miejsce 12992 12993
świat 12831 12539
abo 12489 12489
część 12271 12279
iść 12211 12164
syn 12210 10852
jeśli 12193 12193
wiedzieć 11854 11846
11761 11761
żaden 11700 11700
stać 11587 11145
uczynić 11294 11294
potym 11246 11246
dobrze 11134 11134
woda 11035 10867
pierwszy 11000 10350
ręka 10990 10891
serce 10964 10964
inny 10836 10842
jeszcze 10795 10795
rzec 10733 10834
nic 10707 10694
książę 10467 8234
barzo 10462 10457
także 10391 10391
wojsko 10224 10190
ku 10046 10046
zły 9899 9470
kościół 9739 9739
raz 9473 9482
oko 9449 9368
dom 9131 9056
według 9078 9078
teraz 9064 9064
cały 9027 8976
mały 8946 8611
jednak 8892 8892
prawo 8886 8945
trzy 8879 8814
strona 8862 9984
ojciec 8861 8439
niech 8818 8818
głowa 8805 8494
słowo 8755 8723
ciało 8754 8754
stary 8582 8006
złoty 8564 8401
lecz 8508 8477
sposób 8472 8336
śmierć 8429 8429
dużo 8163 7427
wy 7955 7955
koń 7953 7837
polski 7935 7293
musieć 7923 7869
ów 7861 7344
dawać 7796 7776
przyjść 7717 7575
zaraz 7428 7415
niebo 7384 7382
różny 7365 7301
brać 7352 7120
prosić 7296 7251
potrzeba 7221 7138
góra 7213 7021
kazać 7086 7021
więc 7081 7081
nowy 7080 6759
imć 7040 3001
między 7026 7026
zwać 7022 6994
droga 6942 6776
choć 6898 6898
pisać 6785 6549
sprawa 6647 6602
boży 6635 6548
bywać 6617 6557
zawsze 6570 6570
dusza 6553 6345
trzeci 6539 6404
niż 6536 6509
trzeba 6486 6486
tysiąc 6473 6466
jeżeli 6455 6455
imię 6415 3496
krew 6337 6298
morze 6301 6262
ogień 6273 6240
pański 6256 5831
bardzo 6230 6231
miłość 6229 6229
lubo 6139 6137
rozumieć 6025 5909
mało 5933 5834
powinien 5920 5852
daleko 5872 5911
czy 5871 5871
powiedzieć 5833 5845
koniec 5827 5731
znać 5722 5703
sejm 5689 5678
cesarz 5639 5192
wiara 5635 5625
żyć 5630 5364
wojna 5600 5317
ksiądz 5581 7656
siła 5519 5510
brat 5468 5578
cnota 5395 5133

Pełna lista frekwencyjna lematów