Elektronický korpus slovenského jazyka

Slovenský národný korpus je vedecko-výskumný projekt budovania elektronického korpusu textov súčasného slovenského jazyka (1955 - 2005) so zameraním na písané texty. Postupne sa bude rozširovať o texty z ďalších období a sfér používania slovenského ...

Slovenský národný korpus je vedecko-výskumný projekt budovania elektronického korpusu textov súčasného slovenského jazyka (1955 - 2005) so zameraním na písané texty. Postupne sa bude rozširovať o texty z ďalších období a sfér používania slovenského jazyka. V Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, kde sa Slovenský národný korpus začal v roku 2002 budovať, sa tak realizuje významná fáza elektronizácie jazykovedného výskumu na Slovensku a pripravujú sa podmienky na počítačové spracovanie slovenčiny ako prirodzeného jazyka.

SkryťVypnúť reklamu
SkryťVypnúť reklamu
SkryťVypnúť reklamu
Článok pokračuje pod video reklamou
SkryťVypnúť reklamu
Článok pokračuje pod video reklamou

SkryťVypnúť reklamu

Čo je korpus?

Ako jedna z posledných krajín strednej Európy sme začali budovať špecifický súbor jazykových dát v elektronickej podobe. Lingvisti na základe autentického jazykového materiálu opisujú predovšetkým významy a funkcie slov i ďalších jazykových prostriedkov. Bežným používateľom môže korpus poslúžiť ako zdroj poznania reálneho fungovania jazykových prostriedkov, nenahrádza však kodifikačné ani gramatické príručky. Princíp korpusu spočíva v jeho veľkosti. Má byť taký veľký, aby zahŕňal všetky aspekty používaného spisovného jazyka.

Korpus je určený predovšetkým pre odbornú verejnosť, teda jazykovedcov, ktorí na ňom skúmajú svoje hypotézy, prípadne prichádzajú na hypotézy iné. Pre tvorcov slovníkov, je to neoceniteľný materiál, na ktorom môžu odsledovať všetky nové slová, ktoré pribúdajú do jazyka. Môže byť určený aj pre širokú verejnosť, v tomto prípade si ľudia môžu napr. pozrieť výskyt daného jazykového javu, v prípade ak sa nevedia rozhodnúť ako nejaký tvar daného slova napísať. Typickým príkladom je tvrdé, alebo mäkké i. Korpus dokumentuje ako často sa v danom slove vyskytuje. Bežným používateľom teda poslúži ako zdroj poznania reálneho fungovania jazykových prostriedkov, ale nenahrádza kodifikačné ani gramatické príručky. Korpus, ako veľmi rozsiahly a zložitý systém textov, ktorý je spracovaný novým a náročným spôsobom a prináša natoľko nové poznatky o jazyku, že do doterajšieho vývoja jazykovedy vnáša radikálny prevrat. Tento nový prístup k jazykovému materiálu viedol aj k vzniku nového odboru nazývaného korpusová lingvistika. Ide o odbor lingvistiky, ktorého predmetom sú jazykové fenomény zisťované na základe korpusov, teda na príklade veľkého množstva reálnych textov, v ktorých sa slová a jazykové javy nachádzajú v prirodzených kontextoch. Na základe analýzy korpusových textov môže byť overená väčšina lingvistických teórií a môžu vzniknúť aj nové hypotézy a teórie. Veľa korpusov bolo vytvorených na podporu tvorby slovníkov a lexikografi sú v súčasnosti najčastejšími používateľmi korpusov.

SkryťVypnúť reklamu

Niektoré výsledky zo spracovania korpusov, ako sú zoznamy slov, spoločné umiestnenia slov, frekvencia slov atď., sa používajú aj v aplikáciách nesúvisiacich s jazykovedou. Sú to napr. systémy na spracovanie textov (automatická kontrola pravopisu, strojový preklad textov), alebo systémy na rozpoznávanie reči, atď. Rovnako môže korpus poslúžiť ako zdroj fráz a viet potrebných pri výučbe cudzích jazykov. Učebný počítačový program môže obsahovať klasický slovník spolu s menším korpusom, v ktorom možno jednotlivé slová prezerať v kontexte, v akom sa reálne vyskytujú.

Včera a dnes

Prvý korpus slovanských jazykov bol korpus Srbochorvátskeho jazyka z roku 1964, ktorý vznikal tak, že sa príslušné vety písali na lístky a tie sa následne usporadúvali. V lexikografii sa už takáto metóda používa niekoľko storočí. Na kartotečné lístky sa napíšu výskyty daného slova s nejakou vetou kde sa nachádza. Lingvistika takmer vždy trpela nedostatkom spoľahlivých informácií o svojom predmete výskumu, teda o jazyku. Jednou z príčin je aj náročnosť zberu jazykových údajov. Pokiaľ sa údaje zhromažďovali ručne bolo to vždy pracné a časovo náročné a nikdy nebolo jasné, či už je nazbieraného materiálu dostatočné množstvo. Obvykle ho dostatočné množstvo nebolo i keď si to častokrát jazykovedci ani neuvedomovali. Potom na takto obmedzených dátach uložených v osobných archívoch či v archívoch vedeckých ústavov vznikali v minulosti všetky slovníky, učebnice a iné jazykové príručky. Keď však prejdeme s počtom slov nad milióny, stáva sa táto ručná metóda neúnosnou.

SkryťVypnúť reklamu

Moderné všeobecné jazykové korpusy dnes už v rozsahu slov dosahujú hranicu niekoľkých sto miliónov. Tým sa lingvistika dostala do situácie, keď má k dispozícii obrovské množstvo slov, viet a informácií o nich. Vďaka tomu sa potvrdzuje, že kvalita a objektívnosť informácií, ktoré sa dajú z korpusu získať, priamo závisia na rozsahu dát v korpusoch uložených. Aj sám prof. Sinclair, priekopník korpusovej lingvistiky vravel: „niet lepších dát ako čím viac samotných dát."

Ako sa budujú korpusy

V súčasnosti sa korpusy písaného jazyka zvyčajne vytvárajú zberom celých textov, a to tak, aby čo najvernejšie reprezentovali daný jazyk. Korpusy budované na vedecko-výskumné účely sú založené na nekomerčnej báze a texty do nich sa získavajú v súlade s príslušným autorským zákonom podľa zmluvne dohodnutých podmienok s autormi, vydavateľstvami alebo inými držiteľmi autorských práv. Rast korpusu je závislý od toho ako rýchlo sa dokážu získavať texty. V Českej republike sa súčasný dvestomiliónový korpus budoval 10 rokov. Tým sa dostali naši susedia na prvú priečku v budovaní korpusu slovanských jazykov. Našich 80 miliónov slov sme získali za rok. Bolo to tým, že sa podarilo získať archívne čísla niektorých novín. Tým pádom je najviac textov z oblasti publicistiky. Kým je korpus malý, sú vzácne akékoľvek texty, keď už je dostatočne veľký je potrebné texty vyvážiť tak, ako sa naozaj vyskytujú v jazyku. Keď si vezmeme, čo sa v súčasnosti píše, tak prevláda publicistika, za ňou zaostáva beletria a potom odborná literatúra, ktorá sa delí na rôzne vedné odbory. Sú vypracované rôzne štúdie, ktoré uvádzajú, z ktorého odboru by sa malo aké množstvo literatúry do korpusu zaradiť. Všetky texty sú triedené a vecne, štrukturálne a lingvisticky označkované, čo znamená že každý text je jednoznačne identifikovaný na základe zvolených hľadísk, ďalej je vybavený explicitnými údajmi o svojej vnútornej štruktúre a obohatený o lingvistické údaje. Dnešné korpusy predstavujú vôbec najbohatší, najautentickejší a najobjektívnejší zdroj typických a menej typických, vždy však jazykovo verných informácií, ktoré sa dajú prostredníctvom výpočtovej techniky ľahko vyhodnocovať. Dômyselný softvér vyvinutý pre spracovanie a výber informácií z korpusu pritom dokáže veľmi rýchlo odhaliť aj doposiaľ málo tušené súvislosti, rôznym spôsobom triediť informácie, a pripraviť ich pre užívateľa tak, aby ich mohol už sám pohodlne vyhodnotiť a ďalej spracovať. Spočiatku bolo možné vyhľadávať v korpusoch len za pomoci špeciálneho nástroja CQP (corpus query processor) vytvoreného na univerzite v Študgarte. Tento program umožňoval plnohodnotnú prácu s korpusom výhradne prostredníctvom príkazových riadkov operačného systému UNIX. Taký prístup však vyhovuje len pomerne úzkemu okruhu používateľov. To bol dôvod prečo sa začali vyvíjať takzvané korpusové manažéry, ktoré poskytujú všetky funkcie nástroja CQP pohodlnejšou formou. Prístupnou aj pre tých, ktorí majú menej skúseností s výpočtovou technikou. Slovenský národný korpus v Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied beží na dvoch serveroch. Na vnútornom sa spracúvajú texty a na vonkajšom je prístup do korpusu. Operačný systém je samozrejme Linux. Webové rozhranie prostredníctvom prehliadača umožňuje len základné hľadanie s obmedzenými právami, keďže autorský zákon neumožňuje poskytovať texty tak, aby si ich verejnosť mohla v plnej miere stiahnuť. Preto, ak sa prihlásite na webstránku, uvidíte v okolí toho svojho hľadaného javu maximálne 100 slov. To podrobnejšie je možné pomocou špecifických programov, ktoré existujú pre viacero operačných systémov, pre Linux, pre Windows aj pre MacOs. Klient je komerčný produkt, ktorý používajú aj v Českej republike. Celosvetovo existuje viacero štandardizovaných prístupov ku korpusu. Ten náš patrí k jednému z najlepšie vyvinutých.

SkryťVypnúť reklamu

Jazyk ako zrkadlo života

Moderné jazykové korpusy sú výsledkom sústredeného a skutočne interdisciplinárneho úsilia: okrem jazykovedcov sa na ich tvorbe podieľajú aj matematici, či informatici a ďalší. Podobne interdisciplinárne je i využitie korpusu, ktoré už zďaleka neslúži len lingvistom, ale aj literárnym vedcom, sociológom, psychológom, informatikom a pod. Na základe spätnej väzby od odbornej verejnosti sa pripravujú do Slovenského národného korpusu gramatické kategórie slov. Ktoré slovo má aké číslo, aký pád a na základe tohto sa budú dať vyhľadávať také veci ako napr. ktorá predložka sa najčastejšie s akým pádom viaže, čo je teda predovšetkým zaujímavé pre odbornú verejnosť.

Stačí si pripomenúť prostý fakt, že prakticky celý náš život, a teda aj najrôznejšie obory ľudskej činnosti sa najvernejšie odzrkadľujú práve v jazyku. A najvernejším zrkadlom jazyka je pritom práve korpus, hoci aj ten má k dokonalosti stále ešte ďaleko. Spoločnosť 21. storočia sa už mnohokrát označuje ako informačná spoločnosť v súvislosti s očakávaniami rozvoja spoľahlivých, objektívnych a rýchlych informácií. Nedá sa preto pochybovať o tom, že jazykové korpusy budú v tejto informačnej spoločnosti zohrávať stále dôležitejšiu úlohu. Métou, ktorú si vytýčili v Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied je dostať sa na úroveň korpusu v Českej republike, no v čase keď sa tam dostaneme, bude už Česká republika ďalej. Ale, ak sa dnes porovnáme s okolitými štátmi, tak sa nám naozaj podarilo dosť dobre naštartovať a čoskoro bude náš korpus na úrovni slovinského, prípadne niekoľkých poľských. (rak)

SkryťVypnúť reklamu

Najčítanejšie na SME

Komerčné články

  1. Myslíte si, že plavby nie sú pre vás? Zrejme zmeníte názor
  2. Jeho technológie bežia, keď zlyhá všetko ostatné
  3. Wolt Stars 2025: Najviac cien získali prevádzky v Bratislave
  4. ČSOB Bratislava Marathon s rešpektom k nevidiacim a slabozrakým
  5. The Last of Us je späť. Oplatilo sa čakať dva roky?
  6. Inalfa otvára v Trnave 80 prestížnych pracovných miest
  7. V Rimavskej Sobote šijú interiéry áut do celého sveta
  8. Aké výsledky prinášajú investície do modernizácie laboratórií?
  1. Myslíte si, že plavby nie sú pre vás? Zrejme zmeníte názor
  2. Unikátny pôrod tenistky Jany Čepelovej v Kardiocentre AGEL
  3. V Polkanovej zasadili dobrovoľníci les budúcnosti
  4. Drevo v lese nie je dôkaz viny:Inšpekcia dala LESOM SR za pravdu
  5. Recept proti inflácii: investície do podnikových dlhopisov
  6. Skupina UCED expanduje v Česku aj v strednej Európe
  7. Do čoho sa oplatí investovať: zateplenie, čerpadlo či okná?
  8. Jeho technológie bežia, keď zlyhá všetko ostatné
  1. Jeho technológie bežia, keď zlyhá všetko ostatné 10 884
  2. Myslíte si, že plavby nie sú pre vás? Zrejme zmeníte názor 5 123
  3. Do čoho sa oplatí investovať: zateplenie, čerpadlo či okná? 5 088
  4. Unikátny pôrod tenistky Jany Čepelovej v Kardiocentre AGEL 4 508
  5. Neuveríte, že ste v Poľsku. V tomto meste viac cítiť Škandináviu 3 273
  6. The Last of Us je späť. Oplatilo sa čakať dva roky? 2 713
  7. ČSOB Bratislava Marathon s rešpektom k nevidiacim a slabozrakým 2 453
  8. Inalfa otvára v Trnave 80 prestížnych pracovných miest 2 280
SkryťVypnúť reklamu
SkryťVypnúť reklamu
SkryťZatvoriť reklamu