Český národní korpus slaví 30. výročí svého založení

Zveřejněno 9. 9. 2024

Cílem Českého národního korpusu je systematicky mapovat češtinu a další jazyky ve srovnání s ní. Korpus byl založen 9. září 1994 a v současné době zajišťuje přístup k více než šestnácti miliardám slov uspořádaných v korpusech synchronních i diachronních, mluvených i psaných, paralelních i jednojazyčných.

Český národní korpus je akademický projekt založený v roce 1994 při FF UK a spravovaný Ústavem Českého národního korpusu. Patří mezi největší jazykové korpusy na světě, celkový objem dat zveřejňovaných ÚČNK přesahuje 500 milionů tokenů ročně a stále roste. Na sběru materiálů a koordinaci dílčích činností se ovšem kromě toho podílejí i více než dvě stovky externistů z celé ČR.

Během třiceti let existence korpusu došlo k obrovskému technologickému posunu, jenž se v jazykovědě projevil empirickým obratem a způsobil, že se jazykové korpusy staly nezbytným výzkumným nástrojem. V 90. letech směřovali lingvisté z ÚČNK řadu let k vytvoření jednoho velkého korpusu současného psaného jazyka. Nyní takový korpus zveřejňují každých pět let a vedle něho také celou řadu korpusů dílčích (korpusy mluvené češtiny, korpusy internetové češtiny, mnohojazyčný paralelní korpus apod.). Díky financování z MŠMT a programu na podporu Velkých infrastruktur postupně docházelo k celkové profesionalizaci korpusu, zaměření na datové mapování češtiny a vývoji řady specializovaných aplikací pro práci s korpusy.

Český národní korpus v datech

založení Ústavu českého národního korpusu 9. září 1994
2000: slavnostní představení prvního korpusu SYN2000
2006: první mluvený korpus ČNK ORAL2006
2008: první paralelní korpus InterCorp
2012: ČNK získává financování v rámci programu Velkých infrastruktur MŠMT, což se projevuje důrazem na datové mapování češtiny, vývojem vlastních uživatelských aplikací a servisním charakter pracoviště
2014: spuštění uživatelského portálu na adrese www.korpus.cz
2018: rozvoj spolupráce s evropskou infrastrukturou CLARIN, ÚČNK získává statut K-centra
9. září 2019: spuštění aplikace Slovo v kostce ke 25. výročí založení
2020: vznik korpusu ONLINE mapujícího český web

Nástroje, které ÚČNK nabízí laické veřejnosti

Korpusy ČNK jsou po bezplatné registraci otevřeny všem zájemcům o jazyk, kteří chtějí vědět, jak se čeština používá. Uživatelům je k dispozici řada nástrojů jako například:

Slovo v kostce: slovní profil zadaného slova na základě korpusových dat: jeho typické tvary, rozložení v různých typech textu, regionální rozrůzněnost; srovnání slovních profilů dvou synonym
Mapka: mapová aplikace pro výzkum mluvené češtiny, hlavně nářečí; hranice nářečních oblastí, popisy nářečních rysů, ukázky z mluvených a nářečních korpusů

Díky těmto nástrojům vznikly slovníky (výkladové vč. Akademického slovníku současné češtiny, překladové, autorské – Hrabal, Čapek, specializované – Slovník komunistické totality, rýmovník), gramatiky (Štícha et al., Cvrček et al.), učebnice a cvičebnice (vč. češtiny pro cizince) a didaktické materiály. Na základě korpusových dat bylo také napsáno přes 1 500 odborných článků a 2 000 závěrečných prací na bakalářské, magisterské a doktorské úrovni.

Mediální výstupy