Český národní korpus slaví 30. výročí svého založení

Český národní korpus je akademický projekt založený v roce 1994 při FF UK a spravovaný Ústavem Českého národního korpusu. Patří mezi největší jazykové korpusy na světě, celkový objem dat zveřejňovaných ÚČNK přesahuje 500 milionů tokenů ročně a stále roste. Na sběru materiálů a koordinaci dílčích činností se ovšem kromě toho podílejí i více než dvě stovky externistů z celé ČR.

Během třiceti let existence korpusu došlo k obrovskému technologickému posunu, jenž se v jazykovědě projevil empirickým obratem a způsobil, že se jazykové korpusy staly nezbytným výzkumným nástrojem. V 90. letech směřovali lingvisté z ÚČNK řadu let k vytvoření jednoho velkého korpusu současného psaného jazyka. Nyní takový korpus zveřejňují každých pět let a vedle něho také celou řadu korpusů dílčích (korpusy mluvené češtiny, korpusy internetové češtiny, mnohojazyčný paralelní korpus apod.). Díky financování z MŠMT a programu na podporu Velkých infrastruktur postupně docházelo k celkové profesionalizaci korpusu, zaměření na datové mapování češtiny a vývoji řady specializovaných aplikací pro práci s korpusy.

Český národní korpus v datech

  • založení Ústavu českého národního korpusu 9. září 1994
  • 2000: slavnostní představení prvního korpusu SYN2000
  • 2006: první mluvený korpus ČNK ORAL2006
  • 2008: první paralelní korpus InterCorp
  • 2012: ČNK získává financování v rámci programu Velkých infrastruktur MŠMT, což se projevuje důrazem na datové mapování češtiny, vývojem vlastních uživatelských aplikací a servisním charakter pracoviště
  • 2014: spuštění uživatelského portálu na adrese www.korpus.cz
  • 2018: rozvoj spolupráce s evropskou infrastrukturou CLARIN, ÚČNK získává statut K-centra
  • 9. září 2019: spuštění aplikace Slovo v kostce ke 25. výročí založení
  • 2020: vznik korpusu ONLINE mapujícího český web

Nástroje, které ÚČNK nabízí laické veřejnosti

Korpusy ČNK jsou po bezplatné registraci otevřeny všem zájemcům o jazyk, kteří chtějí vědět, jak se čeština používá. Uživatelům je k dispozici řada nástrojů jako například:

  • Slovo v kostce: slovní profil zadaného slova na základě korpusových dat: jeho typické tvary, rozložení v různých typech textu, regionální rozrůzněnost; srovnání slovních profilů dvou synonym
  • Mapka: mapová aplikace pro výzkum mluvené češtiny, hlavně nářečí; hranice nářečních oblastí, popisy nářečních rysů, ukázky z mluvených a nářečních korpusů

Díky těmto nástrojům vznikly slovníky (výkladové vč. Akademického slovníku současné češtiny, překladové, autorské – Hrabal, Čapek, specializované – Slovník komunistické totality, rýmovník), gramatiky (Štícha et al., Cvrček et al.), učebnice a cvičebnice (vč. češtiny pro cizince) a didaktické materiály. Na základě korpusových dat bylo také napsáno přes 1 500 odborných článků a 2 000 závěrečných prací na bakalářské, magisterské a doktorské úrovni.

Mediální výstupy

Rozhovor s Jiřím Miličkou v České televizi, 23. 4. 2024: AI se umí přizpůsobit roli, kterou hraje
Seriál Michala Škrabala pro Deník N, 5. 1. 2023: Česko-slovenské slovo týdne
Rozhovor s Václavem Cvrčkem v týdeníku Respekt, 27. 3. 2019: Eurohujera známe od roku 2004
Rozhovor s Michalem Škrabalem v časopise Téma, 15. 3. 2019: Čeština není posvátná kráva!

Související články