Korpus Online analyzuje jazyk na českém internetu

pátek, 13. listopadu 2020, 07:30 Internet & Mobil, Výzkum MediaGuru

Ústav Českého národního korpusu Filozofické fakulty UK zprovoznil monitorovací korpus Online, který se snaží mapovat dynamický obsah českého internetu.

Zdroj: MediaGuru.cz

Ústav Českého národního korpusu Filozofické fakulty UK zprovoznil monitorovací korpus Online, který se snaží mapovat dynamický obsah českého internetu, tj. internetovou žurnalistiku. Zachycuje obsah na internetových serverech, v internetových diskusích, na sociálních sítích, a to od roku 2017 do současnosti. Data poskytuje společnost Dataweps.

Korpus Online (velké písmeno ve slově online vyjadřuje název korpusu a jeho zaměření, i ostatní korpusy ČNK jsou dostupné online) přináší uživatelům možnost jazykové analýzy českých online médií. Korpus Online je pravidelně aktualizován a jeho obsah se neustále mění. Aktualizace probíhá každý den cca v 9:00, aktualizace archivu probíhá vždy první den v měsíci.

Korpus je přístupný přes webové rozhraní, vyhledávat je v něm možné zdarma. Je možné zjistit, jak často se konkrétní výrazy v online médiích objevují, v jakých souvislostech (kolokvia) či jaká jsou podobná slova, která se k danému výrazu vztahují.

V grafu níže je např. zachycena preference formulace „zemřít na covid/koronavirus“ vs. „zemřít s covidem/koronavirem“ v bulvárních (horní část grafu) a mainstreamových (dolní část grafu) online médiích. První vyjadřuje explicitně kauzalitu, zatímco druhá formulace spíš koincidenci. Graf naznačuje, že bulvár přešel na variantu „s“ později, zato se ho drží teď důsledněji.

Podíl variant: umírat na koronavirus vs. s koronavirem v bulvárních a v mainstremových online médiích, zdroj: Ústav Českého národního korpusu FF UK

V současnosti (s platností k 11.11. 2020) má Online 6,6 mld. slov, každý den se ale jeho objem zvyšuje o cca 4,5 mil. slov. Korpus monitoruje zhruba 250 různých portálů denně (od hlavního proudu zpravodajských webů přes názorové, analytické weby nebo antisystémové stránky), celkově asi 6000 různých webů denně. Počet různých slov (lemmat) je v denní dávce zhruba 140–150 tisíc.

Bližší informace o korpusu Online poskytl Václav Cvrček, zástupce ředitele Ústavu Českého národního korpusu. Poprvé projekt představil na letošní konferenci New Media Inspiration, která se uskutečnila v březnu.

Václav Cvrček na konferenci New Media Inspiration 2020, zdroj: Internet Info

Otázky pro Václava Cvrčka

Co lze z korpusu Online zjistit a k čemu slouží?
Především je to odraz české internetové žurnalistiky a aktuální celospolečenské agendy. Sekundárně je to nástroj pro studium jazykového vývoje „v přímém přenosu“. Potenciál těchto dat teprve odhalujeme – kromě toho, že můžeme zjistit, o čem se kde psalo (či naopak nepsalo), lze pozorovat, jakým způsobem média o událostech referovala (do jakého rámce události zasazovala) a jaké byly navazovány asociační vztahy mezi tématy. To vše je klíčové pro pochopení probíhajících společenských procesů nebo „celospolečenské diskuse“.

V zásadě si analytik vystačí pouze se zjišťováním frekvencí (četností) slov a jevů a z toho lze vše podstatné odvodit. Na to je třeba ale nejprve taková data mít, a pokud je máte navíc každodenně aktualizovaná, je to výzkumníkův sen.

Co konkrétně vyjadřují k vyhledávaným slovům kolokace a slova podobná?
Musíme začít tím, že slova nemají význam sama o sobě, ale získávají ho až v kontextu. To, že slovem „pes“ rozumíme čtyřnohé chlupaté zvíře, které štěká, je dáno tím, že se vyskytuje mj. v okolí slov „chlupatý“, „štěkat“ apod. Nejinak tomu je i s ostatními jednotkami jazyka, včetně vlastních jmen. To, jak je vnímán Miloš Zeman nebo Andrej Babiš, je přirozeně dáno tím, do jakých kontextů se jejich jména dostávají nebo též, s jakými tématy jsou spojováni. Tenhle fenomén podchycují právě kolokace (dříve ustálená spojení), které vyjadřují tendenci k ustálenému souvýskytu. Takovou silnou kolokací může být třeba cestovní ruch, hlavní nádraží, ale také třeba sarajevský atentát, pražská kavárna nebo tradiční politici. Tyto kolokace do značné míry předurčují způsoby vnímání určitých pojmů, a kdo je umí do debaty prosadit, do značené míry ji ovládá ve svůj prospěch.

Kontextové zapojení slova využívají i techniky identifikace podobných slov, protože pokud je význam určován tím, s čím se slovo spojuje, je jasné, že slova vstupující do podobných kontextů mají i podobný význam.

Lze na základě vyhledávaných slov v korpusu zpracovat jazykovou analýzu online médií, nebo je pro takový účel potřeba ještě dalších nástrojů?
Záleží na tom, co vás zajímá. V zásadě je v korpusu vše, co k tomu potřebujete – obsah, metadata (datum, zdroj, autor apod.). Navíc korpus (tj. data) je přístupný na portále www.korpus.cz přes rozhraní, které je vytvářeno s cílem umožnit analýzu rozsáhlého textového materiálu, tj. třídit, zjišťovat frekvence, filtrovat apod. Problém je spíš v tom, že dat je tolik (každý den přibývá zhruba 4,5 mil. slov), že je třeba umět se v tom zorientovat, aby se člověk v té záplavě neutopil.

Vedle toho existují metody, které umožňují identifikovat prominentní jednotky v textech a nacházet vztahy mezi nimi. Na jejich zpřístupnění pro uživatele bez potřebného programátorského zázemí ale ještě pracujeme.

Kdo může online korpus využívat?
Naše korpusy jsou zdarma přístupné všem uživatelům, kteří se zaregistrují. Jako výzkumná infrastruktura jsme placeni státem za poskytování této služby. Vedle toho jsme schopni realizovat zakázkový výzkum na zpracování určitého tématu nebo dat.

Jaké zdroje jsou pro účely korpusu monitorovány a na jakém základě monitoring pracuje?
Získáváme data od společnosti Dataweps, která dělá svůj monitoring internetu a data nám zdarma poskytuje. Výběr webů je tedy principiálně na nich a my do toho nemůžeme zasahovat. U nás se data jednak čistí a jednak zpracovávají – je jim přidávána anotace (zejm. typ zdroje podle klasifikace našeho fakultního kolegy J. Šlerky publikované na http://www.mapamedii.cz) a dále pak jsou opatřena lingvistickou analýzou, které říkáme lemmatizace a morfologické tagování, aby v korpusu bylo možné hledat slova ve všech tvarech a podle gramatických kategorií. To vše je hotové v průběhu noci a rána tak, aby nový korpus byl k dispozici v 9.00 s daty referujícími o včerejší mediální realitě.

Pokud jde o rozsah zdrojů, korpus obsahuje všechny velké a doménově nespecifické mediální zdroje od mainstreamu (jako jsou novinky.cz, idnes.cz, aktualne.cz), přes analyticko-investigativní a názorové weby (např. hlidacipes.cz, neovlivni.cz, echo24.cz, blisty.cz, vasevec.cz) až po bulvár (blesk.cz, expres.cz apod.) a anti-systémové weby a segment, kterému říkáme politický bulvár (parlamentnilisty.cz, sputniknews.cz, nwoo.org, eportal.cz apod.). Právě ten poslední segment je pro nás výzkumně extrémně zajímavý, protože umožňuje poprvé empirický výzkum současných dezinformačních kampaní a různých mediálních manipulací.

Lze ve vyhledávání nastavovat konkrétní zdroje, nebo výsledky se vždy vztahují k online médiím jako celku?
Metadata umožňují filtrování dat na různých úrovních, takže lze hledat pouze v mainstreamových médiích, nebo jenom v rámci jednoho portálu a v některých případech máme informace i o tom, z jaké tematické části portálu článek pochází (sport, kultura, domácí). Záleží ale hodně na vnitřní struktuře webu.

-mav-

Tagy

Internet & Mobil

Aktuality
TV

ČT natáčí Hřebejkův seriál Na tělo, uvede ho příští rok

Aktuality
TV

Nový seriál Na tělo v režii Jana Hřebejka řeší vztahy podle scénáře Martiny Formanové.

Aktuality

pátek 18. dubna 2025

Zisk Netflixu v prvním čtvrtletí překonal očekávání

Americkému provozovateli placené streamovací platformy Netflix vzrostl v prvním čtvrtletí zisk o 24 procent na 2,89 miliardy USD.

Aktuality

pátek 18. dubna 2025

Aktuality
TV

Na čele čtvrtečního večera zůstává seriál Kamarádi

Aktuality
TV

Nejsledovanějším pořadem čtvrtečního večera po 20:00 zůstává v divácké skupině starší 15 let seriál Kamarádi. Dvojkou se tentokrát stal pořad Inkognito.

Aktuality

pátek 18. dubna 2025

Marketing

Velké chyby malých značek: Nejčastější přešlapy z praxe

Marketing

Jakých nejčastějších chyb se dopouštějí malé značky, když chtějí prorazit? Na setkání Kafe a marketing o nich mluvil Vojtěch Prokeš z Behavia.

Marketing

pátek 18. dubna 2025

Vodafone v kampani rozdává slevy za nefunkční telefony

V rámci své nové kampaně Vodafone vybízí veřejnost k recyklaci nefunkčních telefonů.

Aktuality

pátek 18. dubna 2025

Super zoo si připomíná 20 let kampaní se stíracími losy

Řetězec chovatelských potřeb startuje spotřebitelskou kampaň na oslavu svého 20. výročí na trhu.

Aktuality

pátek 18. dubna 2025

Aktuality
TV
Aktualizováno

OK TV obnovila vysílání ve čtvrtek odpoledne

Aktuality
TV
Aktualizováno

Vysílání lifestylové a hudební televize OK TV bylo obnoveno ve čtvrtek odpoledne.

Aktuality

čtvrtek 17. dubna 2025

KitKat kampaní s lidmi přilepenými na mobilu podporuje novinku

Novinky v podobě KitKat tabulky komunikuje kampaň s Jaromírem Jágrem nebo Kovym.

Aktuality

čtvrtek 17. dubna 2025

Média: Návrh poslance Vondráčka ohrožuje svobodu tisku

Česká unie vydavatelů, SPIR, AOV, CZ IPI a Syndikát novinářů považují návrh úprav zákona, který zavádí tresty za zveřejňování informací z přípravného trestního řízení i tehdy, když je jejich zveřejnění ve veřejném zájmu, za potenciální ohrožení svobody tisku.

Aktuality

čtvrtek 17. dubna 2025

Aktuality
TV

Sweet.tv rozšířila nabídku bezplatného sportu

Aktuality
TV

Čtyřem desítkám se přiblížila nabídka počtu programů v bezplatné sekci služby Sweet.tv. Nejnovější aktivitou firmy je sportovní stanice Unbeaten Channel.

Aktuality

čtvrtek 17. dubna 2025

Kolář v představenstvu Seznam.cz nahrazuje Kapalína

Pavel Kolář nahrazuje v představenstvu společnosti Seznam.cz Tomáše Kapalína, který ze Seznamu odchází.

Aktuality

čtvrtek 17. dubna 2025

PR
Reklama

APRA chce slušnou předvolební kampaň, předkládá Kodex

PR
Reklama

Profesní asociace APRA představila pravidla pro férovou politickou komunikaci s ambicí změnit stávající situaci.

čtvrtek 17. dubna 2025

TikTok Shop vstupuje na nové evropské trhy

TikTok rozšiřuje své možnosti social commerce na dalších trzích. V následujících měsících se rozšíří do Itálie, Německa a Francie.

sobota 22. února 2025

Voyo a O2 TV se sloučí. Místo nich přijde Oneplay

O2 TV a Voyo, obě ze skupiny PPF, spojují své služby do jedné s názvem Oneplay.

úterý 25. února 2025

Nejvíce sledujících na Facebooku má Těhotnej kuchař

S 904 tisíci sledujícími vystřídal influencer Těhotnej kuchař v čele žebříčku českého Facebooku firemní profil Lidl.

pondělí 14. dubna 2025

Zpravodajství na sociálních sítích sleduje polovina jejich uživatelů

Sociální sítě jsou důležitým zdrojem zpravodajství, míní podle výzkumu ResSolution Group a Nielsen každý druhý jejich uživatel.

pátek 21. února 2025

Jednorožců tu může být spousta, jen se vybičovat, říká Jan Řežáb

Jméno Jana Řežába se dnes objevuje ve spojitosti s projektem Ravineo, dlouho utajovaným startupem, který vyrazil z nuly k milionu eur tržeb.

středa 16. dubna 2025

Google díky AI zablokoval přes pět miliard závadných reklam

Zvyšuje se počet závadných reklam, které se díky zapojování AI nemají v reklamním systému Googlu ani objevit. Firma to uvedla v souvislosti se svou výroční zprávou o bezpečnosti.

středa 16. dubna 2025

Česká televize přidala do aplikace iVysílání sekci Živě

Česká televize rozšířila aplikaci iVysílání o novou sekci Živě, která nabízí přímý přístup k živému vysílání všech kanálů ČT. Tato aktualizace přináší snadnější způsob sledování pořadů v reálném čase.

úterý 18. března 2025

Použití svých fotek ČTK hlídá, má z toho i finanční příjem

Česká tisková kancelář navázala loni na podzim spolupráci s advokátní kanceláří PRK Partners, která jí pomáhá s vymáháním peněz za neoprávněné užití fotografií ČTK. Monitoring zachytí až stovky takových případů.

pondělí 10. března 2025

Fridrichová spustila na internetu nový videopořad Nora

Její nový publicistický týdeník je umístěný na platformě Herohero a na YouTube.

pondělí 10. března 2025

Kolář v představenstvu Seznam.cz nahrazuje Kapalína

Pavel Kolář nahrazuje v představenstvu společnosti Seznam.cz Tomáše Kapalína, který ze Seznamu odchází.

čtvrtek 17. dubna 2025

Reklamně-technologická firma Eskimi vstoupila na český trh

AdTech společnost Eskimi vstupuje na český trh, zaměřuje se na programatickou reklamu a kreativy podložené daty.

pátek 11. dubna 2025

Robert Čásenský: Seznam Zprávy mám vést tak, jak nejlépe dovedu

Nový rok začal významnou změnou v řízení redakce jednoho z největších tuzemských zpravodajských serverů. Po vypjatém roce, který Seznam Zprávy loni prožily, přišel do vedení zkušený novinář Robert Čásenský.

úterý 1. dubna 2025

Sociální sítě Primy zvýšily dosah, na Prima+ vyjela StarHouse

Napříč sociálními sítěmi dosáhla skupina Prima v letošním prvním čtvrtletí 800 milionů impresí.

pondělí 7. dubna 2025

Google v Evropě nasadil do vyhledávání odpovědi od AI

Google v tomto týdnu zapojil do klasického internetového vyhledávání v několika evropských zemích souhrny vytvářené pomocí umělé inteligence - AI Overviews.

neděle 30. března 2025

Netmonitor nově ukazuje data i za Google, Metu nebo Wikipedii

Výzkum návštěvnosti českého internetu Netmonitor se rozšiřuje o data za nadnárodní platformy. Meta a Google předbíhají na českém trhu Seznam.

čtvrtek 6. března 2025

Korpus Online analyzuje jazyk na českém internetu

Otázky pro Václava Cvrčka

Tagy

Internet & Mobil

Novější články

ČT natáčí Hřebejkův seriál Na tělo, uvede ho příští rok

Zisk Netflixu v prvním čtvrtletí překonal očekávání

Na čele čtvrtečního večera zůstává seriál Kamarádi

Velké chyby malých značek: Nejčastější přešlapy z praxe

Vodafone v kampani rozdává slevy za nefunkční telefony

Super zoo si připomíná 20 let kampaní se stíracími losy

Starší články

OK TV obnovila vysílání ve čtvrtek odpoledne

KitKat kampaní s lidmi přilepenými na mobilu podporuje novinku

Média: Návrh poslance Vondráčka ohrožuje svobodu tisku

Sweet.tv rozšířila nabídku bezplatného sportu

Kolář v představenstvu Seznam.cz nahrazuje Kapalína

APRA chce slušnou předvolební kampaň, předkládá Kodex

Doporučované

TikTok Shop vstupuje na nové evropské trhy

Voyo a O2 TV se sloučí. Místo nich přijde Oneplay

Nejvíce sledujících na Facebooku má Těhotnej kuchař

Zpravodajství na sociálních sítích sleduje polovina jejich uživatelů

Jednorožců tu může být spousta, jen se vybičovat, říká Jan Řežáb

Google díky AI zablokoval přes pět miliard závadných reklam

Česká televize přidala do aplikace iVysílání sekci Živě

Použití svých fotek ČTK hlídá, má z toho i finanční příjem

Fridrichová spustila na internetu nový videopořad Nora

Kolář v představenstvu Seznam.cz nahrazuje Kapalína

Reklamně-technologická firma Eskimi vstoupila na český trh

Robert Čásenský: Seznam Zprávy mám vést tak, jak nejlépe dovedu

Sociální sítě Primy zvýšily dosah, na Prima+ vyjela StarHouse

Google v Evropě nasadil do vyhledávání odpovědi od AI

Netmonitor nově ukazuje data i za Google, Metu nebo Wikipedii