ТЕКСТ МАРИИ РУСАНОВОЙ
Что такое корпуса и зачем они нужны?
Спойлер: не те корпуса, что есть у домов и у Вышки

Корпус языка, корпус детской литературы, русский учебный корпус, корпус русских учёных (академических) текстов: что это такое? Рассказываем на примере самого крупного корпуса в России — Национального корпуса русского языка (НКРЯ).
Что это такое?
Что это такое?
НКРЯ появился 29 апреля 2004 года. Тогда, как и сейчас, он представлял и представляет из себя огромный онлайн-ресурс с письменными и устными текстами самых разных жанров: художественными, публицистическими, учебными, научными, деловыми, разговорными, диалектными и многих других.
Кому нужно такое огромное хранилище текстов?
Кому нужно такое огромное хранилище текстов?
Прежде всего лингвистам и филологам или просто исследователям, которым необходимо работать с большим количеством текстов. Раньше им приходилось самостоятельно выписывать ключевые слова и примеры, составлять графики и таблицы. Сегодня компьютерные технологии могут сделать внушительную часть работы за исследователя, сэкономив тем самым его силы и время.
Что может делать НКРЯ?
Что может делать НКРЯ?
Рассмотрим на конкретном примере. Вбиваем в корпусе словосочетание «живой журнал». Мы знаем, что «Живой журнал» — это платформа для блогов, которая появилась в 1999 году. Но нам интересно посмотреть, употребляли ли это словосочетание до этого и в каком контексте.

Вбиваем в поиске:
На сегодня в НКРЯ 124 565 документов и 321 712 061 слово. Среди этого объема словосочетание «живой журнал» встречается в 20 источниках 22 раза. Проглядев по диагонали, мы можем увидеть, что словосочетание употребляется прежде всего как название социальной сети.

Если нам хочется посмотреть на словосочетание под определенным ракурсом или в определенном виде источников, НКРЯ предлагает нам поискать в других корпусах: акцентологическом, газетном, диалектном, мультимедийном, обучающем, параллельном, поэтическом и устном.
На сегодня в НКРЯ 124 565 документов и 321 712 061 слово. Среди этого объема словосочетание «живой журнал» встречается в 20 источниках 22 раза. Проглядев по диагонали, мы можем увидеть, что словосочетание употребляется прежде всего как название социальной сети.

Если нам хочется посмотреть на словосочетание под определенным ракурсом или в определенном виде источников, НКРЯ предлагает нам поискать в других корпусах: акцентологическом, газетном, диалектном, мультимедийном, обучающем, параллельном, поэтическом и устном.
А теперь мы посмотрим, сколько и в каких годах употреблялось словосочетание «Живой журнал». Выбираем период с начала 19 века по 2019 год.
График подсказывает нам, что словосочетание немного употреблялось в первой половине 19 и 20 веков, а затем частота употребления постепенно увеличивалась с 1999 года (с даты основания ЖЖ), пока не достигла своего пика к 2013 году, после чего пошла на спад. Если мы открываем подробные таблицы, то видим, сколько раз в какой год словосочетание встречалось нам с 1800 по 2019 год. Рядом высветится список источников, в которых употреблялось интересное нам словосочетание в каждом календарном году.