ДНО.РУ
Ландшафт русских
интернет-изданий
Чем они различаются на самом деле?
Оставаться нейтральными для СМИ всё сложнее. Хотя, по правде говоря, они и не стремятся. У каждого издания своя редакционная политика, свои источники, свой подход к обработке материала — это факт, поэтому одни и те же события в разных медиа могут быть представлены с противоположной модальностью:
В таком разнообразии легко запутаться. Мы решили составить карту самых охватных российских интернет-изданий. Для этого мы изучили темы, к которым они обращаются, и посмотрели, в каком контексте (позитивном или негативном) СМИ о них пишут.

Мы выбирали текстовые интернет СМИ. Не учитывали информационные агентства — они производят несоразмерно больше текстов по сравнению с другими, а сами тексты наиболее нейтральны (это же просто факты).

Медиа отбирали по рейтингу «Медиалогии» за апрель 2017 года: газеты и журналы с ИЦ>250 и цитируемостью в соцсетях >100k, а интернет-сайты с ИЦ>350 и цитируемостью в соцсетях >280k. Получился такой список:

«Российская газета»
«Коммерсантъ»
РБК
«Известия»
kp.ru
«Московский комсомолец»
Gazeta.ru
Lenta.ru
Life
Meduza
Forbes Russia
«Фонтанка»
«Сноб»


Мы выгрузили все тексты этих изданий с 1 по 23 июня, ссылки на которые издания публиковали на официальных страницах в Twitter. После этого к каждому тексту применили компьютерный лингвистический анализ (даже несколько). Каждый текст был токенизирован, лемматизирован, а для оценки тональность мы обучили классификатор на открытых данных. Подробнее спросите у наших программистов.

С помощью полученных данных посмотрели, как разные СМИ оценили популярные темы июня 2017 года. На графике это выглядит так:
Окрас популярных тем июня 2017 в российских интернет-изданиях.

Зелёный — позитив.

Красный — негатив.
Издания отличаются не только тем, как они характеризуют события, но и тем, каким языком они их описывают. Мы посмотрели, насколько похож язык выбранных медиа. Для этого мы соединили все выгруженные тексты одного издания в один («супертекст») и представили, что это вектор. Так мы сделали со всеми 13 источниками. Математически посчитали расстояние между ними.
«Расстояние» между СМИ
Расчеты на основе лексической удаленности изданий
Видно, что есть издания, которые стоят вне общего лексического тренда. Это «Фонтанка» и Life. Примечательно, что кластеризовались деловые издания: «Коммерсантъ», РБК, «Известия» и «Сноб». Лексика «Московского комсомольца» — нечто среднее по больнице.

Расстояние посчитали, но пока непонятно, за счёт чего оно достигается. Поэтому мы посмотрели лексическое разнообразие каждого издания. Это такой индекс, который показывает богатство словарного запаса издания и его уникальность. Также мы попытались оценить оппозиционность выбранных СМИ. Это помогает увидеть, есть ли у либералов издания, которые описывают жизнь простым языком.

«Оппозиционность» оценивали по количеству упоминаний Навального в статьях. Это субъективный критерий, который точным и однозначным показателем назвать нельзя. Тем не менее, нейтральные издания и СМИ, дружественные Правительству, избегают называть Навального прямо. Иногда прибегают к эвфемизмам вроде «главного баламута». Поэтому чем более оппозиционное издание, тем чаще там будет встречаться фамилия — как в позитивном, так и в негативном контексте.

Итого
Расчеты на основе лексической удаленности изданий
Как мы видим, самыми оппозиционными (ожидаемо) оказались «Фонтанка» и Meduza. Разнообразными выглядят статьи делового журнала Forbes и издание с большим количеством колонок (мнений) «Сноб», интернет-издания общей тематики («Российская газета» и Lenta.ru). Остальные медиа пишут примерно в одном стиле, выбирая более ограниченный набор слов.
Made on
Tilda