ЦЕНА НЕДОСТОЙНОГО ПРАВЛЕНИЯ?BAD GOVERNANCE'S DEATH TOLLВчера возникла дискуссия, в которой, среди прочего, обсуждался вопрос о связи плотности населения с количеством умерших от COVID-19 на душу населения. Собственно, аргумент состоял в том, что Петербург не стоит сравнивать с Финляндией (разница в потерях от COVID в 20 [двадцать] раз), потому что [UPD при примерно равной численности населения] плотность населения в Финляндии значительно ниже. Сперва я просто хотел взять Карелию и Посковскую область (этого, в принципе, было бы вполне достаточно, чтобы показать, что дело не в одной лишь плотности населения), но потом пдумал, что при минимальном усилии я могу взять все регионы России и все страны Евроопы, по которым будет легко найти данные, и построить модель связей между смертностью от COVID и плотностью населения.Первый же взгляд на диаграмму рассеяния в осях "десятичный логарифм плотности населения" x "количество умерших в пересчете на 100 тыс. населения" подсказал, что дело, возможно, и впрямь не только в плотности (log10 взят из-за сильной скошенности распределения плотностей населения). Модель, в которой смертность зависит только от плотности населения, показала, что зависимость, если и есть, неотличима от отсутствующей. Добавление переменной ISRUSSIA со значениями TRUE/FALSE значительно улучшило модель, подняв R^2 с околонулевых значений до .58 -- .63 (с и без субъектов с аномально высокой средней плотностью > 500 чел. на км^2) и даже придав значимость тангенсу угла наклона. Грубо говоря, она показала, что при равной плотности населения регионы России теряют на 150-200 человек на 100 тыс. населения больше, чем близкие к ним по средней плотности населения европейские страны [UPD: хотя положительная связь между плотностью населения и смертностью, бесспорно, есть].Модель, конечно, сделана на коленке, но все можно переделать при наличии лучших и более детальных данных. Какие данные брал я? Для России -- избыточная смертность за 2020 г. + январь -- февраль 2021 (по данным Росстата), площади и население регионов по Википедии (в конечном итоге, упирающейся в тот же Росстат). По другим странам Европы -- смертность от коронавируса из датасета JHU на 28 февраля, площади и население -- по Википедии (актуальность данных по населению ~ 2017-2019 гг. Наиболее уязвимые для критики пункты -- (1) то, что для России была взята (и довольно грубо) -- общая избыточная смертность, а для стран Европы -- только сообщенная смертность от коронавирусной инфекции; (2) крупные страны Европы не разбиты по регионам; (3) зависимость смертности от логарифма плотности, возможно, носит нелинейный характер.The data однако are just as good as they are. Feci quod potui faciant meliora potentes. Galina Selivanova, Alexey Raksha -- как думаете, есть ли способ сделать все это не на коленке и опубликовать?Обозначения на графике: красное -- регионы России, синее -- страны Европы. Вертикальная черная прерывистая линия -- рубеж плотности населения 500 чел./км^2. Пунктирные наклонные линии -- регрессия по всему датасету, прерывистые наклонные линии -- регрессия по датасету без регионов с плотностью населения менее 500 чел./км^2.Заголовок -- tribute to Vladimir Gel'man.