COVID-19 Open-Data
COVID-19 Open-Data пытается собрать крупнейшую эпидемиологическую базу данных Covid-19, а также мощный набор обширных ковариат. Она включает открытые, публично доступные, лицензированные данные, относящиеся к демографии, экономике, эпидемиологии, географии, здравоохранению, госпитализациям, мобильности, правительственным ответам, погоде и многому другому.
Подробности можно найти на GitHub здесь.
Вставить эти данные в ClickHouse легко...
Следующие команды были выполнены на Production экземпляре ClickHouse Cloud. Вы можете легко выполнить их и на локальной установке.
- Давайте посмотрим, как выглядят данные:
CSV файл имеет 10 столбцов:
- Теперь давайте посмотрим некоторые строки:
Обратите внимание, что функция url
легко считывает данные из CSV файла:
- Теперь мы создадим таблицу, зная, как выглядят данные:
- Следующая команда вставляет весь набор данных в таблицу
covid19
:
- Это происходит довольно быстро - давайте посмотрим, сколько строк было вставлено:
- Давайте посмотрим, сколько случаев Covid-19 было зарегистрировано:
- Вы заметите, что данные содержат много 0 по датам - либо выходные, либо дни, когда числа не были сообщены каждый день. Мы можем использовать оконную функцию, чтобы сгладить ежедневные средние значения новых случаев:
- Этот запрос определяет последние значения для каждого региона. Мы не можем использовать
max(date)
, потому что не все страны сообщали каждый день, поэтому мы берем последнюю строку, используяROW_NUMBER
:
- Мы можем использовать
lagInFrame
, чтобы определитьLAG
новых случаев каждый день. В этом запросе мы фильтруем по регионуUS_DC
:
Ответ выглядит следующим образом:
- Этот запрос вычисляет процент изменения новых случаев каждый день и включает простой столбец
increase
илиdecrease
в результирующий набор:
Результаты выглядят так:
Как упомянуто в репозитории GitHub, набор данных больше не обновляется с 15 сентября 2022 года.