Перейти к основному содержимому
Перейти к основному содержимому

Данные о воздушном трафике с открытых источников от The OpenSky Network 2020

Данные в этом наборе данных получены и очищены из полного набора данных OpenSky, чтобы проиллюстрировать развитие воздушного трафика во время пандемии COVID-19. Он охватывает все рейсы, наблюдаемые более чем 2500 участниками сети с 1 января 2019 года. Дополнительные данные будут периодически добавляться в набор до конца пандемии COVID-19.

Источник: https://zenodo.org/records/5092942

Martin Strohmeier, Xavier Olive, Jannis Luebbe, Matthias Schaefer и Vincent Lenders "Данные о воздушном трафике с открытых источников от OpenSky Network 2019–2020" Earth System Science Data 13(2), 2021 https://doi.org/10.5194/essd-13-357-2021

Скачать набор данных

Запустите следующую команду:

Скачивание займет около 2 минут при хорошем интернет-соединении. Всего 30 файлов размером 4,3 ГБ.

Создать таблицу

Импорт данных

Загрузите данные в ClickHouse параллельно:

  • Здесь мы передаем список файлов (ls -1 flightlist_*.csv.gz) в xargs для параллельной обработки. xargs -P100 указывает использовать до 100 параллельных потоков, но так как у нас всего 30 файлов, количество потоков будет только 30.
  • Для каждого файла xargs запустит скрипт с помощью bash -c. В скрипте есть подстановка в виде {}, и команда xargs подставит имя файла в это место (мы попросили xargs использовать -I{}).
  • Скрипт разожмет файл (gzip -c -d "{}") в стандартный вывод (-c параметр), и вывод будет перенаправлен в clickhouse-client.
  • Мы также попросили разобрать поля DateTime с расширенным разбором (--date_time_input_format best_effort), чтобы распознать формат ISO-8601 с указанными часовыми смещениями.

Наконец, clickhouse-client выполнит вставку. Он будет читать входные данные в формате CSVWithNames.

Параллельная загрузка занимает 24 секунды.

Если вам не нравится параллельная загрузка, вот последовательный вариант:

Проверить данные

Запрос:

Результат:

Размер набора данных в ClickHouse составляет всего 2.66 GiB, проверьте это.

Запрос:

Результат:

Выполнить некоторые запросы

Общая пройденная дистанция составляет 68 миллиардов километров.

Запрос:

Результат:

Средняя дистанция полета составляет около 1000 км.

Запрос:

Результат:

Самые загруженные аэропорты отправления и среднее расстояние

Запрос:

Результат:

Количество рейсов из трех основных московских аэропортов, еженедельно

Запрос:

Результат:

Онлайн-площадка

Вы можете протестировать другие запросы к этому набору данных, используя интерактивный ресурс Онлайн-площадка. Например, вот так. Однако обратите внимание, что вы не можете создавать временные таблицы здесь.