Как выполнять запросы к Apache Arrow с chDB
Apache Arrow — это стандартизированный ориентированный на столбцы формат памяти, который приобрел популярность в сообществе данных. В этом руководстве мы научимся выполнять запросы к Apache Arrow с использованием табличной функции Python
.
Настройка
Сначала создадим виртуальную среду:
Теперь установим chDB. Убедитесь, что у вас версия 2.0.2 или выше:
Теперь мы установим PyArrow, pandas и ipython:
Мы будем использовать ipython
для выполнения команд в остальной части руководства, который можно запустить, выполнив:
Вы также можете использовать код в Python скрипте или в вашем любимом ноутбуке.
Создание таблицы Apache Arrow из файла
Сначала загрузим один из файлов Parquet для набора данных Ookla, используя инструмент AWS CLI:
Если вы хотите загрузить больше файлов, используйте aws s3 ls
, чтобы получить список всех файлов, а затем обновите приведённую выше команду.
Далее мы импортируем модуль Parquet из пакета pyarrow
:
Затем мы можем прочитать файл Parquet в таблицу Apache Arrow:
Схема представлена ниже:
Мы можем получить количество строк и столбцов, вызвав атрибут shape
:
Запросы к Apache Arrow
Теперь давайте запросим таблицу Arrow из chDB. Сначала импортируем chDB:
Затем мы можем описать таблицу:
Мы также можем подсчитать количество строк:
Теперь давайте сделаем что-то немного более интересное. Следующий запрос исключает столбцы quadkey
и tile.*
, а затем вычисляет средние и максимальные значения для всех оставшихся столбцов: