Перейти к основному содержимому
Перейти к основному содержимому

Как выполнять запросы к Apache Arrow с chDB

Apache Arrow — это стандартизированный ориентированный на столбцы формат памяти, который приобрел популярность в сообществе данных. В этом руководстве мы научимся выполнять запросы к Apache Arrow с использованием табличной функции Python.

Настройка

Сначала создадим виртуальную среду:

Теперь установим chDB. Убедитесь, что у вас версия 2.0.2 или выше:

Теперь мы установим PyArrow, pandas и ipython:

Мы будем использовать ipython для выполнения команд в остальной части руководства, который можно запустить, выполнив:

Вы также можете использовать код в Python скрипте или в вашем любимом ноутбуке.

Создание таблицы Apache Arrow из файла

Сначала загрузим один из файлов Parquet для набора данных Ookla, используя инструмент AWS CLI:

примечание

Если вы хотите загрузить больше файлов, используйте aws s3 ls, чтобы получить список всех файлов, а затем обновите приведённую выше команду.

Далее мы импортируем модуль Parquet из пакета pyarrow:

Затем мы можем прочитать файл Parquet в таблицу Apache Arrow:

Схема представлена ниже:

Мы можем получить количество строк и столбцов, вызвав атрибут shape:

Запросы к Apache Arrow

Теперь давайте запросим таблицу Arrow из chDB. Сначала импортируем chDB:

Затем мы можем описать таблицу:

Мы также можем подсчитать количество строк:

Теперь давайте сделаем что-то немного более интересное. Следующий запрос исключает столбцы quadkey и tile.*, а затем вычисляет средние и максимальные значения для всех оставшихся столбцов: