Перейти к основному содержимому
Перейти к основному содержимому

Движок таблиц PostgreSQL

Движок PostgreSQL позволяет выполнять запросы SELECT и INSERT к данным, хранящимся на удаленном сервере PostgreSQL.

примечание

В настоящее время поддерживаются только версии PostgreSQL 12 и выше.

Репликация или миграция данных Postgres с помощью PeerDB

В дополнение к движку таблиц Postgres вы можете использовать PeerDB от ClickHouse для настройки непрерывного конвейера данных из Postgres в ClickHouse. PeerDB - это инструмент, разработанный специально для репликации данных из Postgres в ClickHouse с использованием захвата изменений данных (CDC).

Создание таблицы

Смотрите подробное описание запроса CREATE TABLE.

Структура таблицы может отличаться от оригинальной структуры таблицы PostgreSQL:

  • Имена столбцов должны совпадать с именами в оригинальной таблице PostgreSQL, но вы можете использовать только некоторые из этих столбцов и в любом порядке.
  • Типы столбцов могут отличаться от тех, что в оригинальной таблице PostgreSQL. ClickHouse пытается привести значения к типам данных ClickHouse.
  • Настройка external_table_functions_use_nulls определяет, как обрабатывать Nullable столбцы. Значение по умолчанию: 1. Если 0, табличная функция не создает Nullable столбцы и вставляет значения по умолчанию вместо null. Это также применимо для значений NULL внутри массивов.

Параметры движка

  • host:port — адрес сервера PostgreSQL.
  • database — имя удаленной базы данных.
  • table — имя удаленной таблицы.
  • user — пользователь PostgreSQL.
  • password — пароль пользователя.
  • schema — схема таблицы, отличная от по умолчанию. Необязательный параметр.
  • on_conflict — стратегия разрешения конфликтов. Например: ON CONFLICT DO NOTHING. Необязательный параметр. Обратите внимание: добавление этой опции снизит эффективность вставки.

Именованные коллекции (доступные с версии 21.11) рекомендованы для производственной среды. Вот пример:

Некоторые параметры могут быть переопределены аргументами в виде ключ-значение:

Подробности реализации

Запросы SELECT на стороне PostgreSQL выполняются как COPY (SELECT ...) TO STDOUT внутри транзакции PostgreSQL только для чтения с подтверждением после каждого запроса SELECT.

Простые условия WHERE, такие как =, !=, >, >=, <, <= и IN, выполняются на сервере PostgreSQL.

Все соединения, агрегации, сортировки, условия IN [ array ] и ограничение выборки LIMIT выполняются в ClickHouse только после завершения запроса к PostgreSQL.

Запросы INSERT на стороне PostgreSQL выполняются как COPY "table_name" (field1, field2, ... fieldN) FROM STDIN внутри транзакции PostgreSQL с автоматическим подтверждением после каждого оператора INSERT.

Типы Array в PostgreSQL преобразуются в массивы ClickHouse.

примечание

Будьте осторожны - в PostgreSQL массив данных, созданный как type_name[], может содержать многомерные массивы различных размеров в разных строках таблицы в одном и том же столбце. Но в ClickHouse допускается только использование многомерных массивов с одинаковым количеством измерений во всех строках таблицы в одном и том же столбце.

Поддерживаются несколько реплик, которые должны быть перечислены через |. Например:

Поддерживается приоритет реплик для источника словаря PostgreSQL. Чем больше число в карте, тем меньше приоритет. Высший приоритет - 0.

В приведенном ниже примере у реплики example01-1 самый высокий приоритет:

Пример использования

Таблица в PostgreSQL

Создание таблицы в ClickHouse и подключение к таблице PostgreSQL, созданной выше

Этот пример использует движок таблиц PostgreSQL для подключения таблицы ClickHouse к таблице PostgreSQL и использования как операторов SELECT, так и INSERT к базе данных PostgreSQL:

Вставка начальных данных из таблицы PostgreSQL в таблицу ClickHouse с помощью запроса SELECT

Табличная функция postgresql копирует данные из PostgreSQL в ClickHouse, что часто используется для повышения производительности запросов данных за счет выполнения запросов или аналитики в ClickHouse, а не в PostgreSQL, или также может использоваться для миграции данных из PostgreSQL в ClickHouse. Поскольку мы будем копировать данные из PostgreSQL в ClickHouse, мы будем использовать движок таблиц MergeTree в ClickHouse и назовем его postgresql_copy:

Вставка инкрементных данных из таблицы PostgreSQL в таблицу ClickHouse

Если вы хотите сохранить синхронизацию между таблицей PostgreSQL и таблицей ClickHouse после начальной вставки, вы можете использовать условие WHERE в ClickHouse, чтобы вставлять только данные, добавленные в PostgreSQL на основе временной метки или уникального последовательного ID.

Это потребует отслеживания максимального ID или временной метки, ранее добавленных, например:

Затем вставка значений из таблицы PostgreSQL больше максимального

Выбор данных из полученной таблицы ClickHouse

Использование схемы, отличной от по умолчанию

Смотрите также