Перейти к основному содержимому
Перейти к основному содержимому

ParquetMetadata

Описание

Специальный формат для чтения метаданных файлов Parquet (https://parquet.apache.org/docs/file-format/metadata/). Он всегда выводит одну строку со следующей структурой/содержимым:

  • num_columns - количество столбцов
  • num_rows - общее количество строк
  • num_row_groups - общее количество групп строк
  • format_version - версия формата parquet, всегда 1.0 или 2.6
  • total_uncompressed_size - общий размер данных без сжатия в байтах, рассчитанный как сумма total_byte_size всех групп строк
  • total_compressed_size - общий размер данных с сжатием в байтах, рассчитанный как сумма total_compressed_size всех групп строк
  • columns - список метаданных столбцов со следующей структурой:
    • name - имя столбца
    • path - путь столбца (отличается от имени для вложенного столбца)
    • max_definition_level - максимальный уровень определения
    • max_repetition_level - максимальный уровень повторения
    • physical_type - физический тип столбца
    • logical_type - логический тип столбца
    • compression - сжатие, использованное для этого столбца
    • total_uncompressed_size - общий размер данных без сжатия в байтах для столбца, рассчитанный как сумма total_uncompressed_size столбца из всех групп строк
    • total_compressed_size - общий размер данных с сжатием в байтах для столбца, рассчитанный как сумма total_compressed_size столбца из всех групп строк
    • space_saved - процент сохраненного пространства за счет сжатия, рассчитанный как (1 - total_compressed_size/total_uncompressed_size).
    • encodings - список кодировок, используемых для этого столбца
  • row_groups - список метаданных групп строк со следующей структурой:
    • num_columns - количество столбцов в группе строк
    • num_rows - количество строк в группе строк
    • total_uncompressed_size - общий размер данных без сжатия в байтах для группы строк
    • total_compressed_size - общий размер данных с сжатием в байтах для группы строк
    • columns - список метаданных фрагментов столбцов со следующей структурой:
      • name - имя столбца
      • path - путь столбца
      • total_compressed_size - общий размер данных с сжатием в байтах для столбца
      • total_uncompressed_size - общий размер данных без сжатия в байтах для группы строк
      • have_statistics - логический флаг, указывающий, содержит ли метаданные фрагмента столбца статистику столбца
      • statistics - статистика фрагмента столбца (все поля NULL, если have_statistics = false) со следующей структурой:
        • num_values - количество ненулевых значений в фрагменте столбца
        • null_count - количество значений NULL в фрагменте столбца
        • distinct_count - количество уникальных значений в фрагменте столбца
        • min - минимальное значение фрагмента столбца
        • max - максимальное значение фрагмента столбца

Пример использования

Пример: