ParquetMetadata
Описание
Специальный формат для чтения метаданных файлов Parquet (https://parquet.apache.org/docs/file-format/metadata/). Он всегда выводит одну строку со следующей структурой/содержимым:
num_columns
- количество столбцовnum_rows
- общее количество строкnum_row_groups
- общее количество групп строкformat_version
- версия формата parquet, всегда 1.0 или 2.6total_uncompressed_size
- общий размер данных без сжатия в байтах, рассчитанный как сумма total_byte_size всех групп строкtotal_compressed_size
- общий размер данных с сжатием в байтах, рассчитанный как сумма total_compressed_size всех групп строкcolumns
- список метаданных столбцов со следующей структурой:name
- имя столбцаpath
- путь столбца (отличается от имени для вложенного столбца)max_definition_level
- максимальный уровень определенияmax_repetition_level
- максимальный уровень повторенияphysical_type
- физический тип столбцаlogical_type
- логический тип столбцаcompression
- сжатие, использованное для этого столбцаtotal_uncompressed_size
- общий размер данных без сжатия в байтах для столбца, рассчитанный как сумма total_uncompressed_size столбца из всех групп строкtotal_compressed_size
- общий размер данных с сжатием в байтах для столбца, рассчитанный как сумма total_compressed_size столбца из всех групп строкspace_saved
- процент сохраненного пространства за счет сжатия, рассчитанный как (1 - total_compressed_size/total_uncompressed_size).encodings
- список кодировок, используемых для этого столбца
row_groups
- список метаданных групп строк со следующей структурой:num_columns
- количество столбцов в группе строкnum_rows
- количество строк в группе строкtotal_uncompressed_size
- общий размер данных без сжатия в байтах для группы строкtotal_compressed_size
- общий размер данных с сжатием в байтах для группы строкcolumns
- список метаданных фрагментов столбцов со следующей структурой:name
- имя столбцаpath
- путь столбцаtotal_compressed_size
- общий размер данных с сжатием в байтах для столбцаtotal_uncompressed_size
- общий размер данных без сжатия в байтах для группы строкhave_statistics
- логический флаг, указывающий, содержит ли метаданные фрагмента столбца статистику столбцаstatistics
- статистика фрагмента столбца (все поля NULL, если have_statistics = false) со следующей структурой:num_values
- количество ненулевых значений в фрагменте столбцаnull_count
- количество значений NULL в фрагменте столбцаdistinct_count
- количество уникальных значений в фрагменте столбцаmin
- минимальное значение фрагмента столбцаmax
- максимальное значение фрагмента столбца
Пример использования
Пример: