Запись запросов в ClickHouse с использованием данных GitHub

Этот набор данных содержит все коммиты и изменения для репозитория ClickHouse. Его можно сгенерировать с помощью встроенного инструмента git-import, распространяемого с ClickHouse.

Сгенерированные данные предоставляют файл tsv для каждой из следующих таблиц:

commits - коммиты со статистикой.
file_changes - файлы, измененные в каждом коммите, с информацией об изменениях и статистикой.
line_changes - каждая измененная строка в каждом измененном файле в каждом коммите с полной информацией о строке и информации о предыдущем изменении этой строки.

На 8 ноября 2022 года каждый TSV имеет примерно следующий размер и количество строк:

commits - 7.8М - 266,051 строк
file_changes - 53М - 266,051 строк
line_changes - 2.7Г - 7,535,157 строк

Генерация данных

Это необязательно. Мы свободно распространяем данные - смотрите Скачивание и вставка данных.

Это займет около 3 минут (на 8 ноября 2022 года на MacBook Pro 2021) для завершения для репозитория ClickHouse.

Полный список доступных опций можно получить из встроенной помощи инструмента.

Эта помощь также предоставляет DDL для каждой из вышеуказанных таблиц, например:

Эти запросы должны работать в любом репозитории. Не стесняйтесь исследовать и сообщать о своих находках. Некоторые рекомендации относительно времени выполнения (на ноябрь 2022 года):

Linux - ~/clickhouse git-import - 160 минут

Скачивание и вставка данных

Следующие данные можно использовать для воспроизведения рабочей среды. Кроме того, этот набор данных доступен на play.clickhouse.com - см. Запросы для получения дополнительной информации.

Сгенерированные файлы для следующих репозиториев можно найти ниже:

ClickHouse (8 ноября 2022 года)
Linux (8 ноября 2022 года)

Для вставки этих данных подготовьте базу данных, выполнив следующие запросы:

Вставьте данные, используя INSERT INTO SELECT и функцию s3. Например, ниже мы вставляем файлы ClickHouse в каждую из их соответствующих таблиц:

commits

file_changes

line_changes

Запросы

Инструмент предлагает несколько запросов через свой вывод помощи. Мы ответили на них, а также на некоторые дополнительные интересные вопросы. Эти запросы имеют примерно возрастающую сложность по сравнению со случайным порядком инструмента.

Этот набор данных доступен на play.clickhouse.com в базах данных git_clickhouse. Мы предоставляем ссылку на эту среду для всех запросов, адаптируя имя базы данных по мере необходимости. Обратите внимание, что результаты в play могут отличаться от представленных здесь из-за различий во времени сбора данных.

История одного файла

Самый простой запрос. Здесь мы смотрим на все сообщения коммитов для StorageReplicatedMergeTree.cpp. Поскольку они, вероятно, более интересны, мы сортируем по самым недавним сообщениям в первую очередь.

Генерация данных​

Скачивание и вставка данных​

Запросы​

История одного файла​

Найти текущие активные файлы​

Список файлов с наибольшим количеством модификаций​

В какой день недели обычно происходят коммиты?​

История подкаталога/файла - количество строк, коммитов и контрибьюторов с течением времени​

Список файлов с максимальным количеством авторов​

Самые старые строки кода в репозитории​

Файлы с самой длинной историей​

Распределение участников в отношении документации и кода за месяц​

Авторы с наибольшим распределением влияния​

Любимые файлы автора​

Крупнейшие файлы с наименьшим количеством авторов​

Распределение коммитов и строк кода по времени; по дням недели, по авторам; для конкретных подпапок​

Матрица авторов, показывающая, какие авторы часто переписывают код других авторов​

Кто является самым высоким процентным вкладчиком по дням недели?​

Распределение возраста кода по репозиторию​

Какой процент кода для автора был удален другими авторами?​

Список файлов, которые были переписаны наибольшее количество раз​

В какой день недели код имеет наибольшую вероятность оставаться в репозитории?​

Файлы, отсортированные по среднему возрасту кода​

Кто склонен писать больше тестов / CPP кода / комментариев?​

Как меняются коммиты авторов со временем по отношению к проценту кода/комментариев?​

Каково среднее время до переписывания кода и медиана (период полураспада кода)?​

Когда наихудшее время для написания кода в том смысле, что код имеет наибольшую вероятность быть переписанным?​

Код каких авторов наименее подвержен изменениям?​

Наибольшее количество подряд идущих дней коммитов автором​

История коммитов файла построчно​

Нерешенные вопросы​

Git blame​

Связанный контент​

Генерация данных

Скачивание и вставка данных

Запросы

История одного файла

Найти текущие активные файлы

Список файлов с наибольшим количеством модификаций

В какой день недели обычно происходят коммиты?

История подкаталога/файла - количество строк, коммитов и контрибьюторов с течением времени

Список файлов с максимальным количеством авторов

Самые старые строки кода в репозитории

Файлы с самой длинной историей

Распределение участников в отношении документации и кода за месяц

Авторы с наибольшим распределением влияния

Любимые файлы автора

Крупнейшие файлы с наименьшим количеством авторов

Распределение коммитов и строк кода по времени; по дням недели, по авторам; для конкретных подпапок

Матрица авторов, показывающая, какие авторы часто переписывают код других авторов

Кто является самым высоким процентным вкладчиком по дням недели?

Распределение возраста кода по репозиторию

Какой процент кода для автора был удален другими авторами?

Список файлов, которые были переписаны наибольшее количество раз

В какой день недели код имеет наибольшую вероятность оставаться в репозитории?

Файлы, отсортированные по среднему возрасту кода

Кто склонен писать больше тестов / CPP кода / комментариев?

Как меняются коммиты авторов со временем по отношению к проценту кода/комментариев?

Каково среднее время до переписывания кода и медиана (период полураспада кода)?

Когда наихудшее время для написания кода в том смысле, что код имеет наибольшую вероятность быть переписанным?

Код каких авторов наименее подвержен изменениям?

Наибольшее количество подряд идущих дней коммитов автором

История коммитов файла построчно

Нерешенные вопросы

Git blame

Связанный контент