Обработка данных тысячами, мгновенная реакция на любой запрос и вывод понятных цифровых результатов — система под названием ClickHouse способна на многое.

Как заявляют создатели ClickHouse, изначально задача заключалась в базе данных, позволяющей моментально читать таблицы гигантских размеров, наполненные данными, не являющимися агрегированными. Стояло задание обработки огромных потоков данных, ежесекундно поступающих в Яндекс Метрику. Сперва компания разрабатывала ClickHouse в качестве системы для своего личного использования, но качество позволило ему выйти в мир.

Была необходимость в том, чтобы сама база обладала гибким языком запросов, сохраняла данные размером в петабайты, демонстрировала отказоустойчивость в датацентровых терминах.

Преимущества ClickHouse над остальными СУБД

Установка и настройка ClickHouse не отнимет много времени. Интуитивно понятный интерфейс тоже не создаст трудностей. Разумеется, эта система не является первой в числе СУБД. Их существует много, но СН отличается от них целым рядом преимуществ:

она бесплатная и открытая в противовес коммерческим аналогам СУБД вроде HP Vertica;

использование ClickHouse в личных инфраструктурах не требует оплаты облачного хранения;

CH оказывает поддержку диалекту SQL, а предагрегация данных не требуется;

система функционирует в датацентах, которые распределены географически, информация загружается в real-time, она сама скачивает их и сохраняет, чего не может, например, Hadoop.

Где может пригодиться ClickHouse?

Давайте обсудим примеры использования СН.

Мониторинг в режиме real-time

Первое, чем занимаются аналитики компании Яндекс каждое утро - это мониторинг. В данном случае преимущество ClickHouse заключается в возможности быстро выгружать данные, касающиеся большого количества срезов разных сервисов. Иными словами, нет необходимости в запросе и получасовом перерыве на его обработку. Скорость буквально фантастическая. Это в значительной степени изменило подход аналитиков к работе.

ClickHouse создан для работы врежиме реального времени с непрекращающимся потоком. И это его огромный плюс в сравнении с стальными базами. Это позволяет анализировать:

  • интернет-приложения;
  • рекламные кампании;
  • операционные логи;
  • логи безопасности;
  • финансы;
  • производственные процессы.

Статья подготовлена по материалам сайта renta.im.