Платформа данных для аналитики
Свидетельство о регистрации №2025693742 от 04.12.2025г.
Что это такое
Прорамма «Платформа данных для аналитики» представляет собой совокупность программных модулей на языке Python и SQL, предназначенных для автоматизации процессов извлечения, преобразования, загрузки (ETL) данных из разнородных источников, управления метаданными, построения многомерной модели данных и формирования аналитических витрин в целях создания и сопровождения корпоративного хранилища данных. Комплекс функционирует как набор исполняемых скриптов и конфигурационных файлов, обеспечивающих целостность, актуальность и качество данных в хранилище
Лицензия на продукт предоставляется на основании отдельного договора, заключаемого в письменной форме с правообладателем. Информация о стоимости продукта указывается в приложении к договору либо может быть получена на основании запроса, направленного на почту cdek-digital@cdek.ru
ООО «СДЭК Диджитал» является правообладателем исключительных прав на программу.
Преимущества
Как получить
Документация
  1. Гибкая архитектура на основе ведущих Open Source решений. Использование Apache Airflow, Apache Spark, Greenplum, Clickhouse и Minio S3 обеспечивает проверенную временем масштабируемость, высокую производительность и обширное сообщество разработчиков. Отсутствие жёсткой привязки к проприетарным вендорам снижает совокупную стоимость владения.
  2. Поддержка смешанной обработки данных (пакетной и потоковой). Благодаря интеграции Apache Spark Streaming и пакетной обработки в едином конвейере платформа позволяет одновременно строить витрины данных в режиме реального времени (из Kafka) и выполнять тяжёлые ETL-задачи по расписанию. Это критически важно для сценариев оперативной аналитики и дашбордов с низкой задержностью.
  3. Автоматизированная оркестрация с контролем качества данных. Apache Airflow как ядро платформы обеспечивает надёжный мониторинг, повторные запуски при сбоях, встроенные механизмы проверки целостности данных на каждом этапе. Это сокращает ручной труд и минимизирует риск потери данных
  4. Высокая производительность аналитических запросов. Сочетание Greenplum (масштабируемый MPP-движок для основного хранилища) и Clickhouse (колоночная СУБД для витрин с агрессивным сжатием) позволяет выполнять сложные SQL-запросы к многомиллиардным таблицам за секунды.
  5. Безопасный изолированный доступ. Все сервисы доступны только из корпоративной сети через VPN. Исходные коды хранятся в частном GitLab без публичного доступа. Лицензионные ключи и токены – в зашифрованном Vault. Это соответствует стандартам защиты данных высокого уровня.
  6. Простота сопровождения и расширения. Платформа написана на Python (интерпретируемый язык) и SQL, что позволяет штатным инженерам-аналитикам быстро модифицировать потоки данных и витрины без необходимости в компиляции или узкоспециализированных компиляторах.
  7. Интеграция с любыми S3-совместимыми хранилищами. Minio S3 служит единым слоем RAW, чекпоинтов Spark. При необходимости легко заменить на российское S3-хранилище (например, VK Cloud S3, Яндекс Облако или собственное решение) без изменения кода.