Задачи
Инвентаризация и аудит данных:
• Проведение комплексной инвентаризации данных компании из различных источников
• Анализ и документирование существующих источников данных, форматов и систем хранения
• Оценка качества, полноты и актуальности данных
• Выявление критических данных для ИИ-решений и бизнес-процессов
Проектирование и построение хранилища данных
• Разработка архитектуры единого корпоративного хранилища данных
• Проектирование схем данных и моделей для различных доменов (геология, проектирование, строительство, финансы)
• Создание и оптимизация ETL/ELT пайплайнов для миграции и загрузки данных
• Обеспечение масштабируемости и производительности хранилища
Миграция данных:
• Планирование и выполнение миграции данных из разрозненных источников
• Разработка скриптов и процессов для трансформации и очистки данных
• Валидация корректности миграции и целостности данных
• Минимизация рисков потери данных при переносе
Управление качеством данных:
• Разработка и внедрение процессов контроля качества данных
• Создание правил валидации и мониторинга качества
• Автоматизация процессов очистки и обогащения данных
Управление доступом и безопасность
• Проектирование и реализация системы управления доступом к данным
• Настройка ролевых моделей и политик безопасности
• Обеспечение соответствия требованиям по защите персональных и конфиденциальных данных
• Аудит и мониторинг доступа к данным
Data Governance:
• Участие в разработке политик и стандартов управления данными
• Создание каталога данных и метаданных
• Документирование процессов и процедур работы с данными
• Взаимодействие с владельцами данных и бизнес-подразделениями
Наши ожидания
• Python/SQL — уверенное владение для разработки ETL-процессов и работы с данными
• Реляционные БД: опыт работы с PostgreSQL, MySQL или MS SQL Server
• NoSQL базы данных: практический опыт работы с MongoDB, Cassandra, Redis или аналогами
• ETL/ELT инструменты: практический опыт с Apache Airflow, dbt, Pentaho или аналогами
• Системы очередей: опыт работы с Kafka, RabbitMQ или аналогами
• Хранилища данных: понимание принципов построения DWH, опыт работы с ClickHouse, Greenplum или аналогами
• Работа с большими объемами данных: опыт обработки и трансформации больших датасетов
• Версионирование: Git для управления кодом и конфигурациями
• Понимание принципов нормализации и моделирования данных
Желательные навыки
• Знание принципов Data Governance и Data Quality Management
• Знание Docker, Kubernetes для контейнеризации решений
• Знание инструментов каталогизации данных (Apache Atlas, DataHub, Amundsen)
• Понимание принципов построения Data Lake и Data Mesh
• Опыт работы с векторными БД для ИИ-решений (Qdrant, Milvus, PGVector)
Условия
• Офис находится : г. Москва, наб. Пресненская, д.10 (Москва-Сити);
• График работы: пятидневная рабочая неделя с понедельника по пятницу , выходные: суббота, воскресенье;
• Период испытательного срока: 3 месяца;
• ДМС;
• Годовой бонус;
• Профессиональное обучение и развитие;
• Возможность реализовать свой потенциал и построить карьеру.
• Конкурентоспособный уровень заработной платы.
• Участие в интересных и масштабных проектах.
Тел. +7 914 458 3339 Гришина Вероника
