Эксперты компании «Диасофт» по работе с большими данными – Илья Шуйков, руководитель продукта «Фабрика данных», и Игорь Шабанин, лидер разработки по работе с данными, – представили доклад на тему: «Фабрика данных: от хранилища до ИИ-прогнозов».
«От качества данных напрямую зависит эффективность машинного обучения (ML). Некорректные, неполные или несогласованные данные приводят к ошибочным прогнозам и неверным бизнес-решениям. В пример можно привести задачу прогнозирования добычи нефти на основе исторических данных с датчиков буровых вышек», – отметил Илья Шуйков. По его словам, эти прогнозы могут быть неточными из-за следующих типичных проблем:
Решить эти проблемы позволяет сквозной контроль качества данных, утверждают спикеры.
Решение «Фабрика данных» для контроля качества данных
«Фабрика данных» (Digital Q.DataFactory) от «Диасофт» – комплексное решение, которое включает встроенные процессы контроля качества на каждом этапе.
«Чтобы сделать данные полезными, начать необходимо с описания источников данных. Второй шаг – загрузка данных. На этом этапе «Фабрика данных» автоматически проверяет форматы и заполняет отсутствующие значения на основе правил и алгоритмов», – объяснил Игорь Шабанин.
Во время дальнейших этапов функционал «Фабрики данных» дает следующие возможности:
«Фабрика данных» построена на современной data lakehouse-архитектуре, которая объединяет лучшее от хранилищ данных (DataWarehouse) и озер данных (DataLake), объяснили спикеры. Это позволяет работать со структурированными и неструктурированными данными, снижая совокупную стоимость владения на 40-60%.
Low-Code и искусственный интеллект: ускорение разработки
Одно из ключевых преимуществ «Фабрики данных» – low-code подход к созданию процессов обработки данных. Встроенный фреймворк на основе метаданных автоматически генерирует код для загрузки и трансформации данных, учитывая все особенности, что значительно ускоряет разработку и снижает порог входа для инженеров.
«Инновацией стала среда разработки с ИИ-ассистентом. Она позволяет генерировать код на PySpark, SQL-запросы и даже ML-модели по описанию задачи на естественном языке. Это ускоряет поиск решений, обучение и подготовку документации», – подчеркнул Илья Шуйков. При этом он предупредил, что нейросеть – не «волшебная таблетка», а инструмент, который усиливает эксперта, но не заменяет глубокого понимания предметной области.
«Фабрика данных» от «Диасофт» превращает сырые, разрозненные данные в надежный фундамент для аналитики и искусственного интеллекта. Решение закрывает все этапы жизненного цикла данных: от работы с метаданными и контроля качества до визуализации и построения предиктивных моделей, позволяя бизнесу извлечь из своих данных реальную пользу.