Диасофт рассказал о решении для эффективной работы с данными на форуме Управление данными 2025

29.09.2025 |

Диасофт рассказал о решении для эффективной работы с данными на форуме Управление данными 2025

Во время десятого форума «Управление данными», который состоялся 24 сентября в Москве, эксперты отрасли обсудили роль и качество данных в современном мире. По их словам, методики и инструменты управления данными стали чрезвычайно востребованными, поскольку данные теперь являются ключевым активом бизнеса. Центральной темой конференции стали способы извлечения максимальной пользы из данных.

Эксперты компании «Диасофт» по работе с большими данными – Илья Шуйков, руководитель продукта «Фабрика данных», и Игорь Шабанин, лидер разработки по работе с данными, – представили доклад на тему: «Фабрика данных: от хранилища до ИИ-прогнозов».

«От качества данных напрямую зависит эффективность машинного обучения (ML). Некорректные, неполные или несогласованные данные приводят к ошибочным прогнозам и неверным бизнес-решениям. В пример можно привести задачу прогнозирования добычи нефти на основе исторических данных с датчиков буровых вышек», – отметил Илья Шуйков. По его словам, эти прогнозы могут быть неточными из-за следующих типичных проблем:

Неполнота данных: датчики могут передавать данные с пропусками.
Несогласованность: данные поступают из множества разнородных источников в разных форматах.
Ненадежность: подрядчики могут присылать устаревшие данные.

Решить эти проблемы позволяет сквозной контроль качества данных, утверждают спикеры.

Решение «Фабрика данных» для контроля качества данных

«Фабрика данных» (Digital Q.DataFactory) от «Диасофт» – комплексное решение, которое включает встроенные процессы контроля качества на каждом этапе.

«Чтобы сделать данные полезными, начать необходимо с описания источников данных. Второй шаг – загрузка данных. На этом этапе «Фабрика данных» автоматически проверяет форматы и заполняет отсутствующие значения на основе правил и алгоритмов», – объяснил Игорь Шабанин.

Во время дальнейших этапов функционал «Фабрики данных» дает следующие возможности:

Стандартизация: каждый источник данных описывается метаданными (источник, метод измерения, частота обновления, допустимые значения), что обеспечивает согласованность.
Дальнейший мониторинг: контроль расхождений между прогнозными и фактическими показателями, отслеживание и устранение дубликатов.

«Фабрика данных» построена на современной data lakehouse-архитектуре, которая объединяет лучшее от хранилищ данных (DataWarehouse) и озер данных (DataLake), объяснили спикеры. Это позволяет работать со структурированными и неструктурированными данными, снижая совокупную стоимость владения на 40-60%.

Low-Code и искусственный интеллект: ускорение разработки

Одно из ключевых преимуществ «Фабрики данных» – low-code подход к созданию процессов обработки данных. Встроенный фреймворк на основе метаданных автоматически генерирует код для загрузки и трансформации данных, учитывая все особенности, что значительно ускоряет разработку и снижает порог входа для инженеров.

«Инновацией стала среда разработки с ИИ-ассистентом. Она позволяет генерировать код на PySpark, SQL-запросы и даже ML-модели по описанию задачи на естественном языке. Это ускоряет поиск решений, обучение и подготовку документации», – подчеркнул Илья Шуйков. При этом он предупредил, что нейросеть – не «волшебная таблетка», а инструмент, который усиливает эксперта, но не заменяет глубокого понимания предметной области.

«Фабрика данных» от «Диасофт» превращает сырые, разрозненные данные в надежный фундамент для аналитики и искусственного интеллекта. Решение закрывает все этапы жизненного цикла данных: от работы с метаданными и контроля качества до визуализации и построения предиктивных моделей, позволяя бизнесу извлечь из своих данных реальную пользу.