Ранее в банке использовалось корпоративное хранилище данных на базе Oracle, которое, хотя и справлялось с задачами, достигло предела своих возможностей. Необходимость в более гибком и масштабируемом решении, способном ускорить поставку данных и подключение новых сервисов, таких как стриминг, хранение полуструктурированных данных и полнотекстовый поиск, стала очевидной.
Банк выбрал Arenadata Hadoop для создания новой платформы данных на базе технологий Apache Hadoop, что позволило обеспечить необходимую функциональность и масштабируемость.
Проект по миграции длился несколько лет, поскольку требовалось перенести весь функционал корпоративного хранилища данных, включая системы класса Business Critical.
Сегодня платформа используется множеством подразделений банка для построения отчетности, проведения маркетинговых кампаний, аналитики, обучения ML-моделей и других задач. Подключено более 10 источников данных, загружены архивные данные, что также позволяет снижать стоимость хранения.
Arenadata Hadoop (ADH) — корпоративный дистрибутив на базе Apache Hadoop, предназначенный для хранения и обработки слабоструктурированных и неструктурированных данных. Среди его ключевых преимуществ — экономичное хранение данных, масштабируемость до петабайтов и высокая отказоустойчивость за счет дублирования данных в кластере.