За прошедшие два-три года примерно в 10 раз выросли объемы данных, которыми оперирует бизнес. Если раньше достаточным считалось иметь хранилище 20-50 терабайт, то сейчас мы строим озёра данных (Data Lake) вместимостью 300 терабайт, которые в будущем придется увеличивать по мере накопления данных. Чем больше данных накоплено в системе, тем точнее работают инструменты анализа с помощью машинного обучения (ML) и статистические механизмы.
Например, в одном из наших проектов на крупном промышленном предприятии с датчиков IoT и различных систем на вход подавалось 4,5 гигабайт в час, при сжатии превращалось в 250 мегабайт. Со временем эти данные накапливаются и требуют дополнительных мощностей, которые достаточно просто наращиваются при правильном проектировании кластера Hadoop.
Подробности см. в обзоре «BigData в работе интеграторов. Тренды, технологии, комментарии игроков» от 1 октября 2019 г.
Тематики:
Ключевые слова: Инфосистемы Джет