Что такое Big Data сегодня и для чего это нужно? Дайте, пожалуйста, ваше определение
- Big Data сегодня — это подход к обеспечению совокупности четырех V (Volume, Velocity, Veracity, Variety). В управлении «большими данными» задействована как программно-аппаратная составляющая, так и совокупность алгоритмов по обработке информации.
Не лишним будет добавить и пятую общеизвестную «V» — Value. Технология ради технологии сейчас никому не нужна, обязательное условие успеха любой новой технологии — выгода от владения.
Как используется Big Data в России? Каков объем рынка решений на основе «больших данных» в России, сколько компаний предлагают услуги на основе использования «больших данных»?
- Big Data в России из взрывной и новой для всех технологии превратилась в нечто обыденное. ИТ-специалисты знакомы с ней и представляют, какие задачи можно решать с помощью инструментов класса Big Data. Технология начинает постепенно занимать свою реальную нишу на российском ИТ-рынке.
Компаний, которые активно используют технологии Big Data в повседневной деятельности, все еще мало, но желающих – огромное количество. Рынок еще не насыщен и процентный рост внедрений очень высок. По моим представлениям мы говорим о цифре около 40 % в год.
Что касается компаний, предоставляющих услуги на основе решений Big Data: есть отличные стартапы с узкой специализацией, есть несколько крупных консалтинговых компаний, которые вобрали лучшие практики по Big Data и предлагают эффективные решения.
В каких отраслях чаще всего используется Big Data в России? Есть ли отличия в интерпретации «больших данных» для компаний разных сфер деятельности, например, банка или телекоммуникационной компании?
- Те компании, у которых есть серьезные объемы информации, задумались о внедрении Big Data еще несколько лет назад. В первую очередь, потребителями технологий Big Data стали телеком-операторы, банки, интернет-гиганты, ретейл, страховые компании. Затем интерес к новым инструментам проявили небольшие и при этом мобильные компании, которые достаточно быстро освоили инструменты Big Data. Различия в интерпретации «больших данных» у тех, кто использует Big Data —отсутствуют, а вот у тех, кто не использует — они достаточно существенные, встречаются порой абсолютно противоположные мнения.
Есть ли отставание России в сфере «больших данных» от стран Европы и США? Есть ли знаковые проекты на рынке, которые не уступают зарубежным?
- Если судить по мировым тенденциям, то в сфере «больших данных» заметно отставание России от, например, США и Европы на 3-5 лет, что по меркам ИТ — огромный срок. Основная наша проблема — недостаток специалистов по Big Data, а также небольшое количество реальных кейсов приносящих прибыль. При этом успешные западные кейсы не всегда можно адаптировать к российским реалиям. Еще одна российская особенность в сфере Big Data: периодически реализация на практике успешного западного опыта невозможна из-за недостоверности данных.
Архитектор Big Data компании AT Consulting Алексей Беднов
Ваша компания осуществила масштабный проект для «ВымпелКома», в основе которого были «большие данные». Расскажите вкратце, какие задачи стояли, что было сделано. Какие еще крупные проекты вы еще можете упомянуть?
- Проект для «ВымпелКома» — ярчайший пример того, как технологии Open Source могут покорить гигантов рынка. Все началось с небольшого пилотного проекта, по результатам которого было принято решение о построении большого кластера со сложной моделью данных. Как это чаще всего и бывает, первоначальная задача заключалась в том, чтобы помочь маркетинговой службе. В случае с «ВымпелКомом» речь шла о формировании предложений по новым продуктам и об анализе тарифов (см. описание проекта «Корпорация IBM, AT Consulting и ОАО «ВымпелКом»: создание интеллектуальных предложений на входящих каналах коммуникаций с клиентами», - прим. ред.).
Но очень быстро мы запустили еще несколько проектов, направленных на улучшение транспортной системы Москвы, помощь банкам в скоринге, анализ оттока абонентов, антиспам роботы на основе машинного обучения. Сейчас у нас огромный проект и целый пул задач, которые мы решаем параллельно друг другу, и процесс взаимодействия с заказчиком выстроен практически до минут.
Кто еще является вашими клиентами в сфере Big Data в России? Есть ли еще у вас проекты в телекоммуникационной и других сферах?
- Мы ведем работу с несколькими крупнейшими банками страны, ведем переговоры с телеком-операторами на уровне СНГ. Проводится большое количество пилотов, по результатам которых видно, что тема Big Data очень живая, она интересна многим компаниям. Раньше вопрос стоял так: «Нужны ли нам технологии Big Data?» Сейчас он стоит так: «Где, как и с чьей помощью внедрить Big Data?»
Использует ли государство Big Data? В каких сферах и для чего?
- Госструктуры стали более мобильными и стараются внедрять инновации в различных областях. Не обделен вниманием и сектор Big Data. Например, сейчас очень многие регионы озабочены оптимизацией городской инфраструктуры, есть большая потребность в анализе автотранспортных потоков и понимании «горячих точек» в городах. Население пока не прочувствовало на себе новомодное средство, однако за этим дело не постоит. Мне глубоко импонирует, что ИТ-руководители госсектора на острие прогресса и не боятся использовать современные ИТ-инструменты.
Что нужно для работы с «большими данными» – какое оборудование, ПО, какие специалисты? Сколько может стоить проект с сфере Big Data, и когда заказчик сможет получить первые результаты от внедрения такого проекта?
- Давайте определимся с терминами. Big Data — это подход к решению задачи. Технических и программных средств решения данной задачи может быть множество — от сравнительно дешевого «железа» для Hadoop до hi-end appliance от ведущих вендоров. От бесплатного Open Source программного обеспечения Apache Hadoop до Enterprise-решений от таких поставщиков как Cloudera, Hortonworks, MAPR, IBM, Microsoft, EMC.
Самое интересное начинается, когда дело доходит до поиска специалистов. Купить «железо» — это как купить материал для строительства дома. Помимо материалов необходимы знания в области строительства. Также обстоят дела и в сфере «больших данных». Найти хороших специалистов достаточно тяжело, лучшее решение — выращивать кадры у себя. Это наиболее эффективный, но и самый долгий путь. Самый простой способ – найм уже состоявшегося специалиста извне, но только если вы уверены в его будущей занятости. И, скорее всего, такой сотрудник понадобится не один. Еще более короткий путь — совместить облачные инструменты и outstaff.
Период получения первых результатов от внедрения Big Data сильно различается в разных сферах и компаниях и зависит от конкретных задач. Но обычно должно пройти не менее двух месяцев до получения первых результатов.
Бытует мнение, что «большие данные» нужны и важны в основном для крупных компаний, у которых есть возможность собирать, накапливать и обрабатывать большой объем информации? Какой объем данных можно считать Big Data? Можно ли использовать «большие данные» для нужд компаний среднего и малого бизнеса?
- Все относительно. «Большие данные» были, есть и будут всегда. Меняются только подходы к управлению информацией. Если ваша компания пришла к выводу, что объем данных, которые необходимо обработать, становится настолько велик, что обработка одной части данных на существующих мощностях занимает времени больше, чем формирование новой порции входных данных, то да, Big Data — это для вас. До того момента, пока не будет куплено новое «железо». Потом вы переходите на новый уровень, и вчерашние Big Data уже не кажутся столь большими.
Big Data – это не просто массив данных, но и алгоритмы их обработки. Более важно не только накопить информацию, но и суметь обогатить ее, за счет нестандартных фактов и грамотного подхода к анализу. Средний и малый бизнес, не имея своих «больших данных», может получать их от партнеров, кооперируя свои данные с «чужими» и получая самую главную, пятую «V» - value.
Каковы перспективы Big Data в мире и в России? Есть ли в России какие-нибудь уникальные решения в области «больших данных»?
- На данном этапе желания заказчиков из банковского и телеком-сектора похожи. Big Data в России находится на этапе строительства фундамента большого дома. На Западе у дома «больших данных» уже появляются признаки вторых этажей, но до строительства крыши еще далеко. Бизнес-аудитории сегодня кажется, что они наблюдают небольшой кризис в сфере Big Data, но это совсем не так. В России есть много интересных проектов и стартапов, основанных на применении Big Data, а в список Forbes впервые начинают попадать люди, сделавшие свой бизнес целиком с помощью этой технологии. Я считаю, что в скором будущем нас ждет рост числа совершенно нестандартных приемов обработки данных, обогащений и связи различных источников информации между собой.
Спасибо за беседу!