BigData — информации не бывает слишком много

На сегодня продукты Big Data могут позволить себе только крупные игроки рынка, поскольку стоимость данных комплексов в разы выше варианта «собрать с помощью интегратора». По словам технического директора 2BGroup Алексея Шовкуна (второй справа), это настораживает людей, привыкших оценивать внедрение новых технологий в деньгах
На сегодня продукты Big Data могут позволить себе только крупные игроки рынка, поскольку стоимость данных комплексов в разы выше варианта «собрать с помощью интегратора». По словам технического директора 2BGroup Алексея Шовкуна (второй справа), это настораживает людей, привыкших оценивать внедрение новых технологий в деньгах

По оценке IDC, к 2020 году объем цифровой информации в мире будет составлять от 30 до 40 зеттабайт (1ЗБ = 1 млрд терабайт), то есть на каждого жителя планеты будет приходиться 6–8 терабайт. Конечно, не весь объем этих данных будет «полезным», но эту «ценную породу» нужно как-то выделить из массы «руды», систематизировать, обрабатывать, хранить и передавать — для крупного бизнеса это серьезная и актуальная проблема. Решить ее поможет так называемая BigData — программные и аппаратные решения для работы с крупными объемами данных. В том, какие задачи способна реализовать BigData и какой спрос на нее предъявляют сибирские компании, разбирался «КС».

«Технологии Big Data — это просто новые инструменты, которые сами по себе не гарантируют принятие правильных решений, но могут предоставить руководителям новые возможности и доступ к информации для принятия эффективных решений, — объясняет принцип работы Big Data руководитель группы перспективных технологий предпроектного консалтинга Oracle в России и СНГ Андрей Пивоваров. — Зачастую технологии Больших данных позволяют решать те же самые задачи, что решались и раньше, без их использования, но делать это в десятки раз дешевле и эффективнее».

Участники рынка отмечают, что имеющиеся на рынке BD-решения можно условно разделить на две ключевые категории. «Первая — коробочные решения вендоров, таких как IBM, Oracle, SAP, ECM, Teradata и других. Вторая — опенсорсные (бесплатные. — КС»), использующие открытый код решения, выполненные, в частности, на базе ПО Apache Software Foundation», — поясняет технический директор AT Consulting Сибирь Сергей Кашин. По его словам, больше возможностей для индивидуальных настроек открывает именно второй вариант, тогда как коробочные решения обладают некоторым жестко заданным функционалом. И первым делом, принимая решение о внедрении BD-системы, нужно ответить на вопрос: «Какая специализация ее работы будет приоритетной?» Будет ли это хранение большого объема данных или же обработка: сопоставление, поиск закономерностей, составление прогнозов и так далее. Разумеется, «главная» задача не станет «единственной», но этот вопрос должен быть решен в самом начале, чтобы определить, какой сегмент в готовом решении станет ведущим: большие серверы и каналы передачи данных — или вычислительные мощности с соответствующим программным обеспечением. В любом случае преимущество будет у тех игроков, кто в состоянии предложить как программную платформу, так и необходимое оборудование — крупные западные корпорации, вроде Microsoft, IBM, Oracle или SAP.

По оценкам менеджера по развитию направления Big Data and Technology SAP СНГ Вадима Табакова, для Сибири как для региона, богатого промышленными предприятиями, огромный потенциал Big Data заключен в организации работы и интеграции накопленных данных с данными неструктурированными, неизвестными, так называемыми Dark Data, и получением новых полезных знаний при помощи структурного анализа, многофакторных индуктивных алгоритмов и прочих техник бизнес-исследований.

Сбор или разбор — какие задачи решают BD?

Довольно часто перед BD ставится задача по поиску новых возможностей для совершенствования и развития за счет выявления скрытых взаимосвязей между разными факторами. Сергей Кашин приводит в качестве примера систему анализа транспортных и людских потоков в Москве для оптимизации градостроительного плана: «Был создан специальный программно-аппаратный комплекс, который с помощью геолокации собирал и обрабатывал данные о перемещениях более 30 миллионов объектов — людей и машин. В результате была получена картина, показывающая проблемные и, напротив, успешные фрагменты городской застройки, что позволило найти оптимальные решения для дальнейшего градостроительства».

«Что касается промышленности, то здесь системы Big Data способны решать задачи оперативной обработки потоков данных, поступающих с многочисленных приборов и датчиков, установленных на трубопроводах, паровых котлах, линиях электропередачи, транспорте и другом специализированном оборудовании. И при изменении производственных параметров технологии Big Data способны обеспечить необходимую скорость принятия решения», — говорит Вадим Табаков. В качестве примера он приводит такие компании, как «Северсталь» и «Сургутнефтегаз», где решения BD применяются уже не первый год.

Стоит также отметить, что технологии управления BDспособны не просто увеличить эффективность за счет экономии времени и ресурсов для обработки и анализа данных, но и позволить выйти за пределы окружающих задач и увидеть потенциальную выгоду от обработки существующей информации, которая не охвачена текущими системами компании. В этом их отличие от традиционного статистического анализа, который оперирует только явными показателями и взаимосвязями. «На практике это может выглядеть как изучение потенциальной клиентской базы, подбор маркетинговых активностей, превентивные, а не реактивные меры по пресечению мошеннических операций, изучение потенциальных связей заемщиков между собой на основании социальных связей, изучение поведения клиентов на интернет-сайтах до сделанных заявок — например, на основе тех расчетов, которые делают посетители сайта с помощью калькулятора, — говорит директор макрорегиона Сибирь и Урал Microsoft в России Антон Гостев. — Также имеет смысл упомянуть прогнозирование спроса на продукты и изменений в продуктовом портфеле, пересчет инвестиционных вложений на основании колебаний котировок. В общем, здесь открывается огромный простор для творчества». Сергей Кашин приводит пример такого анализа из сферы ритейла: «Известно, что женщинам во время беременности в силу своего положения удобнее совершать закупки в каком-то одном супермаркете, нежели посещать несколько. В этот же период специфическим образом меняются их пищевые предпочтения. Проект BD, реализованный одним из ритейлеров, позволил по составу покупок выявлять беременных женщин и делать им специальное предложение, обеспечивающее их лояльность к определенной торговой сети. При этом «диагностика» была настолько точна, что некоторые женщины узнавали о своей беременности, получив сообщение от супермаркета».

Для многих финансовых организаций такие задачи являются сегодня привычными и насущными. Особенно это актуально для крупных компаний с миллионным количеством клиентов — физических лиц, каждое из которых может иметь различные кредитные истории. Для них использование концепции больших данных в каком-то смысле является эволюционным развитием, в основе которого лежат привычные инструменты с усиленными на порядки возможностями. «В качестве примера можно привести технологию StreamInsight, которая является частью Microsoft SQL Server, когда данные перед тем, как быть записанными в хранилище, проходят проверку по заданным правилам и разделяются на два потока — одобренный и сомнительный, — демонстрирует один из вариантов такой схемы Антон Гостев. — При этом может выдаваться сигнальная информация о том, что какие-то данные вызывают сомнение, — функцию можно запрограммировать самому. Следующим шагом может стать объединение двух разных подходов, чтобы облегчить управляемость и анализ, примером этому является новая технология Polybase. С ее помощью можно, например, реализовать такие сценарии, как разделение данных на «холодные» и «горячие», связать статистику логов Call-центра и транзакции по кредитным картам (это очень актуально для финансовых компаний). Следующий шаг — предоставление доступа к Big Data на пользовательском уровне. Не все знают, что сегодня аналитики уже могут сами с помощью обычного Excel подключаться напрямую в Hadoop и получать ответы на свои вопросы. И это делается без привлечения программистов».

Технический директор группы компаний 2B Group Алексей Шовкун считает, что BD-решения более эффективны не на «внутреннем» направлении (совершенствование процессов внутри предприятия), а на «внешнем»: работе с рынком для коммерческих компаний или с населением для органов власти. Примером может служить внедряемый сейчас проект с использованием BD в МФЦ Новосибирской области. «Выявление взаимосвязи между социально-демографическими характеристиками граждан, их жизненными событиями и услугами, к которым они обращаются. В результате оператор при общении с заявителем увидит в компьютере подсказку о том, какие еще услуги должны быть полезны данному человеку. Это позволит действовать «на опережение» и, предлагая гражданам максимальный сервис, повысить их удовлетворенность работой государственных структур», — сообщает Сергей Кашин.

Немаловажный вопрос — безопасность, распределенные вычисления позволяют не только ускорить обработку данных, но и обезопасить их работу. «Чаще всего технологии Big Data строятся на кластерных подходах. Данные в кластере несколько раз продублированы, поэтому выход из строя нескольких узлов не приводит к потере данных», — говорит Андрей Пивоваров. «Гибкость выполнения ИТ-операций обеспечивает быстрое преобразование исходных данных в ценную для бизнеса информацию, поэтому проверка новых гипотез относительно сохранения конкурентоспособности будет выполняться быстрее, чем когда-либо ранее, и при этом сохраняется привычная надежность и безопасность используемого инструментария», — добавляет Антон Гостев.

Цена или риск — что мешает развитию BD?

По мнению экспертов, говорить о каком-либо прорыве на рынке BigData в России в целом и Сибири в частности пока преждевременно, если учесть объем необходимых для этого инвестиций и текущей экономической и политической ситуации. Основным фактором, сдерживающим сейчас распространение BD, как считает Сергей Кашин, является достаточно высокая стоимость таких проектов. Сегодня те, кто может извлечь выгоду из BD, — это представители «большого бизнеса»: добывающие компании, торговые сети, транспортные компании, а также государственные органы. Еще одна проблема, сильно мешающая распространению данной технологии, — выигрыш от вложения не гарантирован. «На рынке предлагаются готовые программно-аппаратные комплексы, позволяющие решать подобные задачи, но стоимость данных комплексов в разы выше варианта «собрать с помощью интегратора», что тоже настораживает людей, привыкших оценивать внедрение новых технологий в деньгах, которые эти технологии позволяют заработать», — констатирует Алексей Шовкун.

По его словам, в настоящий момент наблюдается активный интерес к своего рода «альтернативным BD», к информационно-аналитическим системам категории Business Intelligence (BI), которые, возможно, не дают таких больших мощностей, как BigData, но при этом позволяют руководителю принимать более взвешенные, обдуманные и правильные решения. «Потребность в визуализации данных, возможность интерактивного моделирования и внесения изменений в данные и их отображение сейчас осознается многими руководителями крупных компаний. И конечно же, в настоящий момент самыми популярными являются платформы, имеющие открытый код и community edition версию, для того чтобы получить первый эффект, а после «пробного» внедрения бесплатной версии уже осуществляется переход на коммерческую версию», — говорит Алексей Шовкун. По его словам, BI-системы (такие как TIBCO JasperSoft, Pentaho и Actuate BIRT) успешно работают как минимум в одной из известных сибирских компаний, некоторые используются даже в госсекторе и предоставляют руководителям инструменты для анализа текущей ситуации, с помощью которых можно с меньшим риском принимать те или иные управленческие решения. «Думаю, что следующим шагом будет переход к Big Data именно у этих компаний, все остальные сначала будут подтягиваться к использованию решений для аналитики по тем данным, которые в настоящий момент они собирают», — поясняет собеседник «КС». Свою роль должно сыграть и постоянное совершенствование технологий, в том числе «облачных», позволяющие открыть доступ к этим технологиям для максимального числа компаний, которые пока либо не могут позволить себе BD, либо не видят в этом смысла. «Основная помеха внедрениям — это как раз отсутствие у компаний идей, что можно сделать со своими данными. Наверное, не все могут быть инноваторами, — констатирует Андрей Пивоваров. — К счастью, в последнее время практически каждую неделю появляются новые примеры задач, успешно решаемых на самых разных предприятиях из разных индустрий. Вторая проблема, связанная с первой, — это собственно наличие по-настоящему Больших объемов данных».

Прямые поставки против местных продавцов

Определенное влияние на рынок способен оказать пересмотр модели продаж, который сейчас проводят многие вендоры. В частности, президент EMC в регионе EMEA Эдриан МакДональд объявил в 2014 году о начале прямого ввоза в Россию продукции компании. По его словам, схема ввоза продукции на локальные рынки через партнеров используется главным образом там, где себестоимость самостоятельного ввоза техники оказывается для EMC слишком высокой на фоне размера данного рынка, а Россия этот этап уже миновала. «Пришло время сделать наше присутствие в России более формализованным», — отметил Эдриан МакДональд. Сергей Кашин добавляет, что данная тенденция сейчас распространена довольно широко: «Это связано, с одной стороны, с активным развитием онлайновых инструментов, с другой — с желанием сократить за счет этого свои издержки. Используя новые технологии, продавать напрямую становится выгоднее, чем через посредников. Это позволит лучше взаимодействовать с рынком, и, возможно, повысит доступность продуктов, в том числе в ценовом отношении». Того же мнения придерживается генеральный директор информационно-аналитического агентства TelecomDaily Денис Кусков: прямые поставки могут способствовать не только снижению цены за счет сокращения числа посредников, но и перекрыть «серый» импорт», улучшив тем самым качество сервиса и поддержки со стороны производителя.

При этом не стоит понимать переход к прямым поставкам как отказ от дилерских сетей вообще. Близость поставщика с точки зрения заказчиков может оказаться не менее важным фактором при выборе, чем сервис и гарантия. «То, за счет чего «выезжают» дилеры, — это оперативность и гибкость. Я уверен, что даже если все крупные вендоры перейдут к прямым продажам, местным дилерам бояться не стоит — они просто будут работать с другими поставщиками оборудования и легко убедят работать в этом своих заказчиков, — считает Алексей Шовкун. — В настоящий момент с технической точки зрения все оборудование и ПО практически эквивалентно их продукции по функционалу, и выбор конкретного вендора зачастую осуществляется конечным продавцом просто по принципу «удобно или неудобно работать». Фанатов конкретного бренда очень мало, это неэффективно, а неэффективные менеджеры долго не работают».

В целом, по мнению экспертов, рынок BD в России все еще находится в стадии формирования. Сейчас в нем действует лишь несколько десятков проектов, причем некоторые из них носят пилотный характер, а кое-какие и вовсе находятся на этапе запуска, но не стоит забывать и о том, что несколько лет назад не было даже и их. «Так что говорить о какой-либо сложившейся структуре рынка пока рано, все достаточно быстро меняется. Одно можно сказать точно — технологически многие проекты основываются на разработках Apache Software Foundation, которые сейчас задают основной вектор развития Big Data», — резюмирует Сергей Кашин. А по прогнозам Вадима Табакова, интерес к BD в нашей стране будет неуклонно расти по крайней мере от четырех до пяти ближайших лет.

ПРЯМАЯ РЕЧЬ:

Гаяне Арутюнян, архитектор решений по бизнес-аналитике IBM в России и СНГ:

На сегодняшний день мы часто сталкиваемся с тем, что заказчики подвергают сомнению достоверность данных, содержащихся в их базах. Большие сложности возникают в процессе интеграции систем и выгрузки данных в едином формате. Кроме того, многие финансовые учреждения сталкиваются со сложностью создания единого хранилища данных и согласования внутри компании так называемого "золотого стандарта данных" — эталонной модели. Для этого требуется тесное взаимодействия бизнес-подразделений и сотрудников ИТ, разрабатывающих хранилище, а также согласование бизнес-глоссария, приведение бизнес-процессов к единому понятийному аппарату.

Что же касается термина Big Data, я бы охарактеризовала его как достаточность информации для анализа, изучения и выявления закономерностей, связанных с предметом нашего изучения. Например, достаточное количество информации об истории клиента, бизнес-процесса, или информации о тенденциях на финансовом рынке, на основании чего мы сможем сделать полезные аналитические выводы и можем выявить закономерности или девиации.

Как показала практика, широта применения платформы Big Data всё еще находится в стадии развития, с каждым днём всё большее число заказчиков находит новые способы и алгоритмы для применения Big Data для анализа и развития своего бизнеса.

На данный момент на российском рынке представлен ряд компаний, предлагающих построение платформы Big Data. В классификации ниже эти компании разделены по типу предлагаемых ими услуг и продуктов:

1 Аппаратные вендоры, предлагающие набор компонентов, оптимизированных под аналитические задачи и нагрузки;

2 Производители аналитического программного обеспечения и компании, предлагающие инструменты для подготовки отчётов, скоринга и прогнозирования;

3 Молодые и интересные решения, которые подразумевают в себе экспертные системы, заточенные под узкие задачи в конкретных индустриях, и дающие максимальный видимый эффект своим пользователям.

Если же говорить о рентабельности, то сейчас на рынке появились компании, которые предлагают различные модели взаимодействия:

1. Вы заказываете нужное вам исследование/ аналитику с заранее заданными критериями;

2. Вам предоставляют готовую инфраструктуру, куда вы помещаете ваши данные и ряд инструментов (возможно через «облако»), используя которые вы анализируете имеющиеся у вас данные;

3. Построение платформы Big Data на своей площадке с привлечением специалистов по хранилищам данных и привлечение бизнес-экспертов для моделирования и описания бизнес правил и исключений, по которым может двигаться реальная жизнь. Это идеальная модель для крупных компаний, но и самая дорогостоящая.

Сейчас идёт активная наработка различных алгоритмов и создание экспертных систем. В скором времени мы ожидаем всплеск интереса к анализу больших данных как среди крупных компаний так и со стороны среднего бизнеса.

На наших глазах вырисовывается картина основных потребителей этой системы. Это компании розничной торговли, банки, телекоммуникационные операторы, отделы маркетинга крупных компаний, энергетические компании, управление городским хозяйством и др.

ОСТАВЬТЕ ОТВЕТ