Решения IBM для анализа больших данных




Что такое большие данные?

Самое простое определение

Из названия можно предположить, что термин `большие данные` относится просто к управлению и анализу больших объемов данных. Согласно отчету McKinsey Institute `Большие данные: новый рубеж для инноваций, конкуренции и производительности` (Big data: The next frontier for innovation, competition and productivity), термин `большие данные` относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации. И мировые репозитарии данных, безусловно, продолжают расти. В представленном в середине 2011 г. отчете аналитической компании IDC `Исследование цифровой вселенной` (Digital Universe Study), подготовку которого спонсировала компания EMC, предсказывалось, что общий мировой объем созданных и реплицированных данных в 2011-м может составить около 1,8 зеттабайта (1,8 трлн. гигабайт) — примерно в 9 раз больше того, что было создано в 2006-м.

Более сложное определение

Тем не менее `большие данные` предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, — это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы получите ситуацию, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных.

Наилучшее определение

В сущности понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую формулировку: `Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности`.

История

Сама по себе концепция «больших данных» не нова, она возникла во времена мэйнфреймов и связанных с ними научных компьютерных вычислений[6]. Как известно, наукоемкие вычисление всегда отличались сложностью и обычно неразрывно связаны с необходимостью обработки больших объемов информации.

Вместе с тем, непосредственно термин «большие данные» появился в употреблении относительно недавно. Он относится к числу немногих названий, имеющих вполне достоверную дату своего рождения — 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?». Специальный номер подытоживал предшествующие дискуссии о роли данных в науке вообще и в электронной науке (e-science) в частности[7].

Можно выявить несколько причин, вызвавших новую волну интереса к большим данным. Объемы информации растут по экспоненциальному закону и ее львиная доля относится к неструктурированным данным. Другими словами, вопросы корректной интерпретации информационных потоков становятся все более актуальными и одновременно сложными. Реакция со стороны ИТ-рынка последовала незамедлительно – крупные игроки приобрели наиболее успешные узкоспециализированные компании и начали развивать инструменты для работы с большими данными, количество соответствующих стартапов и вовсе превосходит все мыслимые ожидания.

Наряду с ростом вычислительной мощности и развитием технологий хранения возможности анализа больших постепенно становятся доступными малому и среднему бизнесу и перестают быть исключительно прерогативой крупных компаний и научно-исследовательских центров. В немалой степени этому способствует развитие облачной модели вычислений.

Впрочем, с дальнейшим проникновением ИТ в бизнес-среду и повседневную жизнь каждого из нас подлежащие обработке информационные потоки продолжают непрерывно расти. И если сегодня большие данные – это петабайты, завтра придется оперировать с экзабайтами и т.д. Очевидно, что в обозримой перспективе инструменты для работы с такими гигантскими массивами информации все еще будут оставаться чрезмерно сложными и дорогими.

 

 

Несколько занимательных и показательных фактов:

 

 

· В 2010 году корпорации мира накопили 7 экзабайтов данных, на наших домашних ПК и ноутбуках хранится 6 экзабайтов информации.

· Всю музыку мира можно разместить на диске стоимостью 600 долл.

· В 2010 году в сетях операторов мобильной связи обслуживалось 5 млрд телефонов.

· Каждый месяц в сети Facebook выкладывается в открытый доступ 30 млрд новых источников информации.

· Ежегодно объемы хранимой информации вырастают на 40%, в то время как глобальные затраты на ИТ растут всего на 5%.

· По состоянию на апрель 2011 года в библиотеке Конгресса США хранилось 235 терабайт данных.

· Американские компании в 15 из 17 отраслей экономики располагают большими объемами данных, чем библиотека Конгресса США.

Методики анализа больших данных

Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики (например, машинное обучение). Список не претендует на полноту, однако в нем отражены наиболее востребованные в различных отраслях подходы. При этом следует понимать, что исследователи продолжают работать над созданием новых методик и совершенствованием существующих. Кроме того, некоторые из перечисленных них методик вовсе не обязательно применимы исключительно к большим данным и могут с успехом использоваться для меньших по объему массивов (например, A/B-тестирование, регрессионный анализ). Безусловно, чем более объемный и диверсифицируемый массив подвергается анализу, тем более точные и релевантные данные удается получить на выходе.

A/B testing. Методика, в которой контрольная выборка поочередно сравнивается с другими. Тем самым удается выявить оптимальную комбинацию показателей для достижения, например, наилучшей ответной реакции потребителей на маркетинговое предложение. Большие данные позволяют провести огромное количество итераций и таким образом получить статистически достоверный результат.

Association rule learning. Набор методик для выявления взаимосвязей, т.е. ассоциативных правил, между переменными величинами в больших массивах данных. Используется в data mining.

Classification. Набор методик, которые позволяет предсказать поведение потребителей в определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и проч.). Используется в data mining.

Cluster analysis. Статистический метод классификации объектов по группам за счет выявления наперед не известных общих признаков. Используется в data mining.

Crowdsourcing. Методика сбора данных из большого количества источников.

Data fusion and data integration. Набор методик, который позволяет анализировать комментарии пользователей социальных сетей и сопоставлять с результатами продаж в режиме реального времени.

Data mining. Набор методик, который позволяет определить наиболее восприимчивые для продвигаемого продукта или услуги категории потребителей, выявить особенности наиболее успешных работников, предсказать поведенческую модель потребителей.

Ensemble learning. В этом методе задействуется множество предикативных моделей за счет чего повышается качество сделанных прогнозов.

Genetic algorithms. В этой методике возможные решения представляют в виде `хромосом`, которые могут комбинироваться и мутировать. Как и в процессе естественной эволюции, выживает наиболее приспособленная особь.

Machine learning. Направление в информатике (исторически за ним закрепилось название `искусственный интеллект`), которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных.

Natural language processing (NLP). Набор заимствованных из информатики и лингвистики методик распознавания естественного языка человека.

Network analysis. Набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т.п.

Optimization. Набор численных методов для редизайна сложных систем и процессов для улучшения одного или нескольких показателей. Помогает в принятии стратегических решений, например, состава выводимой на рынок продуктовой линейки, проведении инвестиционного анализа и проч.

Pattern recognition. Набор методик с элементами самообучения для предсказания поведенческой модели потребителей.

Predictive modeling. Набор методик, которые позволяют создать математическую модель наперед заданного вероятного сценария развития событий. Например, анализ базы данных CRM-системы на предмет возможных условий, которые подтолкнут абоненты сменить провайдера.

Regression. Набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний. Используется в data mining.

Sentiment analysis. В основе методик оценки настроений потребителей лежат технологии распознавания естественного языка человека. Они позволяют вычленить из общего информационного потока сообщения, связанные с интересующим предметом (например, потребительским продуктом). Далее оценить полярность суждения (позитивное или негативное), степень эмоциональности и проч.

Signal processing. Заимствованный из радиотехники набор методик, который преследует цель распознавания сигнала на фоне шума и его дальнейшего анализа.

Spatial analysis. Набор отчасти заимствованных из статистики методик анализа пространственных данных – топологии местности, географических координат, геометрии объектов. Источником больших данных в этом случае часто выступают геоинформационные системы (ГИС).

Statistics. Наука о сборе, организации и интерпретации данных, включая разработку опросников и проведение экспериментов. Статистические методы часто применяются для оценочных суждений о взаимосвязях между теми или иными событиями.

Supervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных.

Simulation. Моделирование поведения сложных систем часто используется для прогнозирования, предсказания и проработки различных сценариев при планировании.

Time series analysis. Набор заимствованных из статистики и цифровой обработки сигналов методов анализа повторяющихся с течением времени последовательностей данных. Одни из очевидных применений – отслеживание рынка ценных бумаг или заболеваемости пациентов.

Unsupervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых массивах данных. Имеет общие черты с Cluster Analysis.

Visualization. Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов.

Облако тэгов

Каждому элементу в облаке тега присваивается определенный весовой коэффициент, который коррелирует с размером шрифта. В случае анализа текста величина весового коэффициента напрямую зависит от частоты употребления (цитирования) определенного слова или словосочетания. Позволяет читателю в сжатые сроки получить представление о ключевых моментах сколько угодно большого текста или набора текстов.

Кластерграмма

Метод визуализации, использующийся при кластерном анализе. Показывает как отдельные элементы множества данных соотносятся с кластерами по мере изменения их количества. Выбор оптимального количества кластеров – важная составляющая кластерного анализа.

Исторический поток

Помогает следить за эволюцией документа, над созданием которого работает одновременно большое количество авторов. В частности, это типичная ситуация для сервисов wiki и сайта tadviser в том числе. По горизонтальной оси откладывается время, по вертикальной – вклад каждого из соавторов, т.е. объем введенного текста. Каждому уникальному автору присваивается определенный цвет на диаграмме. Приведенная диаграмма – результат анализа для слова «ислам» в Википедии. Хорошо видно, как возрастала активность авторов с течением времени.

Пространственный поток

Эта диаграмма позволяет отслеживать пространственное распределение информации. Приведенная в качестве примера диаграмма построена с помощью сервиса New York Talk Exchange. Она визуализирует интенсивность обмена IP-трафиком между Нью-Йорком и другими городами мира. Чем ярче линия – тем больше данных передается за единицу времени. Таким легко, не составляет труда выделить регионы, наиболее близкие к Нью-Йорку в контексте информационного обмена.

 

Аналитический инструментарий

Некоторые из перечисленных в предыдущем подразделе подходов или определенную их совокупность позволяют реализовать на практике аналитические движки для работы с большими данными. Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать:

· 1010data; Компания предлагает услуги анализа больших данных практически без участия ИТ-профессионалов. Достатоно загрузить данные на защищенные серверы 1010data, после чего можно делать запросы со стандартного браузера, генерировать перекрестные таблицы, диаграммы и объединять их с другой финансовой, демографической или статистической информацией.

· Apache Chukwa; Система агрегации и анализа больших данных. Построена на основе Hadoop Distributed File System (HDFS) и платформы MapReduce. Таким образом, Chukwa наследует свойственные Hadoop масштабируемость и надежность. Включает мощный гибкий инструментарий для отображения результатов анализа.

· Apache Hadoop;

· Apache Hive; Хранилище данных для Apache Hadoop. Облегчает обобщение информации, нерегламентированные запросы и анализ больших объемов данных, размещенных в совместимых с Apache Hadoop файловых системах. Реализованный в Hive механизм позволяет осуществлять запросы на SQL-подобном языке HiveQL.

· Apache Pig!; Платформа для анализа больших объемов данных. Основной характерной особенностью, как и большинства аналогов, является хорошая распараллеливаемость вычислений.

· Jaspersoft;

· LexisNexis Risk Solutions HPCC Systems; HPCC (High Performance Computing Cluster) - суперкомпьютерная платформа с открытым кодом для обработки больших данных. Компания разработчик LexisNexis Risk Solutions позиционирует ее для решения сложных задач, связанных с оценкой рисков. Высокая производительность позволяет свести время вычисления результата до нескольких секунд.

· MapReduce;

· Revolution Analytics (на базе языка R для мат.статистики). База пользователей R уже превышает 2 млн специалистов и неуклонно продолжает расти. Фактически этот язык программирования сообщества ПО с открытым кодом становится стандартным инструментом для разработки систем вычислительной статистики и прогнозной аналитики. Revolution Analytics ставит перед собой задачу постепенно превратить R из узкоспециального академического приложения в промышленный стандарт для создания коммерческих продуктов.

Apache Hadoop является свободным Java фреймворком, поддерживающим выполнение распределённых приложений, работающих на больших кластерах, построенных на обычном оборудовании. Hadoop прозрачно предоставляет приложениям надёжность и быстродействие операций с данными. В Hadoop реализована вычислительная парадигма, известная как MapReduce. Согласно этой парадигме приложение разделяется на большое количество небольших заданий, каждое из которых может быть выполнено на любом из узлов кластера. В дополнение, предоставляется распределённая файловая система, использующая для хранения данных вычислительные узлы кластера, что позволяет достичь очень высокой агрегированной пропускной способности кластера. Эта система позволяет приложениям легко масштабироваться до уровня тысяч узлов и петабайт данных.

Источником вдохновения для разработчиков Hadoop послужили материалы по Google File System (GFS).

Hadoop является передовым проектом Apache, в его развитии участвует сообщество разработчиков со всего мира.

Проект Hadoop был назван в честь игрушечного слоненка ребёнка основателя проекта, Doug Cutting. Изначально проект разрабатывался как система для поддержки распределённых вычислений для проекта Nutch. Hadoop содержит платформу для распределённых вычислений, которая изначально была частью проекта Nutch. Она включает в себя Hadoop Distributed File System (HDFS) и реализацию map/reduce.

Согласно докладу (август 2011 года), опубликованному компанией Ventana Research, организации все шире используют систему Apache Hadoop для распределенной обработки данных, однако она не заменяет устоявшиеся технологии, а применяется наряду с ними.

Достоинство Hadoop — способность разбивать очень большие наборы данных на малые блоки, распределяемые по кластеру на основе стандартного оборудования для ускоренной обработки. Компании Facebook, Amazon, eBay и Yahoo, первыми начавшие пользоваться Hadoop, применяют технологию для анализа петабайтов неструктурированных данных, с которыми реляционные системы управления базами данных справлялись бы с трудом. По сведениям Ventana, сотрудники которой провели опрос в 160 с лишним компаниях, все больше предприятий применяют Hadoop для аналогичных целей. В большинстве из них система анализирует огромные объемы сгенерированной компьютерами информации — протоколов работы систем, поисковых результатов и контента социальных сетей. При этом в 66% организаций Hadoop выполняет ранее недоступные им функции анализа. Гораздо реже Hadoop используется для анализа традиционных структурированных данных — транзакций, сведений о клиентах, данных о звонках. Для этих случаев обычно по-прежнему применяются реляционные СУБД.

Решения IBM для анализа больших данных

20 марта 2012 года IBM представила три новые решения Smarter Analytics Signature Solutions для выявления фактов мошенничества, оценки рисков и анализа поведения потребителей. По оценкам IDC, компании потратят свыше $120 млрд до 2015 года на программно-аппаратные решения и сопутствующие сервисы, направленные на выявление скрытых закономерностей в «больших данных».

· Решение Anti-fraud, Waste & Abuse призвано обнаруживать в режиме реального времени факты мошенничества, связанные с уклонением от уплаты налогов и страховыми выплатами, тем самым предотвращая неправомочные выплаты денежных средств. Кроме этого, соответствующие службы страховых компаний и государственных служб получат оптимальные рекомендации по дальнейшему разрешению возникающих инцидентов. При незначительных нарушениях они могут ограничиваться отправкой письма с требованием вернуть платеж, при более серьезных – поступает предложение провести полноценное расследование.

· Решение Next Best Action должно помочь компаниям лучше узнать своих клиентов и выстроить с ними более содержательные взаимовыгодные отношения. Оно сможет проанализировать не только данные, накопленные в корпоративной CRM-системе, но и информацию из внешних источников, в частности, социальных сетей. Как следует из названия, результатом работы станет свод рекомендаций по дальнейшим действиям в зависимости от предпочтений и модели поведения отдельно взятого клиента.

· Предпосылкой для создания решения CFO Performance Insight стали чрезвычайно высокие темпы роста объемов финансовой информации в компаниях, – по данным IBM, на уровне 70% в год. Новый аналитический инструментарий позволяет учитывать финансовые показали предыдущих лет, проводить моделирование по принципу «что если» и на основе полученных данных строить прогнозы.

Представленные решения включают разнообразные продукты IBM и услуги подразделения Global Business Services (GBS). Например, Anti-Fraud, Waste & Abuse сочетает ПО прогнозной аналитики IBM SPSS, iLog для управления правилами, интеграционную платформу WebSphere и хранилище данных Netezza. В решениях CFO Performance и Next-Best Action главенствующая роль принадлежит IBM Cognos, причем в последнем случае бизнес-аналитическое ПО работает в тесной связке с InfoSphere Big Insights – платформой, построенной на базе Apache Hadoop.



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-08-20 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: