Big Data

Big Data – англ. «большие данные». Термин появился как альтернатива СУБД и стал одним из основных трендов IT-инфраструктуры, когда большинство гигантов индустрии – IBM, Microsoft, HP, Oracle и другие начали использовать это понятие в своих стратегиях. Под Big Data понимают огромный (сотни терабайт) массив данных, который нельзя обработать традиционными способами; иногда – инструменты и методы обработки этих данных.

Примеры источников Big Data: события RFID, сообщения в соцсетях, метеорологическая статистика, информация о местонахождении абонентов сетей мобильной сотовой связи и данные с устройств аудио-/видеорегистрации. Поэтому «большие данные» широко используются на производстве, в здравоохранении, госуправлении, интернет-бизнесе – в частности, при анализе целевой аудитории.

Характеристика

Признаки big data определяются как «три V»: Volume – объем (действительно большие); variety – разнородность, множество; velocity – скорость (необходимость очень быстрой обработки).

Большие данные чаще всего неструктурированные, и для их обработки нужны особые алгоритмы. К методам анализа больших данных относятся:

  • Data Mining («добыча данных») – комплекс подходов для обнаружения скрытых полезных знаний, которые не могут быть получены стандартными способами;
  • Crowdsourcing (crowd — «толпа», sourcing – использование в качестве источника) – решение значимых задач общими усилиями добровольцев, не состоящих в обязательном трудовом договоре и отношениях, координирующих деятельность при помощи инструментов IT;
  • Data Fusion & Integration («смешение и внедрение данных») – набор методов для соединения множества источников в рамках проведения глубокого анализа;
  • Machine Learning («машинное обучение») – подраздел исследований искусственного интеллекта, изучающий методы использования анализа статистики и получения прогнозов на основе базовых моделей;
  • распознавание образов (например, распознавание лиц в видоискателе фотоаппарата или видеокамеры);
  • пространственный анализ – использование топологии, геометрии и географии для построения данных;
  • визуализация данных – вывод аналитической информации в виде иллюстраций и диаграмм при помощи интерактивных инструментов и анимации для отслеживания результатов и построения фундамента дальнейшего мониторинга.

Хранение и анализ информации осуществляется на большом количестве серверов высокой производительности. Ключевой технологией является Hadoop, с открытым исходным кодом.

Так как количество информации со временем будет только увеличиваться, то сложность состоит не в том, чтобы получить данные, а в том как их обработать с максимальной пользой. В целом, процесс работы с Big Data включает в себя: сбор информации, ее структурирование, создание инсайтов и контекстов, разработка рекомендаций к действию. Еще до первого этапа важно четко определить цель работы: для чего именно нужны данные, к примеру – определение целевой аудитории продукта. Иначе есть риск получить массу сведений без понимания о том, как конкретно их можно использовать.