Data Mining

Data Mining – (англ. «добыча данных») обнаружение в изначальном массиве Big Data скрытых знаний (данных, закономерностей), которые являются полезными и простыми в интерпретации, но не могут быть выявлены стандартными методами обработки данных.

Термин чаще всего используется без перевода, но также встречаются русскоязычные синонимы: добыча данных, извлечение данных, и особенно часто – интеллектуальный анализ данных. Data Mining широко используются в коммерческой сфере, для продвижения товаров и услуг, анализа целевой аудитории и так далее.

Скрытые знания это:

  • ранее неизвестные сведения, то есть абсолютно новые, а не подтверждающие уже имеющиеся данные;
  • нетривиальные – данные, которые нельзя определить простыми методами (например, визуально);
  • практически полезные и доступные для интерпретации – знания должны быть конкретными и легко применимыми в жизни.

Методы Data Mining

Математические алгоритмы, новейшие информационные технологии, кросс-дисциплинарные подходы — методы Data Mining ограничены только квалификацией и изобретательностью тех, кто их применяет. Примеры методов: искусственные нейронные сети, линейная регрессия, методы поиска ассоциативных правил и др. Если стандартные способы обработки данных позволяют проверить уже имеющиеся гипотезы, то Data Mining может эти гипотезы формулировать самостоятельно.

Наиболее ярким примером использования интеллектуального анализа данных может быть автоматическая система оценки кредитоспособности, широко применяемая разными банками. В торговле с помощью Data Mining возможны выбор целевой аудитории, анализ покупательской корзины, создание прогнозирующих моделей для различных категорий клиентов и использование других сложных данных в зависимости от примененных методов анализа.