Big Data
Термин Big data обычно расшифровывают довольно просто – это огромный объем информации, часто бессистемной, которая хранится на каком либо цифровом носителе. Однако массив данных с приставкой «Биг» настолько велик, что привычными средствами структурирования и аналитики обработать его не представляется возможным.
Поэтому данным термином называют в большинстве случаев именно технологии поиска, обработки и применения неструктурированной информации в больших объемах.
История и статистика
Данное словосочетание появилось в 2008 году с легкой руки Клиффорда Линча. В спецвыпуске журнала Nature эксперт назвал взрывной рост потоков информации - big data.
В него он отнес любые массивы неоднородных данных свыше 150 Гб в сутки. Из статистических выкладок аналитических агентств в 2005 году мир оперировал 4-5 эксабайтами информации (4-5 миллиардов гигабайтов), через 5 лет объемы big data выросли до 0,19 зеттабайт (1 зеттабайт = 1024 эксабайтам). В 2012 году показатели возросли до 1,8 зеттабайтов, а в 2015 – до 7 зеттабайтов. Эксперты прогнозируют, что к 2020 году системы Big data будут оперировать 42-45 зеттабайтов информации.
До 2011 года технологии Big data рассматривались только в качестве научного анализа и практического применения ни имели. Однако объемы данных росли по экспоненте и проблема огромных массивов неструктурированной и неоднородной информации стала актуальной уже в начале 2012 года. Всплеск интереса к Big data хорошо виден в Google Trends.
К развитию нового направления подключились крупнейшие представители цифрового бизнеса – Microsoft, IBM, Oracle, EMC и другие. С 2014 года технологии Big data изучают в университетах, внедряют в прикладные науки – инженерию, физику, социологию.
Как работает технология Big Data?
Признаки Big Data
Не каждый массив информации достоин называться Big Data. Специалисты выделяют несколько важных признаков, которые присущи только глобальным объёмам информации.
Существует, так называемое «правило VVV - трёх V»:
1. Объем (Volume)
Данные измеряются по физической величине и занимаемому пространству на цифровом носителе. К «биг» относят массивы свыше 150 Гб в сутки.
2. Скорость, обновление (Velocity)
Информация регулярно обновляется и обрабатывается в реальном времени. Для этого необходимы интеллектуальные технологии больших данных.
3. Разнообразие (Variety)
Информация в массивах может иметь неоднородные форматы, быть структурированной частично, полностью и скапливаться бессистемно.
Например, социальные сети используют большие данные в виде текстов, видео, аудио, финансовых транзакций, картинок и прочего.
В современных системах дополнительно рассматривают ещё два фактора:
- Изменчивость (Variability) – потоки данных могут иметь пики и спады, сезонности, периодичность. Всплески неструктурированной информации сложны в управлении, требуют мощных технологий обработки.
- Значение данных (Value) – информация может иметь разную сложность для восприятия и переработки, что затрудняет работу интеллектуальным системам. Например, массив сообщений из соцсетей – это один уровень данных, а транзакционные операции – другой. Задача машин определить степень важности поступающей информации, чтобы быстро структурировать.
Принцип работы технологии big data основан на максимальном информировании пользователя о каком-либо предмете или явлении. Задача такого ознакомления с данными – помочь взвесить все «за» и «против», чтобы принять верное решение.
В интеллектуальных машинах на основе массива информации строится модель будущего, а дальше имитируются различные варианты и отслеживаются результаты.
Современные аналитические агентства запускают миллионы подобных симуляций, когда тестируют идею, предположение или решают проблему. Практически весь процесс автоматизирован.
Источники Big Data
К источникам big data относят:
- Интернет. Блоги, соцсети, сайты, СМИ и различные форумы
- Корпоративную информацию. Архивы, транзакции, базы данных
- Показания считывающих устройств. Метеорологические приборы, датчики сотовой связи и другие
Принципы работы с Big Data
Принципы работы с массивами данных включают три основных фактора:
- Расширяемость системы Под ней понимают обычно горизонтальную масштабируемость носителей информации. То есть выросли объемы входящих данных – увеличились мощность и количество серверов для их хранения.
- Устойчивость к отказу Повышать количество цифровых носителей, интеллектуальных машин соразмерно объемам данных можно до бесконечности. Но это не означает, что часть машин не будет выходить из строя, устаревать. Поэтому одним из факторов стабильной работы с большими данными является отказоустойчивость серверов.
- Локализация Отдельные массивы информации хранятся и обрабатываются в пределах одного выделенного сервера, чтобы экономить время, ресурсы, расходы на передачу данных.
Области применения
Чем больше мы знаем о конкретном предмете или явлении, тем точнее постигаем суть и можем прогнозировать будущее. Снимая и обрабатывая потоки данных с датчиков службы чрезвычайных ситуаций могут уменьшить влияние техногенных катастроф, в некоторых случаях даже предотвратить. Получая статистику через интернет каких-либо транзакционных операций и тому подобного, компании могут довольно точно предсказать спрос на продукцию
Приведем несколько примеров вне сферы бизнеса и маркетинга, как используются технологии Big Data:
- Здравоохранение. Структурированные и доступные знания о болезнях, больше вариантов лечения, больше информации о лекарственных препаратах – всё это позволяет бороться с такими болезнями, которые 40-50 лет назад считались неизлечимыми
- Предупреждение природных и техногенных катастроф. Максимально точный прогноз в этой сфере спасает тысячи жизней людей. Задача интеллектуальных машин собрать и обработать множество показаний датчиков и на их основе помочь людям определить дату и место возможного катаклизма
- Правоохранительные органы. Большие данные используются для прогнозирования всплеска криминала в разных странах и принятия сдерживающих мер, там, где этого требует ситуация
Методики анализа и обработки
К основным способам анализа больших массивов информации относят следующие:
- Глубинный анализ, классификация данных. Эти методики пришли из технологий работы с обычной структурированной информацией в небольших массивах
- Однако в новых условиях используются усовершенствованные математические алгоритмы, основанные на достижениях в цифровой сфере
- Краудсорсинг. В основе этой технологии возможность получать и обрабатывать потоки в миллиарды байт из множества источников. Конечное число «поставщиков» не ограничивается ничем, кроме мощности системы
- Сплит-тестирование. Из массива выбираются несколько элементов, которые сравниваются между собой поочередно «до» и «после» изменения. А\В тесты помогают определить, какие факторы оказывают наибольшее влияние на элементы. Например, с помощью сплит-тестирования можно провести огромное количество итераций постепенно приближаясь к достоверному результату
- Прогнозирование. Аналитики стараются заранее задать системе те или иные параметры и в дальнейшей проверять поведение объекта на основе поступления больших массивов информации
- Машинное обучение. Искусственный интеллект в перспективе способен поглощать и обрабатывать большие объемы несистематизированных данных, впоследствии используя их для самостоятельного обучения
- Анализ сетевой активности. Методики big data используются для исследования соцсетей, взаимоотношений между владельцами аккаунтов, групп, сообществами. На основе этого создаются целевые аудитории по интересам, геолокации, возрасту и прочим метрикам
Big Data в бизнесе и маркетинге
Стратегии развития бизнеса, маркетинговые мероприятия, реклама основаны на анализе и работе с имеющимися данными. Big Data позволяют обработать гигантские объемы данных и соответственно максимально точно скорректировать направление развития бренда, продукта, услуги.
Например, аукцион RTB в контекстной рекламе работают с big data, что позволяет эффективно рекламировать коммерческие предложения выделенной целевой аудитории, а не всем подряд.
Какие выгоды для бизнеса?
- Создание проектов, которые с высокой вероятностью станут востребованными у пользователей, покупателей
- Изучение и анализ требований клиентов к существующим сервисам компании. На основе выкладки можно скорректировать работу обслуживающего персонала
- Выявление лояльности и неудовлетворенности клиентской базы за счет анализа разнообразной информации из блогов, соцсетей и других источников
- Привлечение и удержание целевой аудитории благодаря аналитической работе с большими массивами информации
Технологии используют в прогнозировании популярности продуктов, например, с помощью сервиса Google.Trends и Яндекс.Вордстат (для России и СНГ).
Методики big data используют все крупные компании – IBM, Google, Facebook и финансовые корпорации – VISA, Master Card, а также министерства большинства стран мира.
Например, в Германии сократили выдачу пособий по безработице, высчитав, что часть граждан получают их без оснований. Так удалось вернуть в бюджет около 15 млрд. евро.
Недавний скандал с Facebook из-за утечки данных пользователей говорит о том, что объемы неструктурированной информации растут и даже крупнейшие представители бизнеса цифровой эры не всегда могут обеспечить их достаточную конфиденциальность.
Например, Master Card используют технологии Big Data для предотвращения мошеннических операций со счетами клиентов. Благодаря им удается ежегодно спасти от кражи более 3 млрд. долларов США.
В игровой сфере big data позволяет анализировать поведение игроков, выявлять предпочтения активной аудитории и на основе этого прогнозировать уровень интереса к игре.
Сегодня бизнес знает о своих клиентах больше, чем мы сами знаем о себе – поэтому рекламные кампании Coca-Cola и других корпораций имеют оглушительный успех.
Перспективы развития
В 2019 году важность понимания и непосредственной работы с огромными массивами информации возросла в 4-5 раз по сравнению с началом десятилетия.
С массовостью произошла интеграция big data в сферы малого и среднего бизнеса, стартапы:
- Облачные хранилища. Технологии хранения и работы с данными в онлайн-пространстве позволяет решить массу проблем малого и среднего бизнеса. Купить облако дешевле, чем содержать дата-центр, персонал сможет работать удаленно, не нужна аренда офиса и т.д.
- Глубокое обучение, искусственный интеллект. Аналитические машины имитируют человеческий мозг, то есть используются искусственные нейронные сети. Обучение происходит самостоятельно именно на основе больших массивов информации.
- Dark Data. Сбор и хранение не оцифрованных данных о компании, которые не имеют значимой роли для развития бизнеса, однако они нужны в техническом и законодательном планах.
- Блокчейн. Упрощение интернет-транзакций, снижение затрат на проведение этих операций.
- Системы самообслуживания. С 2016 года внедряются специальные платформы для малого и среднего бизнеса, где можно самостоятельно хранить и систематизировать данные.
Выводы
Мир развивается с огромной скоростью и объёмы обрабатываемой информации растут с каждым днём. Даже малому и среднему бизнесу не избежать плотного знакомства и работы с технологиями Big Data.