Read more publications on Calaméo
Что такое большие данные?
Большие
данные (Big Datas)— это совокупность
технологий, которые призваны совершать три операции:
- обрабатывать
бо́льшие по сравнению со «стандартными» сценариями объемы данных
- уметь работать с быстро поступающими данными в очень больших объемах. То есть
данных не просто много, а их постоянно становится все больше и больше
- должны уметь работать со структурированными и плохо
структурированными данными параллельно в разных аспектах. Большие данные предполагают,
что на вход алгоритмы получают поток не всегда структурированной информации и
что из него можно извлечь больше чем одну идею.
Типичный пример больших данных — это информация, поступающая
с различных физических экспериментальных установок — например, с Большого
адронного коллайдера, который производит огромное количество данных и
делает это постоянно. Установка непрерывно выдает большие объемы данных, а
ученые с их помощью решают параллельно множество задач.
Почему это понятие появилось только сейчас?
Появление больших данных в публичном пространстве было
связано с тем, что эти данные затронули практически всех людей, а не только
научное сообщество, где подобные задачи решаются давно. В публичную сферу
технологии Big Data вышли, когда речь стала идти о вполне конкретном
числе — числе жителей планеты. 7 миллиардов, собирающихся в социальных сетях и
других проектах, которые соединяют людей - YouTube, Facebook, ВКонтакте,
где количество пользователей измеряется миллиардами, а количество операций, которые они
совершают одновременно, огромно. Поток данных в этом случае — это
пользовательские действия. Например, данные того же хостинга YouTube,
которые переливаются по сети в обе стороны. Под обработкой понимается не только
интерпретация, но и возможность правильно обработать каждое из этих действий,
то есть поместить его в нужное место и сделать так, чтобы эти данные каждому
пользователю были доступны быстро, поскольку социальные сети не терпят
ожидания.
|
Источники больших данных в современном мире |
Многое из того, что касается больших данных, подходов,
которые используются для их анализа, на самом деле существует довольно давно.
Например, обработка изображений с камер наблюдения, когда мы говорим не об
одной картинке, а о потоке данных. Или навигация роботов. Все это существует
десятки лет, просто сейчас задачи по обработке данных затронули гораздо большее
количество людей и идей.
Как используются большие данные?
Ориентация на клиента
Компания VidiMax
Отрасль: предоставление контента – фильмы.
|
Сервис VidiMax |
VidiMax – сервис, предоставляющий лицензированный доступ к
художественному и документальному кино, сериалам, мультфильмам, спортивным
трансляциям и телешоу. Доступен через смарт-ТВ, имеет около 1 млн.
пользователей. Для повышения лояльности пользователей во время бесплатного
пробного двухнедельного использования сервиса совместно с компанией E-Contenta
была внедрена рекомендательная система, появился блок персональных
рекомендаций.
Результат: фильмы в блоке персональных рекомендаций смотрят в 2,5 раза
чаще, чем фильмы в подборке из самых популярных фильмов.
Компания: Red Roof Inn.
Отрасль: гостиничный бизнес.
Зимой 2014 г. американская сеть гостиниц Red Roof Inn столкнулась со снижением
потока туристов в связи с суровой зимой и неблагоприятными погодными условиями.
Однако из-за таких погодных условий в аэропортах ежедневно отменяли большое
количество рейсов, пассажиры надолго оставались в аэропортах и нуждались в
гостинице. Используя открытые данные о погодных условиях и отмене рейсов,
компания смогла отправлять пассажирам задержанных рейсов персонализированные
предложения с контактными данными ближайшей к аэропорту гостиницы сети как раз
тогда, когда они были наиболее востребованы.
|
Гостиница Red Roof Inn |
Результат: дополнительный прирост выручки на 10% к предыдущему году даже в
условиях сниженного потока туристов.
Внутренняя оптимизация
Компания Union Pacific Railroad
Отрасль: транспорт.
Union Pacific Railroad – крупнейшая железнодорожная компания США, имеет более 8
тыс. локомотивов и владеет крупнейшей в США сетью железных дорог. На дне
каждого состава компании были установлены термометры, акустические и визуальные
сенсоры и другие датчики. Данные от них передаются в центр обработки по
волоконно-оптическим кабелям, протянутым вдоль сети железных дорог. Центр обработки
также получает данные о погодных условиях, данные о состоянии тормозных и
других систем, GPS-координаты составов. Собранные данные и построенные по ним
предиктивные модели позволяют отслеживать состояние колес и железнодорожного
полотна и предсказывать сход составов с рельсов за несколько дней или даже
недель до возможного инцидента. Этого времени достаточно для того, чтобы
оперативно устранить проблемы, избежать повреждений состава и задержки
остальных поездов.
|
Поезд компании Union Pacific |
Результат: компании удалось снизить число схождений составов с рельсов на
75% и избежать значительных потерь (ранее потери от одного схода с рельсов
могли достигать 40 млн. $).
Департамент полиции Лос-Анжелеса
Отрасль: государственный сектор – полиция.
Используя решения, разработанные компанией PredPol, полиция Лос-Анджелеса смогла
получать наиболее вероятное время и районы (с высокой точностью, порядка 50 кв.
м) совершения различных типов преступлений и для их предотвращения направлять
туда дополнительные силы полиции. Система использует исторические данные о
времени, типе и районе совершения преступлений, обрабатывает их с помощью
алгоритмов кластеризации в пространстве и во времени. Предсказательное
моделирование осуществляется с помощью математических моделей точечных
процессов. Никакие персональные данные находящихся в городе
людей и данные об их местонахождении при этом не используются, что позволяет
соблюсти требования приватности частной жизни. Снижение числа преступлений
привело к сокращению затрат в полиции, судебной системе и системе исполнения
наказаний.
|
Департамент полиции Лос-Анжелеса |
Результат: сокращение числа краж на 33%, снижение числа насильственных
преступлений на 21%.