Шесть проблем больших данных и способы их решения с помощью облачной инфраструктуры
Роберт Брайант, архитектор предпродажных решений компании ClearScale, рассказывает на портале ITPro Today о том, как организации могут использовать облако для максимально эффективного использования своих больших данных.
Раскрытие потенциала больших данных, несомненно, имеет решающее значение для любой современной организации, стремящейся к успеху. Обилие ценных инсайтов, которые содержат большие данные о поведении потребителей, и их способность обогащать опыт клиентов, сокращать расходы, стимулировать рост доходов и способствовать развитию продуктов, неоспоримы.
Однако управление большими данными сопряжено со сложными проблемами, которые требуют тщательного внимания и опыта. Анализ больших объемов данных может быть сложной задачей, но она не является непреодолимой.
Ниже мы рассмотрим шесть основных проблем, связанных с большими данными, и узнаем, как облачная инфраструктура может их решить. Используя возможности облака, организации смогут справиться со сложностями управления большими данными и максимально использовать их потенциал для достижения успеха.
1. Рост объема данных
Мы постоянно слышим, что объем данных растет экспоненциально, и статистика подтверждает это. Forbes сообщил, что с 2010 по 2020 гг. объем данных, создаваемых, фиксируемых, копируемых и потребляемых в мире, увеличился с 1,2 трлн. гигабайт до 59 трлн. гигабайт. Между тем, IDC отметила, что объем данных, созданных в превысит объем данных, созданных за последние 30 лет.
Это большое количество данных, которые могут быть полезны для организаций. Но чтобы извлечь из них пользу, необходимо проделать большую работу. Это включает в себя их хранение, которое не является бесплатным. В этом может помочь перенос существующих серверов и систем хранения в облачную среду, а также такие решения, как программно-определяемое хранение, и такие методы, как сжатие, многоуровневое хранение и дедупликация для сокращения занимаемого пространства.
2. Интеграция данных
От страниц в социальных сетях, электронных писем и финансовых отчетов до датчиков устройств, спутниковых снимков и квитанций о доставке — данные могут поступать практически отовсюду. Какие-то из них могут быть структурированными. Какие-то — неструктурированными. А некоторые могут быть полуструктурированными. Задача компаний состоит в том, чтобы извлечь данные из всех различных источников, сделать их совместимыми и обеспечить единое представление, чтобы их можно было анализировать и использовать для создания содержательных отчетов.
Для интеграции данных можно использовать множество методов. То же самое касается программ и платформ, которые автоматизируют процесс интеграции данных для соединения и маршрутизации данных из исходных систем в целевые. Архитекторы интеграции данных также могут разрабатывать специализированные версии.
Выбор наиболее подходящих инструментов и методов интеграции данных требует определения тех, которые наилучшим образом соответствуют вашим требованиям к интеграции и профилю предприятия.
3. Синхронизация данных
Сбор данных из разрозненных источников означает, что копии данных могут мигрировать из разных источников по разным графикам и с разной скоростью. В результате они могут легко рассинхронизироваться с исходными системами, что затрудняет создание единой версии «правды» и приводит к возможности ошибочного анализа данных.
Попытки исправить ситуацию замедляют общую работу по анализу данных. Это может снизить ценность данных и аналитики, поскольку информация, как правило, имеет ценность только в том случае, если она получена своевременно.
К счастью, существует целый ряд методов для облегчения синхронизации данных. Также существует множество сервисов, которые могут автоматизировать и ускорить эти процессы. Лучшие из них могут также архивировать данные для высвобождения емкости хранения, реплицировать данные для обеспечения непрерывности бизнеса или передавать данные в облако для анализа и обработки.
Встроенные средства безопасности, такие как шифрование данных при передаче и проверка целостности данных при передаче и в состоянии покоя, являются обязательным условием. Возможность оптимизации использования пропускной способности сети и автоматического восстановления после сбоев сетевого подключения также являются плюсами.
4. Безопасность данных
Большие данные ценны не только для бизнеса, они являются горячим товаром для киберпреступников. Они настойчиво и часто успешно крадут данные и используют их в неблаговидных целях. Таким образом, это может стать проблемой конфиденциальности, а также проблемой предотвращения потери данных и снижения времени простоя.
Дело не в том, что организации не думают о защите данных. Проблема в том, что они могут не до конца понимать, что для этого необходим многосторонний, сквозной и постоянно обновляемый подход. Внимание должно быть сосредоточено как на ликвидации последствий утечки данных, так и на ее предотвращении. Это касается всего: от конечных точек, откуда поступают данные, хранилищ и озер данных, где они хранятся, до пользователей, которые взаимодействуют с данными.
Тактики, которые должны быть включены в комплексную стратегию безопасности данных, следующие:
— шифрование и разделение данных;
— управление идентификацией и авторизацией доступа;
— безопасность конечных точек;
— мониторинг в режиме реального времени;
— усиление облачных платформ;
— изоляция функций безопасности;
— защита сетевого периметра;
— использование фреймворков и архитектур, оптимизированных для безопасного хранения данных в облачных средах.
5. Требования к соответствию
Нормативные требования, отраслевые стандарты и правительственные постановления, касающиеся безопасности и конфиденциальности данных, являются сложными, мультиюрисдикционными и постоянно меняющимися. Огромный объем данных, которые компании должны собирать, хранить и обрабатывать, в результате чего конвейеры и системы хранения данных переполнены данными, делает выполнение требований по соответствию особенно сложным.
Прежде всего, необходимо быть в курсе всех текущих и актуальных требований к соответствию. При необходимости привлеките сторонних специалистов.
Соблюдение требований, связанных с данными, требует использования надежных и точных данных. Автоматизация и тиражирование процессов могут помочь обеспечить соответствие анализируемых данных этому критерию, а также облегчить составление отчетов по требованию. Другие полезные тактики включают использование систем обеспечения соответствия и администрирования, которые могут соединить несколько систем в организации для создания последовательного, проверяемого представления данных независимо от их местонахождения. Кроме того, централизованное управление конвейером данных может упростить администрирование.
6. Нехватка квалифицированного персонала
Еще одна серьезная проблема, с которой сталкиваются компании при использовании больших данных, — нехватка квалифицированного персонала. Аналитика больших данных требует уникального набора навыков, включая науку о данных, статистику, программирование и знания в предметной области. Однако существует значительная нехватка специалистов, обладающих этими специальными навыками. Это затрудняет эффективный анализ и извлечение инсайтов из данных. Этот дефицит создает узкое место в способности организаций использовать свои данные для принятия стратегических решений и инноваций.
Чтобы решить проблему нехватки квалифицированных кадров в области больших данных, компании могут инвестировать в программы обучения, семинары и сертификацию, чтобы вооружить своих сотрудников необходимыми навыками. Другой подход заключается в использовании внешнего опыта путем установления партнерских отношений с опытными фирмами, предоставляющими профессиональные услуги в области облачных вычислений. Это позволяет организациям использовать знания экспертов без необходимости долгосрочных обязательств или дорогостоящего найма новых сотрудников.
Несмотря на сложности, связанные с большими данными, включая рост объема данных, интеграцию, синхронизацию, безопасность, соответствие нормативным требованиям и нехватку специалистов, облако предоставляет ценные инструменты для преодоления этих препятствий. Используя разумное сочетание таких методов, как сжатие данных, специализированные инструменты интеграции, автоматическая синхронизация, надежные меры безопасности и соблюдение норм соответствия, компании могут извлечь огромную пользу из своих массивов данных. Путь к использованию больших данных сложен, но при наличии правильных стратегий и инструментов он может привести к эффективным инновациям.
Обработка больших данных: основные методы
Обработка больших данных в настоящее время с помощью обычных программных методов и аппаратных средств совершенно нерациональна, а зачастую невозможна, так как этого не позволяет огромный объем имеющейся информации. Впрочем, несколько эффективных методов для проведения подобных операций все же существует. Хотя и тут есть свои сложности.
Для каждого конкретного случая необходимо выбирать наиболее подходящий способ обработки данных, только тогда результаты окажутся удовлетворительными: и с технологической, и с экономической точки зрения. О принципах и проблемах этого процесса мы подробно рассказали ниже.
Определение Big Data, или больших данных
К большим данным относят информацию, чей объем может быть свыше сотни терабайтов и петабайтов. Причем такая информация регулярно обновляется. В качестве примеров можно привести данные, поступающие из контакт-центров, медиа социальных сетей, данные о торгах фондовых бирж и т. п. Также в понятие «большие данные» иногда включают способы и методики их обработки.
Если же говорить о терминологии, то «Big Data» подразумевает не только данные как таковые, но и принципы обработки больших данных, возможность дальнейшего их использования, порядок обнаружения конкретного информационного блока в больших массивах. Вопросы, связанные с такими процессами, не теряют своей актуальности. Их решение носит важный характер для тех систем, которые многие годы генерировали и копили различную информацию.
Определение Big Data, или больших данных
Существуют критерии информации, определенные в 2001 году Meta Group, которые позволяют оценить, соответствуют ли данные понятию Big Data или нет:
- Volume (объем) — примерно 1 Петабайт и выше.
- Velocity (скорость) — генерация, поступление и обработка данных с высокой скоростью.
- Variety (разнообразие)— разнородность данных, различные форматы и возможное отсутствие структурированности.
Скачивайте и используйте уже сегодня:
Топ-30 самых востребованных и высокооплачиваемых профессий 2023
Поможет разобраться в актуальной ситуации на рынке труда
Подборка 50+ бесплатных нейросетей для упрощения работы и увеличения заработка
Только проверенные нейросети с доступом из России и свободным использованием
ТОП-100 площадок для поиска работы от GeekBrains
Список проверенных ресурсов реальных вакансий с доходом от 210 000 ₽
Зачастую к этим параметрам добавляют еще два фактора:
- Variability (изменчивость) — разноплановая интенсивность поступления, которая влияет на выбор методик обработки.
- Value (значимость) — разница в уровне сложности получаемой информации. Так, данные, поступающие из сообщений в чат-боте интернет-магазинов, имеют один уровень сложности. А данные, которые выдают машины, отслеживающие сейсмическую активность планеты — совсем другой уровень.
Сбор и хранение больших данных перед обработкой
Ресурсы, выдающие большие данные могут быть весьма разнообразны. Например:
- интернет — социальные сети, блоки и сайты СМИ, интернет вещей (IoT) и т.п.;
- корпоративные источники — транзакции, архивы, базы данных и т. п.;
- устройства, собирающие информацию — GPS-сигналы автомобилей, метеорологическое оборудование и т.п.
Если в сжатой форме описывать процесс сбора и обработки большого массива данных, то стоит выделить основные этапы:
- постановка задачи для аналитической программы;
- программа осуществляет сбор данных с их параллельной подготовкой (декодировка, отсев мусора, удаление нерелевантной информации);
- выбор алгоритма анализа данных;
- обучение программы выбранному алгоритму с дальнейшим анализом обнаруженных закономерностей.
В большинстве случаев полученные необработанные данные хранятся в так называемом «озере данных» — Data Lake. Формат и уровень структуризации информации при этом может быть разнообразным:
- структурные (данные в виде строк и колонок);
- частично структурированные (логи, CSV, XML, JSON-файлы);
- неструктурированные (pdf-формат, формат документов и т. п.);
- бинарные (формат видео, аудио и изображения).
Инструментарий, позволяющий хранить и обрабатывать данные в Data Lake:
- Hadoop — пакет утилит и библиотек, используемый для построения систем, обрабатывающих, хранящих и анализирующих большие массивы нереляционных данных: данные датчиков, интернет-трафика, объектов JSON, файлов журналов, изображений и сообщений в соцсетях.
- HPPC (DAS) – суперкомпьютер, способный обрабатывать данные в режиме реального времени или в «пакетном состоянии». Реализован LexisNexis Risk Solutions.
- Storm — фреймворк Big Data, созданный для работы с информацией в режиме реального времени. Разработан на языке программирования Clojure.
- DataLake – помимо функции хранения, включает в себя и программную платформу (например, такую как Hadoop), а также определяет источники и методы пополнения данных, кластеры узлов хранения и обработки информации, управления, инструментов обучения. DataLake при необходимости масштабируется до многих сотен узлов без прекращения работы кластера.
Месторасположение «озера», как правило, находится в облаке. Так, около 72 % компаний при работе с Big Data предпочитают собственным серверам облачные. Это связано с тем, что обработка больших баз данных требует серьезные вычислительные мощности, в то время как облако значительно снижает стоимость работ. Именно по этой причине компании выбирают облачные хранилища .
Облако, напротив, не имеет ограничений по объему сохраняемых в нем данных. Следовательно, оно выгодно с точки зрения экономии средств для тех компаний, нагрузка которых быстро растет, а также бизнеса, связанного с тестами различных гипотез.
3 главных принципа работы с большими данными
Ключевыми положениями для работы с большими данными являются:
Горизонтальная адаптивность
Количество данных неограниченyо, поэтому обрабатывающая их система должна иметь способность к расширению: при возрастании объемов данных должно пропорционально увеличиваться количество оборудования для поддержания работоспособности всей системы.
Стабильность в работе при отказах
Горизонтальная адаптивность предполагает наличие большого числа машин в компьютерном узле. К примеру, кластер Hadoop насчитывает более 40 000 машин. Само собой, что периодически оборудование, изнашиваясь, будет подвержено поломкам. Системы обработки больших данных должны функционировать таким образом, чтобы безболезненно переживать возможные сбои.
Концентрация данных
В масштабных системах данные распределяются по большому количеству оборудования. Допустим, что местоположение данных — один сервер, а их обработка происходит на другом сервере. В этом случае затраты на передачу информации с одного сервера на другой могут превышать затраты на сам процесс обработки. Соответственно, чтобы этого избежать необходимо концентрировать данные на той же аппаратуре, на которой происходит обработка.
В настоящее время все системы, работающие с Big Data, соблюдают эти три положения. А чтобы их соблюдать, нужно разрабатывать соответствующие методики и технологии.
9 основных методов обработки больших данных
Принципы работы инструментов обработки больших данных могут иметь некоторые различия, которые зависят от исследуемой сферы.
- Машинное обучение
Этот метод анализ данных содержит в своей основе способность аналитической системы самостоятельно обучаться в процессе решения различных задач. Т.е. программе задается алгоритм, который позволяет ей учиться выявлять определенные закономерности. Сферы применения такого метода достаточно разнообразны — например, с помощью машинного обучения проводятся маркетинговые исследования, социальные сети предлагают подборку постов, происходит разработка медицинских программ.
- Нейросеть
Нейросеть используют для распознавания визуальных образов. Нейронные сети — это математические модели, отображенные программным кодом. Такие модели работают по принципу нейронной сети живого существа: получение информации — ее обработка и передача — выдача результата.
ТОП-100 площадок для поиска работы от GeekBrains
20 профессий 2023 года, с доходом от 150 000 рублей
Чек-лист «Как успешно пройти собеседование»
Чтобы зарегистрироваться на бесплатный интенсив и получить в подарок подборку файлов от GeekBrains, заполните информацию в открывшемся окне
- Технология Data Mining
Математик Григорий Пятецкий-Шапиро ввел этот термин в 1989 г. Метод подразумевает обнаружение определенных закономерностей в сырых данных с помощью интеллектуального анализа. Data Mining используют для:
- определения нетипичных данных в общем потоке информации посредством анализа отклонений;
- поиска идентичной информации в различных источниках с помощью ассоциаций;
- определения факторов влияния на заданный параметр через регрессионный анализ;
- распределения данных по группам со схожими характеристикам, т. е. классификация данных;
- разделения записей по заранее сформированным классам, т. е. кластеризация.
- Стратегия краудсорсинга
В некоторых ситуациях, когда нет экономической выгоды в разработке системы ИИ (искусственного интеллекта), для выполнения разовых работ привлекают большое количество людей. Они могут решить те задачи, с которыми компьютер не в состоянии справиться в одиночку. Примером может быть сбор и обработка данных социологического опроса. Такая информация может находиться в неоцифрованном виде, в ней могут быть допущены ошибки и сокращения. Такой формат будет понятен человеку, и он сможет организовать данные в тот вид, который будет читаем алгоритмами программ.
- Метод предиктивной аналитики
Другими словами, методика прогнозирования. Имея достаточный объем соответствующей информации, можно составить прогноз и ответить на вопрос «Как будут развиваться события?». Принцип предиктивной аналитики таков: сначала нужно исследовать данные за прошлый период; выявить закономерности или факторы, которые стали причиной результата; далее с помощью нейросети или математических вычислений создать модель, которая сможет производить прогнозирование.
Методика прогнозов используется в различных сферах. Например, предиктивная аналитика позволяет выявить и предотвратить мошеннические схемы в кредитовании или страховании. В медицине прогнозный анализ на основе данных о пациенте помогает определить его предрасположенность к каким-либо заболеваниям.
- Принцип статистического анализа
Суть метода заключается в сборе данных, их изучении на основе конкретных параметров и получении результата, выраженного, как правило, в процентах. У этого метода есть слабое звено — неточность данных в маленьких выборках. Поэтому для получения максимально точных результатов необходимо собирать большой объем исходных данных.
Принцип статистического анализа
Статистический анализ часто используют как часть другого способа обработки больших данных Big Data, например, в машинном обучении или предиктивной аналитике.
Некоторые маркетинговые методы исследования, например, А/В тестирование относятся к статистической аналитике. A/B testing чаще всего используют для увеличения конверсии, а само тестирование складывается из сравнения двух групп: контрольной — не подвергающейся изменениям, и второй группы, на которую оказывали какое-либо влияние (например, ей показывали другой формат рекламы). Такое тестирование позволяет понять, что улучшает целевые показатели.
Для получения статистических показателей используют:
- корреляционный анализ для определения взаимозависимости показателей;
- процентное соотношение итогов анализа;
- динамические ряды для оценки интенсивности изменений определенных условий в конкретный интервал времени;
- определение среднего показателя.
- Технология имитационного моделирования
Имитационное моделирование отличается от методики прогнозирования тем, что берутся в учет факторы, чье влияние на результат затруднительно отследить в реальных условиях. Т.е. выстраиваются модели с учетом гипотетических, а не реальных данных, и затем эти модели исследуют в виртуальной реальности.
Метод имитационных моделей применяют для анализа влияния разных обстоятельств на итоговый показатель. Например, в сфере продаж таким образом исследуют воздействие изменения цены, наличия предложений со скидками, количества продавцов и прочих условий. Различные вариации изменений помогают определить наиболее эффективную модель маркетинговой стратегии для внедрения в практику. Для такого рода моделирования необходимо использовать большое число возможных факторов, чтобы снизить риски недостоверности результатов.
- Метод визуализации аналитических данных
Для удобства оценки результатов анализа применяют визуализацию данных. Для реализации этого метода, при условии работы с большими данными, используют виртуальную реальность и «большие экраны». Основной плюс визуализации в том, что такой формат данных воспринимается лучше, чем текстовый, ведь до 90 % всей информации человек усваивает с помощью зрения.
Метод визуализации аналитических данных позволяет быстро воспринять и сравнить, например, уровни продаж в разных регионах, или оценить зависимость объемов продаж от снижения/увеличения стоимости товара.
- Метод смешения и интеграции данных
В подавляющем большинстве случаев Big Data получают из различных источников, соответственно, данные имеют разнородный формат. Загружать такие данные в одну базу бессмысленно, так как их параметры не имеют взаимного соотношения. Именно в таких случаях применяют смешение и интеграцию, то есть приводят все данные к единому виду.
Недостатки Big Data, о которых нельзя забывать
Анализ больших данных — удивительная штука. Но, как и любая другая новая технология, он несовершенен. Рассказываем о рисках, связанных с Big Data.
В последние несколько лет везде только и говорят, что о Big Data. Чаще всего в центре внимания оказываются удивительные преимущества, которые может принести использование этой технологии. Однако у всего этого есть и обратная сторона. Мы согласны с тем, что большие данные — это очень многообещающая технология. Но нельзя закрывать глаза на ряд возможных проблем, к которым запросто приведет повсеместное внедрение аналитического ПО.
Ничего личного!
Первый недостаток, который обычно приходит в голову критикам больших данных, — это вопрос сохранения собственной конфиденциальности.
Программы для анализа больших данных работают с огромными массивами информации. Чем эти данные уникальнее, а следовательно, «приватнее», тем более интересные выводы может из них сделать алгоритм. Другими словами, личные данные — это та самая «волшебная пыль», на которой работает Магия больших данных. Нередко эта пыль рассыпается и оседает в разных темных углах, тем самым нарушается чья-то конфиденциальность.
Вот вам интересное на вечер: 10 неожиданных проектов, связанных с Большими Данными — http://t.co/4JPk7EPDV0 pic.twitter.com/WtzGOxeGxB
— Kaspersky Lab (@Kaspersky_ru) April 3, 2015
Однако важно понимать, что на этом возможные негативные последствия не заканчиваются: есть целый список менее очевидных проблем, тесным и запутанным образом связанных между собой.
Это наука, детка (на самом деле — нет)
Одна из проблем состоит вот в чем: люди считают, что анализ больших данных — это наука. Однако в действительности аналитические алгоритмы куда ближе к инженерному делу, а не к науке, и это вовсе не одно и то же.
Попробуйте сравнить физику и ракеты. Физика — это, без сомнения, наука, в которой каждая гипотеза исследуется и доказывается как теоретически, так и на практике. И после этого выводы обязательно выдаются на суд научного сообщества, просто потому, что наука работает именно так.
Более того, наука всегда открыта — любой желающий может проверить каждый закон и каждую теорему. И стоит кому-то обнаружить весомый изъян в расчетах или выдвинуть новую, более убедительную теорию, как она тут же становится частью активного обсуждения, в которое вовлекаются все мэтры научного мира.
Ракеты же — это всего лишь инженерно-технические сооружения, созданные на базе определенных физических знаний. И, как вы наверняка знаете, если дизайн ракеты несовершенен, это может с легкостью привести к неприятностям, что регулярно и происходит.
Самые неприятные случаи использования больших данных: банки, страховщики, HR и другие: https://t.co/xPVSal0f7Q pic.twitter.com/ZNnrQRxEK4
— Kaspersky Lab (@Kaspersky_ru) August 25, 2015
С математикой не поспоришь. Правда ведь?
Из предыдущего пункта есть одно важное следствие: ложное чувство непогрешимости выводов компьютера. Вы же не можете спорить с «математически обоснованным» выводом, не так ли?
Не зная математику, использованную в алгоритме, невозможно оспорить справедливость сделанных расчетов. В теории провести независимую оценку могли бы профессиональные математики — если бы им дали доступ. Но могут ли они это сделать в действительности? Зачастую нет.
Черный ящик такой черный
Даже если у вас есть знания, опыт и время, которое вы готовы потратить на проверку того, как работает тот или иной алгоритм, вам вряд ли дадут это сделать. В большинстве случаев технологии анализа больших данных — это коммерческая тайна. Их исходный код закрыт.
В своем выступлении «Оружие математического поражения» математик и борец за права человека Кэти О’Нейл рассказала о том, как она пыталась исследовать методику оценки эффективности преподавателей на основе Big Data, которую применяют в США.
«Моя подруга, которая владеет средней школой в Нью-Йорке, решила изучить этот алгоритм. Это специализированная школа с углубленным изучением естественных наук и математики, потому она была уверена, что разберется с алгоритмом. Она запросила данные в министерстве образования — и знаете, что они сказали? «Ой, да вы ничего не поймете, это же математика!»
«Она настаивала и наконец получила брошюру, а после показала ее мне. Документ оказался слишком абстрактным для того, чтобы прояснить ситуацию. Так что я отправила запрос, опираясь на закон США о свободном доступе к информации, но получила отказ. Позднее я узнала, что научно-исследовательский центр в Мэдисоне, штат Висконсин, который разрабатывает эту аналитическую модель, заключил контракт, согласно условиям которого ни у кого нет права заглянуть внутрь алгоритма».
«Никто в министерстве образования Нью-Йорка не понимает, как работает эта модель. Учителя не знают, на каком основании им ставят те или иные оценки и что нужно сделать, чтобы их повысить, — им никто ничего не может и не хочет объяснить».
Что-то попадает внутрь, что-то другое — наружу
Поскольку механизм работы алгоритма непрозрачен, неясно и то, какие именно данные обрабатываются, а какие — остаются за бортом. Причем непонятно это не только нам с вами, но и оператору, который работает с программой и действует в соответствии с тем, какие она делает выводы.
Поэтому одни и те же данные могут повлиять на суждения человека дважды: когда они попадают в программу и когда оператор принимает решение. Кроме того, какая-то информация может никак не повлиять на результат, если оператор подумал, что она уже была использована в анализе, а алгоритм на самом деле этого не сделал.
К примеру, представьте, что полицейский попадает в криминальный район. Алгоритм предупреждает его, что человек перед ним с вероятностью 55% взломщик. В руках у этого человека подозрительный чемодан. Но учла ли программа при анализе этот факт? Возникает вопрос: делает ли наличие чемодана этого человека более подозрительным или нет?
Следует также учесть еще то, что в исходных данных может содержаться ошибка или вообще отсутствовать информация, критически важная для принятия правильного решения.
Стакан наполовину пуст или наполовину полон?
Выводы программы также не являются полностью прозрачными и могут быть неверно интерпретированы. Одни и те же цифры разные люди поймут по-разному. К примеру, вероятность в 30% — это много или мало? Ответ зависит от множества разных факторов, о которых мы можем даже и не подозревать.
Что еще хуже, этот процент вероятности может использоваться в конкурентной борьбе. К примеру, даже невысокая вероятность того, что тот или иной человек способен совершить преступление, конечно, не отправит его в тюрьму, но вполне может закрыть ему карьеру в некоторых учреждениях.
Похожие алгоритмы используют в госслужбах США, чтобы узнать, с какой вероятностью соискатель может допустить утечку. Так как за место борются множество людей, никого не обеспокоит тот факт, что некоторым кандидатам откажут просто потому, что для них эта вероятность оказалась чуть-чуть выше среднего.
Why Eugene Kaspersky has big problems with big data http://t.co/QPaWyddi via @itworldca cc: @e_kaspersky
— Kaspersky Lab (@kaspersky) May 22, 2012
Без предубеждений?
Все сказанное выше позволяет смело говорить, что одно из самых разрекламированных преимуществ больших данных — беспристрастность — на самом деле не работает. Решение, принятое человеком на базе расчетов, выполненных созданным людьми алгоритмом, все равно остается решением человека.
На него могли влиять те или иные предубеждения, а могли и не влиять. Проблема в том, что секретный алгоритм и непонятно какие вводные данные не позволяют вам точно сказать, было ли решение беспристрастным. И изменить ничего нельзя, ведь порядок жестко прописан в программном коде.
Недостатки больших данных, о которых нельзя забывать #BigData
Tweet
Добро пожаловать на темную сторону, Энакин
Еще один недостаток алгоритмов прогнозирования — это самосбывающиеся пророчества. К примеру, полиция Чикаго использует алгоритм, который определяет потенциально опасных подростков.
Полицейские решают за таким подростком «присматривать», навещают его дома и оказывают всякие другие «знаки внимания» со всей присущей им любезностью. Подросток понимает, что полиция уже относится к нему как к преступнику, хотя он ничего такого не делал, и начинает вести себя в соответствии с ожиданиями. В результате он действительно становится членом банды.
Конечно, проблема тут в большей степени в некорректном поведении сотрудников полиции. Но не будем забывать о том, что это алгоритмы дают им «научные основания» для подобных действий.
Или, как отметила Уитни Меррилл в своем докладе «Прогнозирование преступлений в мире больших данных», который прозвучал на Chaos Communication Congress 32: «Полицейский отправляется патрулировать, и алгоритм ему подсказывает, что в этом районе он с вероятностью 70% встретит взломщика. Найдет ли он взломщика только потому, что ему сказали: «Ты найдешь взломщика»?»
Не хотите участвовать? Не получится
Если какая-либо правительственная или коммерческая организация внедряет аналитическое ПО и вам это не нравится, вы не сможете просто сказать: «Мне надоело, я выхожу из игры». Никто не станет вас спрашивать, согласны ли вы стать частью такого исследования или нет. Более того, вам вообще вряд ли расскажут, что вы в нем участвуете.
Поймите меня правильно: я не говорю, что все эти недостатки должны заставить нас отказаться от продвинутых аналитических алгоритмов. Технологии Big Data сейчас в самом начале пути — они точно никуда не денутся и останутся с нами надолго. Тем не менее сейчас самое время обдумать все эти проблемы, пока не стало слишком поздно.
Нам нужны хорошо защищенные алгоритмы с прозрачными механизмами обработки данных. Необходимо допускать независимых исследователей к исходному коду, правительствам следует создать соответствующие законы. Также не помешает рассказывать людям, какие такие «математические штуки» за ними присматривают. И всем участникам процесса, конечно же, следует учиться на уже сделанных ошибках.
Защита Big Data: проблемы и решения
Новые технологии породили огромные массивы данных и возможность их обрабатывать. Появление Big Data стало воплощением давней мечты бизнеса — узнать всё о клиентах, конкурентах и тенденциях рынка. В следующем году, по данным исследователей Forrester, 100 % компаний, которые используют для принятия решений аналитику данных, внедрят у себя и обработку Big Data.
Среди главных преимуществ больших данных для бизнеса, по информации, полученной в результате опроса исследовательской компания The Economist Intelligence Unit и консалтинговой компании Accenture, можно выделить:
— поиск новых источников дохода (56 %);
— улучшение опыта клиентов (51 %);
— новые продукты и услуги (50 %);
— приток новых клиентов и сохранение лояльности старых (47 %).
Google, IBM, VISA, «Мегафон», ВТБ -24 — сложно найти крупную компанию, которая бы так или иначе не использовала технологии больших данных. Сбербанк — не исключение. Принимая во внимание перспективность этого направления, Big Data активно изучается и используется в Сбербанке. Технология помогает управлять рисками, бороться с мошенничеством, сегментировать и оценивать клиентскую кредитную способность, управлять персоналом, прогнозировать очереди в отделениях, рассчитывать бонусы для сотрудников и т. д.
В ноябре 2016 года Сбербанк запустил проект «Открытые данные», в рамках которого выложил в открытый доступ агрегированные обезличенные данные о финансовой активности своих клиентов: средние суммы и количество заявок на потребительские и ипотечные кредиты, средний размер и количество новых депозитов, суммы зарплат и пенсий и др. Подобная информация может быть полезна бизнес-аналитикам и маркетологам, кредитным аналитикам и риск-менеджерам, экономистам и социологам, а также другим группам исследователей. На её основе можно строить прогнозные и статистические модели. Они помогают понять, где лучше строить торговые точки, какие товары и услуги будут востребованы, как лучше обслуживать клиентов и т. д.
Безопасность обработки и хранения данных
По мнению специалистов службы кибербезопасности Сбербанка, безопасность обработки, хранения и передачи — важнейший аспект изучения Big Data: информация имеет цену, а ее утечки могут принести ощутимый ущерб бизнесу. Так, по данным европейской комиссии, опубликованным в докладе 2016 года The EU Data Protection Reform and Big Data: Factsheet, персональные данные европейских граждан (450 млн человек) к 2020 году будут оцениваться в один трлн евро. Как показывает исследование, доверие клиентов к компании напрямую зависит от надежности защиты их данных. При утечке бизнес может потерять доверие и деньги клиентов и приобрести проблемы с регуляторами. А это штрафы, приостановка деятельности и судебные преследования.
За последних три года в топ компаний, пострадавших от утечек информации, вошли Yahoo (утечка данных — более 500 млн клиентов), The Home Depot (50 млн владельцев пластиковых карт), Target (70 млн владельцев кредитных и дебетовых карт).
Hadoop
Существует несколько дистрибутивов Hadoop: Hortoworks, Cloudera, MapR, IBM BigInsights и т. д. Hadoop пользуется огромной популярностью, в том числе у таких IT-гигантов, как Facebook, Alibaba, Amazon, Linkedin, eBay. Причина кроется в первую очередь в способности Hadoop без подготовки принять и проанализировать огромные массивы данных разной структуры из множества источников, а также в её производительности и доступности. Кроме того, в состав Hadoop входит файловая система HDFS, которая позволяет значительно снизить стоимость терабайта хранения данных. По сведениям журнала Readwrite, стоимость хранения терабайта в Hadoop в 2,5 раза ниже, чем в базах Oracle. Подсчёты экспертов Сбербанка показывают, что общая стоимость владения терабайтом информации в Hadoop в десятки раз ниже, чем у коммерческих производителей баз данных.
В процессе организации системы защиты больших данных специалисты службы кибербезопасности Сбербанка выделяют ряд проблем. Они связаны, во-первых, с особенностями Hadoop, которая, по сути, является не обычной классической базой данных, а файловой системой, организованной в так называемое «озеро данных», где хранятся данные из различных источников. При этом информация в таком озере физически распределена по кластеру серверов и доступна через различные интерфейсы (API) или прикладные слои, каждый из которых необходимо защищать. Во-вторых, с отсутствием регулирования больших данных в целом. И, в-третьих, с индивидуальными процессами по обработке больших данных и предоставлению доступа к ним.
Проблема № 1. Отсутствие практики по работе с Big Data и её защите
Big Data — это новая парадигма хранения и обработки данных. IT-службам может не хватить компетенций поддерживать и обслуживать новые технологии, так как на рынке нет достаточного количества готовых специалистов. Курсов и учебников по изучению технологии Big Data не существует. Для получения необходимых знаний нужно один-два года ежедневной работы с технологией, что несовместимо с текущей деятельностью специалистов. Службам ИБ также не всегда легко защищать новые технологии. Они не всегда понимают, что именно происходит внутри кластера с большими данными, каковы угрозы и уязвимости новых технологий. Методологии по защите ИС классической трёхзвенной архитектуры оказываются не применимы к новым технологиям. Возникает потребность в создании и подготовке нового класса IT- и ИБ-специалистов по работе с Big Data, что само по себе — достаточно дорогой и ресурсоёмкий процесс.
Специалисты по кибербезопасности Сбербанка рекомендуют:
· выделить в IT- и ИБ-службах отдельные подразделения, которые будут заниматься технологиями Big Data на постоянной основе;
· вовлекать специалистов всех уровней IT- и ИБ-служб с первого дня создания систем класса Big Data: разработчиков, администраторов, ИБ-специалистов, тестировщиков и т. д., чтобы опыт работы постепенно накапливался вместе с ростом системы;
· отправлять персонал на соответствующие курсы не реже одного раза в два года.
Проблема № 2. Отсутствие методологий по защите Big Data
Единой, принятой индустрией методологии обеспечения безопасности больших данных, которая могла бы помочь разработать и внедрить систему управления безопасностью больших данных, пока не существует. Различные организации публикуют свои методологии и рекомендации, однако уровня ISO пока ни одна из них не достигла. Специалисты по кибербезопасности Сбербанка рекомендуют обратить внимание на следующие из них:
· IBM: Top tips for Big Data Security;
· Oracle: Enterprise Security for Big Data Environments;
· Forrester: Big Data Security Strategies For Hadoop Enterprise Data Lakes;
· ENISA: Big Data Security: Good Practices and Recommendations on the Security of Big Data Systems;
· Сloud Security Alliance: Big Data Security and Privacy Handbook;
· Securosis: Securing Hadoop: Security Recommendations for Hadoop Environment
· Cloudera: Cloudera Security.
Во всех перечисленных методологиях есть свои недостатки. Общепринятых критериев выбора методологии не существует, т. к. в каждой организации свои индивидуальные процессы хранения и обработки данных, а методология описывает в том числе безопасность процессов работы с данными и т. д.
Проблема № 3. Отсутствие стандартов по защите Big Data
Кроме методологий по обеспечению защиты, отсутствуют стандарты, которые описывали бы полный перечень норм и правил по безопасности Big Data, что считается нормальной практикой в индустрии кибербезопасности. На сегодняшний момент над созданием стандартов работает несколько рабочих групп, например, WG9 под эгидой комитета ISO JTC 1 и Big Data Working group от сообщества Cloud Security Alliance. В США, помимо участия в международных сообществах, существует своя рабочая группа по безопасности Big Data — NIST SP1500-4: Big Data Security and Privacy.
Однако никто из них пока не опубликовал ни одного стандарта.
В своих исследованиях рабочие группы пришли к выводу, что меры обеспечения безопасности и конфиденциальности должны быть заложены в дизайн систем Big Data, а не появляться по мере их развития. Описания самих мер пока не существует.
Проблема № 4. Большая экосистема Big Data
Причина отсутствия стандартов кроется в огромных размерах экосистемы больших данных и скорости развития этого направления. Иными словами, экосистема Big Data чересчур активно развивается и слишком быстро растёт, что усложняет её стандартизацию.
Так, Apache Software Foundation ведёт десятки проектов по направлению Big Data. Кроме того, ПО для инфраструктуры, аналитики и приложений Big Data разрабатывают коммерческие производители.
Проблема № 5. Отсутствие регулирования Big Data
Есть законы о защите персональных данных, о банковской тайне,
о государственной тайне, о коммерческой тайне и т. д., но отсутствует государственное регулирование в области защиты больших данных. Эту проблему проанализировал старший научный сотрудник научно-учебной лаборатории по информационному праву Национального исследовательского университета «Высшая школа экономики»
А. И. Савельев в своей статье «Проблемы применения законодательства о персональных данных в эпоху Big Data». Автор пишет, что «Большие данные несовместимы
с принципом ограничения обработки персональных данных заранее определенными целями».
Сейчас отсутствуют какие-либо штрафы, которые могли бы заставить операторов Big Data внедрять меры безопасности. Как результат, отсутствует мотивация вкладывать средства в исследования и разработку по направлению безопасности. Некоторые государства только начинают задумываться о написании законов по регулированию больших данных. Пока не ясно, как законы по защите персональных данных и других видов тайны будут влиять на законы по регулированию хранения и обработки Big Data. Например, Президент России В. В. Путин по результатам форума «Интернет и экономика» в 2016 году поручил начать разработку закона о больших пользовательских данных. Рабочую группу по этому вопросу возглавляет глава компании InfoWatch Наталья Касперская.
Из-за существующих проблем компании вынуждены самостоятельно разрабатывать подходы к обеспечению безопасности Big Data, и Сбербанк не является исключением. Изучив все возможные решения, существующие на рынке, специалисты по кибербезопасности банка выработали свои методы и подходы к решению этой задачи. Так, разумно разделить безопасность больших данных на две фазы:
· идентификация и классификация информации (что защищать).
Задачи, которые нужно решить в ходе этой фазы — выявить, классифицировать объекты защиты и проставить метки конфиденциальности данных. Критерии конфиденциальности данных компания должна разработать самостоятельно. Например, пароль или данные пластиковой карты можно считать конфиденциальными данными и удалить их из кластера. Чем больше конфиденциальных данных будет размещено в озере данных, тем сложнее будет разграничивать доступ к нему;
· безопасность (как защищать).
Задача, которая решается в этой фазе — применить меры обеспечения безопасности к объектам защиты. Например, административные, физические и технические меры обеспечения защиты. Требования к мерам защиты можно найти в различных сборниках стандартов, например, в ISO 27001.
Рис. 1. Методология защиты больших данных
Фаза «идентификация и классификация»
Идентификация и классификация информации. Идентификация и классификация должны производиться на постоянной основе с помощью автоматизированных средств. Необходимо организовать автоматизированную систему «паспорт данных» (или реестр данных), которая была бы централизованным хранилищем метаданных, об информации в кластере, уровне её конфиденциальности, политиках доступа и входа/выхода информации из кластера. Если в озере данных оказываются персональные данные, об этом нужно обязательно знать.
Составление «паспорта данных». После идентификации данных их следует классифицировать, то есть составить некий «паспорт данных», в котором будет в том числе метка о конфиденциальности.
Наименование базы данных, набора данных, файл, таблица или любой доверенный источник
Метка о конфиденциальности
Oracle, SAS, DB2, MSSQL, XML, CSV, JSON, Hive, XLS или flat-файл
Тип данных и их длина, размерность
Т. е. число, char, дата, char (20), и т. д.
ФИО или подразделение в компании, которое владеет данным в источнике
Описание контекста использования
Заказчики, проекты, описание ролей, использующие данные
Персональные данные, PCI DSS и т. д.
Частота составления данных или аналитики на основе данных
Все данные должны иметь метку о конфиденциальности. Чем больше конфиденциальных данных попадает в озеро данных, тем больше мер по обеспечению безопасности доступа к нему нужно применять. Высококонфиденциальные данные, такие как пароли, разумно удалить из озера данных или не допускать туда их попадания. Именно для того чтобы навести порядок в данных и дисциплинировать персонал, применяется «паспорт данных».
Реакция на метки о конфиденциальности:
Следует предотвращать попадание данных высокой конфиденциальности в озеро данных и удалять те из них, которые туда уже попали;
Следует контролировать доступ к данным. Конкретный набор мер каждая компания определяет исходя из своих задач;
Доступ можно не контролировать.
Фаза «защита»
После того как данные обнаружены и составлен их паспорт, то есть объект защиты известен и потребность в защите понятна, можно принимать меры к обеспечению его безопасности. Для этого компания может применять любую практику, исходя из своих задач. Однако специалисты по кибербезопасности Сбербанка рекомендуют обратить внимание на следующие аспекты:
Доступ. Одно из основных правил безопасности — это ограничение доступа до уровня, которого достаточно для выполнения своих рабочих задач. Контроль доступа подразумевает, что конкретный пользователь получает доступ к конкретным данным в определённое время. Для этого требуется внедрение механизмов аутентификации и проведение периодических проверок привилегий сотрудников. Например, Hadoop поддерживает специальный протокол Kerberos, который контролирует доступ к ресурсам Hadoop. Однако Kerberos не работает по умолчанию, и на его внедрение потребуется время и средства. Можно подключить и другие программные продукты, которые реализуют функциональность ролевого доступа, — Sentry, Apache Accumulo и др. При необходимости «точность» или гранулярность доступа к данным можно ограничить до уровня колонки или даже ячейки.
Инфраструктура. Сетевая изоляция кластера Hadoop
Кластер Hadoop, как правило, построен на базе ПО с открытым исходным кодом (open source). Традиционно в дизайн таких программных продуктов не заложена безопасность. Более того, в экосистему Big Data входит масса ПО с открытым исходным кодом, и такое ПО постоянно обновляется. Принимая во внимание эту динамику, качество open source и ценность данных, разумно изолировать кластер Hadoop на сетевом уровне, чтобы исключить несанкционированное сетевое взаимодействие.
Инфраструктура. Защищённое рабочее место
При работе в озере данных стоит создать «защищённое рабочее место» для аналитика данных с целью:
1) исключить возможность копирования данных из озера данных. В этом случае возможно применить виртуальные АРМ с соответствующими настройками;
2) протоколирование действий с данными, которые выполнял аналитик. Для этого можно интегрировать виртуальный АРМ аналитика со средствами протоколирования событий.
Мониторинг и аудит. Аудит подразумевает, что любая активность, происходящая в Hadoop, протоколируется. Для обеспечения безопасности данных необходимо протоколировать определённые события: трафик, активность пользователей и т. д., чтобы по событиям можно было восстановить картину инцидента. Нельзя защититься от атаки, если её не видно, поэтому мониторинг следует проводить централизованно, например, в SIEM-системе, чтобы в ней получить видимость работы приложений и паттерна трафика.
Устранение ценности данных. Если данные обесценить, то пропадёт их привлекательность — красть их станет неинтересно. Для «обесценивания» данных применяют различные методы абстракции, то есть шифрование, токенизацию, маскирование данных и даже их удаление. Методы и рекомендации по устранению ценности данных, но с сохранением их полезных свойств описаны в различных методологиях, например, в ISO 29100 Privacy Framework.
Проблема обеспечения безопасности хранения и обработки больших данных заключается именно в огромных массивах неструктурированных, разрозненных данных.
В условиях отсутствия методологии, стандартов и регуляторных мер по защите больших данных при разработке мер защиты больших данных специалисты службы кибербезопасности Сбербанка рекомендуют ответить на главный вопрос: «Как обеспечить защиту, если в кластер Hadoop ежедневно будет добавляться несколько гигабайт или терабайт информации?». При таких объёмах, скорости их добавления и разрозненности данных «ручные» меры защиты перестают работать. Поэтому следует разрабатывать и внедрять средства полной автоматизации процессов обеспечения и управления кибербезопасности.
Компаниям необходимо разработать процессный подход к анализу и обработке данных, а также автоматизировать процессы, касающиеся обеспечения безопасности больших данных в рамках устоявшихся практик. Автоматизация может включать в себя в том числе элементы машинного обучения (искусственный интеллект, ИИ). С помощью ИИ возможно извлекать из добавляемых в кластер данных признаки «конфиденциальности», выявлять паттерны, не характерные для нормальной работы с данными, составлять профили пользователей и фиксировать отклонения в работе пользователей от их нормального профиля поведения, то есть выявлять мотивы пользователей при работе с данными.
Опираясь на свой опыт в изучении вопросов обеспечения безопасной обработки и хранения больших данных, специалисты службы кибербезопасности Сбербанка считают автоматизацию процессов, касающихся обеспечения безопасности больших данных, наиболее перспективным направлением для решения этой задачи. Учитывая тот факт, что готовых решений на рынке не существует, то разумным выходом из этой ситуации становится собственная разработка такого решения, которую в настоящее время активно ведёт Сбербанк.