Big Data: большие возможности или большой обман

Сегодня мы решили поговорить о Big Data. Чаще всего основным определением больших данных считают известные «3V» (Volume, Velocity и Variety), которые ввел аналитик Gartner Дуг Лейни (Doug Laney) в 2001 году.

При этом иногда самым важным считают именно объем данных, что отчасти обусловлено самим названием. Поэтому многие задумываются только о том, данные какого размера можно считать большими. В этой статье мы решили выяснить, что на самом деле важно в больших данных помимо размера, как они появились, почему их критикуют и в каких сферах они успешно применяются.

Если говорить про размер Big Data, то, например, Дэвид Кантер (David Kanter), президент Real World Technologies, считает, что большими данные можно назвать, если они не помещаются в памяти сервера и весят больше 3 терабайт. Однако официальное определение Gartner намного объемнее и включает не только характеристики объема, скорости и разнообразия форматов. Большие данные определяются и как информационные ресурсы, которые требуют экономически эффективных и инновационных методов обработки для более глубокого понимания, принятия продуманных решений и автоматизации технологических процессов.

Поэтому аналитик Gartner Светлана Сикьюлар (Svetlana Sicular) призывает принимать во внимание все определение в целом, а не зацикливаться только на части с тремя “V”. Кстати, со временем число этих “V” выросло, и сегодня к характеристикам больших данных также относят Veracity, Validity, Volatility и Variability (достоверность, срок действия, волатильность и изменчивость).

Минутка истории

Но история больших данных начинается гораздо раньше. По версии одного из авторов Forbes, отправной точкой можно считать 1944 год, когда американский библиотекарь Фремонт Райдер (Fremont Rider) опубликовал свою работу The Scholar and the Future of the Research Library. Там он отметил, что фонды университетских библиотек в Америке увеличиваются в размерах в два раза каждые 16 лет и к 2040 библиотека Йельского университета будет содержать около 200 миллионов книг, для хранения которых понадобится почти 10 километров полок.

Согласно другому мнению, осознание проблемы слишком большого количества данных пришло раньше, еще в 1880 году в той же Америке, когда обработка информации и представление данных переписи населения в таблице заняло 8 лет. При этом по прогнозам обработка данных переписи 1890 года заняла бы еще больше времени, и результаты не были бы готовы даже до проведения новой переписи. Тогда проблему решила табулирующая машина, изобретенная Германом Холлеритом (Herman Hollerith) в 1881 году.

Сам термин Big Data был впервые (по данным электронной библиотеки Association for Computing Machinery) введен в 1997 году Майклом Коксом (Michael Cox) и Дэвидом Эллсвортом (David Ellsworth) на 8-й конференции IEEE по визуализации. Они назвали проблемой больших данных нехватку емкости основной памяти, локального и удаленного диска для выполнения виртуализации. А в 1998 году руководитель исследовательских работ в SGI Джон Мэши (John R. Mashey) на конференции USENIX использовал термин Big Data в его современном виде.

И хотя проблема хранения большого объема данных осознавалась давно и усилилась после появления интернета, переломным моментом стал 2003 год, за который было создано информации больше чем за все предыдущее время. Примерно в это же время выходит публикация Google File System о вычислительной концепции MapReduce, которая легла в основу Hadoop. Над этим инструментом в течении нескольких лет работал Дуг Каттинг (Doug Cutting) в рамках проекта Nutch, а в 2006 году Каттинг присоединился к Yahoo и Hadoop стал отдельным полноценным решением.

Можно сказать, что большие данные сделали возможным создание поисковых систем в том виде, в котором они существуют сейчас. Подробнее об этом можно почитать в статье Роберта Кринджли (Robert X. Cringely) или ее переводе на Хабре. Тогда большие данные действительно перевернули индустрию, позволив быстро выполнять поиск нужных страниц. Еще одна важная точка в истории Big Data — 2008 год, когда в журнале Nature большим данным дали современное определение как набору специальных методов и инструментов для обработки огромных объемов информации и представления её в виде, понятном пользователю.

Большие данные или большой обман?

В современном восприятии и понимании больших данных существует большая проблема — в связи с ростом популярности технологии она представляется панацеей и решением, которое должна внедрять любая уважающая себя компания. Кроме того, для многих людей большие данные являются синонимом Hadoop, а это наводит некоторые компании на мысль, что если обрабатывать данные с помощью этого инструмента, то они сразу становятся большими.

На самом деле выбор инструмента зависит не столько от размера данных (хотя и это может быть важно), сколько от конкретной задачи. При этом правильная постановка задачи может показать, что совсем необязательно прибегать к помощи больших данных и что простой анализ может оказаться намного эффективнее по временным и денежным затратам. Поэтому многие эксперты «ругают» феномен Big Data за то внимание, которое он к себе привлекает, вынуждая многие компании идти на поводу трендов и применять технологии, которые нужны далеко не всем.

Еще одно ожидание связано с тем, что большие данные — ключ к абсолютно всем знаниям. Но дело в том, что для извлечения информации нужно уметь составлять правильные запросы. Эксперт в области больших данных Бернард Мар (Bernard Marr) считает, что большинство проектов по использованию Big Data оканчиваются неудачей именно из-за того, что компании не могут сформулировать точную цель. Сам сбор данных сегодня ничего не значит, их хранение стало дешевле, чем уничтожение.

Некоторые даже считают, что Big Data на самом деле можно назвать большой ошибкой или большим обманом. Шквал критики обрушился на большие данные после нашумевшего провала Google Flu Trends, когда проект пропустил эпидемию 2013 года и исказил информацию о ней на 140%. Тогда ученые из Северо-Восточного, Гарвардского и Хьюстонского университетов раскритиковали инструмент, выявив, что за последние два года работы анализ чаще показывал неправильные результаты. Одна из причин — изменение самого поискового инструмента Google, что привело к сбору разрозненных данных.

Часто в результате анализа больших данных выявляются связи между событиями, которые на самом деле не могли никак повлиять друг на друга. Число ложных корреляций увеличивается с количеством анализируемых данных, и слишком много данных бывает так же плохо, как и слишком мало. Это не значит, что большие данные не работают, просто помимо компьютерного анализа необходимо привлекать к работе ученых и специалистов в определенной узкой области знаний, которые смогут разобраться, какие именно данные и результаты анализа представляют практическую ценность и могут использоваться для предсказания чего-либо.


P.S. Ещё несколько интересных материалов: