Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Эйден Эрец (2013)
-
Год:2013
-
Название:Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
-
Автор:
-
Жанр:
-
Серия:
-
Язык:Русский
-
Перевел:Павел Миронов
-
Издательство:АСТ
-
Страниц:31
-
ISBN:978-5-17-088935-8
-
Рейтинг:
-
Ваша оценка:
Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Эйден Эрец читать онлайн бесплатно полную версию книги
Google Books как база данных по своему масштабу не превышает любую другую базу в нашу эпоху цифровых средств передачи и хранения информации. Однако значительная часть того, что оцифровывает Google, не связана с современностью – в отличие от электронной почты, RSS-фидов и онлайновых игр, книги уходят в глубину веков. Поэтому данные проекта Google Books – это не просто большие, а еще и длинные данные[28].
Поскольку в книгах содержатся длинные данные, оцифрованные книги не ограничиваются описанием современной жизни, в отличие от большинства других больших массивов данных. Книги могут показать нам, как менялась наша цивилизация на протяжении довольно больших периодов времени – превышающих не только человеческую жизнь, но и жизни целых государств.
Книги представляют собой отличный массив данных еще и вот почему. Они охватывают широкий круг тем и демонстрируют различные точки зрения.
Об изучении масштабной коллекции книг можно думать как об изучении большого количества людей, многие из которых к моменту изучения уже мертвы. В исследованиях по истории и литературе книги, относящиеся к определенному времени и месту, становятся чуть ли не самыми важными источниками информации об этом времени и месте.
Это заставило нас предположить, что, изучив через цифровую линзу книги проекта Google, мы сможем создать новый «скоп» для изучения человеческой истории. И мы знали – сколько бы времени ни потребовалось, мы сможем изучить эти данные.
Больше данных – больше проблем
С большими данными появляются не только новые возможности для понимания окружающего мира, но и новые научные проблемы[29].
Первая серьезная проблема заключается в том, что большие данные и данные, которыми оперируют ученые, структурированы совершенно по-разному. Ученые предпочитают отвечать на тщательно сформулированные вопросы с помощью элегантных экспериментов, дающих воспроизводимые и точные результаты. Однако большие данные часто сопровождаются неразберихой. Типичный массив больших данных представляет собой смесь фактов и измерений, сделанных без какой-либо научной цели и с использованием далеко не универсальных процедур. Он изобилует ошибками и огромным количеством пугающих пробелов – например, недостающими элементами информации, важными для любого разумного ученого. Такие ошибки и упущения часто непоследовательны, даже в рамках единого массива данных. Это связано с тем, что большие массивы данных часто создаются путем объединения большого количества более мелких массивов данных. Очевидно, что некоторые из компонентов массивов данных более надежны, чем другие, и у каждого из них есть свои особенности. Хорошим примером может служить социальная сеть Facebook. Добавление людей «в друзья» может означать совершенно разное для разных людей. Кто-то делает это довольно свободно. Кто-то более осторожен. Некоторые добавляют в друзья коллег, другие этого не делают. Отчасти работа с большими данными как раз и требует, чтобы их хорошо понимали и учитывали все подобные особенности. Но настолько хорошо можно быть знакомым с петабайтом данных?