Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Эйден Эрец (2013)
-
Год:2013
-
Название:Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры
-
Автор:
-
Жанр:
-
Серия:
-
Язык:Русский
-
Перевел:Павел Миронов
-
Издательство:АСТ
-
Страниц:31
-
ISBN:978-5-17-088935-8
-
Рейтинг:
-
Ваша оценка:
Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Эйден Эрец читать онлайн бесплатно полную версию книги
И вот так Google начала проект по оцифровке каждой из когда-либо написанных книг – для того, чтобы собрать воедино всю мировую библиотеку и загрузить ее на жесткий диск компьютера.
Страницы Пейджа
Перед тем как Google смогла заняться покупкой и сканированием всех книг, компания нуждалась в списке, позволявшем понять, какие книги ей потребуются, а какие уже отсканированы. Поэтому Google собрала информацию о книжных каталогах из сотен библиотек и компаний, а затем объединила эти каталоги для создания списка, содержащего информацию о каждой из когда-либо написанных книг (или, точнее, о каждой книге, дожившей до наших дней. К примеру, в этот список не вошли книги, утраченные при пожаре в Александрийской библиотеке). Итоговый список включил 130 миллионов книг[80].
Затем компании нужно было приобрести и отсканировать каждую книгу. В некоторых случаях издатели отправляли компании книги сразу же после печати. Это позволяло Google сканировать книгу «с разрушением» – сотрудники разделяли книги на отдельные страницы, а затем очень быстро сканировали их одну за другой, сохраняя все изображения в цифровом формате, который можно было легко просматривать на компьютере. В случае всех остальных книг компания обратилась в библиотеки всего мира, проверяя полку за полкой и отдел за отделом. Как обычно, когда дело доходит до библиотек, книги нужно было вовремя вернуть – даже такая компания, как Google, не могла позволить себе платить штрафы за несвоевременный возврат. Поэтому Google разработала неразрушающую технологию. Она наняла на работу небольшую армию переворачивателей страниц, которые, наподобие Пейджа и Майер, целый день переворачивали страницы, в то время как мощные камеры фотографировали их содержимое[81]. За прошлое десятилетие этот эскадрон бесконечного сканирования перевернул примерно миллиард страниц. Время от времени на изображениях можно заметить след от пальца.
Наконец благодаря «оптическому распознаванию текста» (при котором компьютерная программа находит и распознает в изображении буквы и цифры) оцифрованные образы превращаются в сырой текст. В результате появляется текстовый файл (похожий на то, что вы создаете при печати в текстовом редакторе), содержащий всю книгу.
Усилия Google по оцифровке оказались невероятно успешными, и это был подлинный триумф логики 29-летнего миллиардера. Через 10 лет после того, как Пейдж перевернул первые страницы книги с Мариссой Майер, и через 9 лет после его публичного объявления о проекте Google оцифровала свыше 30 миллионов книг[82].
Проанализировать столь гигантскую коллекцию текстов было по силам лишь компьютеру. Если бы ее попытался прочитать один человек, то при умеренном темпе чтения в 200 слов в минуту, без перерыва на еду и сон, ему потребовалось бы не менее 20 000 лет[83].
Эти данные можно представить себе как выборку из общей популяции когда-либо опубликованных книг. Чтобы понять, насколько велика эта выборка, представьте себе, что количество когда-либо изданных книг (130 миллионов) примерно равно количеству избирателей, зарегистрированных в Соединенных Штатах (137 миллионов). В ходе опроса Института Гэллапа, опубликованного за пять дней до президентских выборов 2012 года, было опрошено 2700 потенциальных избирателей, то есть примерно 1 из 50 000[84]. База книг, собранная Google, включает в себя 30 миллионов книг, то есть около 1 из 4. И этот процесс продолжается – и формирует беспрецедентный список культурного наследия человечества.
Психология 29-летнего выпускника университета
Поскольку мы, очевидно, не имели достаточно времени для завершения задачи своими силами, было ясно, что нужно объединить усилия с Google. Но как?