BIG DATA. Вся технология в одной книге - Андреас Вайгенд (2017)
-
Год:2017
-
Название:BIG DATA. Вся технология в одной книге
-
Автор:
-
Жанр:
-
Серия:
-
Язык:Русский
-
Перевел:С. М. Богданов
-
Издательство:Эксмо
-
Страниц:50
-
ISBN:978-5-04-094117-9
-
Рейтинг:
-
Ваша оценка:
BIG DATA. Вся технология в одной книге - Андреас Вайгенд читать онлайн бесплатно полную версию книги
Переработка данных не превращает человека в товар в виде набора цифр, во всяком случае, это далеко не обязательно. Главное, что может почерпнуть из этой книги читатель, – это вывод о пользе обработки социальных данных для его собственных решений, а не только для рекламной кампании какой-нибудь мегакорпорации. Я считаю, что человека в равной степени определяют и создаваемая им информация, и принимаемые им решения. И ценность ваших данных для вас состоит именно в этом.
Исследование и использование
Процесс переработки данных подразумевает также компромисс между исследованием и использованием. Хочу перенести вас к рядам игральных автоматов в залитом неоновыми огнями Лас-Вегасе. В области искусственного интеллекта (то есть компьютерных программ, способных самообучаться на основе входящей информации) задача об «одноруком бандите» является в каком-то смысле коронной, примером дилеммы между поиском новых вариантов или использованием лучшего из известных[42]. Предположим, вы зашли в казино и узнали, что кто-то вроде бы выиграл целое состояние на одном из автоматов. Как вы поступите? Проведете остаток вечера у этого прославившегося автомата или же будете исследовать остальные в поисках еще более высоких шансов на джекпот? Разумеется, сбор данных о результативности всех автоматов потребует времени. Поскольку казино создаются ради прибыли, игры настроены так, чтобы клиенты в целом оставались в проигрыше. И в идеале, как учат теоретики вычислительных систем, вам придется в течение какого-то времени понаблюдать за работой автоматов, чтобы постараться обнаружить закономерность. И хотя статистик сможет порекомендовать, сколько времени нужно потратить на наблюдение за каждым из этих шумных устройств, у вас все равно останется выбор – или исследовать новые варианты, или использовать тот, который уже доказал свою результативность. Может показаться, что пример об «одноруком бандите» имеет мало общего с конечной продукцией инфопереработки, однако в списке рекомендаций для пользователей в качестве ключевой задачи значится как раз поддержание баланса между исследованием и использованием. Из этих соображений пользователь выбирает наиболее подходящую ему рекомендацию. И здесь аналогия с нефтью снова придется кстати. Геологи-нефтяники и инженеры оценивают альтернативу: стоит ли и дальше вкладывать значительные средства до полной выработки существующего месторождения или же переключиться на поиски новых, где добыча может обходиться не так дорого. Инфопереработчикам также приходится решать проблемы лучшего применения ресурсов для максимизации эффективности входящих и исходящих потоков данных. В том, что касается информации, главным параметром, который надлежит контролировать, является время пользователей.
Когда поисковик вроде Google выдает ответ на ваш запрос, перечень сайтов представляет не десятки одинаковых позиций, а предлагает различные варианты в рамках определенной степени релевантности предмету поиска. Иногда бывает понятно, что вам нужна информация о чем-то совершенно конкретном, например в случае, когда вы вводите в строку поиска словосочетание «Panthera onca». Но если вы введете в качестве предмета поиска просто «ягуар», то компьютер покажет вам не только то, что относится к представителю кошачьих, автомобилю или старой операционной системе компьютеров Mac[43]. Алгоритмы поисковой системы создают кластеры значений слова «ягуар» на основе количества слов на странице, связей между страницами и перемещениями пользователей между страницами и предлагают для изучения выборки из каждого такого кластера, чтобы обеспечить большую вероятность успеха вашего поиска.