BIG DATA. Вся технология в одной книге - Андреас Вайгенд (2017)
-
Год:2017
-
Название:BIG DATA. Вся технология в одной книге
-
Автор:
-
Жанр:
-
Серия:
-
Язык:Русский
-
Перевел:С. М. Богданов
-
Издательство:Эксмо
-
Страниц:50
-
ISBN:978-5-04-094117-9
-
Рейтинг:
-
Ваша оценка:
BIG DATA. Вся технология в одной книге - Андреас Вайгенд читать онлайн бесплатно полную версию книги
Людям нравится считать свои решения обоснованными. Возможность перечислить все «за» и «против» («Стоит ли принять предложение работы в другом городе или согласиться с конкурентным предложением моего нынешнего работодателя?»), сравнить варианты и выбрать то, что лучше соответствует ситуации, текущим целям и кажется наименее рискованным, придает уверенности. В прошлом люди собирали информацию, разговаривая с родными, друзьями, коллегами и наставниками. Они принимали решения в мире «небольших данных».
Сегодня можно обратиться к рейтингам удовлетворенности работой портала Glassdoor, где на условиях анонимности оценивают условия и оплату труда[46]. Там собраны отзывы сотрудников о более чем 400 000 компаний и ежегодно поступает более полумиллиона новых комментариев. Например, по компании Amazon собрано 8000 отзывов о работе, 8000 – о собеседованиях при приеме на работу и 14 000 – о зарплате. Человек, рассматривающий возможность работы в компании, получает доступ к значительно большему количеству информации о ней, чем когда-либо прежде, однако времени на то, чтобы ознакомиться со всеми 8000 отзывов и сравнить их с условиями своего нынешнего места работы, у него нет. Какие из этих отзывов достоверны, какие соответствуют рассматриваемой позиции? А если кто-то неверно понял вопрос или случайно кликнул более низкую оценку, чем хотел?
Ошибки свойственны любой информации. Во времена небольших данных люди, собиравшие информацию, считали своим долгом досконально разобраться в ней и лично вычистить и исправить ошибки. И это было очень хорошо, поскольку от информации, полученной от небольшого количества людей, иногда зависели решения, затрагивающие всю общину или даже целый штат. Ошибка в количестве заявок на пособие по безработице, полученных за неделю в каком-то штате (например, опечатка вроде «254» вместо «2541»), могла привести к искажению данных по безработице, которые в свою очередь влияют на государственную экономическую политику. Долгосрочное исследование тенденций занятости, которое проводит Статистическое управление министерства труда США, охватывает выборку примерно в 10 000 человек, то есть основывается на порядке цифр, сопоставимых с количеством отзывов сотрудников Amazon на Glassdoor[47].
Разумно предположить, что доля ошибочной информации не снижается пропорционально росту количества собранных данных. Если в наши дни мы имеем доступ к объему информации, в сто раз превышающему прежний, можно ожидать, что и количество ошибок в этом потоке увеличится в сто раз. Но теперь у нас нет возможности отслеживать и вычищать каждую ошибку в массиве информации.
Однако решение проблемы экспоненциального роста количества ошибочной информации содержится в самом факте экспоненциального роста объемов данных. Поскольку люди постоянно реагируют на продукцию инфопереработки созданием новых данных, алгоритмы могут учиться выявлять то, что может являться ошибкой ввода. Если в строке поиска ввести «Андреас Вайганд», Google поинтересуется, не имелся ли в виду «Андреас Вайгенд».