Почему - Саманта Клейнберг (2017)
-
Год:2017
-
Название:Почему
-
Автор:
-
Жанр:
-
Язык:Русский
-
Страниц:161
-
Рейтинг:
-
Ваша оценка:
Почему - Саманта Клейнберг читать онлайн бесплатно полную версию книги
Netflix, к примеру, может найти людей, которым нравятся те же фильмы, что и вам, и предложить вам киноленты, на которые эти люди дали хорошие отзывы. Именно это позволило ученым повторно идентифицировать людей в деидентифицированном наборе данных Netflix, воспользовавшись информацией из другого источника – IMDb[122], [123]. Алгоритмы вообще-то сложнее, чем те, о которых мы рассказали, но основная идея именно такова. Правда, эти компании не обязательно волнуют причины, по которым вы совершаете некие действия. Netflix может порекомендовать достаточно фильмов, которые вам понравятся, не потрудившись выяснить, что после напряженного дня вы смотрите только сериалы.
Есть, однако, немало примеров, когда предсказания, основанные на корреляциях, не оправдываются – даже если не уточнять, соответствуют ли соотношения причинным зависимостям. Одна из опасностей в том, что для любой корреляции между двумя переменными можно с большой вероятностью придумать ситуацию, когда такая взаимосвязь возникнет, а это ведет к ложной вере в результат.
Известен пример из области анализа данных, когда сведения о продажах в бакалейном магазине помогли выяснить, что люди часто покупают пиво и подгузники одновременно. Так возник миф, что мужчины, которые накануне выходных запасаются подгузниками, обязательно купят хоть немного пива в качестве награды за поход в магазин. Но, вернувшись в 2002 году к истокам этого случая, Дэниел Пауэр обнаружил, что изначальная корреляция ничего не говорила о гендерной принадлежности покупателей или в какой день недели совершались покупки. К тому же никогда не предпринимались попытки использовать ее для повышения прибыли – передвинув товары на полке магазина ближе друг к другу. Купленными товарами могли с тем же успехом оказаться попкорн и бумажные салфетки (для вечера перед телевизором) или яйца и таблетки от головной боли (для лечения похмелья).
Скажем, Amazon обнаружил сильную корреляцию между покупкой дисков с сериями телешоу, где действие происходит в колледже, и приобретением учебников для подготовки к экзамену по углубленной программе. Ясно, что продажи обоих товаров обеспечивают американские тинейджеры, но Amazon вполне может этого не выяснять, если единственная задача – дать рекомендации той же группе покупателей, на базе которой собирались маркетинговые данные. Если, однако, компания будет рекомендовать учебники покупателям из других стран, это не обеспечит вала продаж, поскольку такие экзамены сдают в основном ученики из США.
Итак, даже если корреляция истинна и надежна, она может оказаться бесполезной для прогнозирования, если мы попытаемся перенести ее на другую группу населения, не обладающую нужными свойствами для срабатывания взаимосвязи (подробнее об этом в главе 9). Корреляция ничего не говорит о том, почему эти предметы взаимосвязаны, то есть почему покупатели – именно конкретные подростки 16–17 лет, которые готовятся к экзаменам по углубленной программе, а также любят телешоу с персонажами такого же возраста. Значит, ее трудно применять для прогнозирования в других ситуациях.
Мы привели весьма однозначный пример, однако были и другие, с менее четким механизмом действия. В 1978 году спортивный журналист в шутку предложил новый индикатор фондового рынка: если команда Американской футбольной лиги выигрывает Супербоул[124], к концу года рынок упадет; если нет – пойдет вверх[125]. Нет никакой специфической причины, по которой между этими событиями должна быть связь, но, если взять все возможные индикаторы поведения рынка, именно этот работает достаточно часто, убеждая некритично настроенную аудиторию. И все же без понимания того, почему это срабатывает, мы никогда не сумеем предсказать, в какие годы конкретный паттерн даст сбой. Может ведь оказаться, что с того момента, как этот индикатор получил широкую известность, знание о корреляции (пусть и безосновательно возведенной в ранг достоверных) влияет на поведение.