Почему - Саманта Клейнберг (2017)

Почему
Писатель книжки общедоступно повествует, то что подобное причинно-следственная взаимосвязь, разъясняет, по какой причине я зачастую заблуждаемся во ее установлении, в базе тот или иной сведений возможно совершать верные заключения также осуществлять результативные постановления. Прочтя книжку, вам обучитесь исследовать сведение также обнаруживать причинно-следственные взаимосвязи, разъяснять далекое прошлое также прогнозировать перспективу. Книжка станет увлекательна специалистам, философам, изыскателям, врачам, экономистам, юристконсультам, новичкам научным работникам, абсолютно всем, кто именно обладает проблема со массивами сведений также желает обучиться опасному мышлению. В российском стиле публикуется в первый раз. Способен единица экспрессо продолжить жизнедеятельность? С кого вам заразились гриппом? Согласно каковым обстоятельствам увеличиваются стоимости в промоакции? Любой один раз, если вам подбираете оптимальную диету, обвиняете кого-в таком случае из-за испортившийые уик-энд либо берете на себя вложение постановления, немаловажно подразумевать, по какой причине совершаются эти либо другие предмета. Непосредственно понимание причинно-следственных взаимосвязей может помочь прогнозировать перспективу, разъяснять далекое прошлое также вторгаться во процесс происшествий.

Почему - Саманта Клейнберг читать онлайн бесплатно полную версию книги

Еще один вариант нерепрезентативности распределения, касающегося истинного набора зависимостей, – смещение выборки. Скажем, есть данные из больницы, куда включены диагнозы и результаты лабораторных испытаний. Однако один из тестов крайне дорогой, поэтому врачи просят сделать его только в том случае, если у пациента необычная картина болезни и другим способом диагноз поставить нельзя. В большинстве случаев тест дает положительный результат. Из этих наблюдений, однако, нельзя узнать истинную вероятность такого исхода, потому что тест заказывают только при высоких шансах на положительный ответ. По результатам медицинских проверок мы, как правило, видим лишь ограниченный диапазон данных – например, когда измерения делаются только у самых больных пациентов (как инвазивный мониторинг в отделении интенсивной терапии). Диапазон наблюдаемых значений включает заболевших, состояние которых достаточно плохое для проведения подобного мониторинга. Ситуация проблематичная, поскольку это значит, что, если мы выявим причинную зависимость для такой ограниченной группы, она может не быть истинной для населения в целом. Аналогично можно не распознать истинную зависимость из-за отсутствия в выборке вариации.

Это называется проблемой упущенных данных. К искажению могут приводить упущенные переменные, но и упущенные измерения действуют аналогично, формируя нерепрезентативные распределения относительно истинного базового распределения. Упущенные значения, как правило, не результат случайного их удаления из набора данных, скорее, они зависят от других измеренных и неизмеренных переменных.

К примеру, в больнице для проведения медицинской процедуры у пациента нужно отключить несколько мониторов (что приведет к пробелу в регистрации сведений), или данные не зафиксируются из-за сбоя аппаратуры. Возможно, сахар в крови будет замеряться с меньшими интервалами, если этот показатель выходит за пределы нормы, поэтому большие пробелы в измерениях не окажутся независимыми от фактических значений, а существующие значения могут отклоняться вплоть до экстремумов. Данные, упущенные из-за скрытой причины, способны вести к искажениям, в то время как сбой аппаратуры может означать, что и другие близкие измерения также ложны (и могут искажать результаты).

В действительности мы только допускаем, что распределения отражают истинную структуру, поскольку размер выборки становится достаточно большим. Если я звоню другу и в этот момент раздается звонок в дверь, трудно сказать, повторится ли снова эта ситуация. Но что если это случается 5 или 15 раз? В общем, мы допускаем, что по мере увеличения массива данных мы все ближе подходим к наблюдению истинного распределения событий. Если бросить монетку всего несколько раз, можно не увидеть равного распределения орлов и решек; но по мере того, как число бросков будет стремиться к бесконечности, распределение приблизится к соотношению 50/50. Здесь увеличение массива данных означает снижение вероятности необычной цепочки событий, которая не будет отражать истинные базовые вероятности (такие как последовательность бросков игральных костей, когда выпадают одни шестерки).

Мы делаем аналогичное допущение для причинного осмысления: у нас достаточно данных, и мы можем усмотреть реальную вероятность (а не аномалию) того, что следствие наступает после причины. Нетрудно возразить, что для некоторых систем, например нестационарных, даже бесконечно большой набор данных может не удовлетворять этому допущению, и стоит исходить из предположения, что со временем отношения останутся стабильными. Вспомним: термин «нестационарные» означает, что свойства (например, средняя дневная прибыль от ценной бумаги) со временем меняются. На рис. 6.3 скидки (временные ряды обозначены пунктиром) и покупки горячего шоколада (сплошные линии) фактически не коррелируют по составным временным рядам, однако сильно взаимосвязаны в период, показанный серым цветом (который обозначает зимний сезон).

Перейти
Наш сайт автоматически запоминает страницу, где вы остановились, вы можете продолжить чтение в любой момент
Оставить комментарий