Почему - Саманта Клейнберг (2017)
-
Год:2017
-
Название:Почему
-
Автор:
-
Жанр:
-
Язык:Русский
-
Страниц:160
-
Рейтинг:
-
Ваша оценка:
Автор показывает, что такое причинно-следственная связь, поясняет, почему в ее определении мы часто ошибаемся, как можно принимать верные решения. Благодаря этой книге вы научитесь анализировать информацию, выявлять причинно-следственные связи, объединять прошлое, предсказывать будущее.
Книга будет интересна философам, аналитикам, экономистам, медикам, юристам, начинающим ученым.
Почему - Саманта Клейнберг читать онлайн бесплатно полную версию книги
Если вероятность лая при условии сигнала равна 1 и вероятность сигнала при условии электронного сообщения также равна 1 (так что оба события происходят, когда имеют место их причины), сигнал не приводит к независимости сообщения и лая, даже если согласно структуре это должно происходить.
Представьте, что вам известно только, получено сообщение или нет. Теперь вы также знаете статус других переменных, потому что, если есть сообщение, сигнал также звучит и ведет к лаю. Вы можете некорректно заключить, что сообщение напрямую становится причиной других переменных. Эта проблема, однако, свойственна не только графическим моделям, а вообще большинству вероятностных методов.
Итак, повторим. Причинность графическим моделям придают следующие допущения.
• Вероятность переменной зависит только от ее причин (причинное условие Маркова).
• Все общие причины измерены (достаточность).
• Данные, на основе которых мы получаем знание, точно представляют реальные зависимости (верность).
Есть и другие неявные допущения, обеспечивающие корректность причинно-следственных заключений (должно быть достаточно данных, переменные должны быть корректно представлены и т. д.), но три вышеназванных допущения чаще всего становятся предметом обсуждений и отражают основные различия между графами, которые представляют и не представляют причины.
От данных к графу
Скажем, о сотрудниках компании есть некоторые данные: о рабочих часах, отпусках, о производительности и тому подобное. Как найти сеть причинно-следственных связей между ними?[243]
Один из подходов – разработать меру для описания данных моделью, найти все возможные модели и выбрать одну с лучшим результатом. Это методы поиска и оценки[244]. Допустим, в массиве данных истинно единственное отношение: «отпуск есть причина продуктивности». Значит, модель с этим ребром должна иметь балл выше, чем имеющая и другие отношения или в которой это ребро направлено в обратную сторону (от продуктивности к отпуску). То есть граф на рис. 6.5 (а) должен иметь более высокую оценку.
Рис. 6.5. Если О → П, первый граф будет иметь самую высокую оценку
Имея только эти три переменные, можно перечислить все возможные графы, проверить каждый и сделать выбор. Но, чтобы выбрать, нужен способ рассчитать, какой из них лучше соответствует данным. Есть много оценочных функций[245], и в итоге всегда выявляется, насколько хорошо мы описываем данные, не подстраивая граф под помехи и специфические свойства конкретного набора. Мы можем идеально учесть каждую точку в наборе данных с очень сложной структурой, но, вместо того чтобы моделировать каждый бит помех, стоит найти модель, которая охватывает более общие взаимосвязи между ее переменными.
Итак, обычно имеется фактор, исключающий граф, когда тот становится слишком сложным. Однако мы не можем выбирать между всеми возможными графами. Для набора из 10 переменных существует более 1018 вероятных графов[246]. Это более чем в миллион раз превышает количество американской валюты[247]. При этом не стоит даже пытаться искать взаимосвязи между всеми акциями в индексе S&P 500[248]. Всего при 25 переменных количество возможных графов (свыше 10110) оставляет далеко позади число атомов во Вселенной (по прикидкам, их сравнительно мало – 1080)[249]. Ни при каких обстоятельствах нельзя протестировать их все, однако на практике это и не требуется. Мы можем выборочно сгенерировать столько, сколько возможно, и выбрать лучший, хотя с учетом их количества вряд ли вероятно, что мы натолкнемся как на раз на нужный. Вместо этого для алгоритмов проще задать некоторые индикаторы важности графов.