«Correlation does not even imply correlation. That is, correlation in the data you happen to have does not necessarily imply correlation in the population of interest. Andrew Gelman»
«Корреляция не подразумевает причинность» — все слышали.
Но за этой фразой скрываются два разных вопроса:
Что подразумевает причинность? Какие условия нужны, чтобы из данных делать причинные выводы?
Что всё же подразумевает корреляция? Правда ли, что статистическая ассоциация «ничего не значит»?
На оба вопроса мы ответим — и ответы окажутся неожиданными.
Данные: коты $C$, гравитация $G$, удобное место $F$
| # | C | F | G |
|---|---|---|---|
| 1 | 1 | 1 | 1 |
| 2 | 1 | 1 | 1 |
| 3 | 1 | 1 | 1 |
| 4 | 1 | 1 | 0 |
| 5 | 1 | 1 | 0 |
| 6 | 1 | 1 | 0 |
| 7 | 0 | 1 | 1 |
| 8 | 0 | 1 | 0 |
| # | C | F | G |
|---|---|---|---|
| 9 | 1 | 0 | 0 |
| 10 | 1 | 0 | 0 |
| 11 | 1 | 0 | 0 |
| 12 | 0 | 0 | 0 |
| 13 | 0 | 0 | 0 |
| 14 | 0 | 0 | 0 |
| 15 | 1 | 0 | 1 |
| 16 | 0 | 0 | 1 |
| Cat | Not Cat | |
|---|---|---|
| Fit | 3/6 (50%) | 1/2 (50%) |
| Not | 1/4 (25%) | 1/4 (25%) |
| Total | 4/10 (40%) | 2/6 (33%) |
Без $F$: $C$ и $G$ коррелируют.
С $F$: корреляция исчезает.
$G \rightarrow F \rightarrow C$
Радиус окружности a в три раза больше радиуса b.
Окружность b катится вокруг a без проскальзывания.
Сколько оборотов совершит b?
| a) 3/2 | b) 3 |
| c) 6 | d) 9/2 |
| e) 9 |
Надеюсь, теперь вы увидели «пропавший» оборот. Достаточно было наблюдать за тем, от чего вас отвлекли — этот дополнительный оборот это оборот окружности b вокруг точки A.
Gambler’s Fallacy
H H H H H H H H H → следующий бросок?
Интуиция: «Решка давно не выпадала — пора!»
Реальность: $P(\text{T}) = 0.5$ всегда. Монета не помнит.
Clustering Illusion
Какая последовательность «случайнее»?
H T H T H T H T — выглядит подозрительно
H H H T T H H T — выглядит нормально
Обе одинаково вероятны: $\left(\tfrac{1}{2}\right)^8$
Сколько бросков нужно в среднем, чтобы первый раз получить подряд:
| Цель | Интуиция | Реальность |
|---|---|---|
HT (орёл, решка) |
4 | 4 |
HH (орёл, орёл) |
4 | 6 |
Почему HH требует больше бросков?
| После нужного H выпала «не та» монета | Что теряем? | |
|---|---|---|
| HH | H → T → старт с нуля | T бесполезен, предыдущий H потерян |
| HT | H → H → остаёмся в «есть H» | второй H = новый стартовый H |
При цели HT «лишний» H recycleится как новая отправная точка. При цели HH T полностью сбрасывает прогресс.
Структура мишени определяет, насколько «дорого» ошибиться — это не случайность.
Вероятность рака молочной железы у женщин после 40 лет — 1%.
Маммография: чувствительность 80%, ложноположительная ставка 9.6%.
Результат теста — положительный.
Какова вероятность, что у пациентки действительно рак?
Сформулируйте ответ, прежде чем листать дальше.
Из 1000 женщин:
| Рак (10) | Здорова (990) | |
|---|---|---|
| Тест + | 8 ✓ | 95 ✗ |
| Тест − | 2 | 895 |
Всего положительных: 103
Из них с раком: 8
$$P(\text{рак} \mid +) = \tfrac{8}{103} \approx \mathbf{7.8%}$$
Большинство врачей отвечают: ~80%
Они путают $P(+ \mid \text{рак})$ с $P(\text{рак} \mid +)$.
Это base rate neglect — игнорирование априорной вероятности (1%).
Тест «точный» — не значит что диагноз «точный». Даже хороший тест теряется в море здоровых при редкой болезни.
Смертность от Covid-27:
| Вакцина Ch27 | Вакцина S27 | |
|---|---|---|
| Лёгкое течение | 210/1400 (15%) | 5/50 (10%) |
| Тяжёлое течение | 30/100 (30%) | 100/500 (20%) |
| Итого | 240/1500 (16%) | 105/550 (19%) |
S27 лучше в каждой подгруппе, но хуже в целом. Как такое возможно?
Состояние C → выбор лечения T → смертность Y
Тяжёлым больным чаще назначают S27 (он дороже и ограничен). Тяжёлое состояние само по себе повышает смертность.
Вывод: нужно смотреть внутри подгрупп → S27 лучше.
Лечение T → состояние C → смертность Y
S27 создаёт очередь → пациенты ждут дольше → болезнь прогрессирует.
Вывод: смотреть в целом → Ch27 лучше.
Парадокс Симпсона — не парадокс, если есть причинная модель.
| Тип 1 | Тип 2 |
|---|---|
| Автономный запуск | Управляемая последовательность |
| Низкая нагрузка на РП | Высокая нагрузка на РП |
| Эвристики, привычка, модули | Декуплинг, симуляция, нормативы |
| Ответ «по умолчанию» | Может переопределить тип 1 |
Stanovich, K.E. (2011). Rationality and the Reflective Mind. Oxford UP.
Stanovich, K.E. (2011). Rationality and the Reflective Mind. Oxford UP.
Казалось бы: если цель — прогноз, зачем знать механизм?
Рассмотрим данные о курении и смертности:
Doll & Hill (1954). Mortality in relation to smoking. BMJ / PMC437139
Что будет, если слепо обучить модель на таких данных?
1. Нет объясняющей силы — модель укажет на курение как защитный фактор.
2. Неполная информация — ценные переменные («знает ли пациент о болезни») остаются незамеченными.
3. Нестабильность оценок — перегруппировка данных по времени меняет результаты кардинально.
4. Невозможность трансфера — данные Скандинавии: информирование и курение кажутся равнозначными. Перенос в Бангладеш — модель ломается.
Обратная причинность: люди, узнавшие о болезни, бросают курить.
Структура данных, а не сами данные — вот источник ошибки.
Мы последовательно разберём каждый из них:
Условная независимость: $X \perp Y \mid Z ;\Leftrightarrow; P(X,Y \mid Z{=}z) = P(X \mid Z{=}z),P(Y \mid Z{=}z) \quad \forall z$
Безусловная независимость: $X \perp Y$ — частный случай ($Z$ пусто).
Пример зависимости: $P(X{=}1)=\tfrac12$, $P(Y{=}1 \mid X{=}1)=0{,}9$, $P(Y{=}1 \mid X{=}0)=0{,}3$ → $X \not\perp Y$.
Наблюдаемое условное $P(Y \mid X{=}x)$ — доля $Y$ среди тех, у кого в данных $X{=}x$ (самовыбор / механизм порождения $X$ сохранён).
Интервенционное $P(Y \mid do(X{=}x))$ — распределение $Y$, если всем принудительно задали $X{=}x$.
Если истинная структура $X \rightarrow Y$ без скрытых общих причин, совпадает: $P(Y \mid X{=}x) = P(Y \mid do(X{=}x))$.
Идея: нас интересует только $X$, но данные содержат ещё и $Y$. Чтобы «убрать» $Y$ — суммируем по всем его значениям:
$$\boxed{P(X) = \sum_{y} P(X, Y{=}y)}$$
Пример: таблица совместного распределения
| $Y{=}0$ | $Y{=}1$ | $P(X)$ | |
|---|---|---|---|
| $X{=}0$ | 0.20 | 0.30 | 0.50 |
| $X{=}1$ | 0.15 | 0.35 | 0.50 |
| $P(Y)$ | 0.35 | 0.65 | 1.0 |
Строка $P(X)$ — сумма по строке. Столбец $P(Y)$ — сумма по столбцу.
Зачем нужно?
Связь с законом полной вероятности:
$$P(X) = \sum_y P(X \mid Y{=}y),P(Y{=}y)$$
Iuliia Averianova — «Условная независимость — основа байесовской сети»; Koller & Friedman, PGM (2009)
Маргинализация
не наблюдаем $Z$, суммируем
$$P(X,Y) = \sum_z P(X,Y,Z{=}z)$$
Условие
наблюдаем $Z{=}z$, входим в подвыборку
$$P(X,Y \mid Z{=}z)$$
Эффект противоположный в зависимости от структуры:
| Структура | Маргинализация по $Z$ | Условие на $Z$ |
|---|---|---|
| Коллайдер $X\to Z\leftarrow Y$ | $X \perp Y$ ✓ | $X \not\perp Y$ ✗ (открывает путь) |
| Развилка $X\leftarrow Z\to Y$ | $X \not\perp Y$ (смешение) | $X \perp Y$ ✓ (блокирует) |
Маргинализация — «не смотреть» на $Z$. Условие — «смотреть». В каузальном анализе это принципиально разные операции.
Переменные $Y$ (жёлтая), $R$ (красная), $B$ (синяя).
Вероятность = доля квадратиков в закрашенной области.
$R$ и $B$ зависимы попарно: $P(B \mid R) \neq P(B)$
Но условно независимы при $Y$:
$$P(R \cap B \mid Y) = P(R \mid Y) \cdot P(B \mid Y) = \left(\tfrac{1}{3}\right)^2$$
Добавление $Y$ полностью меняет картину.
Всего клеток: 36
Связь R и B (без условия):
$$P® = \tfrac{13}{36}, \quad P(B \mid R) = \tfrac{4}{13} \neq P(B) = \tfrac{11}{36}$$
Зависимы — знание о $R$ меняет вероятность $B$.
Условная независимость при $Y$:
Внутри жёлтой области ($Y$) — 9 клеток.
$$P(R \mid Y) = \tfrac{3}{9} = \tfrac{1}{3}, \quad P(B \mid Y) = \tfrac{3}{9} = \tfrac{1}{3}$$
$$P(R \cap B \mid Y) = \tfrac{1}{9} = \tfrac{1}{3} \cdot \tfrac{1}{3} \checkmark$$
Условие $Y$ «объясняет» связь между $R$ и $B$ — они перестают нести информацию друг о друге.
Если $A \not\perp B$ — в причинной структуре обязательно есть объяснение
Три базовых варианта:
+ в расширенном графе: медиаторы, коллайдеры, комбинации — но «просто так» зависимость не возникает
Ограничение: по одним наблюдениям принцип не различает эти случаи — они образуют класс наблюдаемой эквивалентности.
Истинный граф: $A \rightarrow B$
| Ситуация | $A \not\perp B$? |
|---|---|
| Наблюдение | ✓ |
| $do(A)$ — интервенция на причину | ✓ |
| $do(B)$ — интервенция на следствие | ✗ |
Почему так:
$do(B)$ «отрезает» входящие стрелки в $B$ — информации о $A$ в $B$ больше нет.
$do(A)$ оставляет стрелку $A \to B$ нетронутой — связь сохраняется.
Это делает эксперимент ($do$) главным инструментом проверки направления влияния.
Новый начальник смены хочет проверить связь 4 тумблеров T и 4 линий L.
День 1 — приходит в начале смены:
| T | L |
|---|---|
| 1 | 1 |
| 1 | 1 |
| 1 | 1 |
| 1 | 1 |
Все тумблеры включены, все линии работают.
День 2 — плановое обслуживание:
| T | L |
|---|---|
| 0 | 0 |
| 0 | 0 |
| 0 | 0 |
| 0 | 0 |
Тумблеры выключены, линии не работают.
Что можно заключить?
Три объяснения — одинаково совместимы с данными:
Ситуации AB и AC — наблюдаемые эквиваленты двух разных механизмов. Различить их можно только сравнив ненаблюдаемые состояния.
Физически переключим тумблер: $do(T)$
Case 3: $do(T=1)$
| do(T) | L |
|---|---|
| 1 | 1 |
| 1 | 1 |
| 1 | 1 |
| 1 | 1 |
Case 4: $do(T=0)$
| do(T) | L |
|---|---|
| 0 | 0 |
| 0 | 0 |
| 0 | 0 |
| 0 | 0 |
Если $T \rightarrow L$: линия реагирует → Cases 3 & 4 подтверждают.
Если $L \rightarrow T$: линия не реагирует на переключение тумблера — Cases 3 & 4 будут другими.
Интервенция на причину меняет следствие.
Теперь принудительно меняем линию: $do(L)$
Case 5: $do(L=1)$
| T | do(L) |
|---|---|
| 0 | 1 |
| 0 | 1 |
| 0 | 1 |
| 0 | 1 |
Case 6: $do(L=0)$
| T | do(L) |
|---|---|
| 1 | 0 |
| 1 | 0 |
| 1 | 0 |
| 1 | 0 |
Тумблер не реагирует на интервенцию в линию — значит $T \not\leftarrow L$.
Интервенция на следствие не меняет причину.
Чтобы однозначно исключить все механизмы — нужны минимум две интервенции.
| Механизм | $do(T)$ меняет $L$? | $do(L)$ меняет $T$? |
|---|---|---|
| $T \rightarrow L$ | Да | Нет |
| $L \rightarrow T$ | Нет | Да |
| Общая причина | Нет | Нет |
Разным механизмам соответствует одна проекция в наблюдаемых данных (Cases 1 & 2), но они различаются в контрфактических состояниях (Cases 3–6).
Причинно-следственный механизм — это полный набор всех контрфактических состояний системы.
Наблюдение: $P(B \mid A=1)$ — смотрим на B, когда видим A=1
Интервенция: $P(B \mid do{A=1})$ — принудительно устанавливаем A=1
Для истинной структуры $A \rightarrow B$:
$$P(B) \neq P(B \mid do{A=1}) \quad \text{(A влияет на B)}$$
$$P(A) = P(A \mid do{B=1}) \quad \text{(B не влияет на A)}$$
Эта асимметрия и отражает причинно-следственную связь.
| $P(B \mid do{A})$ | $P(A \mid do{B})$ | |
|---|---|---|
| $A \rightarrow B$ | меняется | не меняется |
| $B \rightarrow A$ | не меняется | меняется |
| Общая причина | не меняется | не меняется |
Нельзя различить все три по одному набору данных — нужны как минимум две интервенции.
Три причины скептицизма:
Но: это не означает бесполезности корреляции.
Корреляция (ассоциация) сужает класс допустимых причинных структур и в ряде случаев позволяет отбросить целые семейства графов — см. классы наблюдаемой эквивалентности например, коллайдер $X \to Y \leftarrow Z$ (края независимы, оба связаны с $Y$). Зато цепь с $Y$ как единственным посредником между $X$ и $Z$ ($X \to Y \to Z$ или $Z \to Y \to X$) при типичных предположениях (изолированная тройка, faithfulness) с маргинальной $X \perp Z$ несовместима — на концах цепи $X$ и $Z$ были бы зависимы.
$$\text{Graphical Model} ;\leftrightarrow; \text{Independence Set} ;\leftrightarrow; \text{Association Set}$$
$$\downarrow$$
$$\textbf{Identification} ;\longrightarrow; \textbf{Estimator} ;\longrightarrow; \textbf{Estimate}$$
Identification
Какие переменные контролировать? Можем ли мы отделить нужный эффект от остальных?
Ошибка → смещение неустранимо даже при бесконечной выборке.
Estimator
Верная ли функциональная форма? Адекватна ли метрика?
Ошибка → систематическое смещение оценки.
Estimate
Достаточно ли данных, чтобы отличить сигнал от шума?
Ошибка → высокая дисперсия, но смещения нет.
Ошибки идентификации — самые опасные: не исправляются накоплением данных.
$$\text{Graphical Model} ;\leftrightarrow; \text{Independence Set} ;\leftrightarrow; \text{Association Set}$$
Граф задаёт, кто чей родитель.
Рёбра = разрешённые зависимости.
Отсутствие ребра = запрет прямой связи.
Множество независимостей следует из структуры графа.
$X \perp Y \mid Z$ — если $Z$ d-разделяет $X$ и $Y$.
Статистические ассоциации — наблюдаемые корреляции.
Граф определяет, какие из них возможны, а какие — нет.
DAG делает предположения о зависимостях явными и проверяемыми по данным.
DAG (Directed Acyclic Graph) — визуализация причинных связей.
$$\text{Графическая модель} \leftrightarrow \text{Множество независимостей} \leftrightarrow \text{Статистические ассоциации}$$
Ключевое свойство — факторизация:
$$P(X_1, \ldots, X_n) = \prod_{i=1}^{n} P(X_i \mid Pa_i)$$
Где $Pa_i$ — родители (причины) узла $X_i$.
DAG делает предположения о причинности явными и проверяемыми.
Шаг 1. Условная вероятность:
$$P(A \mid B) = \frac{P(A,B)}{P(B)} ;\Rightarrow; P(A,B) = P(A\mid B),P(B)$$
Шаг 2. Правило цепного умножения (для $n$ переменных):
$$P(q_1,\ldots,q_n) = \prod_{i=1}^{n} P(q_i \mid q_{i-1},\ldots,q_1)$$
Совместное распределение всегда можно расписать через последовательные условные.
Шаг 3. В DAG родители $Pa_i$ — это все прямые причины $X_i$.
По структуре графа $X_i \perp \text{не-потомки} \mid Pa_i$, поэтому длинное условие сокращается:
$$P(q_i \mid q_{i-1},\ldots,q_1) ;\longrightarrow; P(X_i \mid Pa_i)$$
Обобщённая факторизация:
$$P(X_1,\ldots,X_n) = \prod_{i=1}^{n} P(X_i \mid Pa_i)$$
$$P(X_1,\ldots,X_5) = P(X_1);P(X_2\mid X_1);P(X_3);P(X_4\mid X_2,X_3);P(X_5\mid X_3,X_4)$$
$X_1, X_3$ — корни: безусловные вероятности. | $X_5$ не зависит от $X_1, X_2$ напрямую — граф это явно кодирует.
Причинная модель = набор совместных распределений.
Их всегда больше, чем переменных — включают все подмножества с интервенциями:
$$P(X,Y), \quad P(\text{do}(X), Y), \quad P(X, \text{do}(Y)), \ldots$$
Граф при интервенции на причину вложен в наблюдаемый граф.
При интервенции на следствие — нет. Это и есть асимметрия.
Три следствия для практики:
| Что знаем | Что можем |
|---|---|
| Граф | Выписать все допустимые независимости |
| Независимости из данных | Сузить пространство возможных графов |
| Граф + данные | Идентифицировать причинный эффект |
Граф без данных — предположение. Данные без графа — корреляция.
| # | X | Y | Z |
|---|
Это те же 16 наблюдений, что в примере с котами ($C, F, G$) — теперь как $X, Y, Z$.
Реальные данные из задачи на интервенции ($X, Y, Z$ — бинарные события).
Попробуйте:
| # | X | Y | Z |
|---|
Это те же 16 наблюдений, что в примере с котами ($C, F, G$) — теперь как $X, Y, Z$.
Попробуйте:
Частота $Y{=}1$ меняется после $do(Z)$?
Все возможные связи трёх переменных сводятся к двум случаям зависимости:
$$\text{(1)}\quad X_1 \perp X_3 \quad \text{и} \quad X_1 \not\perp X_3 \mid X_2$$
$$\text{(2)}\quad X_1 \perp X_3 \mid X_2 \quad \text{и} \quad X_1 \not\perp X_3$$
| Структура | Случай | Контроль на $X_2$ |
|---|---|---|
| Цепочка $X_1 \to X_2 \to X_3$ | (2) | закрывает путь |
| Развилка $X_1 \leftarrow X_2 \to X_3$ | (2) | закрывает путь |
| Коллайдер $X_1 \to X_2 \leftarrow X_3$ | (1) | открывает путь |
$$X_1 \longrightarrow X_2 \longrightarrow X_3$$
Без контроля на $X_2$:
$X_1 \not\perp X_3$ — коррелируют.
Информация «течёт» по цепочке.
При контроле на $X_2$:
$X_1 \perp X_3 \mid X_2$ — независимы.
Посредник «перекрыт» — поток разорван.
Пример: рост → вес → давление. Убрав из анализа вес, рост и давление снова «связаны».
$$X_1 \longleftarrow X_2 \longrightarrow X_3$$
Без контроля на $X_2$:
$X_1 \not\perp X_3$ — коррелируют.
Общая причина создаёт ложную связь.
При контроле на $X_2$:
$X_1 \perp X_3 \mid X_2$ — независимы.
Конфаундер «нейтрализован».
Пример: праздничный сезон → открытки И → украшения. Убрав сезон — связь исчезает.
$$X_1 \longrightarrow X_2 \longleftarrow X_3$$
Без контроля на $X_2$:
$X_1 \perp X_3$ — не коррелируют.
Путь по умолчанию закрыт.
При контроле на $X_2$:
$X_1 \not\perp X_3 \mid X_2$ — начинают коррелировать!
Контроль открывает ложный путь.
Единственная структура, где контроль вредит — добавление коллайдера в регрессию порождает ложную связь.
$A$ и $B$ — независимые причины. $AB$ — их общее следствие (коллайдер).
Ряд $A$: 0 1 0 1 0 1 0 1
Ряд $B$: 0 0 1 1 0 0 1 1
$A$ и $B$ независимы по построению.
$AB$: 0 0 0 1 0 0 0 1 1 1 0 1 1 1 0 1
| $A$ | $\neg A$ | |
|---|---|---|
| $B$ | $A \cap B = 1$ | $\neg A \cap B = 0$ |
| $\neg B$ | $A \cap \neg B = 0$ | $\neg A \cap \neg B = 0$ |
При отборе только $AB=1$:
пары ${1,1}$ и ${1,1}$ — сильная положит. корреляция
Отбор по следствию автоматически создаёт корреляцию между независимыми причинами.
| безусловно | \(X_1 \not\perp X_3\) |
| \(\mid X_2\) | \(X_1 \perp X_3\) |
| безусловно | \(X_1 \not\perp X_3\) |
| \(\mid X_2\) | \(X_1 \perp X_3\) |
| безусловно | \(X_1 \perp X_3\) |
| \(\mid X_2\) | \(X_1 \not\perp X_3\) |
Ровно 25 сценариев для трёх изолированных переменных. Графы в одном прямоугольнике — неразличимы по наблюдаемым данным. Коллайдеры и независимые пары идентифицируемы всегда. Остальное — нужны предположения или эксперименты.
Проблема: знания о структуре недостаточно для численной оценки эффекта.
Нужно выбрать — что включать в контроль:
| Тип контроля | Пример | Эффект |
|---|---|---|
| Хороший (конфаундер) | $Z \rightarrow X$, $Z \rightarrow Y$ | Блокирует ложную связь ✓ |
| Плохой (медиатор) | $X \rightarrow M \rightarrow Y$ | Блокирует причинный путь ✗ |
| Нейтральный | $Z \rightarrow X \rightarrow Y$ | Не нужен, не вредит |
$Z$ удовлетворяет back-door критерию для $(X, Y)$, если:
| Паттерн | Контроль на $B$ |
|---|---|
| Цепочка $A \to B \to C$ | блокирует ✓ |
| Развилка $A \leftarrow B \to C$ | блокирует ✓ |
| Коллайдер $A \to B \leftarrow C$ | открывает ✗ |
Back-door выполнен → линейная регрессия по скорректированным данным даёт причинный эффект.
✓ Хороший контроль
Блокирует ложные (backdoor) пути, не трогая причинный.
Конфаундер $Z$: $Z\to X$, $Z\to Y$. Контроль убирает смешение.
✗ Плохой контроль: медиатор
Блокирует сам причинный путь.
$X\to M\to Y$: контроль $M$ занижает или обнуляет $P(Y\mid do(X))$.
✗ Плохой контроль: коллайдер
Открывает ложный путь между $X$ и $Y$.
$X\to C\leftarrow Y$: $X\perp Y$ без контроля, но $X\not\perp Y\mid C$ — ложная связь.
Cinelli, C., Forney, A., Pearl, J. A Crash Course in Good and Bad Controls (2022)
✗ M-bias (бабочка)
$C$ не конфаундер — но контроль открывает ложный путь.
$A\to X$, $A\to C\leftarrow B$, $B\to Y$. $X$ и $Y$ независимы — контроль $C$ создаёт смешение через $A$ и $B$.
✗ Потомок исхода
Контроль $D$ (потомка $Y$) создаёт обратный поток.
$Y\to D$: контроль $D$ частично обусловливает $Y$ → смещает оценку $X\to Y$.
Практическое правило
| Тип | Контролировать? |
|---|---|
| Конфаундер $Z\to X$, $Z\to Y$ | ✓ Да |
| Медиатор $X\to M\to Y$ | ✗ Нет |
| Коллайдер $X\to C\leftarrow Y$ | ✗ Нет |
| Потомок коллайдера | ✗ Нет |
| M-bias узел $C$ | ✗ Нет |
| Потомок $Y$ | ✗ Нет |
| Инструментальная переменная | ○ Зависит |
Cinelli, C., Forney, A., Pearl, J. A Crash Course in Good and Bad Controls (2022)
Мы не можем одновременно наблюдать все альтернативные состояния.
$$Y_i(1) - Y_i(0) \text{ — ненаблюдаем напрямую}$$
Нужны предположения:
science Эксперименты
рандомизация устраняет конфаундинг
analytics Matching
контрфактуал из наблюдений
engineering Структурные
ограничиваем класс моделей
manage_search Частичная
bounds вместо точки
› Выбор стратегии — это дизайн исследования и допустимые предположения, а не объём данных.
| Уровень | Что нарушено | Пример ошибки |
|---|---|---|
| Верхняя онтология | правила причинного вывода | включили коллайдер в регрессию |
| Средняя онтология | модель конкретного механизма | предположили аддитивность там, где её нет |
| Нижняя онтология | качество измерений | повторных покупателей посчитали новыми |
Верхняя онтология — логическая ошибка: не зависит от данных и не исправляется их накоплением.
Средняя — ошибка контекста: неверно выбран гипотетический механизм.
Нижняя — ошибка данных: можно исправить протоколом сбора.
Все шесть ошибок — следствие игнорирования структуры.
Алгоритм Peter-Clark восстанавливает структуру DAG только из наблюдений — без экспериментов.
| Шаг | Действие |
|---|---|
| 1 | Полный граф — соединить все переменные |
| 2 | Попарная независимость — удалить рёбра между независимыми парами |
| 3 | Условная независимость — удалить рёбра, если $X \perp Y \mid Z$ |
| 4 | Ориентировать коллайдеры: если $X - Z - Y$ и $Z \notin Sep(X,Y)$, то $X \to Z \leftarrow Y$ |
| 5 | Ограничения: нет новых коллайдеров, нет циклов |
| 6 | Результат: частично ориентированный граф |
Данные сужают пространство возможных механизмов даже без экспериментов.
Что подразумевает причинность: контрфактические состояния, оператор $do()$, предположения о структуре, интервенции как наиболее надёжный источник свидетельств
Что говорит корреляция: исключает механизмы, идентифицирует коллайдеры и независимости, при минимальных предположениях восстанавливает структуру
Нормативные фреймворки: Наблюдаемый эквивалент, условная независимость, ассиметрия и контрфактические состояния
Stanovich, K.E. (2011). Rationality and the Reflective Mind. Oxford UP.
Книги и курсы
Иллюстрации и блоги
Статьи
«Если отбросить всё невозможное, то то, что останется, каким бы невероятным оно ни казалось, и будет истиной.»