×

We use cookies to help make LingQ better. By visiting the site, you agree to our cookie policy.


image

李永樂老師, 詹姆斯和乔丹谁更强?会骗人的数字(一)辛普森悖论

詹姆斯 和 乔丹 谁 更 强 ?会 骗人 的 数字 (一 )辛普森 悖论

各位 同學 大家 好 我 是 李永樂 老師

最近 有個 小朋友 跟 我 說

他 特別 喜歡 看 籃球比賽

尤其 喜歡 壹個 明星 叫做 勒布朗 · 詹姆斯

他 曾經 把 詹姆斯 和 歷史 上 著名 的 飛人 喬丹

做過 比較

他 發現 無論是 二分 球 的 進球 率

還是 三分球 的 進球 率

詹姆斯 都 比 喬丹 高

但是 如果 把 二分 球 和 三分球 加到 壹塊 的話

詹姆斯 的 進球 率 反而 比 喬丹 要 低 了

這是 怎 麽 回事 呢

今天 就給 大家 介紹 壹下 這個 問題

這個 實際上 是 統計學 上 的 壹個 著名 悖論

我們 稱之為 辛普森 悖論

他 是 在 1951 年 的 時候

由 愛德華 · 辛普森 最早 詳細 討論 的

那 麽 在 辛普森 之前 其實 也 有人 討論 過 這個 問題

那 現在 我們 就 管 它 叫做 辛普森 悖論

辛普森 悖論 是 說

當 我們 進行 壹個 統計 比較 的 時候

如果 我們 分層 進行 比較 或者 我們 加 和 進行 比較

那 麽 比較 的 結果 有 可能 是 不同 的

比較 結果 是 可能 不同 的

什 麽 意思 呢

我們 來舉 幾個 實際 發生 過的 例子

那 麽 壹個 比較 典型 的 辛普森 悖論 的 例子

發生 在 1973 年 的 時候

美國 有 壹 所 大學 名字 叫做 加州大學 伯克利分校

加州 伯克利

加州 伯克利 是 壹 所 著名 的 大學

裏面 的 物理系 尤其 有名 是 吧

在 這 壹年 秋天 的 時候 他們 招收 了 壹批 學生

結果 名單 公布 之後 很多 女同學 就 不 幹 了

說 妳 歧視 女性 說 為 什 麽 這 麽 說 呢

因為 在 這個 錄取名單 裏面

男生 新生 男生 有 44% 的 申請者 被 接收 了

100 個人 裏面 有 44 個 男生 被 接收 了

但是 女生 的 申請者 裏面

只有 35% 的 人 被 接收 了

100 個 女生 裏面 有 35 個 被 它 接收 了

所以 女生 就 不 幹 了

說 我們 這個 比例 太低 了 是 吧

妳 比 我 多 那 麽 多 這個 比例

所以 說明 妳 肯定 是 歧視 我們 女性 了

於是 這個 伯克利大學 就 開始 調查

它 把 全校 這 85 個 部門 挨個 調查 了 壹遍

結果 發現 在 每壹個 部門 招收 學生 的 時候

大部分 都 是 偏向 女生 的

就是 女生 的 錄取 比例 比 男生 還要 高

但是 它 壹加 和 卻 反而 是 男生 高 了

這是 怎 麽 回事 呢

咱們 來 打個比方 點到 為止

我們 就 不 說 具體 的 實際 的 情況 了

我們 就舉 個例 子

好 表格 畫好 了

我們 用壹些 虛擬 的 數據 來說 明壹下 這個 問題

我們 假設 有 100 個 男同學

申請 了 加州大學 伯克利分校 是 吧

這 100 個 男同學 裏面 只有 兩個 學院 可以 申請

壹個 叫做 物理 學院 壹個 叫做 文學院

那 麽 這個 男同學 裏面 申請 物理 學院 的 人

有 多少 個 呢 有 80 個

男同學 比較 喜歡 物理

有 20 個人 去 申請 文學 學院 了

那 麽 錄取 的 情況 如何 呢

在 申請 物理 的 這 80 個人 裏面

有 38 個人 被 錄取 了

在 文學院 這 20 個人 裏面 有 2 個人 被 錄取 了

那 麽 它 的 錄取 比例 又 如何 呢

我們 用 38/80

得到 錄取 的 通過率 47.5%

這是 個 虛擬 的 數據

那 麽 2/20 得到 10%

好 這 就是 男生 的 錄取率 對 吧

同樣 道理

假如 女生 也 有 100 個人 申請 加州 伯克利分校

那 麽 申請 的 時候 女同學 比較 喜歡 文學

所以 80 個人 申請 文學 了

20 個人 申請 物理 了

錄取 的 情況 如何 呢

在 這 20 個 申請 物理 的 人 裏面

有 14 個人 被 錄取 了

所以 錄取 比例 是 70%

而 在 80 個 申請 文學 的 人 裏面 有 16 個 錄取 了

錄取 比例 是 20%

好 我們 現在 就 可以 比較 這 兩組 數據 了

大家 來看 壹 看

在 男同學 申請 物理 裏面 有 47.5% 被 錄取 了

而 女同學 申請 物理 的 時候 有 70% 被 錄取 了

是不是 女生 的 錄取率 比 男生 高 很多 呀 對 不 對

同樣 在 申請 文學 的 這個 學院 的 情況 下

男生 錄取 的 比例 只有 10%

而 女生 錄取 比例 卻 達到 20% 是 兩倍 的 關系

所以 妳 從 這 兩個 學院 來看

它 好像 不是 歧視 女性

它 是 歧視 男性 對 不 對

它 是 歧視 男性

男生 應該 造反

但是 如果 妳 把 他們 合到 壹塊 呢

我們 再 看 壹 看

總計 男生 壹 共有 100 個人

多少 個人 被 錄取 了

有 40 個人 被 錄取 了

所以 錄取率 有 40%

而 女生 女生 還是 100 個人 申請

壹共 只有 30 個人 被 錄取 了

錄取率 是 30%

這回 可 就是 男生 比 女生 高 了

高 了 10 個 百分點

女生 不幹 了

說 妳 看 總計 數據 妳 還是 歧視 女性 對 不 對

那 妳 到底 是 歧視 男性 還是 歧視 女性 呢

數據 都 是 壹樣 的

為什 麽 會 得出 兩個 不同 的 結論 呢

如果說 我 要是 想 煽動 大家

認為 這個 學校 歧視 男性

我會 怎 麽 樣

我會 蓋住 總計 的 數據

讓 妳 只 看 每個 學院

妳 看 每個 學院 女生 都 比 男生 錄取 的 比例 高

而且 高 很多 對 不 對

所以 呼籲 男同胞 們 起來 對抗 學校

這 就是 如果 我 想 說 歧視 男性 的話

反過來說 如果 我 是 個 女權主義者

我 就 蓋住 上面 我 只 看 底下 對 吧

我 壹 看 妳 看 總計有 都 是 100 個人

男生 錄 40 女生 錄 30 憑什 麽

是不是 歧視 我們 對 不 對

所以 從 同樣 的 壹 個數 據

我們 卻 可以 得出 截然 相反 的 兩種 不同 答案

因此 我們 稱之為 悖論 叫做 辛普森 悖論

除了 這個 錄取 學校 的 問題 以外

辛普森 悖論 其實 在歷史上 還 發生 過 很 多次

比如 還有 壹個 真實 的 例子 就是 腎結石

腎結石

腎結石 這種 疾病 需要 把 這個 結石 給 弄出來

通過 手術 的 方法

但是 手術 有 兩種 方法

第壹種 方法 就是 什 麽 呀

第壹種 方法 叫做 這個 A 就是 開放式 手術

開放式 手術 可能 對 人 的 這個 傷害 比較 大

另外 壹種 方法 叫 B 就是 封閉式 手術

我 也 不 太 清楚 封閉式 手術 是 什 麽 意思

是不是 用 內窺鏡 把 它 這個 結石 弄出來

反正 有 兩種 方法

然後 醫生 就 做 了 統計

根據 論文 的 統計 也 要 分為 兩種 情況

第壹種 情況 是 小 結石

如果 這個 人 他 的 結石 比較 小

然後 用 開放式 治療 的 有 多少 例 呢

有 87 個 病人

其中 有 81 個 病人 他 痊愈 了

所以 這 麽 壹算 的 比例 痊愈 的 比例 有 93%

這種 療法 非常 好 對 不 對

那 麽 封閉式 治療 有 多少 個人 呢

有 270 個 病例

其中 有 234 個 病例 他 痊愈 了

所以 痊愈 的 比例 是 87%

從 這樣 的 觀點 看

好像 還是 開放式 治療 更好 壹些

它 的 痊愈 比例 更高 對 吧

好 那 如果 是 大 結石

這個 人 很 不幸 患 了 很大 的 結石 對 吧

結果 論文 統計 有 263 個人

在 大 結石 的 情況 下 做 了 A 療法

然後 有 192 個人 痊愈 了

痊愈 的 比例 是 73%

用 封閉式 療法 的 情況 又 如何 呢

有 80 個人 采用 了 這種 療法

那 麽 有 55 個人 痊愈 了 痊愈 的 比例 是 69%

妳 就 會 發現 大 結石 的 情況 下

依然 應該 選用 開放式 療法

因為 它 的 痊愈 比例 更高

那 麽 既然 無論是 大 結石 還是 小 結石

都 是 開放式 療法 更好 的話

那 是不是 我們 就 應該 給 病人 推薦 開放式 療法 呢

但是 很 遺憾

如果 我們 把 它 總計 壹下 咱們 再 來看 壹 看

總計有 多少 個 病人 呢

87+263 有 多少 個 痊愈 的

81+192

我們 再 把 它 除 壹 下

就是 273 再 除以 350 結果 等於 多少 呢

等於 78%

這是 開放式 療法 的 平均 治愈率 對 吧

好 那 麽 封閉式 療法 呢

它 也 是 270+80

壹共是 有 350 個人 是 吧

有 多少 人 痊愈 的 呢

有 289 個人 痊愈

所以 痊愈 的 比例 是 83%

大家 看 這個 時候 好像 總計 起來

反而 是 封閉式 療法 更好 壹些 對 吧

所以 我作 為 壹個 醫生

如果 我 想 推薦 開放式 療法 的話

那 我 就 把 底下 蓋住

我 只 告訴 妳 說 小 結石 的 情況 下 A 療法 更好

大 結石 的 情況 下 也 是 A 療法 更好

妳 說 妳 選 哪個 方法

那 大家 都 選 A 療法 對 不 對

反過來說 如果 我 想 推薦 B 療法

我 就 不讓 妳 看 上面 的 數據

我 就是說

壹共做 了 350 個 A 療法 和 350 個 B 療法

350 個 A 療法 裏邊 治愈 的 有 78%

而 B 療法 治愈 的 有 83% 妳 選 哪個

我 肯定 選 B 療法

所以 同樣 的 數據 我用 不同 的話 說 出來

那 最後 的 結論 就是 不壹 樣 的 對 吧

好 我們 再 來看 壹 個例 子

那 就是 這個 籃球 的 例子

這個 籃球 的 數據 太 多

我 還是 得 拿 這個

NBA 歷史 上 有過 很多 超級 明星 對 吧

比如說 著名 的 喬丹 比如說 科比 是 吧

那 麽 還有 現在 詹姆斯 也 是 非常 厲害

我們 現在 就 來 比較 壹下

說 這個 喬丹 和 詹姆斯

他們 兩個 人 的 這個 進球 情況

二分 球 和 三分球 我們 分別 算

那個 罰球 我們 就 不算 了

喬丹 和 詹姆斯

好 我 統計 了 在 喬丹 和 詹姆斯

在 整個 生涯 裏面 所 投 的 二分 球 和 三分球

我們 先 來看 二分 球

在 二分 球 的 這個 情況 下

喬丹 壹共是 投 了 24537 個

24537 個球 裏邊

喬丹 投進 了 12192 個球

所以 他 的 命中率 是 49.7%

我們 再 來看 詹姆斯

詹姆斯 在 整個 的 生涯 中

壹共是 投 了 24654 個球

進 了 12424 個球

他 的 平均 進球 率 是 50.4%

所以 妳會 發現

詹姆斯 的 二分 球 投 的 比 喬丹 要 好 對 吧

詹姆斯 的 二分 就是 進球 率 比 喬丹 高

好 那 我們 再 來看 三分球

假如 他們 的 對手 都 壹樣

好 我們 再 來看 三分球

三分球 喬丹 在 生涯 中壹 共 投 了 1778 個

其中 進 了 581 個

所以 他 的 進球 比例 是 32.7%

而 詹姆斯 在 生涯 中壹 共 投 了 5409 個 三分球

進 了 1860 個 進球 率 是 34.4%

於是 妳會 發現

三分球 它 也 是 詹姆斯 的 進球 率 更 高壹些

對 不 對

那 這 麽 壹 看

好像 就 應該 整體 都 是 詹姆斯 厲害 了

不過 我們 把 它 加 和

我們 看 總計 的 情況 如何

總計 喬丹 呢 把 這個 兩個 分母 加 起來

壹共投 了 26315 個球

其中 12773 個球進 了

所以 平均 進球 率 48.5%

而 詹姆斯 他 壹 共 投 了 30063 個球

不是 投 了 這 麽 多 進 了 14284 個球

最後 平均 進球 率 47.5%

好 咱們 來看 壹下

妳 如果 把 二分 球 和 三分球 加到 壹塊

反而 是 喬丹 的 進球 率要 領先 詹姆斯 壹個 百分點

對 不 對

那明明 兩個

這個 二分 球 和 三分球 都 是 詹姆斯 更 高壹些

為什 麽 加 和 起來 反而 是 喬丹 更 高 呢

那 如果 我 想 說 喬丹 好 的話

我 就 可以 讓 妳 看 底下 數據

如果 我 想 說 詹姆斯 好

我 就 蓋住 底下 妳 看 上面 對 不 對

好 那 麽 看到 這裏

其實 聰明 的 小朋友 都 已經 能 看 出來 了

說 為 什 麽 會 出現 這種 情況 呢

在 每 壹 層次 上 都 是 壹夥人 優秀

那 麽 到 了 總計 之後 倒 是 另外 壹夥人 優秀

這是 怎 麽 回事兒

其 原因 其實 很 簡單

首先 妳會 發現 在 這個 分層 的 情況 下

每壹層 它 的 這個 成功率 有 顯著 的 不同 是不是

妳會 發現 這 原因 是 什 麽

這個 原因 其實 就是

首先 在 每層 它 的 成功率 是 不同 的

成功率 有 顯著 的 不同

妳 比如說 這個 物理 學院

它 的 這個 錄取率 就 高壹些

40% 多 70% 多 就 高

而 這個 文學院 10% 20% 它 就 低 對 不 對

小石頭 比較 好治

所以 治愈率 90% 多 80% 多 都 高

大石頭 不好 治

治愈率 70% 多 60% 多 它 就 低

二分 球好 投 所以 說 進球 率 就 高

三分球 不好 投 所以 進球 率 就 低

首先 這 兩層 它 就 有 壹個 不同 的 成功率

而且 不同 的 人 在 做 這 兩層 的 時候

它 的 個數 也 不壹 樣

妳 比如說 這個 男同學

男同學 雖然 在 兩個 學院

他 錄取 比例 都 比 女同學 多

但是 他 更 多 的 男同學 是 申請 了 物理

也 就是 申請 了 這個 比較 容易 的 學院

他 錄取率 通過率 高

所以 整體 來講

他 最終 的 通過率 就 會 比較 高壹些

再 比如說 這個 腎結石 這事

每壹種 療法 都 是 A 開放式 療法 更好 壹些

但是 開放式 療法

它 治療 了 很多 什 麽 呀 很多 大 結石

妳 看 很多 大 結石 都 是 用 開放性 療法 來治 的

而 小 結石 這個 比較 容易 的

大部分 采用 了 這種 封閉式 療法

所以 呢 所以 我們 就 有 壹個 結論

這 封閉式 療法 的 這個 整體 治療率 會 高壹些

原因 就是 因為 它 幹 了 很多 容易 的 事

同樣 道理 詹姆斯 和 喬丹 做 比較

為什 麽 詹姆斯 兩個 得分率 都 高

但 整體 得分率 卻 低 呢

這 就是 因為 詹姆斯 投 的 三分球 比較 多

拉低 了 他 的 整體 進球 率

而 喬丹 投 的 三分球 很少

所以 他 就 使 自己 的 進球 率

比較 接 近於 二分 球 的 進球 率

就是 這個 原因

所以 實際上 就是 因為 每壹層 的 成功率 不同

如果 妳 多 去 幹 那些 成功率高 的 事

就 會 使 妳 整體 的 成功率 變大

這 就是 辛普森 悖論 的 壹個 本質

但是 我們 還 可以 通過 幾何 的 方法

來 研究 這個 問題

看 幾何 怎 麽 說

我們 畫壹個 橫坐標

橫坐標 是 這個 嘗試 的 次數

比如 妳 投壹個 球 就算 壹次 嘗試 了 多少次

縱 坐標 是 妳 成功 的 次數

進球 了 就 成功 了 對 不 對

好 我們 任何 壹個點

其實 代表 了 壹個 嘗試 和 壹次 成功

比如說 二分 球 我們 嘗試 了 多少次

嘗試 了 24537 次 就是 這 麽 多

這是 二分 球 的 成功 了 多少次

成功 了 12192 次 這是 成功 的

所以 這個 點 其實 就 代表 了 喬丹 的 二分 球

我們 可以 畫壹個 這樣 的 壹個 矢量

來 表示 這個 二分 球

大家 仔細 看 這個 矢量 它 的 斜率 表示 什 麽

斜率 就是 縱 坐標 比橫 坐標 那 不 就是 成功率

所以 斜率 縱 坐標 比橫 坐標 就是 成功率

我們 這個 成功率 越高 就 越 靠近 豎直

成功率 越低 越 靠近 水平

那 麽 他 如果 不僅僅 是 幹 了 這壹件 事

他 還幹 了 另外 壹件 事 的話

那 就 還有 壹次 嘗試 的 次數

和 壹次 成功 的 次數

所以 他 又會有 壹次 成功 比例 叫 k₂

那 我 現在 問 妳 總體 的 成功 比例 怎 麽 計算

很 簡單

總體 的 成功 比例 就要 把 總 的 次數 加 起來

把 總 的 成功 次數 也 加 起來 再 把 它們 相除

那 麽 根據 平行四邊形 法則

這 實際上 就 代表 了

以 它們 兩個 為 鄰邊 做壹個 平行四邊形

做壹個 平行四邊形

而 這個 平行四邊形 對角線 的 斜率

就是 總體 的 成功率

這 兩個 斜率 分別 是 獨自 的 分層 的 成功率

而 這個 平行四邊形 對角線 的 斜率

就是 總體 的 成功率

那 這樣 我們 就 可以 解釋

為什 麽 壹 個人 他 兩層 的 成功率 都 低

但 最後 整體 的 成功率高 了

原因 呢 可以 畫在 這樣 的 壹 張圖 上

橫坐標 還是 嘗試 次數

縱 坐標 是 成功 的 次數

我們 先說 第壹層

第壹 個人 在 第壹層 他 的 這個 成功率 是 很 低 的

我們 可以 認為 這個 線 就是 橫著 的

然後 在 第二 層次 成功率高 了 壹些

這是 第二 層次

所以 這是 第壹 個人 的 第壹 層次

這是 第壹 個人 的 第二 層次

那 麽 這個 人 的 總體 成功率

我們 就是 畫壹個 平行四邊形

這是 第壹 個人 的 總體 成功率 k_( 總 1)

第二個 人 呢

第二個 人 他 第壹 層次 的 成功率 比 第壹 個人 要 高

他 第二個 層次 的 成功率 也 比 第壹 個人 高

他 兩個 斜率 都 比 第壹 個人 大

但是 因為 他 幹 了 很多 這個 成功率 低 的 事兒

所以 最終 他 的 合成 功率 是 這個 對角線

是 這個 對角線

妳會 發現 這 就是 k_( 總 2)

這個 k_( 總 2) 它 反而 比 k_( 總 1) 要 低

所以 在 兩個 層次 上

這個 紫色 的 線 它 的 成功率 都 比 黃色 的 線 高

但是 在 合成 功率 上

紫色 的 線 卻 比 黃色 的 線 成功率 要 低

這 就是 我們 所謂 的 辛普森 悖論

在 我們 的 生活 當中

每時每刻 都 會 接觸 到 不同 的 數據

比如說 作為 壹個 老師 要 看 學生 們 考試 的 平均分

作為 壹個 銷售

要 看 自己 每個 月 的 接單 情況 和 成交率

雖然 數據 是 客觀 和 真實 的

但是 不同 的 人

利用 同樣 的 數據 卻 可以 講出 不同 的 故事

如果 我們 用 真實 的 數據

推測 出壹個 未經 證實 的 結論

就是 有意 或者 無意 的 欺騙 了

數字 是 可以 撒謊

而且 撒謊 的 方式 遠遠 不止 辛普森 悖論 這壹種

我們 在 下 壹 回

還會 再給 大家 講壹講 生活 中

有 哪些 用 數字 撒謊 的 方式

請 大家 保持 關 註

大家 如果 喜歡 我 的 視頻

可以 在 YouTube 賬號 李永樂 老師 裏 訂閱 我

點擊 小 鈴鐺 可以 第壹 時間 獲得 更新 信息

詹姆斯 和 乔丹 谁 更 强 ?会 骗人 的 数字 (一 )辛普森 悖论

各位 同學 大家 好 我 是 李永樂 老師

最近 有個 小朋友 跟 我 說

他 特別 喜歡 看 籃球比賽

尤其 喜歡 壹個 明星 叫做 勒布朗 · 詹姆斯

他 曾經 把 詹姆斯 和 歷史 上 著名 的 飛人 喬丹

做過 比較

他 發現 無論是 二分 球 的 進球 率

還是 三分球 的 進球 率

詹姆斯 都 比 喬丹 高

但是 如果 把 二分 球 和 三分球 加到 壹塊 的話

詹姆斯 的 進球 率 反而 比 喬丹 要 低 了

這是 怎 麽 回事 呢

今天 就給 大家 介紹 壹下 這個 問題

這個 實際上 是 統計學 上 的 壹個 著名 悖論

我們 稱之為 辛普森 悖論

他 是 在 1951 年 的 時候

由 愛德華 · 辛普森 最早 詳細 討論 的

那 麽 在 辛普森 之前 其實 也 有人 討論 過 這個 問題

那 現在 我們 就 管 它 叫做 辛普森 悖論

辛普森 悖論 是 說

當 我們 進行 壹個 統計 比較 的 時候

如果 我們 分層 進行 比較 或者 我們 加 和 進行 比較

那 麽 比較 的 結果 有 可能 是 不同 的

比較 結果 是 可能 不同 的

什 麽 意思 呢

我們 來舉 幾個 實際 發生 過的 例子

那 麽 壹個 比較 典型 的 辛普森 悖論 的 例子

發生 在 1973 年 的 時候

美國 有 壹 所 大學 名字 叫做 加州大學 伯克利分校

加州 伯克利

加州 伯克利 是 壹 所 著名 的 大學

裏面 的 物理系 尤其 有名 是 吧

在 這 壹年 秋天 的 時候 他們 招收 了 壹批 學生

結果 名單 公布 之後 很多 女同學 就 不 幹 了

說 妳 歧視 女性 說 為 什 麽 這 麽 說 呢

因為 在 這個 錄取名單 裏面

男生 新生 男生 有 44% 的 申請者 被 接收 了

100 個人 裏面 有 44 個 男生 被 接收 了

但是 女生 的 申請者 裏面

只有 35% 的 人 被 接收 了

100 個 女生 裏面 有 35 個 被 它 接收 了

所以 女生 就 不 幹 了

說 我們 這個 比例 太低 了 是 吧

妳 比 我 多 那 麽 多 這個 比例

所以 說明 妳 肯定 是 歧視 我們 女性 了

於是 這個 伯克利大學 就 開始 調查

它 把 全校 這 85 個 部門 挨個 調查 了 壹遍

結果 發現 在 每壹個 部門 招收 學生 的 時候

大部分 都 是 偏向 女生 的

就是 女生 的 錄取 比例 比 男生 還要 高

但是 它 壹加 和 卻 反而 是 男生 高 了

這是 怎 麽 回事 呢

咱們 來 打個比方 點到 為止

我們 就 不 說 具體 的 實際 的 情況 了

我們 就舉 個例 子

好 表格 畫好 了

我們 用壹些 虛擬 的 數據 來說 明壹下 這個 問題

我們 假設 有 100 個 男同學

申請 了 加州大學 伯克利分校 是 吧

這 100 個 男同學 裏面 只有 兩個 學院 可以 申請

壹個 叫做 物理 學院 壹個 叫做 文學院

那 麽 這個 男同學 裏面 申請 物理 學院 的 人

有 多少 個 呢 有 80 個

男同學 比較 喜歡 物理

有 20 個人 去 申請 文學 學院 了

那 麽 錄取 的 情況 如何 呢

在 申請 物理 的 這 80 個人 裏面

有 38 個人 被 錄取 了

在 文學院 這 20 個人 裏面 有 2 個人 被 錄取 了

那 麽 它 的 錄取 比例 又 如何 呢

我們 用 38/80

得到 錄取 的 通過率 47.5%

這是 個 虛擬 的 數據

那 麽 2/20 得到 10%

好 這 就是 男生 的 錄取率 對 吧

同樣 道理

假如 女生 也 有 100 個人 申請 加州 伯克利分校

那 麽 申請 的 時候 女同學 比較 喜歡 文學

所以 80 個人 申請 文學 了

20 個人 申請 物理 了

錄取 的 情況 如何 呢

在 這 20 個 申請 物理 的 人 裏面

有 14 個人 被 錄取 了

所以 錄取 比例 是 70%

而 在 80 個 申請 文學 的 人 裏面 有 16 個 錄取 了

錄取 比例 是 20%

好 我們 現在 就 可以 比較 這 兩組 數據 了

大家 來看 壹 看

在 男同學 申請 物理 裏面 有 47.5% 被 錄取 了

而 女同學 申請 物理 的 時候 有 70% 被 錄取 了

是不是 女生 的 錄取率 比 男生 高 很多 呀 對 不 對

同樣 在 申請 文學 的 這個 學院 的 情況 下

男生 錄取 的 比例 只有 10%

而 女生 錄取 比例 卻 達到 20% 是 兩倍 的 關系

所以 妳 從 這 兩個 學院 來看

它 好像 不是 歧視 女性

它 是 歧視 男性 對 不 對

它 是 歧視 男性

男生 應該 造反

但是 如果 妳 把 他們 合到 壹塊 呢

我們 再 看 壹 看

總計 男生 壹 共有 100 個人

多少 個人 被 錄取 了

有 40 個人 被 錄取 了

所以 錄取率 有 40%

而 女生 女生 還是 100 個人 申請

壹共 只有 30 個人 被 錄取 了

錄取率 是 30%

這回 可 就是 男生 比 女生 高 了

高 了 10 個 百分點

女生 不幹 了

說 妳 看 總計 數據 妳 還是 歧視 女性 對 不 對

那 妳 到底 是 歧視 男性 還是 歧視 女性 呢

數據 都 是 壹樣 的

為什 麽 會 得出 兩個 不同 的 結論 呢

如果說 我 要是 想 煽動 大家

認為 這個 學校 歧視 男性

我會 怎 麽 樣

我會 蓋住 總計 的 數據

讓 妳 只 看 每個 學院

妳 看 每個 學院 女生 都 比 男生 錄取 的 比例 高

而且 高 很多 對 不 對

所以 呼籲 男同胞 們 起來 對抗 學校

這 就是 如果 我 想 說 歧視 男性 的話

反過來說 如果 我 是 個 女權主義者

我 就 蓋住 上面 我 只 看 底下 對 吧

我 壹 看 妳 看 總計有 都 是 100 個人

男生 錄 40 女生 錄 30 憑什 麽

是不是 歧視 我們 對 不 對

所以 從 同樣 的 壹 個數 據

我們 卻 可以 得出 截然 相反 的 兩種 不同 答案

因此 我們 稱之為 悖論 叫做 辛普森 悖論

除了 這個 錄取 學校 的 問題 以外

辛普森 悖論 其實 在歷史上 還 發生 過 很 多次

比如 還有 壹個 真實 的 例子 就是 腎結石

腎結石

腎結石 這種 疾病 需要 把 這個 結石 給 弄出來

通過 手術 的 方法

但是 手術 有 兩種 方法

第壹種 方法 就是 什 麽 呀

第壹種 方法 叫做 這個 A 就是 開放式 手術

開放式 手術 可能 對 人 的 這個 傷害 比較 大

另外 壹種 方法 叫 B 就是 封閉式 手術

我 也 不 太 清楚 封閉式 手術 是 什 麽 意思

是不是 用 內窺鏡 把 它 這個 結石 弄出來

反正 有 兩種 方法

然後 醫生 就 做 了 統計

根據 論文 的 統計 也 要 分為 兩種 情況

第壹種 情況 是 小 結石

如果 這個 人 他 的 結石 比較 小

然後 用 開放式 治療 的 有 多少 例 呢

有 87 個 病人

其中 有 81 個 病人 他 痊愈 了

所以 這 麽 壹算 的 比例 痊愈 的 比例 有 93%

這種 療法 非常 好 對 不 對

那 麽 封閉式 治療 有 多少 個人 呢

有 270 個 病例

其中 有 234 個 病例 他 痊愈 了

所以 痊愈 的 比例 是 87%

從 這樣 的 觀點 看

好像 還是 開放式 治療 更好 壹些

它 的 痊愈 比例 更高 對 吧

好 那 如果 是 大 結石

這個 人 很 不幸 患 了 很大 的 結石 對 吧

結果 論文 統計 有 263 個人

在 大 結石 的 情況 下 做 了 A 療法

然後 有 192 個人 痊愈 了

痊愈 的 比例 是 73%

用 封閉式 療法 的 情況 又 如何 呢

有 80 個人 采用 了 這種 療法

那 麽 有 55 個人 痊愈 了 痊愈 的 比例 是 69%

妳 就 會 發現 大 結石 的 情況 下

依然 應該 選用 開放式 療法

因為 它 的 痊愈 比例 更高

那 麽 既然 無論是 大 結石 還是 小 結石

都 是 開放式 療法 更好 的話

那 是不是 我們 就 應該 給 病人 推薦 開放式 療法 呢

但是 很 遺憾

如果 我們 把 它 總計 壹下 咱們 再 來看 壹 看

總計有 多少 個 病人 呢

87+263 有 多少 個 痊愈 的

81+192

我們 再 把 它 除 壹 下

就是 273 再 除以 350 結果 等於 多少 呢

等於 78%

這是 開放式 療法 的 平均 治愈率 對 吧

好 那 麽 封閉式 療法 呢

它 也 是 270+80

壹共是 有 350 個人 是 吧

有 多少 人 痊愈 的 呢

有 289 個人 痊愈

所以 痊愈 的 比例 是 83%

大家 看 這個 時候 好像 總計 起來

反而 是 封閉式 療法 更好 壹些 對 吧

所以 我作 為 壹個 醫生

如果 我 想 推薦 開放式 療法 的話

那 我 就 把 底下 蓋住

我 只 告訴 妳 說 小 結石 的 情況 下 A 療法 更好

大 結石 的 情況 下 也 是 A 療法 更好

妳 說 妳 選 哪個 方法

那 大家 都 選 A 療法 對 不 對

反過來說 如果 我 想 推薦 B 療法

我 就 不讓 妳 看 上面 的 數據

我 就是說

壹共做 了 350 個 A 療法 和 350 個 B 療法

350 個 A 療法 裏邊 治愈 的 有 78%

而 B 療法 治愈 的 有 83% 妳 選 哪個

我 肯定 選 B 療法

所以 同樣 的 數據 我用 不同 的話 說 出來

那 最後 的 結論 就是 不壹 樣 的 對 吧

好 我們 再 來看 壹 個例 子

那 就是 這個 籃球 的 例子

這個 籃球 的 數據 太 多

我 還是 得 拿 這個

NBA 歷史 上 有過 很多 超級 明星 對 吧

比如說 著名 的 喬丹 比如說 科比 是 吧

那 麽 還有 現在 詹姆斯 也 是 非常 厲害

我們 現在 就 來 比較 壹下

說 這個 喬丹 和 詹姆斯

他們 兩個 人 的 這個 進球 情況

二分 球 和 三分球 我們 分別 算

那個 罰球 我們 就 不算 了

喬丹 和 詹姆斯

好 我 統計 了 在 喬丹 和 詹姆斯

在 整個 生涯 裏面 所 投 的 二分 球 和 三分球

我們 先 來看 二分 球

在 二分 球 的 這個 情況 下

喬丹 壹共是 投 了 24537 個

24537 個球 裏邊

喬丹 投進 了 12192 個球

所以 他 的 命中率 是 49.7%

我們 再 來看 詹姆斯

詹姆斯 在 整個 的 生涯 中

壹共是 投 了 24654 個球

進 了 12424 個球

他 的 平均 進球 率 是 50.4%

所以 妳會 發現

詹姆斯 的 二分 球 投 的 比 喬丹 要 好 對 吧

詹姆斯 的 二分 就是 進球 率 比 喬丹 高

好 那 我們 再 來看 三分球

假如 他們 的 對手 都 壹樣

好 我們 再 來看 三分球

三分球 喬丹 在 生涯 中壹 共 投 了 1778 個

其中 進 了 581 個

所以 他 的 進球 比例 是 32.7%

而 詹姆斯 在 生涯 中壹 共 投 了 5409 個 三分球

進 了 1860 個 進球 率 是 34.4%

於是 妳會 發現

三分球 它 也 是 詹姆斯 的 進球 率 更 高壹些

對 不 對

那 這 麽 壹 看

好像 就 應該 整體 都 是 詹姆斯 厲害 了

不過 我們 把 它 加 和

我們 看 總計 的 情況 如何

總計 喬丹 呢 把 這個 兩個 分母 加 起來

壹共投 了 26315 個球

其中 12773 個球進 了

所以 平均 進球 率 48.5%

而 詹姆斯 他 壹 共 投 了 30063 個球

不是 投 了 這 麽 多 進 了 14284 個球

最後 平均 進球 率 47.5%

好 咱們 來看 壹下

妳 如果 把 二分 球 和 三分球 加到 壹塊

反而 是 喬丹 的 進球 率要 領先 詹姆斯 壹個 百分點

對 不 對

那明明 兩個

這個 二分 球 和 三分球 都 是 詹姆斯 更 高壹些

為什 麽 加 和 起來 反而 是 喬丹 更 高 呢

那 如果 我 想 說 喬丹 好 的話

我 就 可以 讓 妳 看 底下 數據

如果 我 想 說 詹姆斯 好

我 就 蓋住 底下 妳 看 上面 對 不 對

好 那 麽 看到 這裏

其實 聰明 的 小朋友 都 已經 能 看 出來 了

說 為 什 麽 會 出現 這種 情況 呢

在 每 壹 層次 上 都 是 壹夥人 優秀

那 麽 到 了 總計 之後 倒 是 另外 壹夥人 優秀

這是 怎 麽 回事兒

其 原因 其實 很 簡單

首先 妳會 發現 在 這個 分層 的 情況 下

每壹層 它 的 這個 成功率 有 顯著 的 不同 是不是

妳會 發現 這 原因 是 什 麽

這個 原因 其實 就是

首先 在 每層 它 的 成功率 是 不同 的

成功率 有 顯著 的 不同

妳 比如說 這個 物理 學院

它 的 這個 錄取率 就 高壹些

40% 多 70% 多 就 高

而 這個 文學院 10% 20% 它 就 低 對 不 對

小石頭 比較 好治

所以 治愈率 90% 多 80% 多 都 高

大石頭 不好 治

治愈率 70% 多 60% 多 它 就 低

二分 球好 投 所以 說 進球 率 就 高

三分球 不好 投 所以 進球 率 就 低

首先 這 兩層 它 就 有 壹個 不同 的 成功率

而且 不同 的 人 在 做 這 兩層 的 時候

它 的 個數 也 不壹 樣

妳 比如說 這個 男同學

男同學 雖然 在 兩個 學院

他 錄取 比例 都 比 女同學 多

但是 他 更 多 的 男同學 是 申請 了 物理

也 就是 申請 了 這個 比較 容易 的 學院

他 錄取率 通過率 高

所以 整體 來講

他 最終 的 通過率 就 會 比較 高壹些

再 比如說 這個 腎結石 這事

每壹種 療法 都 是 A 開放式 療法 更好 壹些

但是 開放式 療法

它 治療 了 很多 什 麽 呀 很多 大 結石

妳 看 很多 大 結石 都 是 用 開放性 療法 來治 的

而 小 結石 這個 比較 容易 的

大部分 采用 了 這種 封閉式 療法

所以 呢 所以 我們 就 有 壹個 結論

這 封閉式 療法 的 這個 整體 治療率 會 高壹些

原因 就是 因為 它 幹 了 很多 容易 的 事

同樣 道理 詹姆斯 和 喬丹 做 比較

為什 麽 詹姆斯 兩個 得分率 都 高

但 整體 得分率 卻 低 呢

這 就是 因為 詹姆斯 投 的 三分球 比較 多

拉低 了 他 的 整體 進球 率

而 喬丹 投 的 三分球 很少

所以 他 就 使 自己 的 進球 率

比較 接 近於 二分 球 的 進球 率

就是 這個 原因

所以 實際上 就是 因為 每壹層 的 成功率 不同

如果 妳 多 去 幹 那些 成功率高 的 事

就 會 使 妳 整體 的 成功率 變大

這 就是 辛普森 悖論 的 壹個 本質

但是 我們 還 可以 通過 幾何 的 方法

來 研究 這個 問題

看 幾何 怎 麽 說

我們 畫壹個 橫坐標

橫坐標 是 這個 嘗試 的 次數

比如 妳 投壹個 球 就算 壹次 嘗試 了 多少次

縱 坐標 是 妳 成功 的 次數

進球 了 就 成功 了 對 不 對

好 我們 任何 壹個點

其實 代表 了 壹個 嘗試 和 壹次 成功

比如說 二分 球 我們 嘗試 了 多少次

嘗試 了 24537 次 就是 這 麽 多

這是 二分 球 的 成功 了 多少次

成功 了 12192 次 這是 成功 的

所以 這個 點 其實 就 代表 了 喬丹 的 二分 球

我們 可以 畫壹個 這樣 的 壹個 矢量

來 表示 這個 二分 球

大家 仔細 看 這個 矢量 它 的 斜率 表示 什 麽

斜率 就是 縱 坐標 比橫 坐標 那 不 就是 成功率

所以 斜率 縱 坐標 比橫 坐標 就是 成功率

我們 這個 成功率 越高 就 越 靠近 豎直

成功率 越低 越 靠近 水平

那 麽 他 如果 不僅僅 是 幹 了 這壹件 事

他 還幹 了 另外 壹件 事 的話

那 就 還有 壹次 嘗試 的 次數

和 壹次 成功 的 次數

所以 他 又會有 壹次 成功 比例 叫 k₂

那 我 現在 問 妳 總體 的 成功 比例 怎 麽 計算

很 簡單

總體 的 成功 比例 就要 把 總 的 次數 加 起來

把 總 的 成功 次數 也 加 起來 再 把 它們 相除

那 麽 根據 平行四邊形 法則

這 實際上 就 代表 了

以 它們 兩個 為 鄰邊 做壹個 平行四邊形

做壹個 平行四邊形

而 這個 平行四邊形 對角線 的 斜率

就是 總體 的 成功率

這 兩個 斜率 分別 是 獨自 的 分層 的 成功率

而 這個 平行四邊形 對角線 的 斜率

就是 總體 的 成功率

那 這樣 我們 就 可以 解釋

為什 麽 壹 個人 他 兩層 的 成功率 都 低

但 最後 整體 的 成功率高 了

原因 呢 可以 畫在 這樣 的 壹 張圖 上

橫坐標 還是 嘗試 次數

縱 坐標 是 成功 的 次數

我們 先說 第壹層

第壹 個人 在 第壹層 他 的 這個 成功率 是 很 低 的

我們 可以 認為 這個 線 就是 橫著 的

然後 在 第二 層次 成功率高 了 壹些

這是 第二 層次

所以 這是 第壹 個人 的 第壹 層次

這是 第壹 個人 的 第二 層次

那 麽 這個 人 的 總體 成功率

我們 就是 畫壹個 平行四邊形

這是 第壹 個人 的 總體 成功率 k_( 總 1)

第二個 人 呢

第二個 人 他 第壹 層次 的 成功率 比 第壹 個人 要 高

他 第二個 層次 的 成功率 也 比 第壹 個人 高

他 兩個 斜率 都 比 第壹 個人 大

但是 因為 他 幹 了 很多 這個 成功率 低 的 事兒

所以 最終 他 的 合成 功率 是 這個 對角線

是 這個 對角線

妳會 發現 這 就是 k_( 總 2)

這個 k_( 總 2) 它 反而 比 k_( 總 1) 要 低

所以 在 兩個 層次 上

這個 紫色 的 線 它 的 成功率 都 比 黃色 的 線 高

但是 在 合成 功率 上

紫色 的 線 卻 比 黃色 的 線 成功率 要 低

這 就是 我們 所謂 的 辛普森 悖論

在 我們 的 生活 當中

每時每刻 都 會 接觸 到 不同 的 數據

比如說 作為 壹個 老師 要 看 學生 們 考試 的 平均分

作為 壹個 銷售

要 看 自己 每個 月 的 接單 情況 和 成交率

雖然 數據 是 客觀 和 真實 的

但是 不同 的 人

利用 同樣 的 數據 卻 可以 講出 不同 的 故事

如果 我們 用 真實 的 數據

推測 出壹個 未經 證實 的 結論

就是 有意 或者 無意 的 欺騙 了

數字 是 可以 撒謊

而且 撒謊 的 方式 遠遠 不止 辛普森 悖論 這壹種

我們 在 下 壹 回

還會 再給 大家 講壹講 生活 中

有 哪些 用 數字 撒謊 的 方式

請 大家 保持 關 註

大家 如果 喜歡 我 的 視頻

可以 在 YouTube 賬號 李永樂 老師 裏 訂閱 我

點擊 小 鈴鐺 可以 第壹 時間 獲得 更新 信息