棋盤遊戲數學:機率、期望值以及為什麼骰子感覺不公平

每個棋盤遊戲機制都有一個數學恆等式。擲骰子具有期望值和變異數。抽牌具有機率分佈。資源貿易具有可以用比率表示的匯率。理解這種數學的設計師比憑感覺工作的設計師能做出更好的決策 - 不是因為數學取代了直覺,而是因為直覺經常與現實不一致,而僅靠測試很難糾正。

本文涵蓋了對棋盤遊戲設計和遊戲最重要的數學概念:機率分佈、期望值、變異數以及數學所說與玩家體驗之間的心理差距。無論您是在設計遊戲,還是只是想了解為什麼您的骰子遊戲感覺如此不幸,這裡的框架都將改變您對遊戲中隨機性的看法。

為什麼數學在遊戲設計上很重要

沒有計算過遊戲核心動作經濟預期價值的遊戲設計師不知道他們的遊戲是否有效。這聽起來很刺耳,但在功能上卻是正確的。如果最佳可用行動的預期收入是每輪 4 個資源,而勝利條件行動的成本是 30 個資源,那麼設計者需要知道在遊戲的典型持續時間內是否可以實現該收入率 - 在遊戲測試之前,而不是在六次遊戲之後想知道為什麼沒有人獲勝。

數學和遊戲測驗是互補的工具,而不是替代品。數學告訴你理論的預測是什麼。遊戲測試告訴您人類行為是否符合理論。大多數時候,它們會出現分歧——不是因為數學錯誤,而是因為玩家並不總是選擇理論上的最佳行動。理論上的最佳遊戲與實際人類遊戲之間的差距本身就是一個設計變數:只有最佳遊戲才能產生有趣決策的遊戲比次優遊戲也會產生有趣情況的遊戲更糟糕。

每個機制都有一個預期值,設計師必須知道它。 當 Neutronium: Parallel Wars 玩家從核端口獲得收入時,他們每輪都會收到精確計算的每個端口的預期值。當他們選擇攻擊而不是建設時,他們正在做出在不同情況下具有可計算預期結果的決策。了解這些數字的設計師可以做出有意義的平衡決策;沒有這樣做的設計師是在猜測。

關鍵的不對稱性是即使是平衡的隨機性也會讓人感覺不公平。 50/50 的硬幣翻轉連續六次正面朝上的機率約為 1.6%——這種情況很少,但並非不可能。當遊戲中的玩家發生這種情況時,他們會覺得遊戲被破壞了,而不是正常的統計事件。理解為什麼會發生這種情況——以及設計師如何構建隨機性以減少懲罰,同時保持相同的潛在機率——是遊戲設計數學最有實際價值的應用。

骰子機率 101

單 d6 是桌遊中最常見的隨機化工具,也是最容易被誤解的工具之一。標準 d6 產生均勻分佈:每個面(1 到 6)出現的機率為 1/6,預期值為 3.5。玩家直觀地理解這一點,但他們常常無法理解在會話中重複滾動意味著什麼。

單一 d6 與 2d6 的區別是理解為什麼不同骰子機制感覺不同的基礎。單一 d6 具有平坦的機率分佈 - 從 1 到 6 的每個結果都有相同的可能性。兩個 d6 求和產生一條鐘形曲線:7 是最可能的結果(機率 6/36 = 16.7%),而 2 和 12 的機率分別為 1/36 = 2.8%。 2d6 分佈將結果集中在中間附近,並且很少出現極端結果。這就是為什麼使用 2d6 進行資源生產的卡坦 (Catan) 感覺對單一卷的懲罰比單晶片系統要少——這種分佈自然限制了極端結果。

2d6 機率分佈 總和:2 → 1/36 = 2.8% 總和:3 → 2/36 = 5.6% 總和:4 → 3/36 = 8.3% 總和:5 → 4/36 = 11.1% 總和:6 → 5/36 = 13.9% 總和:7 → 6/36 = 16.7% ← 最有可能 總和:8 → 5/36 = 13.9% 總和:9 → 4/36 = 11.1% 總和:10 → 3/36 = 8.3% 總和:11 → 2/36 = 5.6% 總和:12 → 1/36 = 2.8%

具有非標準面分佈的定制骰子使設計人員能夠精確控制標準骰子無法提供的機率分佈。面為 [0, 0, 0, 1, 1, 2] 的骰子與 d6 具有非常不同的特徵:它在 50% 的時間內產生 0,在 33% 的情況下產生 1,在 17% 的情況下產生 2,預期值為 0.67。 Neutronium: Parallel Wars 使用帶有顏色編碼面的定制 D6 骰子:藍色面代表標準戰鬥結果,紅色面代表關鍵結果,綠色面代表特殊能力觸發器。人臉類型的分佈(而不僅僅是人臉的數量)決定了每種結果的機率。具有三個藍色面、兩個紅色面和一個綠色面的骰子在 50% 的情況下會產生藍色結果,在 33% 的情況下產生紅色結果,在 17% 的情況下產生綠色結果。設計者可以透過改變面數來調整這些比率,而不是創造數學上複雜的解析度系統。

爆炸骰子是當擲出最大值時再次擲出並將結果相加的骰子。在 6 上爆炸的 d6 的預期值為 (1+2+3+4+5+6)/6 + (1/6 × d6 的預期值) = 3.5 + (1/6 × 3.5) = 3.5 + 0.583 = 4.083。開放式的性質在理論上創造了無限的結果——幸運的爆炸序列可以產生非常高的總數——這產生了一些遊戲故意培養的「感覺幸運」的時刻。代價是高方差和偶爾決定遊戲的幸運骰。

有界骰是相反的哲學:限制最大結果以限制變異數。在骰子池系統中,您擲多個骰子並只取最好的 N 個結果(優勢系統,例如 D&D 5E 的優勢機制,或糸鋸的多個骰子取最高值)在數學上減少方差,同時保持概率感。採用兩次 d6 擲骰中較高的一個,將預期值從 3.5 變為 4.47,提高了 28%,同時顯著降低了低結果的可能性。

資源遊戲的預期價值

資源累積遊戲——歐元、引擎製造商、經濟策略——建立在預期值計算的基礎上,設計師必須準確地理解這些計算,即使它們從未明確出現在規則手冊中。當玩家在兩個行動之間進行選擇時,他們(有意或無意)會比較這些行動在相關時間範圍內的預期價值。

Neutronium: Parallel Wars 的核港收入系統是設計預期值的一個明確範例。收入公式確定擁有 N 個核端口的玩家以與 N 呈非線性關係的比率獲得收入。具體公式 — 1 個連接埠每輪產生 2 個 Neutronium 單位; 10 個連接埠每輪產生 220 Nn — 這並非偶然。設計者明確表示,端口累積應該產生指數回報,而不是線性回報,因為指數回報創造了推動遊戲競爭動力的聯盟門檻。

核子港口收入縮放 (Neutronium: Parallel Wars) 1 個連接埠 → 2 Nn/輪(基礎) 2 個連接埠 → 5 Nn/輪 3 個端口 → 9 Nn/輪 5 個端口 → 20 Nn/輪 7 個連接埠 → 42 Nn/輪 ← 聯盟閾值 10 個連接埠 → 220 Nn/輪(失控潛力)

這個公式是用數學表達的有意的遊戲設計。 7 端口收入(42 Nn/輪)和 10 端口收入(220 Nn/輪)之間的差距是為什麼聯盟在 7 端口門檻形成而不是等到 9 或 10 個端口形成的經濟論據。在 7 個港口,玩家擁有足夠的收入來構成威脅,但在收入優勢變得在數學上無法克服之前,聯盟行動仍然具有決定性作用。僅透過遊戲測試得出這些數字的設計師可能會得到大致正確的結果;從一開始就了解指數函數的設計者可以精確地指定閾值。

更廣泛的原則:當指數縮放是有意的遊戲設計時,設計者必須記錄縮放函數並驗證它創建的閾值是否位於他們想要的位置。如果聯盟門檻應該是 6 個連接埠而不是 7 個,那麼收入公式就需要調整——這需要知道公式是什麼,而不僅僅是觀察「遊戲感覺平衡」。

方差與玩家感知

變異數是衡量實際結果與預期值的差異程度的指標。高方差意味著個別結果可能與預期有很大差異;低方差意味著結果緊密圍繞平均值。對於遊戲設計師來說,方差是一個控制旋鈕,它會影響遊戲的數學公平性和玩遊戲的主觀體驗。

關鍵的心理洞察力:即使在數學上是平衡的,高方差也會讓人感覺不好。拋硬幣是完全公平的——50/50,兩個玩家的期望值完全相等——但是玩一個每個決定都通過拋硬幣來解決的遊戲感覺很武斷且沒有回報。玩家需要感覺到他們的決定很重要,這意味著他們需要在遊戲過程中能夠感知到良好決策和良好結果之間的因果關係。高方差會切斷這種聯繫。

7 vs 2 Catan 十六進位問題清楚地說明了這一點。在卡坦島,數字 7 印在最多的六角形上,因為它與 2d6 的機率最高(16.7%)。數字 2 印在最少的六角形上 (2.8%)。經驗豐富的玩家知道將資源優先分配在 6、8、5 和 9 上(高機率的六角形)。但在任何給定的會話中,如果實際骰子擲出偏離預期值,正確地將初始結算放置在這些六角形上的玩家仍然可能會明顯落後於具有較低機率放置的玩家。這並不公平——這是正常的統計差異。但這感覺不公平,因為決策(良好的放置)和結果(頻繁的資源收入)之間的關係被方差掩蓋了。

用於管理方差帶來的不公平感的設計解決方案包括:緩解機制(重擲、資源庫、運氣不佳時激活的追趕機制)、即使在運氣不佳後仍然有意義的決策點(因此滾動不佳的玩家仍然有有趣的選擇)以及有利於落後玩家的方差(透過方差追趕:領先玩家想要穩定、可預測的收入;落後玩家從高方差中受益)即使預期值相同,也可以快速縮小差距的方法)。

骰子中的製王時刻(隨機擲骰決定哪位玩家在最後一輪中獲勝或失敗)是對玩家滿意度最具破壞性的差異結果。解決方案不是消除骰子,而是建立後期遊戲,以便骰子結果影響勝利之路,而不是直接決定勝利。當多個玩家在進入最後一輪時都有可行的獲勝位置時,幸運擲骰會讓獲勝者感到滿意,但對失敗者來說不會感到不合法 - 因為失敗者也有一條可以通過自己的幸運擲骰來獲勝的途徑。

用數學進行平衡檢定

MEQA 框架(可衡量性、參與度、品質、可訪問性)提供了一種結構化的遊戲平衡測試方法。 可衡量性支柱——MEQA中的M——是數學正式進入設計過程的地方:在遊戲測試開始之前,設計師用可衡量的術語定義「平衡」的含義。

對於像 Neutronium: Parallel Wars 這樣具有不對稱派系的遊戲,可衡量的平衡意味著:每個派係都應該在具有相當技能水平的足夠樣本的遊戲中達到定義的容差範圍內的勝率。如果目標是 50% 的勝率(純粹平衡),可接受範圍為 ±10%,則贏得 42% 遊戲的派系在可接受範圍內,而贏得 63% 的派系則不在容忍範圍內。但要達到這個標準,需要在測試之前了解目標——而不是事後宣稱觀察到的勝率「足夠接近」。

在遊戲測試之前定義指標會改變您觀察到的內容。如果您知道自己正在衡量每個派系的勝率,則可以追蹤各個會話中的派系分配和結果。如果您知道自己正在測量平均遊戲長度,則可以記錄時間戳記。這些決定必須在第一次遊戲測試之前做出,因為回顧性指標不可靠——記憶是有選擇性的,人類自然會記住支持現有信念的會話。

平衡結論的樣本量要求通常比設計者預期的要大。對於具有 2 個派系的 2 人遊戲,30 場遊戲提供了用於在 80% 置信度下檢測大於 15% 的不平衡的基線數據。對於 6 個派系的 4 人遊戲,組合空間要大得多:30 場遊戲為每個派係對提供大約 5 場遊戲——勉強足以檢測極端不平衡,也不足以檢測微妙的優勢。獨立出版商很少有資源進行嚴格的統計驗證;實用的方法是使用數學來驗證預期值,使用遊戲測試來捕獲異常值,並使用發布後的社群回饋來識別仍然存在的問題。

有關完整框架(包括可衡量性如何與其他 MEQA 支柱整合),請參閱MEQA 遊戲平衡框架指南,其中涵蓋了定義、衡量和實現跨遊戲系統平衡的完整方法。

Neutronium 中的收入縮放公式直接與 /mechanics/nuclear-port-scaling 中的機制細節相關,其中指數函數與每個閾值的設計推理一起記錄。

設計師的機率工具

有多種工具可以讓遊戲設計數學變得容易理解,而無需高級統計訓練。這些都是在實務上有效的方法。

AnyDice (anydice.com) 是遊戲設計師的標準骰子機率計算器。它接受自然語言骰子表示法(2d6、d4+d8、3d6 保持最高 2)並傳回機率分佈、期望值和累積機率。對於任何涉及骰子的機制,AnyDice 應該是第一個參考的工具。其輸出圖表使分佈立即清晰可比 - 將兩個不同的骰子表達式並排粘貼即可立即查看它們的分佈有何不同。

電子表格模擬(Google 表格、Excel)可處理 AnyDice 無法處理的計算:多輪資源累積、多個來源的收入、不同戰略假設下的預期遊戲長度。遊戲經濟的基本電子表格模型(包含每回合的列、每種資源類型的行以及代表遊戲核心收入和支出機制的公式)需要 2-3 小時才能構建,並揭示需要 20 多次遊戲測試才能憑經驗發現的平衡問題。

蒙特卡羅模擬是最高精度的工具:透過計算運行遊戲機制數千次,以產生所有可能結果的統計分佈。對於有程式設計背景的設計師來說,Python 結合 NumPy 足以滿足大多數遊戲模擬需求。對於沒有程式設計背景的設計人員來說,有視覺化的蒙特卡羅工具,甚至基於電子表格的模擬,可以用有限的技術知識產生有意義的結果。蒙特卡羅對於具有複雜相互依賴性的遊戲最有價值,這些遊戲分析計算很困難 - 當多個隨機事件相互作用時,模擬會產生比手動計算更可靠的分佈估計。

何時信任數學與何時進行遊戲測試:在投資遊戲測試之前使用數學來驗證理論平衡並發現明顯的設計錯誤。使用遊戲測試來發現人類心理如何與數學相互作用——最佳策略與玩家實際行為不同的地方,以及數學預測平衡但體驗感覺不公平的地方。兩者都是必要的。單獨使用兩者都不夠。

常見問題

為什麼即使機率是平衡的,桌遊中的骰子也會感覺不公平?
骰子感覺不公平,因為人類記憶偏向負面結果。關於損失厭惡的心理學研究表明,糟糕的骰子被記住的程度和權重大約是同樣好的骰子的兩倍。當你在一場比賽中擲出 3 次不好和 3 次好時,你離開牌桌時會感到不走運——因為失敗比勝利在情感上更顯著。此外,高方差意味著各個會話可能與預期平均值存在顯著差異:「公平」的骰子系統可以純粹偶然地連續產生六次低擲,即使在正常的統計變化範圍內,也感覺受到了操縱。
桌遊的預期價值是多少?
棋盤遊戲中的預期值 (EV) 是根據所有可能結果計算出的機率事件的平均結果,並以其機率進行加權。對於標準 d6,預期值為 (1+2+3+4+5+6)/6 = 3.5。設計者利用預期價值來確保不同的策略選擇提供可比較的投資回報——如果一種行動的預期價值比其他行動高得多,理性的參與者總是會選擇它,從而消除有意義的決策點。良好的遊戲設計意味著為玩家提供期望值足夠接近的選擇,以便其他因素(風險承受能力、當前遊戲狀態、對手行為)決定最佳選擇。
桌遊設計師如何控制隨機性?
棋盤遊戲設計師透過多種技術控制隨機性:減少變異數的骰子池機制(擲多個骰子並選擇最佳結果)、具有非標準面分佈的自訂骰子以實現精確的機率控制、從洗牌牌中抽牌以實現隨著時間的推移趨向於預期結果的偽隨機性,以及讓玩家在不動作的情況下消除壞錢的情況下消除壞資源、重擲性。設計師的目標不是消除隨機性,而是讓它感覺對技能有反應。
需要多少次遊戲測試才能統計驗證桌遊平衡?
對於具有 2 個不對稱派系的 2 人遊戲,30 場遊戲為檢測 80% 置信度下大於 15% 的勝率不平衡提供了基線。對於包含 6 個派系的 4 人遊戲,組合空間需要 150 多場遊戲才能獲得每個派系對的有意義數據。在實踐中,大多數獨立發行商使用數學來驗證預期值並捕捉明顯的主導地位,使用遊戲測試來查找異常值和邊緣情況,並使用發布後的社群回饋來識別兩個階段中存在的平衡問題。所有這三種方法的結合比任何單一方法都能產生更可靠的平衡。

數學設計為可見的遊戲

Neutronium: Parallel Wars 的收入縮放、聯盟閾值和骰子系統建立在明確的機率數學基礎上。加入等待名單以獲取發布更新。

加入候補名單→