Sprievodca testovaním stolových hier: Ako otestovať rovnováhu ako profesionál

Po 25 rokoch vývoja Neutronium: Parallel Wars a vykonaní viac ako 12 zdokumentovaných testovaní hier vám môžem povedať, aký je rozdiel medzi testovaním hier a profesionálnym testovaním hier. Požiadať priateľov, aby hrali vašu hru, nie je testovanie hry. Je to socializácia s vašou hrou na stole. Profesionálne testovanie je systematické overovanie rovnováhy – definované metriky, testovanie s jednou premennou, štruktúrovaný zber údajov a disciplína, podľa ktorej sa každá relácia považuje za experiment a nie za zážitok.

Táto príručka sa zaoberá tým, ako to vyzerá v praxi: ako nastaviť reláciu, čo merať, ako identifikovať konkrétne kategórie problémov s rovnováhou a – čo je najdôležitejšie – kedy prestať testovať a odosielať. Princípy platia pre každú komplexnú hru. Príklady pochádzajú zo 47 mechaník a 13 úrovní vesmíru Neutronium: Parallel Wars, ktoré poskytli dostatočnú zložitosť na záťažové testovanie každej tu opísanej metodológie.

Prečo väčšina testov Play zlyhá

Jedna najčastejšia chyba pri testovaní hry: otázka „bolo to zábavné?“ na konci relácie. Pojem „zábava“ je príliš široký na to, aby bol použiteľný. Fun vám nemôže povedať, ktorý mechanik porušil rovnováhu. Zábava vám nemôže povedať, v ktorom bode zapojenia relácie klesli. Zábava je záver, nie diagnóza.

Namiesto toho merajte konkrétne metriky: miera víťazstiev na frakciu, premeny na prvý konflikt, rozdiel v príjmoch v strede hry, dĺžka relácie na fázu. Tieto čísla vám povedia, kde hľadať. „Zábava“ vám nepovie nič, o čom ste ešte netušili.

Prípadová štúdia

Snehová guľa jadrového prístavu — Vesmír 7

Jadrové prístavy v Neutronium: Parallel Wars generujú exponenciálny príjem: 1 port dáva 2 Nn na kolo, 10 portov dáva 220 Nn na kolo. V prvých stretnutiach hráči opísali ekonomiku ako „nevyváženú“. Nie je užitočné. Oprava si vyžadovala meranie: aký bol skutočný rozdiel Nn medzi lídrom a posledným miestom na konci Universe 6?

MEQA sledovanie odhalilo pomer medzi príjmami lídra a posledného hráča 14:1 v 7. relácii – líder nazbieral 6 portov, hráči na konci 0. To nie je „nevyvážený pocit“. To je definovaný počet, ktorý prekračuje prah kontroly kvality 5:1 a spúšťa povinnú zmenu dizajnu. Bez tohto merania by bola oprava hádankou. S ním bola oprava zameraná: urobiť prístavy zničiteľnými počas boja. Vzorec príjmu nezmenený. Problém vyriešený.

Hlavné zlyhanie neštruktúrovaného testovania hry: bez definovaných metrík nedokážete rozlíšiť problém dizajnu od prispôsobenia prehrávača. Skúsení hráči sa prispôsobia porušenej mechanike – vybudujú stratégie okolo nefunkčnosti, prestanú sa na ňu sťažovať a prinútia to, aby to vyzeralo ako „spôsob, akým sa hra hrá“. Meranie odhalí, čo správanie skrýva.

Prehľad rámca MEQA

Pre Neutronium: Parallel Wars je metodológiou systematického testovania hier MEQA Framework – štvorpilierová štruktúra vyvinutá počas 25 rokov opakovania. Každý pilier rieši inú kategóriu potreby testovania:

M

Merateľnosť

Každá relácia má definované číselné metriky sledované pred začiatkom relácie. Pomery príjmov, miery výhier, počty území, dĺžka relácie na fázu. Ak preň nemôžete definovať číslo, nemôžete ho otestovať.

E

Zapojenie

Sledovanie tempa podľa úrovne vesmíru. Čas na fázu odhaľuje, kde sa hráči odpútajú pred odozvou po hre. Prerušenia pozornosti u mladších hráčov sú merateľnými zlyhaniami zapojenia.

Q

Kontrola kvality

Definované limity úspešného/neúspešného vykonania pre každú metriku, ktoré sa nastavia pred zhromažďovaním akýchkoľvek údajov. Prekročenie prahu spúšťa zmenu dizajnu – odstránenie subjektivity z „kedy je niečo pokazené dostatočne na opravu?“ otázku.

A

Prispôsobivosť

Metriky sledované v rôznych skupinách hráčov: vekové rozpätia, úrovne skúseností, počty hráčov. Mechanik vyvážený pre skúsených dospelých môže katastrofálne zlyhať v zmiešaných vekových skupinách.

Úplná rámcová metodológia MEQA – vrátane špecifických metrík používaných pre Neutronium: Parallel Wars a prahový systém kontroly kvality – je podrobne zdokumentovaná v MEQA Framework: Atesting Board Game Methodology for Proven Game. Táto príručka sa zameriava na praktickú aplikáciu na úrovni relácie.

Nastavenie relácie Playtesting

Profesionálne herné testovanie má tri fázy: nastavenie pred reláciou, pozorovanie počas relácie a štruktúrovaný prehľad po relácii. Každá fáza má špecifické požiadavky, ktoré väčšina neformálnych herných testov úplne preskočí.

Pred reláciou: Definujte presne jednu zmenu mechaniky, ktorú testujete. Zapíšte si to pred príchodom hráčov. Ak nemôžete uviesť „dnes testujeme, či zničiteľnosť jadrových prístavov zníži pomer medzi príjmami lídra a posledného pod 5:1“ – nie ste pripravení spustiť reláciu. Hypotéza musí byť konkrétna a falzifikovateľná. Zaznamenajte si základné metriky z predchádzajúcej relácie na priame porovnanie.

Počas relácie: Určte jedného pozorovateľa, ktorý NEHRA. Úlohou pozorovateľa je zaznamenať: dĺžku relácie na fázu, čas rozhodovania na kolo (priemer), akékoľvek momenty zmätku alebo odpojenia, stav víťazstva/prehry na frakciu za vesmír. Pozorovateľ sa nezúčastňuje hry, nevysvetľuje pravidlá a neodpovedá na otázky – ak má hráč otázku, ide o údaje. Zaznamenajte, čo ich zmiatlo a prečo.

Zhrnutie po relácii: maximálne 15 minút. Iba štruktúrované otázky – špecifické behaviorálne otázky, nie „bavilo vás to?“ Presné otázky, ktoré môžete použiť, nájdete v sekcii FAQ. Keď je to možné, zbierajte písomné odpovede – verbálne odpovede strácajú detaily a zavádzajú sociálnu zaujatosť (hráči sa zdráhajú povedať negatívne veci priamo dizajnérovi).

Údaje na zhromažďovanie každej relácie bez výnimky:

  • Dĺžka relácie na úroveň vesmíru
  • Výhra/prehra na frakciu
  • Otočte počet na prvý boj
  • Rozdiel v príjmoch medzi vedúcim a posledným hráčom v strede hry
  • Počet udalostí zmätených hráčov (definovaných ako: hráč položí otázku týkajúcu sa pravidiel alebo vykoná nezákonnú akciu)

Identifikácia problémov s rovnováhou

Problémy s rovnováhou spadajú do piatich kategórií, pričom každá má v údajoch odlišný signál:

Runaway líder: Signal — vedúci hráč nikdy neprehral po Universe 5 v 3 zo 4 stretnutí. Hranica: ak vodca vyhrá z pozície, ktorú mal vo vesmíre 4 vo viac ako 70 % stretnutí, hra sa v skutočnosti skončí na vesmíre 4. Preskúmajte mechaniku príjmu a územia vo vesmíroch 1–4.

Analýza paralýzy: Signál – priemerný čas rozhodovania na kolo sa zvyšuje, pretože vesmíry postupujú rýchlejšie, než vyžaduje zložitosť rozhodnutí. 5-minútový priemerný obrat vo vesmíre 3 a 20-minútový priemerný obrat vo vesmíre 6 s pridanými iba 2 novými mechanikami naznačuje problém interakcie mechaniky, nie problém zložitosti. Preskúmajte, ktoré konkrétne rozhodnutia zaberajú najviac času.

Dominancia frakcie: Signál – jedna frakcia vyhrá 60 % alebo viac relácií v 5 alebo viacerých testoch. Očakávaná miera výhry vo vyváženej hre so 4 frakciami je približne 25 %. Na 60% nie je frakcia len lepšia – má štrukturálnu výhodu, ktorú iné frakcie nedokážu prekonať lepšou hrou. Preskúmajte jedinečnú mechaniku dominantnej frakcie a hľadajte nepredvídateľné efekty interakcie.

Pokles zapojenia: Signál – hráči sa stávajú pasívnymi alebo sa viditeľne odpútavajú od konkrétneho sveta. Pozorovateľné správanie: hráči kontrolujú telefóny, odvracajú zrak od hracej plochy a pýtajú sa "kedy som na rade?" Sú to merateľné udalosti. Zaznamenajte, kedy sa vyskytli a ktorý vesmír prebiehal.

Prípadová štúdia – dominancia frakcie

Iit Ekonomická nerovnováha vo vesmíre 6+

Iit, ekonomická frakcia, vyhrala 7 z 10 stretnutí na Universe 6 a vyššom kvôli akumulácii príjmu z jadrového prístavu. Údaje boli jasné: miera výhry 70 %, základná hodnota 4× vyššia ako očakávaná 25 %. Testovali sa tri opravy, jedna na reláciu, podľa pravidla jednej premennej.

Test 1: Znížte hodnoty príjmu jadrového prístavu. Výsledok — Miera výhry klesla na 28 %, v prijateľnom rozsahu. Problém: Hráči hlásili, že frakcia sa cítila „prázdna“ so zníženou hodnotou portu. Ekonomická identita bola zničená. Vrátenie späť.

Test 2: Obmedzte počet jadrových prístavov na hráča. Výsledok — Miera výhier je 35 %, bližšie k vyrovnaniu. Problém: neskorá hra stratila svoju ekonomickú eskaláciu. Ostatné frakcie hlásili menej zaujímavé rozhodnutia, keď sa to nedalo škálovať. Vrátenie späť.

Test 3: Urobte z jadrových prístavov zničiteľné počas boja. Výsledok — Miera výhier 31 %, v prijateľnom rozsahu. Žiadne negatívne účinky na ostatné frakcie. Vzorec príjmu prístavu nezmenený – ekonomická identita zachovaná. Oprava potvrdená.

Pravidlo jednej premennej

Pravidlo jednej premennej je najdôležitejšou zásadou pri testovaní rovnováhy a najčastejšie sa porušuje. Pravidlo: medzi reláciami zmeňte presne jednu vec.

Dôvodom je jasnosť diagnostiky. Ak zmeníte tri mechaniky a hra sa zlepší, neviete, ktorá zmena bola zodpovedná. Možno ste vyriešili jeden problém a vytvorili dva ďalšie, ktoré sa ešte neprejavili. Možno ste odstránili symptóm a nechali hlavnú príčinu na mieste. Nemôžete to vedieť – pretože ste zmenili tri veci súčasne.

Aplikované na Neutronium: Parallel Wars: keď sa Universe 7 zdalo „príliš rýchle“ – relácie bežia kratšie, ako sa očakávalo, pričom hráči sa cítili uponáhľaní – v samostatných reláciách sa skúmali tri možné príčiny:

  • Relácia A: Predĺžená stimulácia – pridaný jeden dodatočný cyklus obohatenia do Universe 7. Výsledok: dĺžka relácie sa predĺžila o 8 minút. Skóre angažovanosti sa nezmenilo. Nie hlavná príčina.
  • Relácia B: Do Universe 7 bola pridaná ďalšia mechanika. Výsledok: dĺžka relácie sa zvýšila o 5 minút. Skóre zapojenia sa zvýšilo. Identifikovaná čiastočná príčina.
  • Relácia C: Preusporiadanie existujúcej mechaniky, aby sa hustota rozhodnutí rozdelila rovnomernejšie. Výsledok: dĺžka relácie sa zvýšila o 6 minút A skóre zapojenia sa výrazne zvýšilo. Identifikovaná hlavná príčina – mechanické zhlukovanie na konci vesmíru vytvorilo unáhlené konce.

Bez testovania každej zmeny samostatne by bol pohľad relácie C – problém mechanického zoskupovania – neviditeľný. Kombinovaná zmena B+C mohla vyzerať ako „pridanie mechaniky pomohlo“, keď skutočná oprava zmenila poradie toho, čo už tam bolo.

Bežná chyba: Spustenie relácie, v ktorej ste zmenili „iba dve malé veci“. V hre so vzájomne závislými mechanikami nie sú žiadne malé zmeny. Každá zmena je potenciálne premenná. Zaviažte sa k jednej na reláciu.

Testovanie so skupinami so zmiešanými skúsenosťami

Najťažšou výzvou na vyváženie v dizajne stolových hier nie je vyváženie frakcií alebo škálovanie príjmov – je to zaistenie toho, že skúsení hráči nebudú triviálne dominovať novým hráčom v tej istej relácii. Väčšina herných dizajnérov to úplne ignoruje a strácajú rodinu a príležitostné publikum.

Pri Neutronium: Parallel Wars pilier Adaptability MEQA explicitne sledoval mieru víťazstiev v reláciách so zmiešanými skúsenosťami. Pred vyriešením problému vyhrali skúsení hráči 78 % stretnutí v zmiešaných skupinách – vážna nerovnováha, ktorá zabránila novým hráčom vrátiť sa na sedenie 2.

Riešením bol hendikepový systém Progress Journal: skúsení hráči, ktorí predtým vyhrali vesmír, začínajú so zápornou bilanciou Nn úmernou ich výhode skúseností. Kalibrácia pochádza z údajov relácie MEQA:

Odohrané relácie (skúsený hráč) Počiatočný hendikep Miera výhier po hendikepe (exp. hráč) 1 – 3 relácie−5 Nn54 % 4–7 relácií−10 Nn52 % 8+ relácií−15 Nn51 %

Cieľová miera víťazstva medzi skúsenými a novými je 55 – 65 %. Menej ako 55 % znamená, že neexistuje zmysluplné vyjadrenie zručností – skúsení hráči nemajú zo svojich znalostí žiadnu výhodu. Viac ako 65 % znamená, že nový hráčsky zážitok je efektívne narušený – nemôžu súťažiť bez ohľadu na prijaté rozhodnutia.

Identifikujte medzery v údajoch: sledujte počet relácií pre každého hráča spolu s údajmi o výhrach/prehrách. Ak hráč s 10 reláciami vyhráva 75 % hier proti hráčom s 2 reláciami, kalibrácia hendikepu potrebuje úpravu – alebo samotná mechanika vytvára nezvratné výhody, ktoré sa príliš rýchlo spájajú.

Útes 12 relácií v Neutronium: po tom, čo hostitelskí hráči nazbierali viac ako 12 relácií, sa hra stala neprístupnou pre nových hráčov, ktorí sa pripojili prvýkrát. Medzera v znalostiach mechaniky bola príliš veľká na to, aby sa dala preklenúť bežnou hrou. Oprava: systém Progress Journal, ktorý zviditeľnil rozdiel skúseností a použil proporcionálnu korekciu. Bez údajov znázorňujúcich konkrétne útes 12 relácií by sa tento problém objavil skôr ako „noví hráči sa nevracajú“ ako „noví hráči v 1. relácii s hostiteľmi s 12 reláciami majú 23 % výhry.“

Kedy zastaviť testovanie Play

Jednou z najčastejších chýb pri vývoji stolových hier je testovanie hry na neurčitý čas – ako dôvod, prečo sa vyhnúť preprave, používame výraz „stále testujeme“. Toto je reakcia strachu prezlečená za prísnosť. V určitom okamihu vám údaje oznámia, že ste skončili.

Test klesajúcej návratnosti: ak tri po sebe idúce relácie testovania hry neprinesú žiadne použiteľné údajové body – žiadna metrika neprekročí prah kontroly kvality, nezaznamenajú sa žiadne nové udalosti zmätku, nezistia sa žiadne poklesy zapojenia – dosiahli ste saturáciu testu prehrávania pre aktuálny stav hry. Ďalšie relácie prinášajú potvrdenie, nie objav.

Kritériá pripravenosti lode Neutronium: Parallel Wars sú:

  1. Miera víťazstva vo všetkých 4 frakciách je v rámci 10 % rovnakej hodnoty (cieľ: 25 % každá, prijateľný rozsah: 22 – 28 % na frakciu)
  2. Skóre zapojenia zostáva nad 4 z 5 vo všetkých reláciách na Universes 1 – 6
  3. V 3 po sebe nasledujúcich reláciách na Universes 1 – 3 (základná hra) neboli zaznamenané žiadne udalosti zmätku
  4. Miera víťazných skúseností so zmiešanými skúsenosťami (skúsení verzus noví) v rozsahu 55 – 65 % počas 3 po sebe nasledujúcich relácií

Keď sú splnené všetky štyri kritériá v troch po sebe nasledujúcich reláciách, hra je v stave lode. Nie je dokonalý – „dokonalý“ nie je pre hru zmysluplný stav. Stav zásielky znamená, že údaje už neidentifikujú vylepšenia, ktoré by merateľným spôsobom zmenili zážitok hráča.

Často kladené otázky

Koľko testovacích relácií hry potrebujete pred zverejnením stolovej hry?
Minimálne 10 – 15 relácií s rôznymi skupinami pre hru s nízkou zložitosťou. Pre komplexné hry s viacerými frakciami a hlbokou mechanikou je realistickejších 30–50+ sedení. Neutronium: Parallel Wars má za sebou viac ako 12 zdokumentovaných sedení na overenie rovnováhy – oddelene od 25 rokov hry s príležitostným vývojom. Na počte záleží menej ako na kvalite: 12 štruktúrovaných relácií s definovanými metrikami vytvára užitočnejšie údaje ako 100 neštruktúrovaných relácií, pri ktorých ste sa pýtali „bolo to zábavné?“
Mal by dizajnér hrať v testoch hry?
Nie, na testovanie konkurenčnej rovnováhy. Prítomnosť dizajnéra mení správanie hráča dvoma spôsobmi: hráči kladú dizajnérovi otázky týkajúce sa pravidiel namiesto nahrávania zmätkovej udalosti a hráči moderujú svoju spätnú väzbu, aby sa nezdalo kritické. Spustite relácie len pre pozorovateľa na testovanie rovnováhy – dizajnér sleduje, zaznamenáva údaje a nezúčastňuje sa. Dizajnér môže hrať v neformálnych reláciách spätnej väzby, ale tieto relácie by nemali byť primárnym zdrojom údajov o rovnováhe.
Ako píšete dobré otázky na testovanie hier?
Vyhnite sa výrazu „páčilo sa vám to?“ — príliš vágne a sociálne zaujaté smerom k pozitívnym odpovediam. Použite špecifické otázky týkajúce sa správania: "V akom bode ste mali pocit, že vaša stratégia už nie je životaschopná?" odhalí, keď zlyhá mechanika dobiehania. "Kedy ste sa rozhodli prejsť z expanzie na obranu?" odhaľuje dynamiku stimulácie a tlaku. "Ktoré rozhodnutie bolo vo svojich dôsledkoch najviac nejasné?" identifikuje mechaniky, ktorým chýba viditeľná spätná väzba. Behaviorálne otázky odhaľujú problémy mechaniky; preferenčné otázky odhaľujú tematické problémy. Sú to samostatné kategórie a vyžadujú si samostatné otázky.
Aké nástroje používajú profesionálni herní dizajnéri na testovanie hier?
Tabletop Simulator pre vzdialené relácie a správu verzií – umožňuje vám vrátiť sa k predchádzajúcim verziám hry bez straty času fyzického prototypu. Tabuľky Google na sledovanie údajov relácie – vytvorte šablónu pred reláciou 1 a vyplňte rovnaké stĺpce pri každej relácii. Papierové prototypy (nikdy nie digitálne makety) na skoré fyzické testovanie – fyzické tokeny odhaľujú ergonomické problémy, ktoré digitálne makety skrývajú, vrátane rýchlosti manipulácie s komponentmi, viditeľnosti v podmienkach hry a pocitu nákladov na rozhodnutie, keď fyzicky dáte tokeny. Hlasové záznamy z rozborov po stretnutí na neskoršiu kontrolu – hráči často otvorene hovoria dôležité veci, ktoré zapisovateľ v danej chvíli prehliadne.

Prečítajte si celý rámec MEQA

Úplná metodika MEQA – vrátane prahov kontroly kvality, metrických definícií a úplnej prípadovej štúdie jadrového prístavu – je zdokumentovaná v článku MEQA Framework.

Prečítajte si rámec MEQA →