راهنمای تست بازی روی تخته: چگونه مانند یک حرفه ای تعادل را تست کنیم

پس از 25 سال توسعه Neutronium: Parallel Wars و اجرای بیش از 12 جلسه تست پخش مستند، می توانم تفاوت بین تست پخش و تست پخش حرفه ای را به شما بگویم. درخواست از دوستان برای بازی کردن بازی شما، تست بازی نیست. این معاشرت با بازی شما روی میز است. تست بازی حرفه ای اعتبار سنجی سیستماتیک تعادل است - معیارهای تعریف شده، آزمایش تک متغیری، جمع آوری داده های ساختاریافته، و نظمی برای تلقی هر جلسه به عنوان یک آزمایش و نه یک تجربه.

این راهنما در عمل به چه شکلی به نظر می رسد را پوشش می دهد: چگونه یک جلسه را تنظیم کنیم، چه چیزی را اندازه گیری کنیم، چگونه دسته بندی های خاصی از مشکلات تعادل را شناسایی کنیم، و - به طور مهم - چه زمانی آزمایش را متوقف کنیم و ارسال کنیم. این اصول برای هر بازی پیچیده ای اعمال می شود. مثال‌ها از 47 مکانیک و 13 سطح جهان Neutronium: Parallel Wars آمده‌اند، که پیچیدگی کافی برای تست استرس هر روشی را که در اینجا توضیح داده شده است، فراهم می‌کند.

چرا اکثر تست های Play شکست می خورند

متداول ترین اشتباه در تست بازی: پرسیدن "آیا جالب بود؟" در پایان یک جلسه "سرگرمی" بیش از حد گسترده است که قابل اجرا نیست. سرگرمی نمی تواند به شما بگوید کدام مکانیک تعادل را شکسته است. سرگرمی نمی تواند به شما بگوید در چه نقطه ای از تعامل جلسه کاهش یافته است. سرگرمی یک نتیجه گیری است، نه یک تشخیص.

در عوض، معیارهای خاصی را اندازه‌گیری کنید: نرخ برد در هر گروه، تعارض تبدیل به اول، تفاوت درآمد در اواسط بازی، طول جلسه در هر مرحله. این اعداد به شما می گویند کجا را نگاه کنید. "Fun" چیزی را به شما نمی گوید که قبلاً به آن مشکوک نبودید.

مطالعه موردی

The Nuclear Port Snowball — Universe 7

درگاه‌های هسته‌ای در Neutronium: Parallel Wars درآمد نمایی ایجاد می‌کنند: 1 پورت 2 Nn در هر دور، 10 پورت 220 Nn در هر دور تولید می‌کند. در جلسات اولیه، بازیکنان آزمایش کننده اقتصاد را به عنوان "احساس عدم تعادل" توصیف کردند. مفید نیست. رفع نیاز به اندازه گیری داشت: تفاوت Nn واقعی بین رهبر و آخرین مکان در انتهای Universe 6 چقدر بود؟

MEQA ردیابی نسبت درآمد رهبر به آخرین 14:1 را در جلسه 7 نشان داد - رهبر 6 پورت جمع کرده بود، بازیکنان عقب 0. این "احساس نامتعادل" نیست. این یک عدد تعریف شده است که از آستانه کنترل کیفیت 5:1 فراتر می رود و باعث تغییر طراحی اجباری می شود. بدون آن اندازه گیری، رفع مشکل یک حدس بود. با آن، راه حل مورد هدف قرار گرفت: پورت ها را در طول نبرد قابل تخریب کنید. فرمول درآمد بدون تغییر مشکل حل شد.

شکست اصلی تست بازی بدون ساختار: بدون معیارهای تعریف شده، نمی توانید یک مشکل طراحی را از یک انطباق پخش کننده تشخیص دهید. بازیکنان باتجربه خود را با مکانیک‌های شکسته وفق می‌دهند - آنها استراتژی‌هایی را پیرامون شکستگی ایجاد می‌کنند، از شکایت از آن دست نمی‌کشند، و آن را شبیه به «طرز بازی» می‌کنند. اندازه‌گیری نشان می‌دهد که رفتار چه چیزی را پنهان می‌کند.

نمای کلی چارچوب MEQA

برای Neutronium: Parallel Wars، روش تست بازی سیستماتیک MEQA چارچوب است - یک ساختار چهار ستونی که طی 25 سال تکرار توسعه یافته است. هر ستون به دسته متفاوتی از نیازهای آزمایشی پاسخ می‌دهد:

M

قابلیت اندازه گیری

هر جلسه دارای معیارهای عددی است که قبل از شروع جلسه ردیابی شده است. نسبت درآمد، نرخ برد، تعداد قلمرو، طول جلسه در هر مرحله. اگر نمی توانید عددی برای آن تعریف کنید، نمی توانید آن را آزمایش کنید.

E

نامزدی

پیش‌گیری در هر سطح جهانی دنبال می‌شود. زمان در هر مرحله نشان می‌دهد که بازیکنان قبل از بازخورد پس از بازی، در چه موقعیتی قرار می‌گیرند. وقفه های توجه در بازیکنان جوان تر، شکست های تعاملی قابل اندازه گیری هستند.

Q

کنترل کیفیت

آستانه قبولی/شکست تعریف شده برای هر معیار، قبل از جمع‌آوری داده‌ها تنظیم شده است. عبور از یک آستانه باعث تغییر طراحی می شود - حذف ذهنیت از "چه زمانی چیزی به اندازه کافی شکسته شده است که تعمیر شود؟" سوال.

A

انطباق پذیری

معیارهای ردیابی شده در گروه‌های مختلف بازیکن: محدوده سنی، سطوح تجربه، تعداد بازیکنان. مکانیک متعادل برای بزرگسالان باتجربه ممکن است در گروه های سنی مختلط به طرز فاجعه باری شکست بخورد.

متدولوژی چارچوب MEQA کامل - از جمله معیارهای خاص مورد استفاده برای Neutronium: Parallel Wars و سیستم آستانه QC - به تفصیل در MEQA Testing Board Game: Balance Mehodology Frame: این راهنما بر برنامه کاربردی در سطح جلسه تمرکز دارد.

تنظیم جلسه تست Play

جلسات تست بازی حرفه ای دارای سه مرحله است: تنظیم قبل از جلسه، مشاهده در طول جلسه، و توضیح ساختار یافته پس از جلسه. هر مرحله نیازمندی‌های خاصی دارد که اکثر تست‌های غیررسمی بازی به طور کامل نادیده گرفته می‌شوند.

پیش جلسه: دقیقاً یک تغییر مکانیکی را که در حال آزمایش هستید تعریف کنید. قبل از ورود بازیکنان آن را یادداشت کنید. اگر نمی‌توانید بگویید "امروز ما در حال آزمایش هستیم که آیا ساخت بنادر هسته‌ای قابل تخریب، نسبت درآمد رهبر به آخرین به زیر 5:1 را کاهش می‌دهد یا خیر"، شما آماده اجرای یک جلسه نیستید. فرضیه باید مشخص و قابل ابطال باشد. معیارهای خط پایه را از جلسه قبل برای مقایسه مستقیم ثبت کنید.

در طول جلسه: یک ناظر را تعیین کنید که بازی نمی کند. وظیفه ناظر ثبت این موارد است: طول جلسه در هر فاز، زمان تصمیم گیری در هر نوبت (متوسط)، هر لحظه سردرگمی یا عدم درگیری، حالت برد/باخت به ازای هر جناح در هر جهان. ناظر در بازی شرکت نمی کند، قوانین را توضیح نمی دهد و به سؤالات پاسخ نمی دهد - اگر یک بازیکن سؤالی داشته باشد، آن داده است. یادداشت کنید چه چیزی و چرا آنها را گیج کرده است.

توضیحات پس از جلسه: حداکثر 15 دقیقه. فقط سؤالات ساختاری - سؤالات رفتاری خاص، نه "آیا از آن لذت بردید؟" برای استفاده از سؤالات دقیق به بخش سؤالات متداول مراجعه کنید. در صورت امکان پاسخ‌های کتبی را جمع‌آوری کنید - پاسخ‌های شفاهی جزئیات را از دست می‌دهند و سوگیری اجتماعی را معرفی می‌کنند (بازیکنان تمایلی به گفتن مستقیم چیزهای منفی به طراح ندارند).

داده برای جمع آوری هر جلسه بدون استثنا:

  • طول جلسه در هر ردیف جهان
  • برنده/باخت هر جناح
  • نوبت شمارش به اولین مبارزه
  • تفاوت درآمد بین بازیکن برتر و بازیکن آخر در وسط بازی
  • تعداد رخدادهای سردرگمی بازیکن (تعریف شده به این صورت: بازیکن سوالی درباره قوانین می پرسد یا اقدامی غیرقانونی انجام می دهد)

شناسایی مشکلات موجودی

مشکلات موجودی به پنج دسته تقسیم می‌شوند که هر کدام سیگنال مشخصی در داده‌ها دارند:

رهبر فراری: سیگنال — بازیکن پیشرو پس از Universe 5 در 3 جلسه از 4 جلسه هرگز شکست نخورد. آستانه: اگر رهبر از موقعیتی که در Universe 4 در بیش از 70٪ جلسات داشت برنده شود، بازی به طور موثر در Universe 4 به پایان می رسد. مکانیک درآمد و قلمرو را در جهان های 1-4 بررسی کنید.

فلج تجزیه و تحلیل: سیگنال - میانگین زمان تصمیم گیری در هر نوبت افزایش می یابد زیرا جهان ها سریعتر از آن چیزی که پیچیدگی تصمیم را ایجاب می کند پیشرفت می کنند. یک چرخش متوسط ​​5 دقیقه ای در جهان 3 تبدیل شدن به یک چرخش متوسط ​​20 دقیقه ای در جهان 6 با تنها 2 مکانیک جدید اضافه شده نشان دهنده یک مشکل تعامل مکانیکی است، نه یک مشکل پیچیدگی. بررسی کنید که کدام تصمیمات خاص بیشترین زمان را می گیرند.

تسلط جناح: سیگنال - یک جناح منفرد برنده 60٪ یا بیشتر از جلسات در 5 تست یا بیشتر است. نرخ برد مورد انتظار در یک بازی متعادل 4 جناحی تقریباً 25٪ است. در 60%، جناح نه تنها بهتر است - بلکه یک مزیت ساختاری دارد که سایر جناح ها نمی توانند با بازی بهتر بر آن غلبه کنند. مکانیک منحصر به فرد جناح غالب را برای اثرات متقابل پیش بینی نشده بررسی کنید.

کاهش تعامل: سیگنال — بازیکنان در یک جهان خاص منفعل می‌شوند یا به‌طور مشهودی درگیر می‌شوند. رفتار قابل مشاهده: بازیکنان تلفن ها را چک می کنند، نگاهشان را از تخته دور می کنند، می پرسند "نوبت من کی است؟" اینها رویدادهای قابل اندازه گیری هستند. زمان وقوع آنها و اینکه کدام جهان در حال انجام است را ثبت کنید.

مطالعه موردی - تسلط جناح

Iit Economy Imbalance در Universe 6+

Iit، جناح اقتصاد، به دلیل انباشت درآمد بندر هسته‌ای، 7 جلسه از 10 جلسه در Universe 6 و بالاتر را برد. داده ها واضح بود: نرخ برد 70 درصد، 4× بالاتر از 25 درصد پایه مورد انتظار. سه اصلاح، یکی در هر جلسه، با پیروی از قانون تک متغیری آزمایش شد.

آزمون 1: ارزش درآمد بندر هسته ای را کاهش دهید. نتیجه - نرخ برد Iit به 28٪ کاهش یافت، در محدوده قابل قبول. مشکل: بازیکنان Iit گزارش کردند که جناح احساس "توخالی" با کاهش ارزش پورت دارد. هویت اقتصادی از بین رفت. برگشت.

آزمایش 2: تعداد پورت‌های هسته‌ای را برای هر بازیکن محدود کنید. نتیجه - نرخ برد 35 درصد، نزدیک به متعادل است. مشکل: بازی در اواخر بازی پویایی تشدید اقتصادی خود را از دست داد. گروه‌های دیگر تصمیمات کمتر جالبی را در زمانی که Iit نمی‌توانست مقیاس‌پذیری کند گزارش کردند. برگشت.

تست 3: بنادر هسته‌ای را در طول نبرد قابل تخریب کنید. نتیجه - نرخ برد 31% در محدوده قابل قبول است. هیچ تاثیر منفی بر سایر جناح ها ندارد. فرمول درآمد بندر بدون تغییر - هویت اقتصادی حفظ می شود. رفع تأیید شد.

قانون تک متغیره

قانون تک متغیری مهمترین اصل در تست تعادل و بیشترین نقض شده است. قانون: دقیقاً یک چیز را بین جلسات تغییر دهید.

دلیل وضوح تشخیصی است. اگر سه مکانیک را تغییر دهید و بازی بهبود یابد، نمی دانید که کدام تغییر مسئول بوده است. ممکن است یک مشکل را برطرف کرده باشید و دو مشکل دیگر را ایجاد کرده باشید که هنوز آشکار نشده اند. ممکن است یک علامت را برطرف کرده باشید و علت اصلی را در جای خود رها کرده باشید. شما نمی توانید بدانید - زیرا سه چیز را به طور همزمان تغییر دادید.

برای Neutronium: Parallel Wars اعمال می‌شود: زمانی که Universe 7 "خیلی سریع" احساس می‌کرد - جلسات کوتاه‌تر از حد انتظار اجرا می‌شد و بازیکنان احساس عجله می‌کردند - سه دلیل احتمالی در جلسات جداگانه بررسی شد:

  • جلسه A: سرعت طولانی - یک چرخه غنی‌سازی اضافی به Universe 7 اضافه شد. نتیجه: طول جلسه 8 دقیقه افزایش یافت. امتیاز نامزدی بدون تغییر علت اصلی نیست.
  • جلسه B: مکانیک اضافی به Universe 7 اضافه شد. نتیجه: طول جلسه 5 دقیقه افزایش یافت. امتیاز مشارکت افزایش یافت. علت جزئی شناسایی شد.
  • جلسه C: مکانیک های موجود را مجدداً ترتیب داد تا چگالی تصمیم گیری به طور یکنواخت تر توزیع شود. نتیجه: طول جلسه 6 دقیقه افزایش یافت و امتیاز تعامل به طور معنی داری افزایش یافت. علت ریشه‌ای شناسایی شد - خوشه‌بندی مکانیکی در انتهای کیهان پایان‌های عجولانه ایجاد کرد.

بدون آزمایش هر تغییر به طور جداگانه، بینش جلسه C - مشکل خوشه بندی مکانیکی - نامرئی بود. تغییر ترکیبی B+C ممکن است شبیه «افزودن مکانیک کمک کرد» به نظر می‌رسد، زمانی که راه‌حل واقعی در حال مرتب کردن مجدد مواردی بود که قبلاً وجود داشت.

اشتباه رایج: اجرای جلسه‌ای که در آن «فقط دو چیز کوچک» را تغییر داده‌اید. هیچ تغییر کوچکی در یک بازی با مکانیک های وابسته به هم وجود ندارد. هر تغییری به طور بالقوه یک متغیر است. به یک جلسه در هر جلسه متعهد شوید.

آزمایش با گروه‌های تجربه ترکیبی

سخت‌ترین چالش تعادل در طراحی بازی‌های رومیزی، تعادل جناحی یا مقیاس‌بندی درآمد نیست - این تضمین می‌کند که بازیکنان باتجربه بر بازیکنان جدید در همان جلسه تسلط ندارند. اکثر طراحان بازی این موضوع را به طور کامل نادیده می گیرند و خانواده و مخاطبان عادی خود را از دست می دهند.

برای Neutronium: Parallel Wars، ستون MEQA سازگاری نرخ های برد را در جلسات با تجربه ترکیبی به صراحت ردیابی کرد. قبل از پرداختن به مشکل، بازیکنان باتجربه 78٪ از جلسات گروهی ترکیبی را برنده شدند - عدم تعادل شدیدی که مانع از بازگشت بازیکنان جدید به جلسه 2 می‌شود.

راه حل سیستم نقص مجله پیشرفت بود: بازیکنان باتجربه که قبلاً یک جهان را برده اند، با تعادل Nn منفی متناسب با مزیت تجربه خود شروع می کنند. کالیبراسیون از داده‌های جلسه MEQA انجام شد:

<جدول class="data-table"> جلسات پخش شده (بازیکن باتجربه) هندیپ شروع نرخ برد پس از معلولیت (بازیکن توسعه یافته) 1 تا 3 جلسه-5 Nn54٪ 4-7 جلسه-10 Nn52% 8+ جلسه−15 Nn51%

هدف برای نرخ برد با تجربه در مقابل جدید 55 تا 65 درصد است. زیر 55 درصد به این معنی است که هیچ بیان مهارت معناداری وجود ندارد - بازیکنان با تجربه هیچ مزیتی از دانش خود ندارند. بالای 65٪ به این معنی است که تجربه بازیکن جدید به طور موثر شکسته شده است - آنها بدون توجه به تصمیمات اتخاذ شده نمی توانند رقابت کنند.

شناسایی شکاف‌های تجربه در داده‌ها: تعداد جلسات را برای هر بازیکن در کنار داده‌های برد/باخت پیگیری کنید. اگر بازیکنی با 10 جلسه 75 درصد بازی‌ها را در مقابل بازیکنان با 2 جلسه برنده شود، کالیبراسیون نقص نیاز به تنظیم دارد - یا خود مکانیک‌ها مزایای غیرقابل برگشتی ایجاد می‌کنند که خیلی سریع ترکیب می‌شوند.

«صخره 12 جلسه ای» در Neutronium: پس از اینکه بازیکنان میزبان بیش از 12 جلسه را جمع کردند، بازی برای بازیکنان جدیدی که برای اولین بار به آن ملحق می شوند غیرقابل دسترس شد. شکاف دانش مکانیک بیش از حد بزرگ بود که نمی‌توان از طریق بازی معمولی پل زد. رفع: سیستم Progress Journal، که تفاوت تجربه را قابل مشاهده کرد و یک تصحیح متناسب را اعمال کرد. بدون داده‌هایی که صخره ۱۲ جلسه‌ای را به‌طور خاص نشان می‌دهند، این مشکل به‌عنوان «بازیکنان جدید برنمی‌گردند» به جای «بازیکنان جدید در جلسه ۱ با میزبان‌های ۱۲ جلسه ۲۳ درصد نرخ برد دارند» ظاهر می‌شد.

زمانی که تست پخش را متوقف کنیم

یکی از رایج‌ترین اشتباهات در توسعه بازی‌های تخته‌ای، آزمایش بازی به‌طور نامحدود است — استفاده از «ما هنوز در حال آزمایش بازی هستیم» به عنوان دلیلی برای اجتناب از ارسال. این یک پاسخ ترس است که لباس سختگیرانه به تن کرده است. در برخی موارد، داده ها به شما می گویند که کارتان تمام شده است.

تست بازده کاهشی: اگر سه جلسه تست بازی متوالی هیچ نقطه داده عملی ایجاد نکرد - هیچ متریکی از آستانه QC عبور نکرد، هیچ رویداد سردرگمی جدیدی ثبت نشد، هیچ افت تعاملی شناسایی نشد - به اشباع تست پخش برای وضعیت فعلی بازی رسیده‌اید. جلسات اضافی در حال تأیید هستند، نه کشف.

معیارهای آمادگی کشتی

Neutronium: Parallel Wars عبارتند از:

  1. نرخ برد در هر 4 جناح در 10٪ برابر است (هدف: هر کدام 25٪، محدوده قابل قبول: 22 تا 28٪ در هر جناح)
  2. امتیاز تعامل در همه جلسات در Universes 1-6 بالاتر از 4 از 5 باقی می ماند
  3. هیچ رویداد سردرگمی در 3 جلسه متوالی در Universes 1–3 (بازی اصلی) ثبت نشده است
  4. نرخ برد با تجربه ترکیبی (تجربه شده در مقابل جدید) در محدوده 55 تا 65 درصد در 3 جلسه متوالی

هنگامی که هر چهار معیار در سه جلسه متوالی برآورده شوند، بازی در وضعیت کشتی قرار دارد. کامل نیست - "کامل" یک حالت معنی دار برای یک بازی نیست. شرایط کشتی به این معنی است که داده‌ها دیگر بهبودهایی را که تجربه بازیکن را به روشی قابل اندازه‌گیری تغییر می‌دهند، شناسایی نمی‌کنند.

سوالات متداول

چند جلسه تست پلی قبل از انتشار یک بازی رومیزی نیاز دارید؟
حداقل 10 تا 15 جلسه با گروه های مختلف برای یک بازی با پیچیدگی کم. برای بازی های پیچیده با چند جناح و مکانیک عمیق، 30 تا 50+ جلسات واقع بینانه تر است. Neutronium: Parallel Wars بیش از 12 جلسه تأیید تعادل مستند داشته است - جدا از 25 سال بازی توسعه گاه به گاه. این تعداد کمتر از کیفیت مهم است: 12 جلسه ساختاریافته با معیارهای تعریف شده داده های عملی تری نسبت به 100 جلسه بدون ساختار تولید می کند که در آنها پرسیده اید "آیا جالب بود؟"
آیا طراح باید در آزمون های پخش بازی کند؟
خیر، برای تست تعادل رقابتی. حضور طراح به دو صورت رفتار بازیکن را تغییر می دهد: بازیکنان به جای ضبط یک رویداد سردرگمی، از طراح سوالات قوانین می پرسند، و بازیکنان بازخورد خود را تعدیل می کنند تا انتقادی به نظر نرسند. جلسات صرفاً مشاهده‌گر را برای تست تعادل اجرا کنید - طراح تماشا می‌کند، داده‌ها را ضبط می‌کند و شرکت نمی‌کند. طراح می‌تواند در جلسات بازخورد معمولی بازی کند، اما این جلسات نباید منبع اصلی داده‌های موجودی باشد.
چگونه سوالات تست بازی خوب بنویسید؟
از "از این کار لذت بردید؟" - بیش از حد مبهم و سوگیری اجتماعی نسبت به پاسخ های مثبت. از سؤالات رفتاری خاص استفاده کنید: "در چه مرحله ای احساس کردید استراتژی شما دیگر قابل اجرا نیست؟" نشان می دهد که مکانیک رسیدن به عقب شکست می خورد. چه زمانی تصمیم گرفتید از گسترش به دفاع تغییر دهید؟ پویایی سرعت و فشار را نشان می دهد. کدام تصمیم در پیامدهای آن نامشخص بود؟ مکانیک هایی را که فاقد بازخورد قابل مشاهده هستند شناسایی می کند. سوالات رفتاری مشکلات مکانیک را آشکار می کند. سوالات ترجیحی مشکلات موضوع را آشکار می کند. آنها مقوله های جداگانه ای هستند و به سؤالات جداگانه نیاز دارند.
طراحان حرفه ای بازی از چه ابزارهایی برای تست بازی استفاده می کنند؟
شبیه‌ساز رومیزی برای جلسات از راه دور و مدیریت نسخه - به شما امکان می‌دهد بدون از دست دادن زمان نمونه فیزیکی به نسخه‌های قبلی بازی برگردید. Google Sheets برای ردیابی داده های جلسه — قبل از جلسه 1 یک الگو ایجاد کنید و هر جلسه همان ستون ها را پر کنید. نمونه‌های اولیه کاغذی (هرگز مدل‌های دیجیتال) برای آزمایش‌های فیزیکی اولیه - توکن‌های فیزیکی مشکلات ارگونومیکی را که ماکت‌های دیجیتال پنهان می‌کنند، آشکار می‌کنند، از جمله سرعت رسیدگی به اجزا، دید در شرایط بازی، و احساس هزینه تصمیم‌گیری هنگام استفاده فیزیکی از توکن‌ها. ضبط‌های صوتی خلاصه‌های پس از جلسه برای بررسی بعدی - بازیکنان معمولاً چیزهای مهمی را به‌هیچ‌وجه به زبان می‌آورند که یادداشت‌نویس در لحظه از دست می‌دهد.

چارچوب MEQA کامل را بخوانید

روش شناسی کامل MEQA - از جمله آستانه QC، تعاریف متریک، و مطالعه موردی کامل بندر هسته ای - در مقاله چارچوب MEQA مستند شده است.

چارچوب MEQA را بخوانید →