پس از 25 سال توسعه Neutronium: Parallel Wars و اجرای بیش از 12 جلسه تست پخش مستند، می توانم تفاوت بین تست پخش و تست پخش حرفه ای را به شما بگویم. درخواست از دوستان برای بازی کردن بازی شما، تست بازی نیست. این معاشرت با بازی شما روی میز است. تست بازی حرفه ای اعتبار سنجی سیستماتیک تعادل است - معیارهای تعریف شده، آزمایش تک متغیری، جمع آوری داده های ساختاریافته، و نظمی برای تلقی هر جلسه به عنوان یک آزمایش و نه یک تجربه.
این راهنما در عمل به چه شکلی به نظر می رسد را پوشش می دهد: چگونه یک جلسه را تنظیم کنیم، چه چیزی را اندازه گیری کنیم، چگونه دسته بندی های خاصی از مشکلات تعادل را شناسایی کنیم، و - به طور مهم - چه زمانی آزمایش را متوقف کنیم و ارسال کنیم. این اصول برای هر بازی پیچیده ای اعمال می شود. مثالها از 47 مکانیک و 13 سطح جهان Neutronium: Parallel Wars آمدهاند، که پیچیدگی کافی برای تست استرس هر روشی را که در اینجا توضیح داده شده است، فراهم میکند.
چرا اکثر تست های Play شکست می خورند
متداول ترین اشتباه در تست بازی: پرسیدن "آیا جالب بود؟" در پایان یک جلسه "سرگرمی" بیش از حد گسترده است که قابل اجرا نیست. سرگرمی نمی تواند به شما بگوید کدام مکانیک تعادل را شکسته است. سرگرمی نمی تواند به شما بگوید در چه نقطه ای از تعامل جلسه کاهش یافته است. سرگرمی یک نتیجه گیری است، نه یک تشخیص.
در عوض، معیارهای خاصی را اندازهگیری کنید: نرخ برد در هر گروه، تعارض تبدیل به اول، تفاوت درآمد در اواسط بازی، طول جلسه در هر مرحله. این اعداد به شما می گویند کجا را نگاه کنید. "Fun" چیزی را به شما نمی گوید که قبلاً به آن مشکوک نبودید.
The Nuclear Port Snowball — Universe 7
درگاههای هستهای در Neutronium: Parallel Wars درآمد نمایی ایجاد میکنند: 1 پورت 2 Nn در هر دور، 10 پورت 220 Nn در هر دور تولید میکند. در جلسات اولیه، بازیکنان آزمایش کننده اقتصاد را به عنوان "احساس عدم تعادل" توصیف کردند. مفید نیست. رفع نیاز به اندازه گیری داشت: تفاوت Nn واقعی بین رهبر و آخرین مکان در انتهای Universe 6 چقدر بود؟
MEQA ردیابی نسبت درآمد رهبر به آخرین 14:1 را در جلسه 7 نشان داد - رهبر 6 پورت جمع کرده بود، بازیکنان عقب 0. این "احساس نامتعادل" نیست. این یک عدد تعریف شده است که از آستانه کنترل کیفیت 5:1 فراتر می رود و باعث تغییر طراحی اجباری می شود. بدون آن اندازه گیری، رفع مشکل یک حدس بود. با آن، راه حل مورد هدف قرار گرفت: پورت ها را در طول نبرد قابل تخریب کنید. فرمول درآمد بدون تغییر مشکل حل شد.
شکست اصلی تست بازی بدون ساختار: بدون معیارهای تعریف شده، نمی توانید یک مشکل طراحی را از یک انطباق پخش کننده تشخیص دهید. بازیکنان باتجربه خود را با مکانیکهای شکسته وفق میدهند - آنها استراتژیهایی را پیرامون شکستگی ایجاد میکنند، از شکایت از آن دست نمیکشند، و آن را شبیه به «طرز بازی» میکنند. اندازهگیری نشان میدهد که رفتار چه چیزی را پنهان میکند.
نمای کلی چارچوب MEQA
برای Neutronium: Parallel Wars، روش تست بازی سیستماتیک MEQA چارچوب است - یک ساختار چهار ستونی که طی 25 سال تکرار توسعه یافته است. هر ستون به دسته متفاوتی از نیازهای آزمایشی پاسخ میدهد:
قابلیت اندازه گیری
هر جلسه دارای معیارهای عددی است که قبل از شروع جلسه ردیابی شده است. نسبت درآمد، نرخ برد، تعداد قلمرو، طول جلسه در هر مرحله. اگر نمی توانید عددی برای آن تعریف کنید، نمی توانید آن را آزمایش کنید.
نامزدی
پیشگیری در هر سطح جهانی دنبال میشود. زمان در هر مرحله نشان میدهد که بازیکنان قبل از بازخورد پس از بازی، در چه موقعیتی قرار میگیرند. وقفه های توجه در بازیکنان جوان تر، شکست های تعاملی قابل اندازه گیری هستند.
کنترل کیفیت
آستانه قبولی/شکست تعریف شده برای هر معیار، قبل از جمعآوری دادهها تنظیم شده است. عبور از یک آستانه باعث تغییر طراحی می شود - حذف ذهنیت از "چه زمانی چیزی به اندازه کافی شکسته شده است که تعمیر شود؟" سوال.
انطباق پذیری
معیارهای ردیابی شده در گروههای مختلف بازیکن: محدوده سنی، سطوح تجربه، تعداد بازیکنان. مکانیک متعادل برای بزرگسالان باتجربه ممکن است در گروه های سنی مختلط به طرز فاجعه باری شکست بخورد.
متدولوژی چارچوب MEQA کامل - از جمله معیارهای خاص مورد استفاده برای Neutronium: Parallel Wars و سیستم آستانه QC - به تفصیل در MEQA Testing Board Game: Balance Mehodology Frame: این راهنما بر برنامه کاربردی در سطح جلسه تمرکز دارد.
تنظیم جلسه تست Play
جلسات تست بازی حرفه ای دارای سه مرحله است: تنظیم قبل از جلسه، مشاهده در طول جلسه، و توضیح ساختار یافته پس از جلسه. هر مرحله نیازمندیهای خاصی دارد که اکثر تستهای غیررسمی بازی به طور کامل نادیده گرفته میشوند.
پیش جلسه: دقیقاً یک تغییر مکانیکی را که در حال آزمایش هستید تعریف کنید. قبل از ورود بازیکنان آن را یادداشت کنید. اگر نمیتوانید بگویید "امروز ما در حال آزمایش هستیم که آیا ساخت بنادر هستهای قابل تخریب، نسبت درآمد رهبر به آخرین به زیر 5:1 را کاهش میدهد یا خیر"، شما آماده اجرای یک جلسه نیستید. فرضیه باید مشخص و قابل ابطال باشد. معیارهای خط پایه را از جلسه قبل برای مقایسه مستقیم ثبت کنید.
در طول جلسه: یک ناظر را تعیین کنید که بازی نمی کند. وظیفه ناظر ثبت این موارد است: طول جلسه در هر فاز، زمان تصمیم گیری در هر نوبت (متوسط)، هر لحظه سردرگمی یا عدم درگیری، حالت برد/باخت به ازای هر جناح در هر جهان. ناظر در بازی شرکت نمی کند، قوانین را توضیح نمی دهد و به سؤالات پاسخ نمی دهد - اگر یک بازیکن سؤالی داشته باشد، آن داده است. یادداشت کنید چه چیزی و چرا آنها را گیج کرده است.
توضیحات پس از جلسه: حداکثر 15 دقیقه. فقط سؤالات ساختاری - سؤالات رفتاری خاص، نه "آیا از آن لذت بردید؟" برای استفاده از سؤالات دقیق به بخش سؤالات متداول مراجعه کنید. در صورت امکان پاسخهای کتبی را جمعآوری کنید - پاسخهای شفاهی جزئیات را از دست میدهند و سوگیری اجتماعی را معرفی میکنند (بازیکنان تمایلی به گفتن مستقیم چیزهای منفی به طراح ندارند).
داده برای جمع آوری هر جلسه بدون استثنا:
- طول جلسه در هر ردیف جهان
- برنده/باخت هر جناح
- نوبت شمارش به اولین مبارزه
- تفاوت درآمد بین بازیکن برتر و بازیکن آخر در وسط بازی
- تعداد رخدادهای سردرگمی بازیکن (تعریف شده به این صورت: بازیکن سوالی درباره قوانین می پرسد یا اقدامی غیرقانونی انجام می دهد)
شناسایی مشکلات موجودی
مشکلات موجودی به پنج دسته تقسیم میشوند که هر کدام سیگنال مشخصی در دادهها دارند:
رهبر فراری: سیگنال — بازیکن پیشرو پس از Universe 5 در 3 جلسه از 4 جلسه هرگز شکست نخورد. آستانه: اگر رهبر از موقعیتی که در Universe 4 در بیش از 70٪ جلسات داشت برنده شود، بازی به طور موثر در Universe 4 به پایان می رسد. مکانیک درآمد و قلمرو را در جهان های 1-4 بررسی کنید.
فلج تجزیه و تحلیل: سیگنال - میانگین زمان تصمیم گیری در هر نوبت افزایش می یابد زیرا جهان ها سریعتر از آن چیزی که پیچیدگی تصمیم را ایجاب می کند پیشرفت می کنند. یک چرخش متوسط 5 دقیقه ای در جهان 3 تبدیل شدن به یک چرخش متوسط 20 دقیقه ای در جهان 6 با تنها 2 مکانیک جدید اضافه شده نشان دهنده یک مشکل تعامل مکانیکی است، نه یک مشکل پیچیدگی. بررسی کنید که کدام تصمیمات خاص بیشترین زمان را می گیرند.
تسلط جناح: سیگنال - یک جناح منفرد برنده 60٪ یا بیشتر از جلسات در 5 تست یا بیشتر است. نرخ برد مورد انتظار در یک بازی متعادل 4 جناحی تقریباً 25٪ است. در 60%، جناح نه تنها بهتر است - بلکه یک مزیت ساختاری دارد که سایر جناح ها نمی توانند با بازی بهتر بر آن غلبه کنند. مکانیک منحصر به فرد جناح غالب را برای اثرات متقابل پیش بینی نشده بررسی کنید.
کاهش تعامل: سیگنال — بازیکنان در یک جهان خاص منفعل میشوند یا بهطور مشهودی درگیر میشوند. رفتار قابل مشاهده: بازیکنان تلفن ها را چک می کنند، نگاهشان را از تخته دور می کنند، می پرسند "نوبت من کی است؟" اینها رویدادهای قابل اندازه گیری هستند. زمان وقوع آنها و اینکه کدام جهان در حال انجام است را ثبت کنید.
Iit Economy Imbalance در Universe 6+
Iit، جناح اقتصاد، به دلیل انباشت درآمد بندر هستهای، 7 جلسه از 10 جلسه در Universe 6 و بالاتر را برد. داده ها واضح بود: نرخ برد 70 درصد، 4× بالاتر از 25 درصد پایه مورد انتظار. سه اصلاح، یکی در هر جلسه، با پیروی از قانون تک متغیری آزمایش شد.
آزمون 1: ارزش درآمد بندر هسته ای را کاهش دهید. نتیجه - نرخ برد Iit به 28٪ کاهش یافت، در محدوده قابل قبول. مشکل: بازیکنان Iit گزارش کردند که جناح احساس "توخالی" با کاهش ارزش پورت دارد. هویت اقتصادی از بین رفت. برگشت.
آزمایش 2: تعداد پورتهای هستهای را برای هر بازیکن محدود کنید. نتیجه - نرخ برد 35 درصد، نزدیک به متعادل است. مشکل: بازی در اواخر بازی پویایی تشدید اقتصادی خود را از دست داد. گروههای دیگر تصمیمات کمتر جالبی را در زمانی که Iit نمیتوانست مقیاسپذیری کند گزارش کردند. برگشت.
تست 3: بنادر هستهای را در طول نبرد قابل تخریب کنید. نتیجه - نرخ برد 31% در محدوده قابل قبول است. هیچ تاثیر منفی بر سایر جناح ها ندارد. فرمول درآمد بندر بدون تغییر - هویت اقتصادی حفظ می شود. رفع تأیید شد.
قانون تک متغیره
قانون تک متغیری مهمترین اصل در تست تعادل و بیشترین نقض شده است. قانون: دقیقاً یک چیز را بین جلسات تغییر دهید.
دلیل وضوح تشخیصی است. اگر سه مکانیک را تغییر دهید و بازی بهبود یابد، نمی دانید که کدام تغییر مسئول بوده است. ممکن است یک مشکل را برطرف کرده باشید و دو مشکل دیگر را ایجاد کرده باشید که هنوز آشکار نشده اند. ممکن است یک علامت را برطرف کرده باشید و علت اصلی را در جای خود رها کرده باشید. شما نمی توانید بدانید - زیرا سه چیز را به طور همزمان تغییر دادید.
برای Neutronium: Parallel Wars اعمال میشود: زمانی که Universe 7 "خیلی سریع" احساس میکرد - جلسات کوتاهتر از حد انتظار اجرا میشد و بازیکنان احساس عجله میکردند - سه دلیل احتمالی در جلسات جداگانه بررسی شد:
- جلسه A: سرعت طولانی - یک چرخه غنیسازی اضافی به Universe 7 اضافه شد. نتیجه: طول جلسه 8 دقیقه افزایش یافت. امتیاز نامزدی بدون تغییر علت اصلی نیست.
- جلسه B: مکانیک اضافی به Universe 7 اضافه شد. نتیجه: طول جلسه 5 دقیقه افزایش یافت. امتیاز مشارکت افزایش یافت. علت جزئی شناسایی شد.
- جلسه C: مکانیک های موجود را مجدداً ترتیب داد تا چگالی تصمیم گیری به طور یکنواخت تر توزیع شود. نتیجه: طول جلسه 6 دقیقه افزایش یافت و امتیاز تعامل به طور معنی داری افزایش یافت. علت ریشهای شناسایی شد - خوشهبندی مکانیکی در انتهای کیهان پایانهای عجولانه ایجاد کرد.
بدون آزمایش هر تغییر به طور جداگانه، بینش جلسه C - مشکل خوشه بندی مکانیکی - نامرئی بود. تغییر ترکیبی B+C ممکن است شبیه «افزودن مکانیک کمک کرد» به نظر میرسد، زمانی که راهحل واقعی در حال مرتب کردن مجدد مواردی بود که قبلاً وجود داشت.
آزمایش با گروههای تجربه ترکیبی
سختترین چالش تعادل در طراحی بازیهای رومیزی، تعادل جناحی یا مقیاسبندی درآمد نیست - این تضمین میکند که بازیکنان باتجربه بر بازیکنان جدید در همان جلسه تسلط ندارند. اکثر طراحان بازی این موضوع را به طور کامل نادیده می گیرند و خانواده و مخاطبان عادی خود را از دست می دهند.
برای Neutronium: Parallel Wars، ستون MEQA سازگاری نرخ های برد را در جلسات با تجربه ترکیبی به صراحت ردیابی کرد. قبل از پرداختن به مشکل، بازیکنان باتجربه 78٪ از جلسات گروهی ترکیبی را برنده شدند - عدم تعادل شدیدی که مانع از بازگشت بازیکنان جدید به جلسه 2 میشود.
راه حل سیستم نقص مجله پیشرفت بود: بازیکنان باتجربه که قبلاً یک جهان را برده اند، با تعادل Nn منفی متناسب با مزیت تجربه خود شروع می کنند. کالیبراسیون از دادههای جلسه MEQA انجام شد:
<جدول class="data-table">هدف برای نرخ برد با تجربه در مقابل جدید 55 تا 65 درصد است. زیر 55 درصد به این معنی است که هیچ بیان مهارت معناداری وجود ندارد - بازیکنان با تجربه هیچ مزیتی از دانش خود ندارند. بالای 65٪ به این معنی است که تجربه بازیکن جدید به طور موثر شکسته شده است - آنها بدون توجه به تصمیمات اتخاذ شده نمی توانند رقابت کنند.
شناسایی شکافهای تجربه در دادهها: تعداد جلسات را برای هر بازیکن در کنار دادههای برد/باخت پیگیری کنید. اگر بازیکنی با 10 جلسه 75 درصد بازیها را در مقابل بازیکنان با 2 جلسه برنده شود، کالیبراسیون نقص نیاز به تنظیم دارد - یا خود مکانیکها مزایای غیرقابل برگشتی ایجاد میکنند که خیلی سریع ترکیب میشوند.
«صخره 12 جلسه ای» در Neutronium: پس از اینکه بازیکنان میزبان بیش از 12 جلسه را جمع کردند، بازی برای بازیکنان جدیدی که برای اولین بار به آن ملحق می شوند غیرقابل دسترس شد. شکاف دانش مکانیک بیش از حد بزرگ بود که نمیتوان از طریق بازی معمولی پل زد. رفع: سیستم Progress Journal، که تفاوت تجربه را قابل مشاهده کرد و یک تصحیح متناسب را اعمال کرد. بدون دادههایی که صخره ۱۲ جلسهای را بهطور خاص نشان میدهند، این مشکل بهعنوان «بازیکنان جدید برنمیگردند» به جای «بازیکنان جدید در جلسه ۱ با میزبانهای ۱۲ جلسه ۲۳ درصد نرخ برد دارند» ظاهر میشد.
زمانی که تست پخش را متوقف کنیم
یکی از رایجترین اشتباهات در توسعه بازیهای تختهای، آزمایش بازی بهطور نامحدود است — استفاده از «ما هنوز در حال آزمایش بازی هستیم» به عنوان دلیلی برای اجتناب از ارسال. این یک پاسخ ترس است که لباس سختگیرانه به تن کرده است. در برخی موارد، داده ها به شما می گویند که کارتان تمام شده است.
تست بازده کاهشی: اگر سه جلسه تست بازی متوالی هیچ نقطه داده عملی ایجاد نکرد - هیچ متریکی از آستانه QC عبور نکرد، هیچ رویداد سردرگمی جدیدی ثبت نشد، هیچ افت تعاملی شناسایی نشد - به اشباع تست پخش برای وضعیت فعلی بازی رسیدهاید. جلسات اضافی در حال تأیید هستند، نه کشف.
معیارهای آمادگی کشتیNeutronium: Parallel Wars عبارتند از:
- نرخ برد در هر 4 جناح در 10٪ برابر است (هدف: هر کدام 25٪، محدوده قابل قبول: 22 تا 28٪ در هر جناح)
- امتیاز تعامل در همه جلسات در Universes 1-6 بالاتر از 4 از 5 باقی می ماند
- هیچ رویداد سردرگمی در 3 جلسه متوالی در Universes 1–3 (بازی اصلی) ثبت نشده است
- نرخ برد با تجربه ترکیبی (تجربه شده در مقابل جدید) در محدوده 55 تا 65 درصد در 3 جلسه متوالی
هنگامی که هر چهار معیار در سه جلسه متوالی برآورده شوند، بازی در وضعیت کشتی قرار دارد. کامل نیست - "کامل" یک حالت معنی دار برای یک بازی نیست. شرایط کشتی به این معنی است که دادهها دیگر بهبودهایی را که تجربه بازیکن را به روشی قابل اندازهگیری تغییر میدهند، شناسایی نمیکنند.
سوالات متداول
چارچوب MEQA کامل را بخوانید
روش شناسی کامل MEQA - از جمله آستانه QC، تعاریف متریک، و مطالعه موردی کامل بندر هسته ای - در مقاله چارچوب MEQA مستند شده است.
چارچوب MEQA را بخوانید →