دسته‌بندی‌ها: آموزش

رابطه ذهن زیبا و پوکر بی نقص چیست؟

سلسله مطالب آموزش پوکر مجله بخت و اقبال: ریاضیات پوکر و روانشناسی پوکر

به قلم رابرت وولی – ریاضیدان مشهور، جان نَش، طی یک تصادف رانندگی در سال 2015 به همراه همسرش آلیشیا، جان باخت. آن ها در حال بازگشت از نروژ بودند؛ جایی که آقای نَش جایزه بسیار مشهور آبل را به خاطر دستاوردهایش در ریاضیات دریافت کرده بود. نَش همچنین در 1994 برنده جایزه نوبل اقتصاد هم شده بود و بسیاری از مردم غیردانشگاهی هم او را به خاطر فیلم زندگینامه اش، ذهن زیبا (A Beautiful Mind)، ساخته سال 2001 با هنرمندی راسل کرو می شناسند.

حالا نَش و دستاوردهایش چه ربطی به پوکر دارد؟ خیلی ربط دارد. حتما در مورد استراتژی مستحکم و غیرقابل نفوذ پوکر (unexploitable poker strategy) شنیده اید. این مفهوم از تحقیقات و دستاوردهای نَش حاصل شده است. برای توضیح آن هم باید سراغ بازی بسیار ساده تری نسبت به پوکر برویم. چیزی که به آن، معمای زندانی (Prisoner’s Drama) می گویند.

فهرست موضوعات

1. معمای زندانی

2. استراتژی ایده آل نظریه بازی (GTO)

3. اجرا در پوکر

4. نتیجه گیری

معمای زندانی

آلبرت تاکر این مفهوم را به شرح زیر توضیح می دهد:

دو نفر از اعضای یک باند خلافکار دستگیر و زندانی می شوند. هر کدام از آن ها در یک سلول انفرادی قرار داشته و هیچ وسیله ای برای صحبت یا ارتباط باهم ندارند. مسئولین هیچ مدرکی برای محکوم کردن آن ها به جرمی بزرگ ندارند و امیدوارند بتوانند هر دو را به خاطر جرمی کوچک، به یک سال زندان محکوم کنند. در همین حین، به هر کدام از زندانیان پیشنهادی می دهند. هر دو زندانی فرصت دارند به ارتکاب جرم از سوی شخص دیگر شهادت دهند یا با سکوت خود به هم کمک کنند:

اگر الف و ب به همدیگر خیانت کنند، هر کدام 2 سال به زندان خواهند رفت
اگر الف به ب خیانت کند، ولی ب ساکت بماند، الف آزاد شده و ب 3 سال به زندان خواهد رفت (و برعکس)
اگر الف و ب هر دو سکوت اختیار کنند، هر کدام به یک سال زندان محکوم خواهند شد

گزینه ساکت ماندن را می توان «همکاری» هم خواند در حالی که خیانت را «ترک» هم معرفی می کنند. فرض کنید شما زندانی الف هستید. چه کار باید بکنید؟ واضح است که همه چیز به انتخاب نفر بعد بستگی دارد. اگر او به شما خیانت کند و شما هم به او خیانت کنید، هر دو به 2 سال زندان محکوم می شوید. اگر هم شما ساکت بمانید و دوستتان شما را بفروشد، 3 باید در زندان بمانید. مشخص است که اگر ب تصمیم به خیانت بگیرد، شما هم بهتر است او را بفروشید.

اگر ب ساکت بماند چه؟ در این صورت اگر شما هم ساکت بمانید، یک سال زندان خواهید گذراند و اگر او را بفروشید، آزاد می شوید. اگر فرض کنیم او ساکت می ماند، باز هم بهتر است او را بفروشید.

در نتیجه، فارغ از هر تصمیمی که ب می گیرد، بهترین انتخاب برای شما، فروختن او است. تحلیل ب هم به همین نتیجه می رسد. این مثال ساده ای از تعادل نَش (Nash Equilibrium) است.

حواستان باشد مهم ترین فاکتور بازی این نیست که هر دو نفر بهترین نتیجه ممکن را پیدا می کنند. این طور نیست. هیچ کدام آزاد نمی شود و کمترین محکومیت هم نصیبش نمی شود. نکته کلیدی تعادل نَش اینجا است که هر دو باید انتخابی صورت دهند که براساس هر تصمیمی از سوی نفر دیگر، بدتر نشود.

استراتژی ایده آل نظریه بازی (GTO)

مفهوم استراتژی مستحکم در پوکر، از همین تعادل نَش حاصل می شود. به تصمیمی در موقعیتی خاص اشاره دارد که رقیب نتواند نتیجه سودمندی از آن بگیرد. اصطلاح دیگری مربوط به این مفهوم نظریه بازی ایده آل (game theory optimal) یا GTO است.

برای هر تصمیمی که در پوکر باید بگیرید، یک راه حل GTO وجود دارد. برای اکثر موقعیت ها، اطلاع از این راه حل ایده آل ممکن نیست، چون پوکر آن قدر بازی پیچیده ای است که حتی بهترین کامیپوترها با استفاده از قوی ترین الگوریتم ها هم نمی توانند آن را پیدا کنند. با این حال، راه حل ایده آل وجود دارد. اگر قرار بود همه تصمیماتتان را براساس این نظریه می گرفتید، هر استراتژی مورد استفاده از سوی رقیب هم نمی توانست شما را تبدیل به بازنده بلند مدت کند.

البته هیچ کس این طور بازی نمی کند. بازیکنان دنیای واقعی تمام اوقات از GTO منحرف می شوند که برای همین هم باخت سراغشان می آید. اگر بخواهیم مثالی اغراق شده ذکر کنیم، اگر در موقعیت هدز-آپ (تک به تک) رقیبی بسیار سفت داشته باشید که تنها با در اختیار داشتن جفت آس وارد بازی می شود و شما از این خبر داشته باشید، می توانید جیبش را خالی کنید. اگر داوطلبانه پولی در پات بگذارد، می فهمید جفت آس دارد و فولد می کنید. در غیر این صورت، شما رِیز می کنید و او فولد می کند و شما پات را می برید. به طور میانگین، او هر 221 دست یک بار برنده می شود و شما تمام دست های باقی مانده را مال خود می کردید.

افزایش دادن در چنین موقعیتی در تک تک دست ها سودمند خواهد بود، چون استفاده حداکثری از نقطه ضعف رقیب می کنید. برای انجام آن هم باید از GTO دور شوید، چون افزایش دادن در این همه دست استراتژی بلندمدت عاقلانه ای نیست.

انحراف شما از GTO هم شما را در موقعیت آسیب پذیر قرار می دهد. اگر بازیکن سومی را وارد پات کنیم که بازی شما را دیده است، دیگر نمی توانید هر دست افزایش دهید، چون این نفر سوم می تواند با ری-رِیز گزینشی، جیب شما را خالی کند و شما مجبور می شوید حداقل دست های ضعیفتان را هم شده، فولد کنید.

اجرا در پوکر

آیا حالت های دیگری در دنیای واقعی پوکر وجود دارند که به اندازه مثال بالا اغراق شده نباشند؟ بله وجود دارد. میزهایی را دیده اید که تنها انتخاب ها شامل فولد یا آل-این می شده است. این میزها شامل استک های کوچک یا موقعیت های هدز آپ در تورنمنت ها می شود. جایی که بازیکنان هیچ انتخاب دیگری ندارند. چون موقعیت نسبتا ساده ای است، ریاضیات نشان داده کدام دست ها باید فولد و کدام ها باید آل-این شوند تا تصمیمتان مورد بهره برداری رقیب قرار نگیرد. به این معنا که هر استراتژی مورد استفاده رقیب، شرایط شما را بدتر نکند و او را در موقعیت بهتری قرار ندهد.

در ژانویه 2015، دانشگاه آلبرتای آمریکا الگوریتمی کامپیوتری معرفی کرد که پوکر GTO بازی می کند که البته تنها شامل برخی موقعیت های هولدم محدود می شود. تنها امیدی که هر انسانی می تواند مقابل این ابر کامپیوتر داشته باشد، ضرر نکردن است.

با این حال و براساس چیزی که منتقدین بلافاصله اشاره کردند، تضمینی نیست این نرم افزار بتواند مقابل رقبا نتیجه بهتری نسبت به بازیکنان حرفه ای پوکر بگیرد. به خاطر این است که نرم افزار از الگوریتمی ثابت استفاده می کند و نمی تواند برای بهره گیری از اشتباهات انسانی از GTO دور شود.

به بیان دیگر، بازیکنی مبتدی در طول زمان تمام چیپ هایش را مقابل این کامپیوتر می بازد، ولی بازیکنی قَدر می تواند خیلی سریع تر پول بازیکن مبتدی را مال خود کند، چون می تواند اشتباهات او را تحلیل کرده و بازی اش را براساس آن ها تنظیم کند.

در مثال اولیه ما، هیچ کدام از انتخاب های زندانی ها نمی تواند از سوی دیگری مورد استفاده بهتر قرار گیرد و هیچ کدام هم نتیجه بهتری به خود نمی بیند و آزاد نمی شود. به همین ترتیب، نمی توان ابرکامپیوتر دانشگاه آلبرتا را شکست داد، ولی آن هم در پیدا کردن و استفاده از اشتباهات رقبا، شکست می خورد. نظریه GTO صرفا استراتژی دفاعی است و سود حدکثری به خود نخواهد دید.

دنیای پوکر واقعی هم شامل بازیکنانی است که از GTO استفاده می کنند. هر بازیکن اشتباهات مکرری مرتکب می شود. سود بازی هم سرعت بالا در پیدا کردن و استفاده بهتر از اشتباهات رقبا به دست می آید.

نتیجه گیری

اگر دوباره سراغ مردی که موضوع یادداشت به خاطر کارهای او بود، برویم، اگر رقبای شما براساس تعادل نَش بازی نمی کنند و هیچ وقت هم این طور نخواهد بود، شما هم نباید این چنین کنید. اشتباهات آن ها را پیدا کنید و از آن ها استفاده کنید و در عین حال، اجازه ندهید به راحتی مورد بهره برداری از سوی بقیه قرار گیرید. احتمالا سال های بسیاری طول خواهد کشید که بازی بسیار پیچیده و عمیقی چون هولدم نامحدود کاملا حل شود و اگر چنین شود به خاطر ذهن زیبایی مثل جان نَش خواهد بود.

مطالب مرتبط: