Poker dan Batasan AI

Tuomas Sandholm, seorang ilmuwan komputer di Universitas Carnegie Mellon, bukanlah pemain poker — atau sebagian besar penggemar poker, atau pada kenyataannya — tetapi dia terpesona oleh permainan karena alasan yang hampir sama dengan ahli teori permainan hebat John von Neumann sebelumnya. Von Neumann, yang meninggal pada tahun 1957, memandang poker sebagai version sempurna untuk pengambilan keputusan manusia, untuk menemukan keseimbangan antara keterampilan dan peluang yang menyertai setiap pilihan kita. Dia melihat poker sebagai tantangan strategis utama, yang menggabungkan tidak hanya elemen matematika dari permainan seperti catur tetapi juga sudut psikologis manusiawi yang unik yang lebih sulit untuk dimodelkan secara tepat — pandangan yang dibagikan bertahun-tahun kemudian oleh Sandholm dalam penelitiannya dengan kecerdasan buatan.

“Poker adalah tolok ukur utama dan app tantangan untuk permainan dengan informasi yang tidak sempurna,” kata Sandholm pada saya pada suatu tender musim semi yang hangat di tahun 2018, ketika kami bertemu di kantornya di Pittsburgh. Game tersebut ternyata telah menjadi standar emas untuk mengembangkan kecerdasan buatan.

Tinggi dan kurus, dengan kacamata berbingkai kawat dan rambut alis rapi membingkai wajah yang bersahabat, Sandholm berada di belakang penciptaan tiga app komputer yang dirancang untuk menguji keberanian mereka melawan pemain poker manusia: Claudico, Libratus, dan yang terbaru, Pluribus. (Ketika kami bertemu, Libratus masih balita dan Pluribus belum ada.) Tujuannya bukanlah untuk memecahkan poker, dengan demikian, tetapi untuk membuat algoritme sempurna kemampuannya mengambil keputusan dalam dunia poker dengan informasi yang tidak sempurna dan situasi stokastik — situasi yang ditentukan secara acak dan tidak dapat diprediksi — kemudian dapat diterapkan pada ranah stokastik lainnya, seperti militer, bisnis, pemerintahan, keamanan siber, bahkan perawatan kesehatan.

Sementara app pertama, Claudico, secara singkat dikalahkan oleh pemain poker manusia–“satu robot bangkrut,” seorang pengamat menyebutnya — Libratus telah menang dalam serangkaian pertandingan satu lawan satu, atau head-up, melawan beberapa pemain online terbaik di Amerika Serikat.

Libratus mengandalkan tiga modul utama. Yang pertama melibatkan strategi cetak biru dasar untuk keseluruhan sport, yang memungkinkannya mencapai keseimbangan yang jauh lebih cepat daripada pendahulunya. Ini mencakup algoritme yang disebut Minimisasi Penyesalan Kontrafaktual Monte Carlo, yang mengevaluasi semua tindakan di masa mendatang untuk mencari tahu tindakan mana yang akan menyebabkan penyesalan paling sedikit. Penyesalan, tentu saja, adalah emosi manusia. Penyesalan terhadap komputer berarti menyadari bahwa tindakan yang tidak dipilih akan memberikan hasil yang lebih baik daripada yang sebelumnya. “Secara intuitif, penyesalan menunjukkan betapa AI menyesali karena tidak memilih tindakan itu di masa lalu,” kata Sandholm. Semakin tinggi penyesalan, semakin tinggi kesempatan untuk memilih tindakan itu di lain waktu.

Ini adalah cara berpikir yang berguna — tetapi cara yang sangat sulit diterapkan oleh pikiran manusia. Kita terkenal buruk dalam mengantisipasi emosi masa depan kita. Seberapa besar kita akan menyesal melakukan sesuatu? Seberapa besar kita akan menyesal karena tidak melakukan hal lain? Bagi kami, ini adalah kalkulus yang sarat emosi, dan kami biasanya gagal menerapkannya dengan cara yang benar. Untuk komputer, ini semua tentang penghitungan nilai. Apa yang disesali karena tidak melakukan paling banyak, hal yang akan menghasilkan nilai yang diharapkan setinggi mungkin?

Modul kedua adalah pemecah sub-game yang memperhitungkan kesalahan yang telah dibuat lawan sejauh ini dan memperhitungkan setiap tangan dia mungkin dia miliki. Dan terakhir, ada self-improver. Ini adalah place di mana information dan pembelajaran mesin ikut bermain. Berbahaya untuk mencoba mengeksploitasi lawan Anda — itu membuka Anda pada risiko bahwa Anda akan langsung dieksploitasi kembali, terutama jika Anda adalah application komputer dan lawan Anda adalah manusia. Jadi, alih-alih mencoba melakukan itu, self-improver memungkinkan tindakan lawan menginformasikan place di mana app harus fokus. “Itu memungkinkan tindakan lawan memberi tahu kami di mana (mereka) mengira mereka menemukan lubang dalam strategi kami,” jelas Sandholm. Hal ini memungkinkan algoritme untuk mengembangkan strategi cetak biru untuk menambal lubang tersebut.

Ini adalah adaptasi yang sangat mirip manusia, jika Anda memikirkannya. Saya tidak akan mencoba mengakali Anda secara langsung. Sebaliknya, saya akan melihat bagaimana Anda mencoba untuk mengakali saya dan menanggapi yang sesuai. Sun-Tzu pasti akan menyetujuinya. Perhatikan bagaimana Anda dipersepsikan, bukan bagaimana Anda memandang diri sendiri — karena pada akhirnya, Anda bermain melawan mereka yang melakukan pengamatan, dan pendapat mereka, benar atau tidak, adalah satu-satunya atau tidak penting ketika Anda menyusun strategi Anda. Dalam semalam, algoritme memperbaiki pendekatan keseluruhannya sesuai dengan analisis yang dihasilkan.

Ada satu hal terakhir yang dapat dilakukan Libratus: bermain dalam situasi dengan probabilitas yang tidak diketahui. Ada konsep dalam teori permainan yang dikenal sebagai tangan gemetar: Ada cabang pohon permainan yang, di bawah strategi yang best, seseorang secara teoritis tidak akan pernah mendapatkannya; tetapi dengan kemungkinan tertentu, tangan lawan yang semuanya terlalu manusiawi gemetar, mereka melakukan tindakan yang salah, dan Anda tiba-tiba berada di bagian permainan yang benar-benar belum dipetakan. Sebelumnya, itu akan berarti bencana bagi komputer: Bagian pohon yang tidak dipetakan berarti app tidak lagi tahu bagaimana merespons. Sekarang, ada rencana darurat.

Tentu saja, tidak ada algoritma yang sempurna. Saat Libratus bermain poker, pada dasarnya Libratus bekerja dalam lingkungan zero-sum. Itu menang, lawan kalah. Lawan menang, kalah. Namun, sementara beberapa interaksi dalam kehidupan nyata benar-benar tidak berarti — perang dunia maya muncul di benak Anda — banyak yang lainnya tidak sesederhana itu: Kemenangan saya tidak selalu berarti kerugian Anda. Kue ini tidak tetap, dan interaksi kita mungkin lebih positif daripada tidak.

Terlebih lagi, aplikasi kehidupan nyata harus bersaing dengan sesuatu yang tidak dimiliki algoritma poker: bobot yang ditetapkan ke berbagai elemen keputusan. Dalam poker, ini adalah proses memaksimalkan nilai sederhana. Tapi apakah nilai di alam manusia? Sandholm harus menghadapi ini sebelumnya, ketika dia membantu menyusun pertukaran ginjal pertama di dunia. Apakah Anda ingin menjadi lebih efisien, memberikan jumlah ginjal maksimum secepat mungkin — atau lebih adil, yang mungkin berdampak pada efisiensi? Apakah Anda ingin sebanyak mungkin nyawa diselamatkan — atau apakah ada yang menjadi prioritas dengan mengorbankan lebih banyak nyawa? Apakah ada preferensi untuk lama menunggu hingga transplantasi? Apakah anak-anak mendapat preferensi? Dan seterusnya. Sangat penting, kata Sandholm, untuk memisahkan sarana dan tujuan. Untuk mengetahui tujuannya, manusia harus memutuskan apa tujuannya.

“Dunia pada akhirnya akan menjadi jauh lebih aman dengan bantuan algoritme seperti Libratus,” kata Sandholm kepada saya. Saya tidak yakin apa yang dia maksud. Hal terakhir yang akan dilakukan kebanyakan orang adalah menyebut poker, dengan pesaingnya, pemenang dan pecundang, upayanya untuk mendapatkan keunggulan maksimal atas lawan Anda, surga yang aman.

“Logika itu bagus, dan AI jauh lebih baik dalam penalaran strategis daripada manusia,” jelasnya. “Ini menghilangkan irasionalitas, emosi. Dan itu lebih adil. Jika Anda memiliki AI di pihak Anda, itu dapat mengangkat non-ahli ke tingkat ahli. Negosiator yang naif tiba-tiba akan memiliki senjata yang lebih baik. Kita bisa mulai menutup kesenjangan digital. ”

Itu adalah catatan optimis untuk mengakhirinya — permainan kompetitif tanpa hasil dan menghasilkan dunia dan pada akhirnya lebih adil dan rasional.

Saya ingin mempelajari lebih lanjut, untuk melihat apakah benar-benar mungkin bahwa matematika dan algoritma pada akhirnya dapat menjadi masa depan interaksi yang lebih manusiawi dan lebih psikologis. Jadi, di kemudian hari, saya menemani Nick Nystrom, kepala ilmuwan dari Pittsburgh Supercomputing Center — tempat yang menjalankan semua app poker-AI Sandholm — ke pusat pemrosesan aktual yang memungkinkan usaha seperti Libratus.

Setengah jam perjalanan kami menemukan kami di tempat parkir dekat sebuah bangunan kaca besar. Saya mengharapkan sesuatu yang lebih futuristik, bukan persegi yang sama, kotak kaca perusahaan yang telah saya lihat berkali-kali sebelumnya. Namun, bagian dalamnya lebih menjanjikan. Pertama pos pemeriksaan keamanan. Kemudian naik elevator – turun, bukan naik, ke sekitar tiga lantai di bawah tanah, di mana kami menemukan diri kami dalam labirin koridor dengan pembaca kartu di setiap titik untuk memastikan Anda tidak tergelincir tanpa terdeteksi. Tool yang menyala merah membentuk penghalang terakhir, mengarah ke sepotong kecil ruang di antara dua place pintu. Aku bisa mendengar dengungan keras datang dari sisi yang jauh.

“Biar kuberitahu apa yang akan kamu lihat sebelum kita masuk,” Nystrom memberitahuku. “Begitu kita masuk, suaranya akan terlalu keras untuk didengar.”

Saya baru saja akan menyaksikan inti dari pusat superkomputer: 27 kontainer besar, dalam barisan rapi, masing-masing menampung banyak prosesor dengan kecepatan dan kemampuan yang terlalu besar untuk pikiran saya. Di dalam, suhu berubah menjadi kutub dan tropis, yang disebut baris”dingin” bergantian dengan”panas” –kipas beroperasi sepanjang waktu untuk mendinginkan prosesor saat mereka berputar melalui jutaan giga, mega, tera, peta, dan lainnya- meningkatkan skala byte info. Di barisan yang sejuk, lampu yang tampak seperti robot berkedip hijau dan biru secara berurutan. Di deretan yang panas, tumpukan kabel warna-warni bersilangan di gelung kusut.

Di sudut-sudut berdiri mesin-mesin yang telah melewati masa kejayaannya. Ada Sherlock, version tua Cray, yang menghangatkan hati saya. Ada komputer tanpa nama yang menyedihkan, yang anonimitasnya sebagian dikompensasi oleh kaleng sup Warhol yang menghiasi sangkarnya (sebuah penghormatan kepada asal-usul Warhol di Pittsburgh).

Dan di mana Libratus tinggal, tanyaku? Manakah dari komputer berikut ini adalah Bridges, komputer yang menjalankan AI Sandholm dan telah saya diskusikan?

Jembatan, ternyata, bukan komputer tunggal. Ini adalah sistem dengan kekuatan pemrosesan yang melampaui pemahaman. Dibutuhkan lebih dari dua setengah petabyte untuk menjalankan Libratus. Satu petabyte adalah satu juta gigabyte: Anda dapat menonton lebih dari 13 tahun movie HD, menyimpan 10 miliar foto, membuat katalog isi dari seluruh Library of Congress kata demi kata. Itu adalah kekuatan komputasi yang sangat besar. Dan itu hanya untuk berhasil di head-up poker, dalam keadaan terbatas.

Namun terlepas dari kekuatan komputasi yang menakjubkan, Libratus masih sangat terbatas. Ya, itu mengalahkan lawannya di mana Claudico gagal. Tetapi para profesional poker tidak diizinkan untuk menggunakan banyak alat perdagangan mereka, termasuk perangkat lunak analisis lawan yang mereka andalkan dalam game online yang sebenarnya. Dan manusia menjadi lelah. Libratus dapat melakukan maraton dua minggu, di mana pikiran manusia goyah.

Tapi masih banyak yang tidak bisa dilakukan: bermain lebih banyak lawan, bermain langsung, atau menang setiap saat. Ada lebih banyak kemanusiaan dalam poker daripada yang belum ditaklukkan Libratus. “Ada keyakinan bahwa ini semua tentang statistik dan korelasi. Dan kami sebenarnya tidak percaya itu, “Nystrom menjelaskan saat kami meninggalkan Bridges. “Kadang-kadang korelasi itu bagus, tetapi secara umum, korelasi itu juga bisa sangat menyesatkan.”

Dua tahun kemudian, laboratory Sandholm akan memproduksi Pluribus. Pluribus akan bisa bermain melawan lima pemain — dan akan berjalan di satu komputer. Banyak dari sisi manusia akan menguap dalam waktu yang sangat singkat. Algoritme telah meningkat, seperti halnya komputer. AI, tampaknya, telah meningkat pesat.

Jadi apakah itu berarti bahwa, pada akhirnya, algoritme memang dapat mengalahkan manusia, komputasi itu dapat mengurai jaringan interaksi manusia dengan membedakan “taktik kecil penipuan, bertanya pada diri sendiri apa yang akan dipikirkan orang lain yang akan saya lakukan? , “Seperti yang dikatakan von Neumann?

Jauh sebelum saya berbicara dengan Sandholm, saya telah bertemu Kevin Slavin, seorang polymath desain karirnya di masa lalu termasuk mendirikan perusahaan desain sport dan ruang seni interaktif dan meluncurkan grup Playful Systems di MIT's Media Lab. Slavin memiliki pandangan yang sangat berbeda dari pencipta Pluribus. “Di satu sisi, (von Neumann) adalah seorang jenius,” Kevin Slavin merenung. “Tapi sombong itu.”

Slavin dengan tegas berada di pihak penjudi, yang mengakui ketidakpastian apa adanya dan dengan demikian mampu mengambil risiko yang diperhitungkan bila perlu, sambil merusak kepercayaan pada hasilnya. Hal yang paling bisa Anda lakukan adalah menempatkan diri Anda di jalur keberuntungan — tetapi untuk berpikir Anda bisa menebak dengan pasti hasil yang sebenarnya adalah keangkuhan yang ditinggalkan pemain poker sejati. Bagi Slavin, keajaiban komputer adalah “Bahwa mereka dapat menghasilkan keacakan yang luar biasa dan kompleks ini”. Pendapatnya tentang serangan algoritmik secara kebetulan? “Ini momen mereka,” katanya. “Tapi itu kebalikan dari apa yang benar-benar indah tentang komputer, yaitu dapat melakukan sesuatu yang sebenarnya tidak dapat diprediksi. Itu, bagi saya, adalah keajaiban. ”

Akankah mereka benar-benar berhasil membuat hal yang tidak dapat diprediksi dapat diprediksi? Itulah yang ingin saya ketahui. Karena semua yang saya lihat memberi tahu saya bahwa kesuksesan absolut tidak mungkin. Dek tidak dicurangi.

“Sungguh pekerjaan yang luar biasa untuk sampai ke sana. Apa yang Anda dapatkan pada akhirnya? Katakanlah mereka sukses. Kemudian kita hidup di dunia di mana tidak ada Tuhan, hak pilihan, atau keberuntungan, “jawab Slavin.

“Saya tidak ingin tinggal di sana,” dia menambahkan, “Saya hanya tidak ingin tinggal di sana.”

Untungnya, untuk saat ini, dia tidak perlu melakukannya. Ada lebih banyak hal dalam hidup ini daripada yang tertulis dalam algoritme. Kami tidak memiliki perangkat lunak pendeteksi kebohongan yang dapat diandalkan — baik di wajah, kulit, atau otak. Dalam tes menggertak poker baru-baru ini, pengenalan wajah komputer gagal complete. Kita bisa mendapatkan ketidaknyamanan, tetapi kita tidak bisa mendapatkan alasan ketidaknyamanan itu: berbohong, kelelahan, stres — semuanya terlihat sama. Dan manusia, tentu saja, juga bisa meniru stres yang sebenarnya tidak ada, memperumit gambaran itu lebih jauh.

Pluribus mungkin berubah menjadi kuat, tetapi tantangan von Neumann masih tetap ada: Sifat sebenarnya dari permainan, yang paling manusiawi dari manusia, masih harus ditaklukkan.

Artikel ini pertama kali diterbitkan pada Undark. Membaca artikel asli.

Kredit Gambar: José Pablo Iglesias / Lepaskan simpanan