Nel 1979 Robert Axelrod, che all'epoca insegnava scienze politiche all'Università del Michigan e aveva una formazione in matematica applicata, ebbe un'idea con qualcosa di leggermente folle. Mandò una lettera ai più importanti teorici dei giochi del mondo — economisti, matematici, psicologi, informatici — invitandoli a sottomettere una strategia per un torneo al dilemma del prigioniero iterato. Le regole erano semplici: ogni strategia avrebbe giocato duecento round contro tutte le altre, a rotazione, con i payoff classici del dilemma; alla fine si sarebbe sommato il totale e vinto chi avesse accumulato più punti. Axelrod voleva capire, empiricamente, quale tipo di comportamento emergesse come ottimale in una situazione in cui la tentazione di defezionare era sempre presente ma il futuro contava.
Arrivarono quattordici strategie, alcune di una complessità notevole. Una era un programma di sessantotto righe in FORTRAN che cercava di modellare l'avversario come una catena di Markov di secondo ordine (un sistema previsionale basato sul risultato appena ottenuto e quello immediatamente precedente). Un'altra usava tecniche bayesiane per aggiornare la probabilità di avere a che fare con un cooperatore. C'erano strategie che imparavano, strategie che punivano, strategie che testavano il terreno all'inizio per capire chi avevano di fronte. E poi ce n'era una che occupava quattro righe, sottomessa da un tale Anatol Rapoport — matematico russo emigrato negli Stati Uniti da bambino, passato per Chicago, poi Michigan, già autore nel 1965, con Albert Chammah, di un classico sperimentale proprio sul dilemma del prigioniero. La sua strategia si chiamava Tit-for-Tat, in italiano "pan per focaccia" o meglio ancora "botta e risposta", e la regola era questa: al primo round coopera; in tutti i round successivi, fai quello che l'avversario ha fatto nel round precedente. Fine. Nessuna memoria lunga, nessun modello dell'avversario, nessuna capacità di apprendimento. Cooperi finché l'altro coopera, operi una ritorsione una volta se l'altro defeziona, torni a cooperare appena l'altro lo fa.
Vinse Tit-for-Tat. Axelrod, incredulo, rifece il torneo l'anno successivo allargando l'invito: sessantadue partecipanti, stavolta tutti informati di chi avesse vinto la prima volta e liberi di costruire strategie apposta per batterla. Vinse di nuovo Tit-for-Tat. A quel punto Axelrod capì di avere in mano qualcosa di più di un risultato sperimentale: aveva un teorema travestito da gioco. Nel 1984 pubblicò The Evolution of Cooperation, che è il libro in cui quella scoperta diventa una teoria generale sull'emergere della cooperazione in sistemi di attori razionali, e che io considero uno dei pochissimi testi veramente indispensabili per capire come funziona — e come smette di funzionare — un sistema politico, economico o sociale che deve reggersi senza un'autorità centrale che lo sorvegli.
Il testo, per come lo vedo io, è complementare a tutto quanto sappiamo dalla letteratura derivata dal neoliberismo storico, dove pure si prospetta una configurazione di interazioni di varia natura all'interno di un sistema acefalo. In questo caso però ci spostiamo dall'ambito dell'economia, e nello specifico dalla meccanica di formazione dei prezzi, a uno scontro vero e proprio, per quanto astratto nella teoria. Qualcosa di più brutale e definitivo. In altre parole, ci spostiamo dalla sfera dell'economia a quella della politica, dalla ricchezza al potere.
La tesi di fondo di Axelrod, che si può esprimere in una riga, è questa: la cooperazione razionale emerge quando l'ombra del futuro è abbastanza lunga. Non perché gli attori siano buoni, non perché abbiano fiducia o perché qualcuno li costringa: semplicemente perché sanno che si rivedranno, e che quello che fanno oggi sarà ricordato domani, e che il payoff complessivo — quello che conta alla fine — è la somma scontata di tutti i round, non il guadagno del singolo colpo. Se questa condizione c'è, la cooperazione è strategicamente dominante. Se non c'è, è la defezione a dominare. Tutta la matematica del libro — e la successiva letteratura, che in quarant'anni ha generato migliaia di paper e un ramo a sé dell'economia politica — ruota attorno al dimensionamento preciso di quell'"abbastanza".
Tengo a questa storia perché mi pare che la tragedia in corso della politica internazionale contemporanea — e in particolare lo stile negoziale di Donald Trump, che è il suo sintomo più vistoso ma non l'unico — si possa raccontare con grande economia di mezzi come il risultato di un collasso di quell'"abbastanza". Non è una questione di carattere presidenziale, non è una questione ideologica, non è nemmeno — secondo me — una questione americana in senso proprio. È una questione di fattori di sconto, di ombre del futuro, e di cosa succede a un sistema costruito per il lungo periodo quando qualcuno inizia a giocarlo come se fosse l'ultimo round. Provo a raccontarlo in ordine, partendo dal modello più semplice e complicandolo progressivamente.
Il modello base, in tre righe e un paio di tabelle
Due giocatori, A e B, si incontrano più volte. A ogni incontro ciascuno sceglie se cooperare (C) o defezionare (D), e riceve un payoff secondo la matrice canonica: tentazione $T = 5$, ricompensa $R = 3$, punizione $P = 1$, pagamento del fesso $S = 0$, con le consuete disuguaglianze $T > R > P > S$ e $2R > T + S$ che rendono il gioco un vero dilemma.
| B coopera | B defeziona | |
|---|---|---|
| A coopera | 3, 3 | 0, 5 |
| A defeziona | 5, 0 | 1, 1 |
Nel gioco singolo la defezione domina: qualunque cosa faccia B, ad A conviene defezionare, e lo stesso vale simmetricamente per B. Risultato, entrambi nel quadrante in basso a destra, entrambi con un payoff di 1 contro il 3 che avrebbero potuto condividere. È un esito peggiore, per entrambi, di quello che la cooperazione avrebbe garantito. Questo è il dilemma.
Il meccanismo di uscita, come dicevo, è l'iterazione: la ripetizione, in italiano. Se il gioco si ripete infinite volte e ogni giocatore sconta il futuro con un fattore $\delta \in [0,1]$, il payoff totale di una strategia diventa la somma scontata di tutti i payoff futuri, ciascuno pesato per il fattore di sconto elevato al numero del round, e la cooperazione è sostenibile come equilibrio — cioè nessuno ha incentivo a deviare unilateralmente — se e solo se
$$\delta \geq \frac{T - R}{T - P} = \frac{1}{2}$$.
Con i parametri di Axelrod, la soglia critica è 0,5. Sotto questo valore, anche nel gioco infinitamente ripetuto defezionare è la strategia razionalmente dominante; sopra, la cooperazione può reggere. La cosa bella di questo numero — e la ragione per cui mi pare che meriti attenzione politica, non solo tecnica — è che dice una cosa precisa sulla quale le intuizioni dei decisori politici tendono invece a essere sistematicamente sbagliate: non è il passato a determinare la cooperazione, non sono i trattati firmati dieci anni fa, non sono nemmeno le buone intenzioni dei negoziatori. È la percezione condivisa del futuro. La cooperazione è un fenomeno essenzialmente prospettico: regge finché tutti credono che ci sarà un prossimo round, e in quel prossimo round un prossimo, e che i comportamenti attuali saranno lì a pesare.
Tutte le istituzioni multilaterali che abbiamo costruito nel dopoguerra — WTO, NATO, il sistema dei trattati commerciali bilaterali, Bretton Woods finché è durato, l'Organizzazione Mondiale della Sanità , perfino il CIO olimpico nei suoi giorni migliori, che evidentemente non sono questi — hanno una sola funzione strutturale sottostante, al netto di qualunque contenuto specifico: alzare il $\delta$ percepito degli attori che vi partecipano. Lo fanno in modi diversi — legando questioni, creando reputazioni, imponendo costi reputazionali, permettendo il cross-issue linkage (la negoziazione parallela di istanze differenti allo stesso tavolo), moltiplicando i punti di contatto… — ma il meccanismo è lo stesso. Sono congelatori del futuro, dispositivi che rendono visibile, quasi tangibile, il prossimo round. Le tre configurazioni possibili del sistema, con $\delta = 0,9$ che è un valore ragionevole per un sistema cooperativo maturo, hanno questi payoff attualizzati:
| Scenario | A | B | Payoff A | Payoff B | Totale |
|---|---|---|---|---|---|
| Cooperazione stabile | C sempre | C sempre | 30,0 | 30,0 | 60,0 |
| Defezione trumpiana | D sempre | Tit-for-Tat | 14,0 | 9,0 | 23,0 |
| Collasso sistemico | D sempre | D sempre | 10,0 | 10,0 | 20,0 |
Il risultato cruciale, che anticipo nella versione breve di questo ragionamento per The Abstract, è che anche il defezionatore perde — e perde tanto. Sul suo stesso metro, nella sua stessa valuta, senza bisogno di scomodare considerazioni morali o controfattuali complicati. Quattordici contro trenta. Sedici punti di differenza. La "vittoria" trumpiana è matematicamente una forma di auto-sabotaggio quantificabile al secondo ordine di grandezza, purché si guardi al sistema per il suo intero orizzonte temporale e non al singolo titolo di giornale del martedì mattina.
Una digressione: come si calcolano i payoff su orizzonte infinito
Vale la pena spendere un minuto sull'aritmetica che produce quei numeri, perché è meno opaca di quanto sembri e perché è la stessa identica matematica che useremo in tutte le complicazioni successive. Il problema da risolvere è apparentemente brutale: come si fa a sommare un'infinità di payoff futuri senza ottenere infinito? La risposta è la formula della somma geometrica scontata, che è uno dei risultati matematici più eleganti e pratici della letteratura economica, ed è alla base di tutto, dal calcolo dei valori attuali netti in finanza alla teoria delle pensioni passando, appunto, per la teoria dei giochi ripetuti. La formula è questa: se in ogni round ricevo un payoff costante $\pi$, e sconto il futuro con un fattore $\delta$ minore di uno, allora il totale di tutti i miei payoff futuri attualizzati è
$$\sum_{t=0}^{\infty} \delta^{t} \cdot \pi = \frac{\pi}{1 - \delta}$$
Funziona perché ogni round successivo conta un po' meno del precedente — $\delta$ volte il precedente, per essere precisi — e quando si sommano infiniti termini che si rimpiccioliscono in progressione geometrica, la somma converge a un valore finito. È lo stesso meccanismo per cui Achille raggiunge la tartaruga di Zenone: ci sono infinite tappe, ma la somma delle loro durate è finita. Con $\delta = 0,9$, il moltiplicatore vale $1 / (1 - 0,9) = 10$. Un payoff costante per tutta l'eternità vale dieci volte il payoff di un singolo round: è il numero magico che ricorre dappertutto nel modello. Tienilo a mente, perché tutto quello che segue è una variazione su questa formula.
Per gli scenari della tabella sopra, il calcolo si spezza in due pezzi. Il primo round può essere diverso dagli altri (perché qualcuno defeziona, qualcuno coopera, e il payoff che incassano è asimmetrico); dal secondo round in poi le cose si stabilizzano e ciascuno incassa lo stesso payoff per sempre. Quindi se chiamo $x$ il payoff del round 1 e $y$ il payoff stabile dei round successivi, il totale è semplicemente $x$ più la somma scontata di $y$ a partire dal round 2, che con $\delta = 0,9$ diventa
$$\text{Payoff} = x + \frac{\delta \cdot y}{1 - \delta} = x + 9y$$
Questa è la formula compatta che spiega tutti i numeri della tabella. Verifica veloce, scenario per scenario:
| Scenario | x (round 1) | y (dal round 2) | Payoff = x + 9y |
|---|---|---|---|
| Coop. stabile (A o B) | 3 | 3 | 3 + 27 = 30 |
| Defezione trumpiana — A | 5 | 1 | 5 + 9 = 14 |
| Defezione trumpiana — B | 0 | 1 | 0 + 9 = 9 |
| Collasso (A o B) | 1 | 1 | 1 + 9 = 10 |
Tutto torna. La cosa che vale la pena notare — e che è il punto del prossimo paragrafo — è che il defezionatore A nello scenario trumpiano paga due volte: paga zero punti rispetto a $R$ nel round 1 (perché incassa 5 invece di 3, ma la differenza è solo 2), e poi paga due punti per round per tutta l'eternità (perché incassa 1 invece di 3). I due punti per round, moltiplicati per il fattore 9 della somma scontata, fanno 18 punti di danno cumulato, da cui sottraendo il guadagno iniziale di 2 si ottengono i 16 punti netti di auto-sabotaggio. Sedici punti, ripeto, sul suo stesso metro.
Un quarto scenario: la defezione tattica con rientro
C'è una variante del modello base che vale la pena considerare prima di passare alle complicazioni vere, perché chiarisce in modo implacabile dove sta la specificità del problema trumpiano. Lo scenario di prima — quello che chiamo "defezione trumpiana" — assume che A defezioni una volta e poi resti bloccato nella defezione per sempre, perché il suo $\delta$ è collassato e non vede più ragione di rientrare. Ma cosa succederebbe se A fosse semplicemente un giocatore razionale che vuole approfittarsi di B una volta sola, incassare il payoff della tentazione, e poi rientrare nella cooperazione il prima possibile? Lo chiamo "defezione tattica con rientro". La sequenza sarebbe questa:
Round 1, A defeziona e B coopera (la regola di apertura di Tit-for-Tat è sempre gentile): A incassa 5, B incassa 0. Round 2, A torna immediatamente a cooperare (sa di voler rientrare), ma B sta ancora ritorcendo la defezione del round precedente: A incassa 0, B incassa 5. Round 3 in poi, B vede la cooperazione di A al round 2 e perdona: tutti e due cooperano, $R = 3$ ciascuno per sempre.
Applicando la formula della somma scontata con $\delta = 0,9$, e ricordando che il pezzo dal round 3 in poi va pesato per $\delta^2 = 0,81$ (perché la somma parte da $t = 2$):
| Scenario | Round 1 | Round 2 | Round 3+ | Payoff A | Payoff B | Totale |
|---|---|---|---|---|---|---|
| Defezione trumpiana (intransigente) | D, C | D, D | D, D | 14,0 | 9,0 | 23,0 |
| Defezione tattica con rientro | D, C | C, D | C, C | 29,3 | 28,8 | 58,1 |
| Cooperazione stabile (riferimento) | C, C | C, C | C, C | 30,0 | 30,0 | 60,0 |
Il risultato è impressionante. Il defezionatore tattico finisce a 29,3 contro i 30 della cooperazione stabile: praticamente gratis. La sua "vittoria" iniziale gli costa solo 0,7 punti rispetto a quanto avrebbe ottenuto cooperando da subito. Perfino B, che ha pagato il prezzo del fesso al round 1 e poi ha dovuto ribellarsi nel round 2, finisce a 28,8 — un punto e due decimi sotto il riferimento. Il sistema nel suo complesso perde 1,9 punti su 60, cioè il 3%. Una manutenzione tutto sommato leggera, considerando che c'è stata effettivamente una defezione.
Il confronto tra i due scenari trumpiani — quello intransigente a 23 e quello tattico a 58 — è il dato più rivelatore di tutto il modello base. La differenza tra i due non è defezionare o non defezionare. È essere capaci rientrare o non esserlo. Un giocatore razionale che tratta la singola defezione come una mossa tattica isolata, e poi torna immediatamente alla cooperazione, paga un costo trascurabile e tiene aperto il sistema. Un giocatore che invece cristallizza la defezione perché ha smesso di credere nel domani — perché il suo $\delta$ è effettivamente vicino a zero — distrugge sia il proprio payoff che quello del partner, e produce un esito che è strutturalmente, non episodicamente, peggiore per tutti.
Quella che oggi chiamiamo "strategia trumpiana", a guardarla dentro il modello, non è quindi semplicemente l'arte di defezionare aggressivamente. Quella sarebbe perfino sostenibile, come dimostra il quarto scenario. È piuttosto la combinazione di defezione e incapacità di rientro: la trasformazione di ogni singolo round in un atto definitivo, irreversibile, mai accompagnato dalla disponibilità a tornare cooperativi non appena l'altro lo facesse. È esattamente ciò che il modello identifica come il fattore distruttivo. Tit-for-Tat ha vinto il torneo di Axelrod nel 1980 perché, oltre a essere gentile e ritorsivo, era indulgente: perdonava immediatamente. Una versione di Tit-for-Tat priva della terza proprietà — gentile, ritorsiva, ma rancorosa — sarebbe stata sconfitta da quasi tutte le altre strategie. Le quattro righe di codice di Rapoport contenevano già il nucleo della diagnosi.
Questo è tutto quello che c'è da dire nel modello a due attori. Ma è troppo poco, perché il mondo non ha due attori, e il modello a due attori non cattura tre fenomeni che nella realtà degli ultimi tre anni sono diventati i più importanti. Li aggiungo uno alla volta.
Prima complicazione. Il contagio del fattore di sconto in una rete di giocatori
Nel mondo reale non ci sono solo due stati nazionali, ce ne sono circa duecento, e ciascuno interagisce contemporaneamente con decine di altri attraverso una rete fitta di relazioni bilaterali e multilaterali. Quando un attore grande inizia a defezionare sistematicamente, l'effetto non si esaurisce nella sua relazione con chi subisce la defezione. Si propaga. E si propaga attraverso un meccanismo che mi pare pochissimo tematizzato nel dibattito pubblico ma che è, almeno nella mia ricostruzione, il cuore del fenomeno: il fattore di sconto di ciascun attore non è fissato esogenamente, ma viene aggiornato continuamente in base a quello che l'attore osserva nel sistema intero.
Formalizzo. Sia $\delta_i(t)$ il fattore di sconto con cui l'attore $i$ valuta il futuro al tempo $t$. Questo valore non è una proprietà intrinseca dell'attore: è una stima razionale, basata sulla propria esperienza e sull'osservazione del comportamento degli altri, della probabilità che il sistema cooperativo regga ancora domani. Se l'attore $i$ osserva che nel sistema stanno aumentando i comportamenti defezionisti — non necessariamente rivolti a lui, ma in generale — ricalcola al ribasso la sua stima della probabilità che ci sarà un "domani cooperativo" in cui le sue scelte attuali verranno ricompensate. E quindi abbassa il suo $\delta_i$. Una funzione di aggiornamento semplice potrebbe essere:
$$\delta_i(t+1) = \delta_i(t) - \lambda \cdot f(\text{defezioni osservate al tempo } t)$$
dove $\lambda > 0$ è una costante di sensibilità e $f$ è una funzione che pesa le defezioni osservate secondo la loro rilevanza per l'attore $i$ — tipicamente, con maggior peso per le defezioni commesse da attori con cui $i$ ha relazioni più strette o più dense. Il risultato è che, quando in un sistema inizia a circolare rumore defezionista, il fattore di sconto di tutti gli attori — non solo di quelli direttamente colpiti — inizia a scendere. E quando il $\delta$ di un attore scende sotto la soglia critica 0,5, la cooperazione cessa di essere razionale per quell'attore, che inizia a sua volta a defezionare.
Ed ecco il punto: la nuova defezione si aggiunge al rumore osservato dagli altri, abbassando ulteriormente i loro $\delta$, innescando altre defezioni. Il processo è quello di un contagio a cascata, matematicamente analogo ai modelli di soglia di Mark Granovetter sulle dinamiche collettive, o ai modelli di percolazione studiati in fisica statistica per transizioni di fase di primo ordine. Il sistema può restare in un regime cooperativo stabile per molto tempo, finché il rumore defezionista è al di sotto di una certa soglia; ma se il rumore supera quella soglia, il collasso è rapido e non lineare. Non è un declino graduale: è un tipping point. Una transizione brusca da un equilibrio all'altro, come l'acqua che bolle o un cristallo che si fonde.
La cosa interessante — e preoccupante — è che la posizione del tipping point non è osservabile direttamente da dentro il sistema. Nessun attore sa esattamente quanto rumore defezionista può ancora assorbire il sistema prima che diventi instabile. Lo si scopre dopo, a collasso avvenuto, quando è troppo tardi per reagire. È una delle ragioni per cui i sistemi istituzionali sembrano sempre, dall'interno, più solidi di quanto non siano: finché reggono, sembrano eterni; quando cedono, sembrano essere ceduti di colpo. Ma il cedimento di colpo è il risultato finale di un processo di erosione dei fattori di sconto che era in corso da molto tempo, soltanto invisibile perché restava sotto la soglia di manifestazione. Il 1914 è un caso esemplare; il 1939, più controverso, lo è ugualmente; il 2016, molto probabilmente, lo è stato a sua volta. Chi ha vissuto i mesi immediatamente precedenti a queste date ha tipicamente testimoniato di una sensazione di normalità fino a giorni dall'evento. Il sistema era già rotto: semplicemente, nessuno aveva ancora un motivo operativo per scoprirlo.
Seconda complicazione. L'asimmetria di potere e la centralità del defezionatore
La funzione di aggiornamento che ho scritto sopra ha un difetto evidente: tratta tutte le defezioni come equivalenti. In realtà , non lo sono. Quando una potenza minore defeziona, il segnale che invia al sistema è debole. Quando defeziona una potenza maggiore — soprattutto quella attorno a cui il sistema è stato costruito — il segnale è devastante, perché non mette in discussione soltanto la relazione bilaterale, ma l'intera architettura che quella potenza garantiva come attore egemonico. Il $\lambda$ dovrebbe allora essere pesato per la centralità dell'attore defezionista. Una formulazione più ricca è:
$$\delta_i(t+1) = \delta_i(t) - \lambda \cdot \sum_{j} c_j \cdot d_j(t)$$
dove la somma è estesa ai vicini di $i$ nella rete di relazioni, $c_j$ è un coefficiente di centralità (eigenvector centrality o qualunque misura di importanza strutturale nella rete) e $d_j(t)$ è un indicatore binario (1 se $j$ ha defezionato al tempo $t$, 0 altrimenti). Il senso è semplice: una defezione della Russia nel sistema dei trattati sulle armi convenzionali pesa diversamente da una defezione del Nicaragua, non perché il Nicaragua sia meno sovrano, ma perché la sua posizione nella rete di relazioni globali è strutturalmente meno centrale, e il suo comportamento trasmette meno informazione sul destino futuro del sistema nel suo insieme.
Qui veniamo a una proprietà sgradevole: gli attori più centrali nel sistema sono, per costruzione, anche quelli la cui defezione ha l'effetto più distruttivo. Sono precisamente quelli che, se defezionano, costringono più rapidamente gli altri a ricalibrare i propri fattori di sconto, accelerando il contagio. Gli Stati Uniti del secondo dopoguerra sono stati per decenni la massima fonte di stabilità del sistema multilaterale proprio per via della loro centralità : ogni volta che rispettavano gli impegni, il messaggio che passava era "questo sistema regge, il futuro conta, il $\delta$ resta alto". Quando iniziano a non rispettarli — e tanto più lo fanno platealmente, come piace a Trump — il segnale è amplificato dalla stessa centralità che lo rendeva stabilizzante. È l'opposto estremo di ciò che in inglese si chiamerebbe the virtue of one's vice: la proprietà che rendeva l'attore utile al sistema lo rende, al momento della defezione, particolarmente nocivo.
L'implicazione quantitativa, per tornare al nostro gioco, è che nella cascata di cui parlavo prima il defezionatore iniziale non è un attore qualunque. È il centro della rete. E la velocità del collasso scala con la sua centralità . Un semplice esercizio numerico lo rende evidente: in una rete simulata di cento attori, dove ogni attore ha un $\delta$ iniziale di 0,9 e un $\delta$ critico di 0,5, se il defezionatore iniziale è un attore periferico la probabilità di innescare una cascata completa è molto bassa, dell'ordine del 5-10% in dipendenza dei parametri. Se invece il defezionatore iniziale è l'attore più centrale della rete — quello con la massima eigenvector centrality o, se si vuole, il "prestigio" — la probabilità di cascata completa sale oltre l'80%. E il tempo medio fino al collasso si riduce drasticamente. Non è una simulazione che sia in grado di realizzare in modo rigoroso; ma l'ordine di grandezza è espresso da quello che emerge dai modelli di contagio nelle reti complesse studiati in letteratura da autori come Watts, Newman e Barabási. Lo riporto qui con la cautela che l'esercizio merita, ma la direzione del risultato è robusta e l'intuizione è chiara: il centro non è un attore come gli altri, e quando il centro defeziona, il sistema non è in pericolo statistico, è in pericolo strutturale.
Terza complicazione. L'asimmetria temporale della credibilitÃ
Arrivo alla complicazione che mi sta più a cuore — quella che, nella mia ricostruzione, rende la situazione attuale particolarmente difficile da riparare, e che il modello base non cattura per nulla. La funzione di aggiornamento che ho scritto è simmetrica nel tempo: se un attore osserva defezioni, il suo $\delta$ scende; presumibilmente, se osservasse cooperazione, il suo $\delta$ salirebbe. Ma questa simmetria è sbagliata empiricamente. La credibilità non funziona così. La credibilità scende veloce e sale lenta. La distruzione della fiducia è un processo rapido; la ricostruzione è un processo lentissimo, e non sempre completo.
Formalmente, la funzione di aggiornamento andrebbe scritta con coefficienti diversi per le due direzioni:
$$\delta_i(t+1) = \delta_i(t) - \lambda_{\downarrow} \cdot \text{segnale di defezione} \quad \text{se rumore defezionista}$$
$$\delta_i(t+1) = \delta_i(t) + \lambda_{\uparrow} \cdot \text{segnale di cooperazione} \quad \text{se rumore cooperativo}$$
con $\lambda_{\downarrow}$ molto maggiore di $\lambda_{\uparrow}$, tipicamente di un ordine di grandezza o più. La ragione è psicologica, cognitiva, ed è stata studiata con grande dettaglio dalla letteratura sull'avversione alle perdite di Kahneman e Tversky: perdere fiducia costa poco (una sola defezione osservata è sufficiente a fare precipitare la stima), riguadagnarla costa tantissimo (richiede anni di cooperazione costante per tornare allo status quo ante). È il meccanismo che rende la reputazione un bene economicamente asimmetrico, e che in finanza si conosce come la proprietà per cui "ci vogliono vent'anni per costruire una reputazione e cinque minuti per rovinarla" — un adagio attribuito a Warren Buffett che, al di là della paternità , cattura con precisione la forma matematica del fenomeno.
Tradotto nel nostro sistema, significa che il danno inflitto da una fase di defezione non è riparabile con una fase simmetrica di cooperazione. Anche se dal 2029 in poi gli Stati Uniti tornassero a comportarsi come negli anni Novanta — ipotesi generosa, ma mettiamola per ipotesi — la ricostruzione del $\delta$ percepito negli altri attori richiederebbe un tempo molto più lungo del tempo in cui il $\delta$ è stato abbassato. Più precisamente: se $\lambda_{\downarrow}/\lambda_{\uparrow} = 10$, per ogni anno di defezione ci vorranno dieci anni di cooperazione impeccabile per tornare al livello di partenza. Se quel rapporto è più alto — e la letteratura suggerisce che nei contesti ad alto stake lo sia — il tempo di recupero diventa asintoticamente infinito. A quel punto non è più "ricostruzione", è rifondazione: il sistema nuovo non sarà il vecchio riparato, sarà un sistema diverso, costruito su basi diverse, probabilmente con hegemon diversi.
Questa asimmetria ha una conseguenza che mi pare cruciale e poco digerita dal dibattito politico corrente. Anche se Trump venisse sostituito domani, anche se il Congresso e la Corte Suprema ritrovassero il loro ruolo, anche se l'amministrazione successiva fosse la più multilateralista del dopoguerra, il sistema non tornerebbe automaticamente al 2015 — ammesso e non concesso che il 2015 fosse il bengodi. I fattori di sconto degli altri attori sono già scesi, e scenderanno ancora per un po' per effetto del rumore accumulato, e poi inizieranno la lenta risalita da una base molto più bassa. Nel frattempo, altri attori avranno occupato lo spazio strutturale lasciato libero. Non è reversibile nei tempi della politica elettorale: è reversibile nei tempi della storia, che sono diversi e non disponibili alla volontà immediata dei decisori.
La cosa più triste di questo passaggio — e qui forse sconfino nel moralismo che di solito cerco di evitare — è che la persona (e per "persona" intendo la figura politica istituzionale, non l'individuo) che ha innescato il processo non pagherà il prezzo del collasso. Non c'è un ciclo elettorale abbastanza lungo da esporre il decisore alle conseguenze di lungo termine della sua decisione, e non c'è un'istituzione sovranazionale abbastanza forte da imporgli il feedback. È la versione internazionale del problema dello skin in the game che discutevo qualche mese fa a proposito di Taleb: chi decide non subisce, chi subisce non decide, e il sistema perde proprio il meccanismo correttivo che avrebbe potuto, in teoria, salvarlo. Per certi versi, questo spiega una certa crescente nostalgia per la lotta di classe, in un contesto che per ovvie ragioni è radicalmente diverso.
Cosa succede a B, a C, e a tutti gli altri
Metto insieme le tre complicazioni in uno scenario unico, per vedere cosa producono nel loro effetto congiunto. Ho un sistema a $N$ attori (diciamo $N = 100$), inizialmente tutti in un regime cooperativo con $\delta_i = 0,9$. L'attore più centrale — chiamiamolo A — inizia a defezionare sistematicamente, con una cadenza costante. Gli altri osservano, aggiornano i loro fattori di sconto secondo la funzione asimmetrica del paragrafo precedente, e alcuni di loro, quando il $\delta$ scende sotto 0,5, iniziano a loro volta a defezionare. Nel frattempo, un secondo attore centrale — chiamiamolo C, perché nell'attuale contesto geopolitico è abbastanza chiaro di chi sto parlando — non defeziona, anzi, si impegna deliberatamente in un surplus di prevedibilità , perché ha capito che in un sistema dove il $\delta$ degli altri sta scendendo, essere l'unico affidabile è un vantaggio strategico di cui vale la pena pagare il costo di breve.
(La realtà è ovviamente più complessa di così: la mia idea per esempio è che la nostra C in questo momento, e per questa precisa ragione, abbia interesse a cooperare con tutti il più possibile, ma di fatto defezioni verso A non troppo scopertamente, appositamente per non intaccare la propria reputazione: ad esempiom vendendo satelliti militari a I, potenza regionale di matrice teocratica che attualmente controlla lo Stretto di Hormuz. Interessante anche il comportamento di R, potenza regionale euro-asiatica, il cui asset migliore in questo momento è la relazione preferenziale con A e che per il resto defeziona sistematicamente con i presunti alleati dia A in modo piuttosto scoperto, spesso facendo il lavoro sporco per conto di C. Se A nel tempo finirà eroso dalla sua stessa strategia, non potrebbe essere un caso paradigmatico di sfortunata scommessa all-in-one-bucket?)
Il risultato di una simulazione anche grossolana di questo scenario mostra tre cose. La prima è che A paga esattamente quello che avevo calcolato nel modello base: sedici punti di payoff in meno rispetto alla cooperazione stabile, più la volatilità aggiunta che lo rende meno attraente come partner anche nei round in cui occasionalmente vincerebbe. La seconda è che C guadagna, e guadagna in due modi: cattura il commercio, gli investimenti e le relazioni diplomatiche che escono dalla sfera di A man mano che A perde credibilità ; e costruisce, al costo di una certa pazienza strategica, una reputazione di attore prevedibile che gli paga dividendi crescenti. I numeri approssimativi — A finisce a circa 14, C finisce a circa 30, in un mondo in cui il payoff cooperativo massimo sarebbe stato 30 per entrambi — sono quelli del modello ridotto ma qui diventano strutturali, non contingenti. La terza cosa, ed è la più interessante dal punto di vista sistemico, è che gli altri novantotto attori del sistema sono in una posizione difficile. Se giocano la vecchia cooperazione come se il sistema reggesse ancora, vengono puniti da A ogni volta che A ha occasione di estrarne valore. Se defezionano a loro volta, contribuiscono al collasso e ci perdono tutti. L'unica strategia mediamente razionale che resta — ed è una forma di hedging che storicamente i paesi medi hanno praticato moltissimo — è distribuire la propria cooperazione tra A e C in proporzione all'affidabilità osservata, spostando progressivamente peso verso C, ma senza mai rompere formalmente con A. È, se ci pensi, esattamente quello che l'Unione Europea, il Giappone, la Corea del Sud, il Brasile, l'India stanno facendo sul piano commerciale e tecnologico negli ultimi tre anni. Non è opportunismo: è la risposta matematicamente ottimale a una situazione in cui il fattore di sconto verso A è sceso drasticamente ma non è ancora zero.
Il trasferimento netto di egemonia da A a C non è quindi una chimera o uno spauracchio: semmai, è una proprietà matematica del sistema, dato l'insieme di regole e comportamenti che ho descritto. E il punto che mi preme sottolineare è che questo trasferimento è in corso a prescindere da qualunque giudizio morale sui due attori. C non sta vincendo perché è più virtuoso, più democratico, più illuminato. Sta vincendo perché è più prevedibile, e in un sistema iterato la prevedibilità è un asset strategico indipendente dal contenuto normativo che la sostiene. Il regime cinese può essere criticato — e lo è, e lo critico io stesso con una certa frequenza — per moltissime cose: il trattamento delle minoranze, l'assenza di stato di diritto, la repressione del dissenso, l'opacità istituzionale. Ma sullo specifico piano su cui il modello lo misura — la stabilità e la leggibilità del comportamento esterno — è al momento avvantaggiato rispetto a un sistema ex unipolare governato da un paese egemonico in cui ogni quattro anni l'intera politica estera può essere ribaltata da un'elezione. E non è affatto una forma di vantaggio di cui le dittature godono contro le democrazie, che è un modo sbagliato di affrontare il problema, anche perché le democrazie sono in rete con altre democrazie, e capaci quindi di garantirsi reciprocamente la continuità che i singoli cicli elettorali non garantiscono. Il punto è che in questo momento A è un disturbatore di questo sistema di reciproca stabilizzazione, di cui è stato garante fino all'altro ieri. E, quando questo sistema-rete si incrina, la compensazione salta, e l'asimmetria di prevedibilità diventa dominante.
Una confessione sul metodo
Devo confessare, prima di chiudere, una cosa che mi preme. Il modello che ho costruito è ovviamente una semplificazione brutale della realtà . Tratta gli stati come giocatori unitari, quando non lo sono; assume fattori di sconto aggiornabili in modo pulito, quando il processo reale è sporco di pregiudizi, ideologie, bias cognitivi, pressioni elettorali interne; ignora completamente la dimensione culturale, religiosa, identitaria che spesso fa deviare gli attori dai comportamenti che la razionalità strumentale prescriverebbe. Non ho nessuna illusione sul fatto che un politico italiano, o tedesco, o argentino stia oggi facendo i conti con una matrice di payoff e un coefficiente $\delta$ prima di decidere se firmare un accordo commerciale. Il modello non descrive cosa passa per la testa dei decisori; descrive la forma strutturale degli incentivi entro cui si muovono, e argomenta che quella forma ha certe proprietà indipendentemente da quanto i decisori ne siano consapevoli.
Mi pare, tutto sommato, una posizione difendibile. Non perché i modelli siano la realtà — non lo sono, e una parte del pezzo sul rumore a Beirut, qualche settimana fa, la dedicavo proprio alla critica della pretesa onniscienza modellistica — ma perché i modelli sono un modo di pensare alla realtà , e ogni tanto offrono un angolo che lo sguardo narrativo non coglie. L'angolo che questo modello offre, e che mi sembra non sufficientemente discusso nella stampa italiana ed europea in questi mesi, è che il fenomeno Trump non è un incidente della democrazia americana, ma un test di stress sulla struttura matematica dell'ordine internazionale. Donald Trump potrebbe essere il Michail Gorbachev della politica americana del XXI secolo: uno la cui funzione strutturale è far scendere dal piedistallo la potenza americana in maniera relativamente non catastrofica, quando di solito questi processi portano a guerre di successione, scontri mondiali, gravi instabilità , costi umani raccapriccianti.
Con la differenza che Gorbachev a noi risultava simpatico, perché ha favorito la transizione non violenta del regime sovietico verso uno stato più moderno, e soprattutto verso il sogno di un sistema unipolare trainato da A all'insegna della cooperazione. Ai russi molto meno: tanto per cominciare, perché il progetto di rifondazione democratica russa è fallito e gli anni Novanta in Russia sono stati insostenibili. E poi anche per ragioni probabilmente antropologiche, considerato che i modi di Gorbachev erano molto più assimilabili a quelli che attribuiamo di solito allo stereotipo occidentale. Ma ciò che conta davvero è che dal punto di vista di quella struttura il test si sta misurando in modi che sono già oggi calcolabili, non tutti ancora visibili, e molto meno reversibili di quanto la retorica dell'"alternanza democratica" suggerisca. Il giorno dopo Trump non sarà il giorno prima di Trump, e chi sta pianificando la politica estera europea sperando che lo sia sta sbagliando i conti di parecchi ordini di grandezza. Fine del nostro celebrato stile di vita liberal, insomma?
Quello che resta da fare
Chiudo con una considerazione valoriale che può sembrare disallineata rispetto al tono analitico del pezzo, ma mi pare che il modello la renda obbligatoria. Se l'asimmetria temporale della credibilità è reale — e credo lo sia — allora la finestra utile per intervenire è adesso, non tra quattro anni. Ogni mese in cui un attore medio (diciamo ancora, l'Unione Europea) aspetta prima di costruire strutture cooperative alternative, sperando che il problema si risolva da sé con la fine del ciclo elettorale americano, è un mese in cui il $\delta$ del sistema continua a scendere e il tempo di ricostruzione si allunga. La strategia razionale, dato questo, non è l'attesa ma la costruzione: accordi trilaterali o multilaterali che escludano temporaneamente gli Stati Uniti, nuove architetture di governance commerciale con partner prevedibili, investimenti concreti nella capacità europea di difesa perché in un mondo a basso $\delta$ la sicurezza non può più essere subappaltata, riconfigurazione delle filiere tecnologiche in modo da ridurre la dipendenza dai fornitori più volatili.
Non è protezionismo, non è antiamericanismo, non è appeasing verso il governo cinese - il quale, ribadisco, non diviene improvvisamente più simpatico o più democratico: C deve semplicemente stare fermo ed essere relativamente prevedibile per apparire vagamente potabile. È la risposta matematicamente appropriata a un cambiamento delle condizioni strutturali del sistema, calcolata con la stessa asciutta razionalità che il modello usa per mostrare l'auto-sabotaggio trumpiano. È quello che farebbe, tra l'altro, un giocatore di Tit-for-Tat ben programmato: dopo una defezione, una ritorsione proporzionata; dopo la ritorsione, disponibilità immediata a tornare alla cooperazione non appena l'altro tornasse a cooperare. Nessun rancore, nessuna ingenuità . Solo aggiornamento delle aspettative.
La cosa curiosa di tutto questo è che Anatol Rapoport, quando sottomise Tit-for-Tat al torneo di Axelrod nel 1980, non stava cercando di costruire una strategia aggressiva. Era un pacifista, aveva firmato petizioni contro la guerra del Vietnam, aveva scritto libri sull'importanza del disarmo nucleare. Voleva mostrare che la cooperazione è razionale, che non c'è bisogno di essere buoni per cooperare, che basta essere razionali e guardare al lungo periodo. La sua strategia funzionò perché combinava tre proprietà : era gentile (iniziava cooperando), era ritorsiva (puniva la defezione immediatamente), era indulgente (perdonava subito quando l'altro tornava a cooperare). Queste tre proprietà sono anche una descrizione piuttosto accurata di quello che un sistema multilaterale sano dovrebbe fare in risposta a un'ondata di defezione operata da un attore egemone. Essere gentili nel non escludere preventivamente, ritorsivi nel non fingere che nulla sia successo, indulgenti nel tenere sempre aperta la porta del rientro. Non è un programma politico complicato. È aritmetica, soltanto aritmetica: la stessa aritmetica che Rapoport cercò di comunicare con quattro righe di codice quarantacinque anni fa. Il che forse dovrebbe indurci a pensare quanto problemi molto complessi possano essere riportati a pochi fattori molto chiari. Il che non costituirà mai una fotografia esatta della realtà che ci circonda (per fortuna), ma può almeno aiutare a chiarirci le idee.
Bibliografia essenziale
Axelrod, R. (1984). The Evolution of Cooperation. New York: Basic Books.
Keohane, R. O. (1984). After Hegemony: Cooperation and Discord in the World Political Economy. Princeton: Princeton University Press.
Ostrom, E. (1990). Governing the Commons: The Evolution of Institutions for Collective Action. Cambridge: Cambridge University Press.
Rapoport, A., & Chammah, A. M. (1965). Prisoner's Dilemma: A Study in Conflict and Cooperation. Ann Arbor: University of Michigan Press.
Schelling, T. C. (1966). Arms and Influence. New Haven: Yale University Press.