La scienza moderna poggia su due assunti fondamentali che erano impliciti nel pensiero di Rene' Descartes: (1) la Matematica e' uno strumento astratto, che tratta le relazioni astratte che possono sussistere fra entita' astratte; e (2) ogni disciplina relativa a uno specifico lo dominio (per esempio la Fisica, che e' relativa al dominio degli oggetti) possa essere studiata identificando le entita' astratte della Matematica con le entita' concrete del suo dominio (per esempio, masse e moti) ed identificando le relazioni astratte della Matematica con le relazioni concrete del suo dominio (per esempio, quella fra massa e moto). In tal modo l'apparato logico e' lo stesso per tutte le discipline e puo' essere raffinato come una disciplina astratta a se' stante, mentre ogni disciplina pratica puo' concentrarsi nell'indagine sperimentale. Cio' che Descartes aveva scoperto era la relazione fra il simbolo e cio' che il simbolo rappresenta.
Non stupisce pertanto che il concetto moderno di "mente" nasca proprio con Descartes, il quale abbandona le tradizionali speculazioni metafisiche sull'anima per volgersi allo studio delle funzioni mentali. Descartes elimino' del tutto gli ultimi residui di animismo a favore di un modello di stretta interazione fra mente (res cogitans) e corpo (res extensa), tale per cui l'una determinava il comportamento dell'altro (tramite il sistema nervoso) e viceversa (tramite il sistema percettivo). Descartes accetto' inoltre i risultati della medicina, che tendevano a porre nel cervello il centro motore del corpo, e di conseguenza facevano del cervello la sede ideale della mente. In cio' dava ragione a Ippocrate, che per primo aveva eletto il cervello a sede dell'intelletto, e contraddiceva Aristotele, che vedeva nel cuore la sede naturale dei processi mentali. Aristotele, in compenso, aveva gia' fatto notare che di tutti gli animali l'uomo era quello che aveva il cervello piu' grosso in rapporto al corpo e in tal modo aveva "suggerito" ai posteri come dimostrare scientificamente la superiorita' dell'uomo sugli altri animali.
Gli empiristi inglesi sostennero invece che il primato spettasse addirittura ai sensi perche' la conoscenza deriva soltanto dall'esperienza (John Locke) e l'esperienza e' soltanto percezione (George Berkeley) compresa la mente stessa (David Hume); inoltre i processi mentali sarebbero causati da associazioni di processi piu' elementari (David Hartley). La visione di Locke conteneva gia' in embrione tutte le conseguenze dell'empirismo: la mente inizialmente non possiede alcuna conoscenza; l'esperienza viene organizzata in associazioni via via piu' complesse che danno origine alla complessita' dei nostri pensieri. In Hume si coglie lo spirito dell'era di Isaac Newton, nella quale il calcolo matematico e' riuscito a spiegare le leggi della Natura sotto forma delle tre leggi della Meccanica: Hume e' infatti convinto che sia possibile formulare leggi meccaniche anche per la mente, in particolare leggi analoghe a quella dell'attrazione gravitazionale, che renderebbero conto anche del meccanismo delle associazioni. Il modello cognitivo derivato dagli empiristi e' pertanto puramente meccanicistico: le percezioni costruiscono i processi mentali tramite associazioni via via piu' complesse (James Mill).
Il pensiero positivista portato in auge da Auguste Comte intorno al 1823, nemico della teologia e della metafisica e affascinato dalla civilta' industriale, conferi' invece un primato assoluto alla struttura del cervello, nella convinzione che anche i processi mentali fossero processi fisici. A rivedere l'empirismo inglese in termini positivisti fu John Stuart Mill, per il quale tutta la conoscenza umana (compresa quella logica) e' si' di natura empirica, ma il processo che presiede alla sua acquisizione e' quello dell'induzione, giustificato dal fatto che la Natura presenta un'assoluta regolarita'. Per induzione si intende la possibilita' di derivare una legge universale da un certo numero di dati empirici.
Non a caso il passo successivo nella comprensione dei fenomeni mentali venne compiuto dalla Fisiologia, fondata scientificamente da Johannes Muller a partire dal 1833. Grazie ad essa si pervenne a una comprensione piu' accurata dell'anatomia del cervello. Gli esperimenti di Franz Gall e poi di Paul Broca, per esempio, misero in luce che alcune funzioni mentali erano localizzate in parti limitate del cervello. Dopo che Theodor Schwann ebbe enunciato l'ipotesi che il cervello sia composto di cellule, il microscopio consenti' di osservare i singoli "neuroni" e di scoprire cosi' anche le "sinapsi" che li connettono.
Nella seconda meta' del secolo i fisiologi adottarono alcune tecniche sperimentali (la rimozione di parti del cervello o la stimolazione elettrica della corteccia cerebrale) che fecero compiere rapidi progressi nella comprensione del funzionamento del cervello. Al tempo stesso Ernst Weber, Gustav Fechner e Hermann von Helmholtz misurarono quantita' relative a fenomeni mentali (rispettivamente: la percezione dei pesi, l'intensita' della sensazione in funzione dell'intensita' dello stimolo, la velocita' degli impulsi nervosi), iniziando in tal modo a trasformare lo studio della mente in una scienza matematica. Emil du Bois-Reymond dimostro' che gli impulsi nervosi sono trasmessi per via elettrica (1843) e chimica (1877), e Richard Caton (1875) scopri' che il cervello produce correnti elettriche, il principio che e' alla base dell'elettro-encefalogramma di Hans Berger (1929).
In quegli anni (1867) Helmholtz propose la teoria della percezione che sarebbe rimasta in voga per almeno un secolo: (a) l'organismo e' isolato dal mondo esterno; (b) l'unico canale di comunicazione con il mondo esterno e' dato dai segnali nervosi; (c) i segnali nervosi non hanno in se' alcun significato; (d) il loro significato viene appreso per induzione, esattamente come il linguaggio; (e) la percezione e' pertanto un fenomeno dovuto alla conoscenza. Helmholtz si rese soprattutto conto che la stragrande maggioranza dell'elaborazione delle percezioni viene compiuta dall'organismo in maniera inconscia: le nostre "aspettative" derformano i dati sensoriali finche' non viene trovato un compromesso fra cio' che i dati dicono e cio' che la mente si aspetta. L'aspettativa, o "vorstellung", ha origine dall'esperienza secondo un qualche processo evolutivo, ed e' tale vorstellung a guidare le "inferenze inconsce" che determinano le nostre percezioni.
A partire da Francis Galton (1869) ebbe inizio la moderna "psicometria", che si proponeva di "misurare" l'intelligenza (per esempio, tramite i test ideati da Alfred Binet nel 1905). Il valore dell'intelligenza di un individuo veniva sostanzialmente riferito alla sua abilita' nel risolvere problemi sempre piu' complessi. Sia i neurofisiologi sia gli psicologi statistici misuravano una quantita' che assumevano essere invariante rispetto ai fattori ambientali (come il "fattore generale" introdotto da Charles Spearman nel 1923). Si veniva cosi' formando l'idea moderna di "intelligenza". Nel 1921 alla prima conferenza su tale soggetto nessuno degli scienziati che vi convennero seppe peraltro proporre una definizione convincente di cosa fosse l'"intelligenza" di cui essi dibattevano. Se per Colvin "intelligenza" era la capacita' di adattarsi all'ambiente, se per Henmon era equivalente a "conoscenza", per Dearborn era la capacita' di imparare dall'esperienza e per Woodrow era tout court la capacita' di aumentare le proprie capacita'.
Nonostante l'interesse generato per la macchina gia' alla fine del secolo scorso, fu soltanto negli anni Quaranta che si fece largo l'idea di una "scienza dell'artificiale", intendendo per "artificiale", in opposizione a "naturale", cio' che viene prodotto dell'uomo invece che della Natura. L'artificiale viene normalmente costruito utilizzando le leggi della Natura scoperte dalle scienze naturali, e pertanto si riferisce sempre, esplicitamente o implicitamente, a modelli naturali (alla caduta di un sasso, alla spinta di un fiume, al calore del fuoco, e cosi' via). Il fascino dell'"artificiale" e' pero' duplice: da un lato, per quanto si avvicino ai modelli della Natura, i prodotti dell'uomo non riescono mai a imitarli completamente, lasciando intuire una fondamentale inadeguatezza del programma scientifico; dall'altro costituiscono degli strumenti molto piu' utili dei loro modelli naturali, perche' e' ben definita la loro "funzione" (il loro comportamento puo' essere descritto in termini di comandi a cui sanno reagire). Al crescere della complessita' delle macchine (e del loro grado di autonomia) si venne sempre piu' raffinando la discussione su questi aspetti dell'"artificiale", fino a far intuire la possibilita' di poter istituire, accanto alle scienze del naturale, anche le scienze dell'artificiale.
La prima scienza dell'artificiale fu forse la Cibernetica. Essa venne fondata da Norbert Wiener nel 1947 con l'obiettivo di studiare i concetti di "controllo" e di "comunicazione" che sono alla base del comportamento tanto degli animali quanto delle macchine. Che l'uomo fosse una macchina era gia' stato ipotizzato da Democrito e asserito compiutamente nel 1748 da Julien LaMettrie (che scrisse forse il primo trattato in merito), ma Wiener fu il primo a formalizzare la teoria dell'"uomo-automa".
Il precursore delle idee di Wiener era stato semmai Kenneth Craik. Nel 1943 questi aveva sviluppato una teoria secondo la quale il cervello umano opererebbe in modo simile a quello delle macchine. In particolare i meccanismi del cervello sarebbero in grado di costruire modelli interni del mondo e l'azione verrebbe prodotta elaborando tali rappresentazioni interne. Nella visione "funzionalista" di Craik i fenomeni mentali dipenderebbero non dalla struttura del cervello, ma dal modo in cui esso e' funzionalmente organizzato. Il modello di Craik costituiva un significativo passo avanti rispetto alla tradizione cartesiana: l'automa cartesiano era un organismo in grado unicamente di rispondere con delle azioni meccaniche a certi stimoli esterni (batteri e protozoi sono esempi di automi cartesiani); l'automa craikiano trasformava invece gli stimoli esterni in una rappresentazione del mondo, rifletteva su tale rappresentazione e poi produceva l'azione (gli insetti sono esempi di automi craikiani). Nel modello di Craik la conoscenza era una rappresentazione di simboli e l'inferenza era una manipolazione di simboli.
L'eredita' piu' importante lasciata dalla cibernetica furono alcuni concetti che avrebbero trovato un utile impiego in diverse altre discipline. Il primo e' quello di "feedback", che e' il cuore dell'intera cibernetica: il feedback e' il fenomeno per cui l'output di un organismo viene restituito in input all'organismo stesso. E' il feedback che consente l'"omeostasi", il fenomeno per cui un organismo tende a compensare le variazioni nell'ambiente esterno per mantenere una propria stabilita' interna, un concetto introdotto nel 1932 dal fisiologo Walter Cannon a proposito della regolazione della temperatura da parte del corpo umano ma che vale anche per i comuni termostati dei sistemi di riscaldamento che mantengono costante la temperatura di una stanza. E' il feedback, in altre parole, che presiede ai fenomeni di adattamento dell'organismo all'ambiente. Per esempio, quando vogliamo afferrare un oggetto che si sta muovendo in maniera casuale (come una foglia che cade) dobbiamo continuamente ricalibrare la mira per tener conto della sua reale posizione. Se ci limitassimo a calcolare una traiettoria probabile e il corrispondente movimento del braccio necessario per afferrare l'oggetto, difficilmente riusciremmo nell'impresa. Al tempo stesso troppo feedback renderebbe estremamente lento il movimento, tanto che spesso (come nel caso della foglia) non riusciremmo a compiere il movimento prima che l'oggetto si allontani troppo. Il feedback e' pertanto fondamentale per controllare un organismo, ma va a sua volta controllato. Il feedback e' un processo adattativo e puo' rendere conto dell'intenzionalita' dell'organismo.
Affine a quella di feedback sono anche le idee di ricorsivita', auto-referenza e autologia che hanno a che vedere con sistemi in grado di operare su se stessi. Tramite concetti di questo genere la cibernetica tentava di fornire una descrizione unica delle proprieta' di tutti i tipi di organismi, sia biologici sia meccanici.
Il fascino del feedback derivava proprio dal suo utilizzo in macchine come i motori a vapore di James Watt, che erano in grado di controllare se stesse. Era stato Charles Bell, nel 1828, il primo a paragonare il corpo umano a una macchina (a un sistema idraulico, per l'esattezza). Nel 1877 Eduard Pfluger aveva concepito una teoria "teleologica" della natura secondo la quale ogni processo che abbia un fine tende ad utilizzare il meccanismo del feedback per stabilizzare il proprio output. Due anni dopo Felix Lincke diede la prima teoria unificata del feedback, capace di spiegare tanto il funzionamento di un organo anatomico quanto quello di un apparecchio meccanico.
Attraverso le analisi di Ross Ashby (1956) e altri il concetto di feedback avrebbe portato al programma della cibernetica moderna: inventare un sistema auto-organizzantesi; dove per sistema auto-organizzantesi si intende un insieme (presumibilmente grande) di unita' elementari (presumibilmente molto simili fra di loro) dotato di una struttura (presumibilmente molto complessa) in grado di adattarsi all'ambiente e pertanto di evolversi autonomamente. Un tale sistema avrebbe esibito un comportamento intelligente.
La cibernetica ridefini' numerosi termini d'uso comune adattandone o estendendone il significato in accordo con la tecnologia moderna. Per esempio, il "rumore" in cibernetica sta ad indicare una qualsiasi perdita di informazione durante una trasmissione. Il rumore e' tanto piu' forte quanto piu' il segnale e' disturbato. "Rumore", per esempio, e' anche l'imperfezione di una fotografia: la fotografia costituisce una trasmissione di informazione (da chi ha scattato la fotografia a chi la guarda) e una sua imperfezione fa perdere informazione.
Un'altra idea cruciale divulgata dalla cibernetica fu la differenza fra un apparecchio analogico e un apparecchio digitale. L'analogico e' in grado di trattare quantita' continue, come il termometro che misura la temperatura, mentre il digitale tratta soltanto quantita' discrete, come le lancette dell'orologio che si muovono a scatti e non possono misurare nulla di piu' piccolo del secondo. Per estensione possiamo dire che l'alfabeto e' digitale, mentre l'insieme dei numeri reali e' analogico. Il successo del "digitale" nella societa' tecnologica e' dovuto ad una diversa concezione di precisione che si applica agli strumenti digitali e a quelli analogici. Un termometro misura la temperatura con un certo margine di errore, che puo' essere piccolo a piacere, mentre un orologio o e' esatto o sbaglia di almeno un secondo. Un orologio non puo' sbagliare di mezzo secondo, o di un decimo di secondo, per la semplice ragione che non e' in grado di misurare quantita' cosi' piccole. Questa apparente limitazione si traduce in un enorme vantaggio: se gli unici stati possibili sono zero e uno, lo strumento analogico non misurera' mai ne' l'uno ne' l'altro (dara' sempre risultati che sono o molto vicini allo zero o molto vicini all'uno, ma sempre con qualche margine di errore), mentre quello digitale misurera' sempre e soltanto o zero o uno, non essendo costituzionalmente in grado di misurare altro. La crescente necessita' di precisione ha fatto si' che il "digitale" diventasse sempre piu' preminente. Qualunque forma di calcolo meccanico, anche fra numeri reali, si basa sul principio di convertire innanzitutto i numeri in quantita' digitali (per esempio trasformandone il valore in base due ed esprimendo poi tale valore come una sequenza di zeri e uni). La prima applicazione pratica di questa idea fu l'alfabeto Morse impiegato dai telegrafisti di tutto il mondo.
L'altra ovvia applicazione sono i computer cosi' come li conosciamo. In effetti e' possibile costruire computer analogici. Carver Mead sta studiando architetture in cui i transistor operano su quantita' continue, ovvero circuiti elettrici in cui il valore della tensione e' il valore rappresentato. I problemi che deve affrontare sono pero' di duplice natura. Da un lato la precisione puo' essere ottenuta soltanto ricorrendo a componenti elettronici sempre piu' precisi, e pertanto sempre piu' costosi, mentre nei comuni computer digitali la precisione viene ottenuta semplicemente aggiungendo cifre binarie, ovvero componenti imprecisi ed economici; e comunque non esistono componenti perfetti, ovvero senza margini di errore. Dall'altro lato quantita' continue come la tensione non sono stabili ma tendono a deteriorarsi nel tempo e pertanto e' difficile costruire una "memoria" di esse, mentre nei comuni computer tale instabilita' non incide per nulla (l'instabilita' che farebbe passare dallo stato corrispondente alla cifra uno allo stato della cifra zero e' praticamente impossibile, o richiede comunque un periodo quasi infinito di continuo deterioramento o qualche evento catastrofico come una tempesta magnetica).
I processi della cibernetica fanno spesso riferimento al concetto di "algoritmo". Ogni processo meccanico puo' essere interpretato come una serie di "istruzioni" (di azioni primitive) impartite alla macchina. I complessi ingranaggi di un orologio non fanno che eseguire una complessa serie di istruzioni per calcolare il tempo. Il matematico che dimostra un teorema non fa che eseguire una serie di istruzioni per pervenire alla dimostrazione. Una sequenza finita di istruzioni viene detta "algoritmo". La nozione di algoritmo contiene in se' quella di digitale: la sequenza di istruzioni e' infatti un modo per ridurre in formato digitale il comportamento di un organismo analogico. L'orologio e' la versione digitale di una meridiana: la meridiana rappresenta il tempo in maniera continua, mentre l'orologio avanza di secondo in secondo. Un algoritmo per lavare la propria automobile, per esempio, rende discrete azioni che in realta' vengono compiute in maniera continua: 1. Tira fuori l'auto dal garage; 2. Apri il rubinetto della pompa; 3. Insapona l'auto; 4. Strofina l'auto; 5. Dirigi il flusso dell'acqua verso l'auto; e cosi' via. Un algoritmo molto complesso eseguito in maniera molto rapida puo' dare l'impressione del "continuo": il lettore di dischi digitali emette suoni che appaiono continui all'orecchio umano, benche' non lo siano. Non solo sembrano a tutti gli effetti suoni analogici, ma hanno la precisione del digitale: il "rumore" (le imperfezioni) dei dischi analogici non esiste piu'.
Legato a quello di algoritmo e' il nuovo significato del termine "automa": non piu' un meccanismo antropomorfo, ma semplicemente un meccanismo, concreto o astratto, in grado di eseguire un algoritmo.
I progressi dell'elettromagnetismo e della trasmissione senza fili diedero ulteriore impulso alla cibernetica. Emerse cosi' un concetto destinato ad esercitare un'enorme influenza sul pensiero contemporaneo, quello di "informazione": se la Relativita' e la Meccanica Quantistica avevano conferito preminenza all'energia, causando indirettamente un'infiltrazione del termine in tutte le altre discipline, la cibernetica ebbe l'effetto di diffondere invece il termine "informazione" nella cultura contemporanea, e non sono poche le teorie che da allora ad oggi hanno abbandonato un paradigma fondato sull'energia a favore di uno fondato sull'informazione.
La teoria dell'informazione venne fondata da Claude Shannon (1949) per fornire una teoria matematica del deteriorarsi dell'informazione durante una trasmissione. Il suo modello generale era quello in cui due agenti si scambiano dell'informazione: il primo lo codifica per trasmetterlo sotto forma di segnali elettrici e l'altro lo decodifica per riportarlo al formato originario. Il problema sorge a causa dei dei disturbi (del "rumore") che interviene durante la trasmissione e che pertanto altera il codice trasmesso.
Il concetto piu' importante introdotto da Shannon fu quello di "bit", l'unita' fondamentale di rappresentazione e trasmissione dell'informazione, che puo' trovarsi soltanto in due stati (analoghi allo zero e all'uno, al si' e al no, al piu' e al meno). Una qualsiasi informazione, per quanto complessa, puo' sempre essere codificata in una stringa di bit. In tal modo Shannon illustro' anche come si potesse rappresentare l'algebra booleana degli zeri e degli uni mediante circuiti elettrici e interruttori.
Shannon introdusse anche un'importante analogia con la Fisica. Secondo il secondo principio della Termodinamica un sistema fisico isolato tende a massimizzare l'entropia, la quale e' una misura della distribuzione casuale degli atomi. La "casualita'" viene espressa matematicamente come la distribuzione delle probabilita' che gli atomi occupino gli stati possibili del sistema: massimizzare l'entropia significa rendere tale distribuzione la piu' omogenea possibile. Shannon osservo' che l'entropia e' anche una misura della mancanza di informazione, e infatti una distribuzione e' tanto meno informativa quanto piu' e' omogenea.
E' comunque intuitivo cosa si debba intendere per "intelligente". E' intelligente chi comprenda un discorso in italiano, chi riesca a capire la trama di un film, chi esegua conti rapidamente, chi sappia guidare nel traffico di una grande citta', chi svolga un qualsiasi lavoro non ripetitivo. Sono tutte attivita' che abbiamo ragione di ritenere repertorio esclusivo degli umani. E' meno ovvio decidere se "intelligente" implichi tutte quelle cose insieme o meno: una scimmia che imparasse a guidare per le strade di Roma verrebbe probabilmente considerata "intelligente", anche se non riuscisse a parlare e capire l'italiano, ne' alcuna altra lingua. E' ancora meno ovvio stabilire se certi fenomeni appartengano o meno alla sfera dell'"intelligenza": quasi tutti gli animali sono capaci di riconoscere un suono o un'immagine, le formiche costruiscono formicai di una perfezione e complessita' degne di competere con i grattacieli di New York e gli stessi vegetali sanno reagire nel modo piu' efficace alle condizioni atmosferiche. Sono questi comportamenti "intelligenti"?
Per rispondere alla domanda bisogna addentrarsi dentro il test di Turing e riformulare in termini piu' scientifici cosa si intenda per "esibire lo stesso comportamento dell'essere umano". Possiamo distinguere perlomeno due approcci opposti. L'approccio cognitivo "elenca" quali siano le facolta' indispensabili all'essere umano per poter esibire quel tipo di comportamento: memoria, ragionamento, apprendimento, linguaggio e cosi' via. L'approccio fisiologico ritiene che soltanto simulando il funzionamento del cervello umano sia possibile esibire quel tipo di comportamento.
L'idea di costruire macchine "intelligenti" data almeno dal 1800, quando Charles Babbage ideo' un calcolatore meccanico che subito fece compiere voli di fantasia a piu' di un suo conoscente. Ma e' indubbio che l'interesse odierno per queste ricerche deriva dal fatto di poter utilizzare i calcolatori elettronici, i "computer". L'invenzione del computer pare sempre piu' dominare questa seconda meta' del ventesimo secolo. La societa' post-industriale dell'informazione, che sta emergendo in tutto il mondo, parte dal presupposto di sostituire il movimento virtuale delle informazioni al movimento fisico delle persone: cio' non sarebbe possibile su grande scala se non esistesse una macchina in grado di memorizzare, elaborare e trasmettere grandi masse di informazioni.
E' tuttora dubbio a chi spetti il merito dell'invenzione del computer. Nel 1939 John Atanasoff e il suo assistente Clifford Berry idearono una macchina elettro-meccanica denominata "ABC" (Atanasoff-Berry Computer). Si trattava di un apparecchio a valvole in grado di compiere calcoli digitali impiegando l'algebra booleana. L'idea cruciale era che ogni elemento della macchina potesse trovarsi soltanto in uno stato di "uno" o di "zero", e nulla di intermedio o di maggiore o minore. L'algebra di Boole consentiva di eseguire operazioni su quantita' zero/uno che venivano simulate tramite appositi circuiti elettrici. Atanasoff tento' invano di vendere la sua invenzione a quella che allora era la principale societa' di tabulatrici meccaniche, la IBM. Demoralizzato, rinuncio' a brevettare la sua invenzione, abbandono' le sue ricerche e si impiego' nella Marina in qualita' di specialista in acustica.
Un collega di Atanasoff, John Mauchly, ottenne invece ingenti finanziamenti dai militari per costruire una macchina di quel tipo che fosse in grado di compiere calcoli balistici. Nell'Aprile del 1943 vide la luce il progetto ENIAC (Electronic Numerical Integrator and Computer) che nell'Autunno del 1945 consenti' di pervenire al primo computer interamente elettronico. Fu proprio durante il conflitto mondiale che i governi alleati compresero l'importanza strategica della macchina: in Inghilterra fu Alan Turing in persona, impiegato a decodificare i messaggi cifrati dei tedeschi, a mettere in fuzione la prima macchina calcolatrice (il COLOSSUS, nel dicembre del 1943). Negli USA fu invece John Von Neumann, membro del team "atomico" di Los Alamos, a sfruttare l'idea dell'ENIAC per scopi pratici.
Tanto il COLOSSUS quanto l'ENIAC erano in grado di eseguire un solo compito, quello per cui erano stati costruiti. Alla fine della guerra i centri di ricerca dell'esercito statunitense misero a punto i primi computer a valvole che erano in grado di eseguire piu' di un compito. Nacque cioe' il concetto di "programma" tramite il quale al computer venivano forniti due insiemi di informazioni: le "istruzioni" su come svolgere il proprio compito e i "dati" su cui eseguire tale compito. Per l'esattezza il programma forniva la sequenza di istruzioni, e fra queste istruzioni alcune specificavano come ottenere i dati (normalmente veniva richiesto all'operatore di introdurli da tastiera ad un certo momento durante l'elaborazione del programma). Il programma poteva, per esempio, fornire le istruzioni su come si esegue la moltiplicazione e al tempo stesso richiedere all'operatore i due numeri da moltiplicare. Il computer era in grado di memorizzare nei suoi circuiti tanto le istruzioni quanto i dati, di eseguire in sequenza le istruzioni e di prelevare e modificare i dati quando le istruzioni lo specificavano.
L'idea che il computer dovesse essere composto da una "memoria" per i dati e le istruzioni e da una "unita' di elaborazione" in grado di eseguire sequenzialmente le istruzioni era di Von Neumann (1945), e pertanto quella architettura di computer viene tuttora chiamata "architettura Von Neumann".
Non sarebbe stato possibile costruire computer di grosse dimensioni se in concomitanza non fosse stato inventato il transistor. Il transistor nacque ai Bell Labs nel 1948 e apri' le porte alla realizzazione di computer puramente elettronici di grande complessita'.
Il piu' famoso computer di questa generazione fu lo UNIVAC, costruito nel 1950 dalla Electronic Control, la societa' di Mauchly e di Presper Eckert. Una volta acquistato dalla Remington Rand, lo UNIVAC divenne il primo computer prodotto per scopi commerciali. Lo UNIVAC era dotato di una telescrivente che fungeva sia da tastiera, per consentire di fornire dati e istruzioni al computer, sia da stampante, per consentire al computer di scrivere i risultati.
L'idea di programmare il computer tramite sequenze di istruzioni porto' al concetto di "linguaggio di programmazione". Affinche' il computer potesse elaborarle, occorreva che le istruzioni fossero scritte secondo una sintassi predefinita in accordo con i circuiti elettronici che l'avrebbero poi elaborata. Si identificarono i tipi di istruzione necessari (per esempio: preleva un dato, memorizza un dato, esegui un'operazione booleana sui dati, altera la sequenza di istruzioni e cosi' via) e ad ognuna venne associata una sintassi utilizzando delle parole d'ordine convenzionali (per esempio: PRELEVA, MEMORIZZA, OR, AND, NOT e cosi' via) seguite dai parametri necessari (per esempio: OR 1 0).
Il concetto piu' importante introdotto in questo periodo fu forse quello di "variabile": scrivendo OR A B (dove OR e' la parola d'ordine, mentre A e B sono due "variabili") si specifica che a fronte di questa istruzione il computer deve prendere il valore attuale di A e il valore attuale di B ed eseguire l'operazione booleana di OR su quei due valori. Il vantaggio e' che A e B possono assumere diversi valori nel tempo e la stessa istruzione viene utilizzata per compiere tutti gli OR fra i valori che A e B assumono nel tempo. Un programma per calcolare l'OR di due numeri qualsiasi si puo' esprimere, per esempio, cosi': 1. CHIEDI A; 2. CHIEDI B; 3. OR A B; 4. RISPONDI. L'istruzione 1. fa si' che il computer chiedesse l'introduzione da tastiera del valore di A, e cosi' l'istruzione 2. per quello di B, mentre la 3. esegue l'OR dei due valori e la 4. scrive il risultato sulla stampante.
Nel 1953 John Backus alla IBM invento' quello che sarebbe rimasto a lungo il linguaggio di programmazione piu' famoso: il FORTRAN. Il FORTRAN consentiva di comunicare al computer una ventina di tipi di istruzione. In particolare il FORTRAN eseguiva la conversione da decimale a binario. In altre parole, consentiva all'operatore di usare come dati i comuni numeri naturali e reali e altresi' di eseguire su di essi le comuni operazioni aritmetiche. Una tipica istruzione FORTRAN e': I = J * 26 / 4 (il nuovo valore della variabile I e' dato dal valore della variabile J moltiplicato per 26 e diviso per 4). Il primo proramma FORTRAN venne eseguito il 20 Aprile 1957. Fu quello l' atto di nascita ufficiale del business informatico. Negli anni seguenti sarebbero stati proposti numerosi linguaggi di programmazione: ciascuno differisce dagli altri per i tipi di istruzione che consente di comunicare al computer.
Nel decennio successivo i computer si diffusero in tutto il mondo industrializzato, ma il pubblico continuo' a lungo ad esserne escluso. Erano macchine di grandi dimensioni, stracolme di luci e di pulsanti, che soltanto pochi specialisti al mondo erano in grado di operare. I "mainframe" della IBM (a cominciare dal glorioso "360" del 1964, progettato da Gene Amdahl secondo i canoni di Von Neumann) dominarono questo periodo e coniarono quello che sarebbe rimasto il paradigma fondamentale della scienza dell'informazione: eseguire calcoli molto in fretta, molto piu' in fretta degli umani. Il mainframe sostitui' intere legioni di impiegati nei casi in cui i conti da eseguire erano ripetitivi (per esempio per calcolare le paghe a fine mese) e consenti' di compiere conti (soprattutto per scopi scientifici) che prima avrebbero richiesto l'intera vita del matematico piu' veloce.
Benche' i benefici del computer fossero gia' evidenti, soltanto con la generazione dei computer "compatti", quella dei circuiti integrati (inventati da Robert Noyce nel 1960) e del VLSI (very large scale integration), che consente di comprimere milioni di transistor in un circuito integrato di pochi millimetri quadri, i loro effetti si fecero sentire anche sull'uomo della strada. A far compiere una prima rivoluzione fu la Digital Equipment Corporation, che ideo' nel 1970 quello che sarebbe rimasto l'archetipo di "mini-computer", il PDP-11. Era un computer di dimensioni (e prezzo) molto piu' ridotte, ma non meno utile. Fu grazie al PDP che il computer entro' in tutte quelle piccole industrie che mai si sarebbero potute permettere di possedere un mainframe.
L' avvento dei micro-processori (inventati da Noyce alla Intel nel 1968) consenti' nel 1976 alla Apple di costruire un computer delle dimensioni addirittura di una macchina da scrivere. L'APPLE II segno' l'avvento della frenetica era del personal computer, compatto ed economico, che avrebbe portato il computer, se non in ogni casa, certamente in ogni ufficio.
Piu' che l'evoluzione del cosiddetto "hardware" del computer (i circuiti elettronici e la meccanica che lo compongono) e' interessante seguire l'evoluzione del "software", ovvero dei programmi che gli vengono sottoposti. Se all'inizio l'enfasi era soprattutto sull'hardware, ben presto ci si comincio' a rendere conto che l'"intelligenza" della macchina (ammesso che tale potesse essere considerata) risiedeva nel suo software. Era il software, non l'hardware, a determinare il suo comportamento. Cambiando istruzioni si cambiavano le risposte, mentre cambiando circuiti elettrici si aumentava soltanto la sua velocita' nel fornire quelle risposte.
L'idea era gia' chiara a Turing, Von Neumann e gli altri iniziatori della scienza informatica, anche perche' era stato immediato riconoscere l'analogia fra i "linguaggi di programmazione" dei computer e i linguaggi della logica matematica. Entrambi erano linguaggi artificiali inventati per poter rappresentare il mondo ed eseguire ragionamenti su tale rappresentazione. Tutto cio' che il computer "sapeva" era dovuto a cio' che gli era stato comunicato tramite il linguaggio di programmazione, ovvero l'insieme dei suoi programmi, ovvero il suo software.
Se il software era sufficientemente sofisticato, il computer poteva esibire un comportamento piu' "intelligente" di quello di un semplice esecutore di calcoli. La differenza principale fra i linguaggi artificiali dei logici e i linguaggi di programmazione dei computer era data dalle entita' elementari: rispettivamente simboli e numeri. Il computer era in grado di operare su variabili che contenevano valori numerici, non era in grado di operare su simboli come "persona" e "Mary".
Merito di John McCarthy fu quello di inventare il linguaggio di programmazione LISP, in grado di elaborare anche simboli. McCarthy non fece che esprimere nei termini del computer il concetto di funzione ricorsiva introdotto da Hilbert nel 1925 e utilizzare il calcolo Lambda formalizzato da Church nel 1941 per compiere operazioni su tali funzioni. L'importante innovazione di McCarthy consiste nell'aver esteso quei concetti (originariamente pensati soltanto per le funzioni numeriche) anche al calcolo simbolico.
Esattamente come il FORTRAN aveva consentito di usare operazioni decimali, anche se l'hardware del computer era (ed e') capace soltanto di operazioni binarie, cosi' il LISP consentiva di usare simboli anche se l'hardware era (ed e') capace di operare soltanto su numeri (anzi su due soli numeri: zero e uno). Come il FORTRAN si faceva carico di "tradurre" le operazioni decimali in operazioni booleane, in modo che diventassero comprensibili dall'hardware, cosi' il LISP si preoccupava di tradurre i simboli in numeri.
Fu proprio McCarthy nell'estate del 1956 a radunare gli scienziati che studiavano come rendere intelligenti le macchine. A Dartmouth McCarthy conio' cosi' il termine "Intelligenza Artificiale". Grazie all'invenzione del LISP divenne possibile andare oltre i calcoli numerici ed iniziare ad esplorare le funzioni cognitive della mente umana. Il LISP divenne in breve la lingua franca della comunita' dell'Intelligenza Artificiale.
In quegli anni il modello prevalente fu quello proposto nel 1957 da Allen Newell e Herbert Simon, secondo il quale tanto la mente umana quanto il computer sono esempi di "sistemi simbolici fisici" (per usare un termine che gli autori coniarono nel 1975), ovvero elaboratori simbolici. L'intelligenza viene allora indirettamente definita come la capacita' di elaborare simboli. Questa, plausibile o meno che sia dal punto di vista psicologico, e' la prima definizione mai data di intelligenza che possa servire da fondamento a una vera scienza.
Il LISP di McCarthy migliorava e completava in effetti le idee contenute nel linguaggio di programmazione IPL-V (Information Processing Language) progettato da Newell e Simon. Newell e Simon costruirono anche il primo programma che facesse uso delle loro idee, un cosiddetto "Logic Theorist" che era in grado di dimostrare teoremi dei "Principia Mathematica" di Russell e Whitehead. La grande novita', ancora una volta, era l'enfasi sul paradigma dell'"elaborazione dell'informazione".
McCarthy espresse questo modello in termini piu' informatici: il problema dell'Intelligenza Artificiale e' da un lato epistemologico, di rappresentare cio' che conosciamo sotto forma di simboli, e dall'altro euristico, di rappresentarlo in modo che sia poi possibile eseguire dei ragionamenti. Il modello calzava alla perfezione con gli sviluppi della Logica moderna e riprendeva, in realta', le idee di Craik adattandole all'era del computer.
Aristotele riferiva le sue proposizioni agli universali (cioe' agli insiemi), ma dopo la rivoluzione cartesiana le proposizioni vennero intese come relazioni fra idee. In tal modo le leggi della logica divennero le leggi del pensiero. Fu poi Immanuel Kant il primo a intendere le proposizioni come concetti applicati ad oggetti.
Un altro dei momenti fondamentali nello sviluppo del pensiero logico fu dovuto ad Euclide, che nel quarto secolo avanti Cristo raccolse negli "Elementi" tutto il sapere geometrico dell'epoca. Euclide strutturo' l'opera con grande rigore: da alcune definizioni primitive (per esempio, "punto e' un ente geometrico che non puo' essere suddiviso in enti geometrici piu' elementari") e da cinque assiomi, o postulati, che mettono in relazione gli enti primitivi (per esempio, "tutti gli angoli retti sono uguali") Euclide deduce ogni altra nozione di geometria (ogni altro "teorema"). Tale deduzione consiste nell'applicare gli assiomi e i teoremi man mano dimostrati ad altri assiomi e teoremi fino ad ottenere il nuovo teorema.
Il concetto euclideo di una geometria come teoria astratta delle quantita' continue si dilato' nei secoli successivi, prima venendo posto direttamente in relazione con le figure fisiche (grazie alla teoria della prospettiva di Leonardo Da Vinci) e poi venendo a rappresentare una proprieta' stessa dello spazio infinito, omogeneo e tri-dimensionale (grazie alla rivoluzione copernicana e grazie alla teoria della gravita' di Newton). Euclide con il suo quinto postulato (che due rette parallele non si incontrano mai) fu causa involontaria dell'innovazione concettuale piu' saliente dei secoli successivi. Quel quinto postulato sembrava non essere altrettanto "naturale" quanto gli altri quattro e pertanto diversi matematici tentarono di dimostrare che fosse possibile dimostrarlo a partire dai primi quattro. Girolamo Saccheri, in particolare, propose di ragionare per assurdo, prendendo come assioma l'opposto del quinto postulato e dimostrando che in tal modo si perveniva a una contraddizione. Non solo non pervenne ad alcuna contraddizione, ma altri matematici scoprirono che il nuovo sistema assiomatico cosi' costruito, nonche' ogni altro che assumesse una diversa variante del quinto postulato, definivano semplicemente delle geometrie diverse da quella di Euclide. Quella di Bernhard Riemann (1854) sarebbe stata utilizzata da Albert Einstein per la sua teoria generale della relativita': geometria e fisica risultano strettamente collegate perche' i fenomeni che si svolgono nello spazio influenzano lo spazio stesso (con l'importante conseguenza per Einstein che le leggi dei fenomeni fisici sono invarianti rispetto ad ogni osservatore). Non solo le geometrie non-euclidee erano possibili, ma addirittura una di esse si scopriva essere quella piu' idonea a spiegare l'universo. Con le geometrie non euclidee si compiva pertanto una rivoluzione di pensiero di portata ben piu' vasta: veniva messo in discussione il concetto stesso di verita' assoluta.
Tanto il sillogismo di Aristotele quanto il sistema assiomatico di Euclide furono comunque i modelli principali per il pensiero logico dei secoli successivi. Al tempo stesso le nuove interpretazioni che essi vennero man mano assumendo contribuirono a generare il bisogno di una Logica che meglio si prestasse a definire il pensiero scientifico.
I contributi di diversi matematici del diciannovesimo secolo portarono cosi' a un programma di rifondazione della Matematica. George Boole aveva pubblicato nel 1817 le sue leggi dell'algebra binaria caratterizzate dai tre operatori:
.nf 0 AND 0 = 0 0 OR 0 = 0 NOT 0 = 1 0 AND 1 = 0 0 OR 1 = 1 NOT 1 = 0 1 AND 0 = 0 1 OR 0 = 1 1 AND 1 = 1 1 OR 1 = 1 .fi
Quegli zeri ed uni potevano naturalmente essere utilizzati anche per rappresentare i concetti di falso e di vero. Stabilito che una proposizione e' vera se il suo valore "di verita'" e' uno, e viceversa, l'algebra booleana puo' essere interpretata cosi': la congiunzione di due proposizioni vere e' ancora vera, la congiunzione di una proposizione vera e di una falsa e' falsa, e cosi' via. Charles Peirce avrebbe in seguito sviluppato il semplice formalismo delle tavole di verita' per stabilire se una proposizione complessa (formata da piu' proposizioni semplici unite fra di loro da connettivi logici AND, OR e NOT) sia vera o falsa in dipendenza dei valori delle proposizioni che la compongono.
La differenza fra "intensione" ed "estensione" si deve invece a William Hamilton. A un qualsiasi aggettivo possiamo associare due entita' profondamente diverse: il concetto che definisce e l'insieme degli oggetti che vi appartengono. Per esempio, l' estensione di "rosso" e' l' insieme di tutte le cose rosse; l' intensione di "rosso" e' l'idea dell' essere rosso.
Friedrich Frege (1884) aveva poi iniziato la ricostruzione della Matematica su basi logiche, sviluppando la Logica delle Proposizioni e la Logica dei Predicati del primo ordine, un programma a cui avevano contribuirono Peano con i suoi cinque postulati per i numeri naturali (1889) e David Hilbert con la sua teoria dei sistemi formali (1899).
Definendo "proposizione" un'entita' che puo' essere soltanto vera o falsa, definendo le operazioni booleane (AND, OR, NOT) sulle proposizioni e definendo infine gli assiomi e le regole di inferenza (in particolare il modus ponens), i matematici potevano costruire un sistema formale di grande eleganza e potenza. Anche i concetti di tautologia (una espressione che e' sempre vera, per esempio "p o il contrario di p") e di contraddizione (un'espressione che e' sempre falsa, per esempio "p e il contrario di p") potevano essere definiti in maniera piu' formale.
Lo stesso sistema formale applicato al caso dei predicati del primo ordine (ovvero al caso in cui la semplice proposizione "p" diventa un predicato con variabile "p(x)") dava luogo a un sistema di rappresentazione ancora piu' potente, tramite il quale pareva davvero possibile ragionare in termini simbolici su tutti i fatti dell'universo. Anche Frege divideva l'universo in "oggetti" e "concetti": oggetti sono quelli che identifichiamo con l'articolo determinato (l'Italia, la regina Elisabetta, il Mar Mediterraneo), concetti sono quelli che identifichiamo con l'articolo indeterminato (una nazione, un sovrano, un mare). I secondi si possono esprimere tramite predicati come "nazione(X)", che si legge "X e' una nazione" ed e' vero, in particolare, nel caso "nazione(Italia)", poiche' e' vero che "l'Italia e' una nazione", mentre e' falso nel caso "nazione(Elisabetta)", poiche' e' falso che "Elisabetta e' una nazione". Il correlato oggettivo di un concetto e' definibile allora come l'estensione del relativo predicato, ovvero l'insieme di tutti gli oggetti che rendono vero quel predicato (il correlato oggettivo del concetto di "nazione" e' l'insieme di tutte le nazioni del mondo).
E' comune intendere che un predicato "denota" la propria estensione. Il termine "denotazione" e' dovuto a John Stuart Mill (1843), che defini' altresi' la "connotazione", una generalizzazione del concetto di intensione. Per esempio, la denotazione di "uomo" e' l'insieme degli uomini, la sua connotazione e' cio' che significa essere un uomo piu' tutti i concetti implicati da questo, come "animale", "pensante" e cosi' via.
Fin dai tempi di Aristotele lo scopo della logica era stato quello di stabilire la verita' o falsita' di una affermazione. Anche Aristotele aveva sentito il bisogno di imporre innanzitutto una formalizzazione del linguaggio utilizzato per esprimere le affermazioni. Mentre pero' Aristotele classificava le proposizioni in certe categorie (e non tutte le proposizioni potevano essere classificate in una delle categorie note) e definiva poi il processo meccanico per compiere inferenze su tali categorie, ovvero il sillogismo, Frege fornisce lo strumento deterministico (la sintassi della logica dei predicati) per riportare qualsiasi proposizione alla categoria delle proposizioni formali e fornisce poi lo strumento (le regole di inferenza) per compiere deduzioni sulle proposizioni formali. La sintassi delle proposizioni formali viene definita specificando come si generano tutte le possibili proposizioni formali a partire da un insieme di simboli (per esempio, le lettere dell'alfabeto e gli operatori booleani) e applicando reiteratamente alcune regole di combinazione (per esempio, quella che due proposizioni formali connesse da un "OR" sono ancora una proposizione formale).
Che le leggi della logica potessero costituire anche le leggi del pensiero era stato ipotizzato prima da Leibniz e poi da Boole stesso, ma Frege fu il primo a ufficializzare questo ambizioso programma che andava ben al di la' dello scopo originario del sillogismo.
La teoria di Frege aveva un impatto diretto anche sulla tradizione filosofica che poneva nella mente la sede del significato (Locke associava ad ogni parola un'idea, e Descartes dubitava di tutto meno che del significato dei propri pensieri). Un'altra tradizione era infatti quella per la quale il significato e' nel mondo esterno. Fu Frege stesso a far notare come cio' non potesse funzionare: "la stella del mattino" e "la stella della sera" indicano entrambe lo stesso oggetto (Venere), ma hanno intuitivamente due significati diversi; e frasi come "il pianeta piu' vicino al Sole di Mercurio" non indicano nulla che esista realmente, eppure hanno ancora un significato intuitivo. Frege postulo' l'esistenza di un universo astratto dei "sensi" delle cose, che non stava ne' nella mente umana ne' nel mondo esterno, e chiuse il cerchio in questo modo: le cose sono indicate da sensi, le parole esprimono sensi, e i processi cognitivi elaborano sensi. Il "senso" delle cose diventava il mediatore fra le tre entita' fondamentali: il mondo, il linguaggio e la mente.
Frege utilizzo' questo vasto apparato logico-ontologico per dare la definizione di numero (l'1 e' la classe di tutti i concetti la cui estensione ha un solo elemento, il 2 e' la classe di tutti i concetti la cui estensione ha due elementi, e cosi' via) e quindi ricostruire tutta l'aritmetica, ma il suo tentativo falli' poiche' si basava sistematicamente sul concetto di classe, e piu' precisamente sulle classi di classi. Nel 1902 Bertrand Russell scopri' infatti una contraddizione insita nel concetto di classe di classe: la classe delle classi che non appartengono a se stesse o appartiene a se stessa, e in tal caso (per definizione) non appartiene a se stessa, oppure non appartiene a se stessa, e in tal caso (per definizione) appartiene a se stessa. Russell tento' di ovviare al proprio paradosso con una teoria dei "tipi" che sostanzialmente pone delle limitazioni al linguaggio logico (evitando che possano verificarsi dei circoli viziosi), e che Willard Quine e Frank Ramsey avrebbero ulteriormente semplificato tentando a loro volta di ovviare ad alcune arbitrarieta' di Russell (come il famoso assioma di riducibilita'). Ramsey, in particolare, opero' la distinzione fra antinomie logiche, come quella del paradosso di Russell (che possono essere risolte con una teoria dei tipi molto semplificata) e antinomie semantiche, come quella di Epimenide "questa frase e' falsa" (che non possono essere risolte).
Se lo specifico programma di Frege avrebbe rivelato quelle carenze, il formalismo e il metodo da lui introdotti sarebbero durati fino ad oggi e proprio Russell (che nel 1913 pubblico' con Alfred Whitehead i "Principia Mathematica") avrebbe impresso nuovo impulso al programma "logistico" di rifondare tutte le scienze sul calcolo logico. Dal canto suo Hilbert porto' alla massima perfezione il metodo assiomatico di Frege e Peano e al tempo stesso libero' del tutto la Matematica da qualsiasi vincolo di coerenza con la realta': gli oggetti di cui tratta la Matematica possono corrispondere a qualsiasi cosa esibisca quelle proprieta'. Per esempio, il punto di uno spazio non deve necessariamente essere un punto dello spazio tridimensionale che percepiamo, ma puo' essere un qualsiasi oggetto per il quale valgano le stesse relazioni e formule. Cio' fece della Logica lo strumento ideale per costruire e manipolare astrazioni di qualsiasi natura. Secondo Hilbert un sistema formale e' costituito da un linguaggio con cui si possono costruire delle formule, da alcuni "assiomi" (ovvero formule che si assumono vere senza dimostrazione) e da alcune regole di inferenza (ovvero le regole tramite le quali si puo' dimostrare la verita' o falsita' di una formula). La dimostrazione e' una sequenza ordinata e finita di formule tale che: la prima formula sia un assioma, le formule successive si ottengano per applicazione delle regole di inferenza e l'ultima formula sia la formula che si vuole dimostrare (teorema). Il tipo di dimostrazione piu' comune e' in realta' quello della "reductio absurdum": agli assiomi si aggiunge l'opposto della formula da dimostrare e si verifica se da questo insieme di formule sia possibile derivare una contraddizione. Tipiche regole di inferenza impiegate nei sistemi formali sono il "modus ponens" per il calcolo delle proposizioni:
noto che "se p, allora q" .br e noto che "p" e' vero, .br allora anche "q" e' vero.
(per esempio: noto che "se Piero e' nipote di Aldo allora Piero e' cugino di Gisella" e noto che "Piero e' nipote di Aldo", si deduce che "Piero e' cugino di Gisella");
e l'"universale" per il calcolo dei predicati: se qualcosa e' vero per tutti gli elementi di un insieme, allora e' vero anche per un particolare elemento dell'insieme (per esempio: noto che "tutti gli uomini sono mortali", e noto che "Socrate e' un uomo", si deduce che "Socrate e' mortale"). In linguaggio formale:
L'obiettivo originario di Hilbert era quello di dimostrare la non-contraddittorieta' della Matematica, ma anche il programma di Hilbert, come quello di Frege, sarebbe fallito, e per una ragione ancor piu' seria: il teorema di Godel ne avrebbe dimostrato l'impossibilita'. Kurt Godel dimostro' infatti nel 1931 che la Logica esibiva un grave problema di fondo, un chiaro limite alla sua affidabilita' come strumento per conoscere l'universo: Godel dimostro' che ogni sistema formale contenente la teoria dei numeri contiene sempre almeno un'affermazione che non puo' essere dimostrata ne' vera ne' falsa in base al sistema stesso (un'affermazione "indecidibile"). Ogni sistema formale di tale genere deve infatti necessariamente contenere una proposizione del tipo "io non sono dimostrabile", e, se il sistema e' non-contraddittorio, ne' questa proposizione ne' il suo opposto risultano dimostrabili all'interno di quel sistema. (Pochi anni dopo Church avrebbe dimostrato che tanto l'aritmetica quanto la logica dei predicati del primo ordine sono indecidibili, mentre la logica delle proposizioni e' ovviamente decidibile con le comuni tavole di verita').
Il formalismo di Hilbert sarebbe comunque rimasto in vigore nella Logica moderna come il linguaggio comune di tutte le scienze esatte.
Non meno influente fu l'opera parallela di Ernst Zermelo, che nel 1908 riprese e rifini' la teoria degli insiemi fondata da Georg Cantor. Un quarto di secolo prima Cantor aveva introdotto il concetto di insieme per risolvere diversi problemi relativi ai numeri irrazionali ed era pervenuto indubbiamente a risultati importanti e suggestivi, in particolare alla definizione di insieme infinito (ogni insieme i cui elementi sono in relazione biunivoca con gli elementi di una sua parte), ma la sua teoria era piuttosto macchinosa e non riusciva a rispondere alla domanda: l'insieme di tutti gli insiemi contiene anche il proprio insieme-potenza?
Zermelo la semplifico' utilizzando soltanto uno dei tre tipi di insiemi previsti da Cantor, quello definito dai propri elementi (gli altri due erano quello definito dalle proprie proprieta' e quello infinito). Fra due insiemi sono possibili le operazioni di intersezione (l'insieme degli elementi che appartengono ad entrambi gli insiemi operandi) e di unione (l'insieme degli elementi che appartengono ad almeno uno dei due insiemi operandi) e di un insieme si puo' prendere il complemento (tutti gli elementi che non gli appartengono). Queste tre operazioni fondamentali possono essere messe in relazione con quelle dell'algebra booleana: l'uno booleano e' rappresentato dall'insieme universo e lo zero dall'insieme vuoto, l'OR dall'unione di due insiemi e l'AND dalla loro intersezione.
Nel 1935 il programma dei logici venne completato da Alfred Tarski. Tarski diede una semantica ai sistemi formali, ovvero spiego' come un sistema formale potesse "significare" qualcosa. Hilbert aveva portato a termine un programma di emancipazione della Logica dalla realta', nel quale i termini e le formule non dovevano necessariamente significare qualcosa e tanto meno significare cio' che avevano sempre significato in Matematica. Tarski si propose di ridare un senso ai sistemi formali, senza peraltro rinunciare alla liberta' di Hilbert: e' possibile piu' di un sistema formale alla volta, e nessuno e' vincolato agli assiomi e alle regole di inferenza del sistema formale della Matematica, ma a ciascuno deve essere possibile assegnare un significato che lo metta in relazione con il mondo reale. Dato un insieme di formule (una "teoria"), l'"interpretazione" di quella teoria e' una funzione che assegna un significato a ogni sua formula. Tarski fondava cosi' la semantica composizionale, nella quale il significato di una struttura complessa e' funzione delle strutture elementari che la compongono.
Ogni "interpretazione" che renda vere tutte le formule della teoria e' un "modello" di tale teoria. Per esempio, alle formule della Fisica si assegna il significato delle corrispondenti leggi della natura e l'universo degli oggetti fisici diventa un modello della teoria fisica. Se il teorema di incompletezza di Godel poneva in dubbio l'intero programma dei logici, la semantica dei modelli di Tarski consentiva invece di utilizzare per scopi pratici l'apparato tecnico messo a punto fino a quel momento.
In pratica Tarski aggirava l'ostacolo del teorema di Godel con una "teoria delle teorie": chiarito che in nessuna teoria e' possibile definire il concetto di verita' (ovvero tutte le proposizioni che sono vere in tale teoria), il concetto di verita' puo' essere definito soltanto in una nuova teoria che abbia come oggetto quella teoria, appunto una "teoria delle teorie", o "meta-teoria". Quella che Tarski propose era una metateoria semantica, intesa cioe' a ragionare sul significato della teoria oggetto. In tal modo, per esempio, riusciva finalmente possibile risolvere l'antinomia del mentitore ("questa frase e' falsa", che risulta vera quando e' falsa e viceversa).
L'"aritmetizzazione" e' il processo tramite il quale i teoremi di un sistema formale possono essere associati a un insieme di numeri naturali. Grazie all'aritmetizzazione il problema di dimostrare la verita' di una formula puo' essere assimilato a quello di dimostrare che un numero naturale appartiene a quell'insieme. Se cio' e' sempre possibile (esiste un algoritmo per decidere se un numero appartiene all'insieme), l'insieme viene detto "decidibile" o "ricorsivo". Se invece e' soltanto possibile enumerare i suoi numeri, l'insieme viene detto "semi-decidibile" o "ricorsivamente enumerabile". Per la corrispondenza di cui sopra gli stessi termini si possono applicare ai sistemi formali qualora (rispettivamente) sia sempre possibile dimostrare se una formula e' vera oppure sia solamente possibile generare tutte le formule che sono vere.
Un altro concetto importante introdotto da Hilbert e' quello di "ricorsivita'" (diverso dall'accezione comune di "ricorsivo" come usato dalla cibernetica in poi). La ricorsivita' e' sostanzialmente la computabilita' tramite algoritmo: una funzione ricorsiva e' in pratica una funzione che puo' essere programmata. L'utilita' di questa definizione sta in alcuni teoremi della teoria della ricorsivita', in particolare: un predicato p(X) e' decidibile (ovvero esiste un algoritmo che puo' decidere in un tempo finito se quel predicato applicato ad un certo valore della variabile X e' vero o falso) se e solo se la corrispondente funzione p(X) e' ricorsiva.
In matematica una funzione e' una relazione che a un certo insieme di valori di un "dominio" assegna un certo valore di un "contro-dominio". Se la funzione e' binaria, per esempio, essa mette semplicemente in corrispondenza i valori del dominio con alcuni valori del contro-dominio, e si indica
intendendo che A e B siano insiemi, f sia il nome della funzione, e y = f(x) sia l'elemento di B che viene fatto corrispondere da f all'elemento x di A. Piu' in generale una funzione puo' avere l'aspetto
intendendo che fa corrispondere la combinazione di diversi valori a un valore del contro-dominio. Un esempio di funzione, per esempio, puo' essere la funzione di addizione (+), la quale mette in corrispondenza diversi numeri con un nuovo numero: l'addizione
puo' essere riscritta in termini funzionali come
+ (1,2,3,4) = 10
Un altro esempio e' quello della funzione di permutazione (indicata comunemente con il segno di punto esclamativo!), quella che ad un numero intero assegna un altro numero intero dato dal prodotto del numero stesso per di tutti i numeri interi ad esso inferiori:
2! = 2 x 1 = 2 3! = 3 x 2 x 1 = 6 4! = 4 x 3 x 2 x 1 = 24
e cosi' via.
Ogni funzione puo' essere ricondotta alla logica dei predicati in modo banale:
f(a,b) = c
puo' essere espressa come
r(a,b,c) e' vero.
Nel 1925 Hilbert propose che tutte le funzioni computabili fossero costruibili a partire da alcune operazioni primitive. L'insieme delle funzioni che e' possibile costruire con la procedura di Hilbert costituisce l'insieme delle funzioni "ricorsive". Per definizione, essendo definite da un algoritmo, queste sono anche le funzioni che e' possibile programmare.
Il problema della decisione venne studiato, fra gli altri, da Turing nel 1936. Il problema puo' essere riassunto cosi': derivare procedure puramente meccaniche per trovare soluzioni a tutti i problemi matematici. Esiste un metodo matematico per determinare sempre se una soluzione puo' essere ottenuta a partire da una certa situazione? Turing aveva chiara l'importanza della risposta: i problemi che soddisfano il problema della decisione sono risolubili dalla macchina; gli altri non lo sono. Se la risposta al problema della decisione fosse positiva, allora sarebbe possibile costruire una macchina che risolva tutti i problemi della Matematica. Il teorema di Godel poneva comunque un ostacolo insormontabile alla dimostrazione o confutazione di questo teorema: non e' infatti possibile dimostrare che un programma generico giungera' a una fine. Pertanto il problema della decisione e' impossibile.
Turing defini' comunque cosa fosse una funzione computabile tramite una procedura meccanica ideale. Questa procedura, che si suppone venga eseguita su una macchina astratta (la cosiddetta "macchina di Turing"), e' tale che in ogni situazione esiste un'azione da compiere e quell'azione e' la sola da compiere. Per l'esattezza la macchina di Turing dovrebbe funzionare cosi'. Per manipolare simboli della logica dei predicati occorre essere in grado di: leggere i simboli attuali, elaborare i simboli, scrivere nuovi simboli, passare ad esaminare nuovi simboli. Una macchina dovrebbe pertanto essere in grado di compiere le seguenti operazioni elementari su un alfabeto finito di simboli: leggere un simbolo, scrivere un simbolo, spostarsi al simbolo precedente, spostarsi al simbolo successivo, mutare lo stato. A seconda del simbolo che legge e dello stato in cui si trova, la macchina di Turing decide se spostarsi avanti, indietro, scrivere un simbolo, cambiare stato o fermarsi.
E' chiaro che possono esistere infinite macchine di Turing, a seconda di come esattamente eseguano tali funzioni. Turing spiego' anche come costruire una macchina "universale", in grado di simulare tutte le possibili macchine di Turing: e' sufficiente descrivere la specifica macchina di Turing con una sequenza di simboli posti prima dei simboli che dovranno essere manipolati. Il "programma" inventato da Von Neuman per fornire al computer specifiche sequenze di istruzioni non era altro che la traduzione pratica di questa astrazione: dato l'insieme di tutte le possibili macchine risolutrici di problemi (ciascuna risolutrice di uno solo di essi), il computer puo' simulare una qualunque di esse se viene istruito tramite un apposito programma. A seconda del programma il computer simula macchine risolutrici diverse ed e' pertanto in grado di risolvere problemi diversi. Il computer e' pertanto una macchina universale di Turing (ma a memoria finita).
La linea di pensiero di Turing introdusse di fatto due importanti concetti. Innanzitutto ridusse il programma hilbertiano a un problema di elaborazione di simboli. In secondo luogo identifico' l'universalita' di un meccanismo nella possibilita' di partizionare gli input del meccanismo in due classi, le istruzioni e i dati.
Alonzo Church dimostro' nel 1936 che ogni processo di natura algoritmica definisce una funzione matematica appartenente a una classe particolare denominata classe "delle funzioni Lambda". Una delle piu' importanti conseguenze della tesi di Church fu quella di dimostrare che le sole funzioni computabili di Turing sono quelle ricorsive, in quanto la classe delle funzioni Lambda e' la stessa delle funzioni ricorsive e delle funzioni computabili di Turing. In effetti Turing diceva: le uniche funzioni che sono risolvibili da un programma sono quelle decidibili; Godel diceva: le uniche funzioni che sono calcolabili da un programma sono quelle ricorsive. Dicevano la stessa cosa da due prospettive diverse. La tesi di Church (che non e' stata dimostrata, ma e' intuitivamente vera) mise d'accordo tutti dicendo: tutto cio' che e' computabile in natura deve essere anche Turing-computabile. (Cio' nonostante si puo' dimostrare che esistono piu' funzioni non-computabili che funzioni computabili).
In prospettiva si puo' dire che la Logica nella prima meta' del secolo porto' a trasformare i processi inferenziali in processi di manipolazione dei simboli e si pose poi il problema se fosse possibile costruire una macchina in grado di eseguire tali processi.
McCarthy, inventando il primo linguaggio di programmazione che consentisse di elaborare simboli, mise nelle mani dei matematici proprio lo strumento che poteva servire a risolvere problemi della logica dei predicati. A quel punto tutto il problema si sposto' di novanta gradi. Il problema non era piu' quello di costruire la macchina in grado di risolvere problemi matematici, ma quello di spiegare come cio' avesse a che fare con l'intelligenza. Il computer si trasformo' da fine in mezzo. Implicita nella ipotesi di Newell era la convinzione che il cervello umano utilizzasse simboli e logica dei predicati nel compiere le sue funzioni cognitive. Il computer si prestava pertanto a verificare quell'ipotesi nella pratica.
Dalla conferenza di Dartmouth in poi i ricercatori dell'Intelligenza Artificiale hanno applicato l'ipotesi di Newell alle diverse funzioni cognitive (memoria, ragionamento, apprendimento, linguaggio), tentando per ciascuna di proporre una relativa teoria computazionale. La disciplina dell'Intelligenza Artificiale si e' cosi' venuta dividendo in tante scuole indipendenti quante sono le funzioni cognitive. Ciascuna scuola ha adottato un programma interdisciplinare nel quale confluiscono informatica, logica, psicologia cognitiva, epistemologia, neuro-fisiologia e cosi' via.
Ciascuna scuola ha adottato un proprio criterio di validazione che e' un misto di utilita' (serve alla societa'?) e di plausibilita' (assomiglia al comportamento umano?). Ogni teoria (della memoria, del ragionamento, dell'apprendimento, del linguaggio) viene misurata sulla base di quanto riesce a riprodurre il relativo comportamento umano e di quanto viene impiegata al di fuori dell'accademia per scopi industriali. L'Intelligenza Artificiale ha cioe' replicato anche nell'era del computer la tradizionale ambivalenza (e ambiguita') della scienza, che da un lato ha come fine quello di migliorare le condizioni di vita dell'umanita' e dall'altro ha come fine quello di comprendere il senso della condizione umana.
Se l'obiettivo e' rimasto quello di costruire macchine intelligenti, e' cambiato l'approccio a cosa sia l'intelligenza. L'intelligenza viene implicitamente considerata come un insieme di comportamenti intelligenti (o, se si preferisce, di fenomeni cognitivi) debolmente accoppiati, assumendo che tutti questi comportamenti originino dall'essere il cervello un elaboratore simbolico. Il fatto di studiarli in maniera separata viene giustificato non tanto dalla convinzione che essi abbiano sede in parti diverse del cervello, ma dal fatto che esiste un supporto comune a tutti, un elaboratore simbolico. In altre parole: (1) un sistema cognitivo e' un sistema simbolico, ovvero ogni funzione cognitiva si ottiene simbolizzando situazioni ed eventi e manipolando poi quei simboli; (2) esiste un insieme di processi di manipolazione di simboli comune a tutti i sistemi cognitivi.
Proprio perche' fondata sull'uso di uno strumento meccanico (per di piu' in grado di eseguire calcoli logici), l'Intelligenza Artificiale ha l'ambizione di proporsi come scienza "forte". Scienze forti sono quelle che spiegano l'operazione di sistemi deterministici rappresentandoli sotto forma di sistemi formali (leggi: "sotto forma di formule"), come la Fisica o la Chimica. Il grande pregio delle scienze forti e' di fornire modelli predittivi: il paradigma comune a tutte e' quello che dall'osservazione risale a delle regolarita', dalle regolarita' alle leggi e dalle leggi deduce predizioni (da verificare con nuove osservazioni e cosi' via). Il modello predittivo e' una diretta conseguenza del sistema formale: una volta costruito un sistema formale che rappresenti il sistema fisico, e' possibile eseguire calcoli "esatti" secondo la Logica Matematica e derivare altra verita' dalla verita' nota. Cosi', per esempio, un ingegnere civile puo' calcolare una formula di meccanica e predire che il ponte reggera' il peso di un autocarro. Le altre scienze, quelle "deboli", come la Psicologia o la Filosofia, non forniscono modelli predittivi altrettanto "esatti" su cui sia possibile fondare un'"ingegneria".
Quello delle scienze "forti", che e' il paradigma del razionalismo oggettivo, presenta pero' diverse difficolta' quando viene applicato a un sistema fisico che e' l'intelligenza, ovvero all'essere umano. Il comportamento umano, infatti, non obbedisce ad alcuni prerequisiti fondamentali: l'osservazione e' viziata da disturbi (l'osservatore e' l'osservato), le regolarita' sono proporzionali al livello di macroscopicita' (una popolazione nel suo insieme puo' esibire certe regolarita', ma ogni individuo visto nel dettaglio si comporta diversamente), le leggi presentano sempre delle eccezioni (nessuna legge su una popolazione viene confermata tutte le volte da tutti gli individui di quella popolazione) e le predizioni, pertanto, possono fornire una conoscenza soltanto parziale delle conseguenze.
E' chiaro inoltre che l'Intelligenza Artificiale e' una disciplina diversa dalle altre per il rapporto imbarazzante che si stabilisce fra ricercatore e ricercato: sono la stessa cosa. E' la mente che tenta di capire comportamento, struttura e funzione di se stessa. Esistono altre discipline che hanno come oggetto l'uomo, come la psicologia, ma nessuna ha come ambizione quella di capire la mente, di pensare il pensiero.
Nel caso di una scienza che utilizzi come laboratorio di sperimentazione il computer si pone infine un ulteriore problema: qual'e' il ruolo dei programmi nella costruzione di una teoria scientifica? A differenza di un qualsiasi altro strumento del laboratorio, il programma che viene eseguito da un computer e' al tempo stesso l'analogo di un'apparecchiatura e l'analogo di un ricercatore!
Al dualismo vero/falso, che limita il livello di comprensione a cui puo' ambire una teoria del significato, si e' posto rimedio investigando le quattro modalita' fondamentali di Aristotele: necessita', possibilita', contingenza e impossibilita'. Mentre la contingenza e l'impossibilita' possono essere ricondotte ai concetti di vero e falso, le altre due richiedono un'indagine piu' accurata. Il primo, in tempi moderni, a dedicarsi allo studio della "necessita'" e della "possibilita'" fu Carl Lewis nel 1918. Fu lui ad introdurre l'operatore di "necessita'" (solitamente indicato con un quadrato).
Il suo duale e' l'operatore di "possibilita'" (indicato con un rombo), legato al precedente dalla relazione che la possibilita' equivale alla negazione della necessita' della negazione: p e' possibile se non e' vero che la negazione di p e' necessaria. Per esempio, la frase "e' possibile che io abbia una sorella" si puo' esprimere come l'opposto di "non e' impossibile che io abbia una sorella", e, sapendo che un fatto e' "impossibile" se "deve essere vero" l'opposto di tale fatto, ovvero se tale fatto "deve essere falso" ovvero se "e' necessario che tale fatto sia falso", allora la frase originale diventa: "non e' vero che sia necessario che io non abbia una sorella".
Godel tento' di assiomatizzare la logica modale aggiungendo all'assiomatizzazione della logica delle proposizioni due nuovi assiomi
la necessita' di p implica p (se p e' necessaria, p e' vera)
la necessita' che p implichi q implica che la necessita' di p implichi la necessita' di q
(l'assiomatizzazione della logica modale del primo ordine sarebbe stata portata a termine da Ruth Barcan Marcus).
Questa assiomatizzazione e' coerente con il concetto intuitivo che una proposizione necessaria e' certamente vera, ma una proposizione vera non e' detto che sia necessariamente tale. In termini tecnici questo significa che l'operatore modale e' costituzionalmente diverso dai classici connettivi logici. Non e', in particolare, possibile costruire una tabella di verita' per un operatore modale (la verita' di p non determina ne' la verita' ne' la falsita' di quadrato-p).
L'importanza di questi concetti e' dovuta al bisogno di distinguere fra una frase che e' falsa perche' e' necessariamente falsa (impossibile), e una frase che e' falsa, ma potrebbe essere vera. Il motivo per cui questa distinzione non era stata apprezzata dai matematici e' che le "falsita'" della matematica sono semplicemente del tipo "impossibile": 1+1=3, per esempio. Necessita' e possibilita' sono invece utili quando si tratta di comprendere frasi relative al mondo reale. Esse esprimono, intuitivamente, la "intensione" di una situazione di verita' o falsita'. Per esempio, le estensioni della frase "l'autore di questo libro non ha mai scritto questo libro" e della frase "l' autore di questo libro e' diventato ricco" sono diverse, pur avendo la stessa intensione (sono entrambe false, ma solo la prima e' anche impossibile). In tal modo si puo' mettere in luce che anche la falsita' trasmette del significato.
Si possono soprattutto evitare paradossi come questo. La frase "tutte le sirene sono maschi" e' intuitivamente una proposizione falsa, ma in logica
questa proposizione si puo' riscrivere (applicando la definizione dell'operatore di implicazione):
e, siccome le sirene non esistono, per ogni X questa proposizione risulta sempre vera.
La modalita' viene ricondotta formalmente all'intensionalita' (com'e' intuitivo che debba essere) utilizzando la semantica dei mondi possibili, sviluppata da Saul Kripke nel 1963. Kripke intendeva innazitutto dare una soluzione intuitivamente accettabile a un paradosso presente in tutte le logiche modali: utilizzando la legge dell'identita' di Leibniz (cioe' che se due oggetti sono uguali allora anche due applicazioni ad essi dello stesso predicato sono identiche: X=Y --> p(X)=p(Y)), si ottiene che l'identita' di due proposizioni implica la necessita' di tale identita', mentre la stella del mattino e la stella della sera sono identiche ma non e' necessario che siano identiche (potrebbero benissimo essere davvero due corpi celesti distinti, come pensavano infatti i babilonesi).
Nella teoria di Kripke (una variazione dell'analoga teoria di Leibniz) un mondo possibile e' definito come un insieme di enunciati non contraddittori. Un mondo e' possibile, pertanto, relativamente a qualche altro mondo (rispetto al quale si riesce a dimostrare la non contraddittorieta'), e la relazione fra i due mondi viene chiamata "relazione di accessibilita'". Ogni predicato puo' allora essere vero in qualche mondo, e falso in qualche altro. In questo scenario si puo' definire in termini piu' precisi la distinzione di Frege fra intensione ed estensione. L' estensione di un predicato e' l'insieme dei mondi nei quali esso e' vero (non soltanto l'insieme degli oggetti che lo rendono vero) e la sua intensione e' la funzione che assegna ad ogni mondo possibile l'estensione di oggetti che soddisfano quel predicato. Per esempio, l' intensione di "rosso" assegna ad ogni mondo possibile un insieme di oggetti rossi. A differenza della logica classica, in cui un predicato ha soltanto un valore di verita', nella teoria di Kripke un predicato ha associato uno spettro di valori di verita', ciascuno relativo a uno dei mondi possibili.
Kripke dimostro' che la logica "modale" dell'operatore "necessita'" (quadrato) si poteva derivare da questa teoria imponendo opportune restrizioni alla relazione di accessibilita': un'espressione e' necessaria in un certo mondo quando e' vera in tutti i mondi possibili, e' possibile quando e' vera in almeno uno dei mondi possibili.
Nel 1830 Charles Lyell inizio' a pubblicare in maniera organica i risultati sconvolgenti ottenuti dalla geologia: che l'eta' della Terra eccedeva di gran lunga quella prevista dalla Bibbia, che in un passato remoto erano esistite specie animali oggi estinte, che l'ambiente era stato tanto diverso nei millenni precedenti da rendere del tutto improbabile l'esistenza degli animali attuali.
Infine nel 1848 Alfred Wallace scopri' il meccanismo di selezione naturale. Charles Darwin nel 1859 trasformo' questi dati in una teoria scientifica. Applicata su vasta scala, la lotta per l'esistenza diventa un motore creativo che non si limita a far estinguere alcune specie ma fa si' che nuove specie vengano create: gli individui piu' "adatti" alla sopravvivenza riescono infatti a trasmettere i loro caratteri genetici. L'ambiente genera pertanto una "selezione naturale" delle specie. Cio' che consente di avere in ogni istante individui piu' "adatti" e individui meno "adatti" (e cio' che differenzia profondamente Darwin da Lamarck) e' una legge che provoca variazioni casuali all'interno della stessa specie: la piu' o meno grande adattabilita' fara' si' che certe variazioni si rafforzino di generazione in generazione o si indeboliscano. Darwin dovette postulare la trasmissione ereditaria dei caratteri acquisiti, ottant'anni prima della nascita della Genetica.
Il piu' acceso sostenitore della teoria dell'evoluzione, Herbert Spencer, sostenne che l'evoluzione fosse una proprieta' generale dell'universo aprendo cosi' la strada all'applicazione di quei principi anche ad altri campi.
Il concetto piu' importante introdotto da Wallace e Darwin fu quello di selezione naturale, secondo il quale gli organismi vengono "formati" dall'ambiente in cui vivono. Una formalizzazione matematica di esso e' stata data da A. Flew:
lotta per la sopravvivenza + variazione --> selezione naturale
selezione naturale + tempo --> mutamenti biologici
Benche' il titolo dell'opera capitale di Darwin fosse "L'origine della specie", Darwin non tratto' praticamente mai il problema dell'origine della specie, ma soltanto quello della sua evoluzione nel tempo. Un motivo banale per giustificare questa omissione e' che Darwin non aveva modo di definire cosa fosse "una specie" (la classificazione di Linneo di un secolo prima non forniva una definizione operazionale). Sarebbe stata la Genetica a fornire gli strumenti scientifici per definire come una specie possa smettere di essere una specie e diventare un'altra specie (una specie viene definita come un insieme di organismi che hanno in comune un insieme di geni). In era moderna i dati empirici dei ritrovamenti fossili hanno indotto i paleontologi ad ipotizzare che la nascita di nuove specie avvenga in maniera improvvisa ("speciazione quantistica") piuttosto che attraverso un'evoluzione graduale e progressiva.
L'etologia, originariamente figlia della zoologia, sarebbe diventata una delle scienze del comportamento piu' ricche di spunti per la psicologia grazie alla legge "dell'economia" di Lloyd Morgan (1894), una sorta di rasoio di Occam per etologi: tentare sempre di spiegare il comportamento sulla base dei processi inferiori, evitare, laddove sia possibile, di ricorrere ai processi superiori; e grazie al modello del "tropismo" concepito da Jacques Loeb, il quale postulava che la risposta ad uno stimolo fosse generata direttamente dallo stimolo stesso e null'altro, eliminando del tutto la necessita' di processi mentali.
Nel 1938 Konrad Lorenz tento' di fondere le tendenze innatista ("gli organismi sanno fin dalla nascita come comportarsi") e ambientalista ("gli organismi reagiscono soltanto agli stimoli dell'ambiente") nel modello "oggettivista": l'azione istintiva di un animale e' determinata da un fattore interno all'animale, detto "energia specifica", e da un fattore esterno dovuto all'ambiente, detto "segnale scatenante". A conferma delle sue teorie innatiste Lorenz citava il fatto che gli animali allevati in cattivita' esibivano lo stesso comportamento "istintivo" di quelli cresciuti nel loro habitat naturale, benche' non fossero mai stati esposti prima a condizioni naturali e pertanto non avessero potuto apprendere il loro comportamento istintivo dal condizionamento del loro habitat naturale. Come aveva gia' sostenuto Darwin, Lorenz pensava che l'istinto fosse una delle caratteristiche dell'individuo trasmesse geneticamente e soggetto all'evoluzione della selezione naturale.
Nel 1937 Lorenz introdusse anche il concetto di "imprinting", una forma di apprendimento che viola nel modo piu' totale la legge del condizionamento. Esempi di imprinting sono tutte le manifestazioni apprese dal neonato nei primi momenti di vita, che farebbero pensare a una estrema disponibilita' all'apprendimento e a un'estrema non-deteriorabilita' di tale apprendimento. Spalding aveva gia' fatto notare nel 1873 che i pulcini tendono a riconoscere come madre il primo oggetto che vedono muoversi subito dopo la nascita, e che non cambieranno atteggiamento per tutta la vita, a prescindere da qualsiasi tipo di condizionamento positivo o negativo a cui siano soggetti.
Gli etologi furono peraltro i primi ad osservare che all'interno di ogni specie esistono dei modelli di comportamento comuni (assai diversi da specie a specie), dovuti alla necessita' di adattarsi all'ambiente; ovvero che l'evoluzione influisce su tale comportamento (e viceversa). In particolare ogni specie animale e' piu' o meno sensibile a certi stimoli, e pertanto e' piu' o meno in grado di apprendere in certe aree.
Il tema ricorrente degli esperimenti di etologia e' pertanto quale sia la "funzione" del comportamento esibito con regolarita' da certi organismi (quello che la teoria naif di Lorentz identificava con l'"istinto"), nella convinzione, appunto, che non siano soltanto i caratteri anatomici a derivare dall'adattamento, ma anche il comportamento.
I primi a reagire al dogma wundtiano furono i "funzionalisti" americani, capitanati da William James (nel 1890 uscirono i "Principi della Psicologia") e da John Dewey (suo il manifesto del 1896). Il funzionalismo applicava il darwinismo alla psicologia, considerando la mente un prodotto dell'evoluzione e uno strumento dell'adattamento. I processi mentali da un lato si adattano all'ambiente e dall'altro aiutano l'organismo (che e' un tutto inscindibile) a sopravvivere in tale ambiente. Piu' che proporre modelli introspettivi dei processi mentali, il funzionalismo ne studiava l'utilita'. Per ogni processo mentale il funzionalismo intendeva evidenziare la sua funzione, ovvero "a cosa serve". James sosteneva che il cervello non e' stato costruito per compiere sofisticate ed eleganti astrazioni, ma, piu' banalmente, per aiutarci a sopravvivere nel mondo. Cosi' anche Dewey riteneva che l'uomo pensa per vivere, e non viceversa.
E' un punto di vista che ha trovato conferma nella neuro-etologia: gli studi di Humberto Maturana (1959) hanno messo in luce che le rane vedono soltanto gli insetti (cio' che a loro "serve" vedere per riuscire a sopravvivere). E' significativo che, ragionando di questo passo, James pervenisse a una visione del cervello che riecheggia molto da vicino quella neuronale, precorrendo la legge di Hebb e il modello connessionista. Dewey, applicando gli stessi principi, delineava invece una teoria della conoscenza in quanto rubrica di "tutto cio' che abbiamo imparato per sopravvivere", una rubrica il cui elemento piu' tipico, formato appunto attraverso l'esperienza, era la "regola del buon senso". Pertanto il funzionalismo si proponeva come lo studio delle funzioni mentali, in contrapposizione allo "strutturalismo" di Wundt, che studiava gli elementi mentali.
Parallelamente al funzionalismo si andava diffondendo l'"associazionismo", secondo il quale i processi mentali superiori sono causati da associazioni fra processi mentali piu' elementari (riprendendo cosi' l'idea degli empiristi inglesi). Hermann Ebbinghouse (1885) condusse esperimenti di tipo associativo sulla struttura della memoria, e fu forse quella la prima volta che uno psicologo tratto' un processo mentale superiore. Nel 1898 Edward Thorndike propose la piu' importante e influente delle teorie associazioniste, quella del "connessionismo": la mente e' una rete di connessioni fra i suoi elementi; l'apprendimento consiste nel connettere diversi elementi fra di loro; e il comportamento e' dovuto all'associazione fra stimoli e risposte che si genera in seguito a quella connessione.
Nella prima meta' del secolo la Psicologia fu dominata dai "behavioristi", i quali trascuravano i processi cognitivi e si concentravano sui processi sensori e motori. Come evidenziato nel manifesto di John Watson (1913), il behaviorismo aveva origine dall'insoddisfazione di certi ambienti americani nei confronti degli scarsi risultati pratici ottenuti dagli psicologi introspettivi e dualisti, i cui studi lambivano le piu' gratuite speculazioni filosofiche. Influenzato dal positivismo, dal funzionalismo e dall'etologia, Watson sostenne la necessita' di abbandonare lo studio di quantita' non misurabili come quelle che hanno a che vedere con il pensiero, e di concentrarsi sul comportamento esteriore, del quale si puo' osservare e misurare il rapporto fra stimolo e responso. Tutti gli aspetti del comportamento umano vennero da Watson ricondotti a qualche forma di condizionamento, a un modello in cui le uniche variabili fossero variabili misurabili come stimolo e risposta. Il linguaggio stesso venne concepito come un comportamento sensori-motorio, come una serie di riflessi condizionati appresi dal bambino durante lo sviluppo. Watson negava all'ereditarieta' una qualunque influenza sul comportamento: in un celebre esempio arrivo' al punto da ipotizzare che si potessero costruire diversi specialisti nelle varie professioni semplicemente facendo crescere diversi bambini negli opportuni ambienti.
Al behaviorismo si contrappose la scuola tedesca della Gestalt, che intendeva invece studiare i processi cognitivi. La Gestalt nasceva da un humus culturale in rapido cambiamento: l'elettromagnetismo di James Maxwell aveva dimostrato che l'effetto di un campo magnetico non e' dato dalla somma degli effetti delle sue componenti elementari; Ernst Mach aveva fatto notare nel 1885 che qualcosa di analogo capita con le percezioni spazio-temporali (la percezione della circolarita' di un cerchio non dipende dal suo colore o dalle sue dimensioni); nel 1891 Christian von Ehrenfels aveva introdotto il concetto di "gestalt" tramite l'esempio di una melodia che rimane sempre tale anche quando viene suonata in un'altra tonalita' (ovvero anche se i componenti elementari vengono cambiati); il "pensiero senza immagini" scoperto da Oswald Kulpe aveva dimostrato che non era possibile spiegare tutti i fenomeni cognitivi su base puramente sensoriale; Karl Stumpf escludeva che si potesse trattare la singola percezione a se stante e riteneva invece che la percezione sensoriale fosse un fenomeno complesso; Max Wertheimer aveva illustrato nel 1912 il celebre esperimento del "movimento phi", nel quale due stati di quiete vengono percepiti come uno stato di moto, ovvero la percezione dello stato globale non dipende affatto dagli stati elementari che lo compongono; Edgar Rubin provo' nel 1921 che lo stesso disegno puo' essere percepito come figura o sfondo. Tutti questi studi mandavano agli psicologi lo stesso messaggio: una teoria che spieghi il tutto non deve necessariamente avere origine da una teoria che spieghi le sue parti (contrariamente a quanto sosteneva l'"elementismo" di Edward Titchener, il maggior discepolo dello strutturalismo di Wundt).
Gli psicologi della Gestalt sostenevano proprio che l'insieme delle percezioni e' qualcosa di piu' della loro somma. La loro attenzione si volse allora a quei fenomeni di percezione che non dipendono dalle singole percezioni (per esempio, il riconoscimento di un oggetto da diverse prospettive diverse). Un classico del genere fu l'apprendimento dello scimpanze', studiato da Wolfgang Kohler (1917): con una serie di esperimenti Kohler dimostro' che lo scimpanze' acquisiva quasi istantaneamente la capacita' di risolvere certi problemi, e lo attribui' a un fenomeno di riconfigurazione dello spazio mentale (l'"insight"). Si genero' cosi' un interesse per i processi cognitivi superiori presi nella loro complessita'. Wertheimer pubblico' nel 1920 il primo trattato su questo tema: un oggetto viene percepito come un tutto unico e non come una somma di sensazioni elementari. L'unita' elementare di percezione e' la "forma".
La psicologia della Gestalt reagiva al meccanicismo associazionista in quanto postulava l'esistenza della coscienza.
Il fenomeno della Gestalt fu coerente con la crisi in atto del meccanicismo e del positivismo (esemplificata anche dalla nascita nel 1900 della Psicanalisi di Sigmund Freud, una scienza che si proponeva addirittura lo studio dell'"incoscio") e soprattutto con l'emergere della fenomenologia. Nel tentativo di tracciare la linea di demarcazione fra stati mentali e stati fisici, nel 1874 Franz Brentano riprese il concetto di "intenzionalita'". L'intenzionalita', cosi' come definita fin dagli scolastici nel Medioevo (dal latino "intendo"), e' la proprieta' dei fenomeni che puntano a qualche altro oggetto: fenomeni che riguardano, concernono, si riferiscono a qualcos'altro. Per esempio, io posso aver paura dei leoni, e quindi la mia paura riguarda i leoni, ma i leoni non riguardano nient'altro. Secondo Brentano ogni stato psichico deve per forza "riferirsi" a qualcosa (si vede perche' ci sono cose da vedere), e ogni stato psichico e', in ultima analisi, coscienza di qualcosa (ne consegue, per esempio, una preminenza dell'atto psichico di "vedere" su "cio' che viene visto"). Tutti e soli i fenomeni mentali sono intenzionali, e questa proprieta' e' proprio cio' li differenzia da quelli fisici. La posizione di Brentano aveva creato una polemica con Frege sulla natura dei concetti matematici, che secondo Frege esistevano a prescindere dal fatto che qualcuno li concepisse.
A partire dal 1900 Edmund Husserl spinse l'intuizione di Brentano alle estreme conseguenze, conferendo alla coscienza una posizione di assoluta preminenza: la sua "Fenomenologia" e' la disciplina che studia i fenomeni della coscienza, astenendosi dal postulare l'esistenza del mondo naturale. In termini brentaniani oggetto della Fenomenologia sono gli stessi atti intenzionali, non cio' a cui essi si riferiscono. Husserl non afferma (come Brentano) che ogni stato mentale si riferisca a qualcosa, ma che ogni atto di conoscere (noesi) sia intenzionale, ovvero abbia un senso (noema). La coscienza viene percio' definita dalle noesi, ovvero dal flusso di esperienze vissute dall'individuo, in maniera del tutto indipendente da cio' a cui si riferiscono. Husserl si concentro' pertanto a studiare come la coscienza strutturava l'esperienza (fenomenologia trascendentale), ipotizzando una gerarchia di livelli di significato che era dovuta esclusivamente alla coscienza individuale, mentre Martin Heidegger sostenne che l'intenzionalita', e quindi l'esperienza, fosse un fatto sociale, dovuto agli infiniti condizionamenti culturali a cui e' soggetto ciascun individuo durante la sua esistenza (fenomenologia esistenziale).
Fra le conseguenze pratiche della Fenomenologia c'e' quella di riferire il significato a un contesto, contesto che, secondo Heidegger, e' un fatto sociale. Ludwig Wittgenstein adotto' nel 1953 questa linea di pensiero: ogni analisi formale del significato richiede l'esistenza di un contesto in grado di "qualificare" tale significato, e tale contesto non e' a sua volta analizzabile in modo formale. Negli ultimi anni Husserl tento' persino di catalogare il mondo quotidiano (il "lebenswelt"), ovvero tutti i possibili contesti. Nel 1945 Maurice Merleu-Ponty avanzo' l'ipotesi che il comportamento umano sia spiegabile unicamente in termini di esperienza vissuta della percezione, ovvero di compiti abituali appresi durante tutta la vita, rendendo del tutto improponibile il programma husserliano.
Nel frattempo il behaviorismo americano aveva raggiunto nuove importanti conquiste teoriche. In breve le ricerche behavioriste si concentrarono sull'apprendimento. In questo campo il behaviorismo non fece che raffinare ed estendere due importanti risultati dell'associazionismo. Il primo era la teoria del "condizionamento" di Ivan Pavlov (1927): se a uno stimolo incondizionato (una ciotola di carne) che provoca una certa risposta incondizionata (salivazione del cane) si associa ripetutamente uno stimolo condizionato (il suono di un campanello), dopo un numero sufficientemente elevato di volte lo stimolo condizionato (il campanello) provochera' da solo la risposta incondizionata (la salivazione). Il secondo era la "legge dell'effetto" scoperta da Thorndike nel 1905: la probabilita' che un certo stimolo causi una certa risposta e' proporzionale alla soddisfazione che essa ha prodotto in passato (alla cosiddetta "ricompensa"); la probabilita' che essa non si verifichi piu' e' inversamente proporzionale a tale ricompensa. In un certo senso la legge dell'effetto rinconciliava l'evoluzionismo darwiniano e il behaviorismo.
Burrhus Skinner, che aveva spinto agli estremi il rigore behaviorista di Watson riconoscendo valore scientifico esclusivamente al comportamento esterno (stimoli e responsi), illustro' (1938) un altro tipo di condizionamento: se una risposta viene associata a un rinforzo, la probabilita' che la risposta si verifichi aumenta. Per esempio, se viene fatto cadere del cibo (rinforzo) ogni volta che l'animale preme una leva (risposta), il ratto tendera' a premere la leva sempre piu' spesso. Secondo behavioristi come Skinner tutte le forme di apprendimento sono riconducibili a fenomeni di condizionamento.
Edward Tolman funse da tramite con la Gestalt con il suo "finalismo" (1932), secondo il quale il comportamento ha sempre un "fine" e tale fine viene espresso da variabili intermedie fra lo stimolo e la risposta. Per esempio, la variabile "fame" e' cio' che spinge l'animale a cacciare una preda, e lo scopo dell'animale e' quello di catturare la preda, non semplicemente quello di correre in una direzione piuttosto che l'altra. Le variabili intermedie di Tolman consentivano di ipotizzare funzioni cognitive e pertanto complicavano notevolmente il modello behaviorista di Watson.
Clark Hull fu il primo (1940) ad elaborare una teoria matematica dell'apprendimento che mettesse in relazione stimoli esterni, stati corporali e comportamenti nello stesso modo formale in cui la geometria euclidea mette in relazione punti, angoli e rette. Il programma di Hull falli' perche' la sua teoria ipotetico-deduttiva dell'apprendimento non riusci' mai ad essere coerente con i risultati sperimentali. Hull pervenne alla legge del "rinforzo primario", nella quale conciliava il condizionamento pavloviano e la legge dell'effetto: se una coppia stimolo-risposta provoca una diminuzione delle necessita', allora aumenta la probabilita' che a fronte di quello stimolo si verifichi quella risposta.
Lo schema rigido a cui erano pervenuti Skinner e Hull esibiva in effetti incongruenze empiriche molto piu' gravi e fondamentali. Nel 1950 Karl Lashley lesiono' parti del cervello dei ratti per verificare se la relazione stimolo-risposta ne venisse debilitata, e scopri' cosi' che le loro facolta' mnemoniche degradavano ma non si perdevano mai. Cio' porto' Lashley ad ipotizzare che ogni funzione non fosse localizzata in un punto preciso della mente, ma distribuita su tutta la mente. Probabilmente suggestionato dal dualismo fra particelle e onde messo in luce dalla Meccanica Quantistica, Lashley teorizzo' che la memoria si comportasse come i campi elettromagnetici di Maxwell e che uno specifico ricordo fosse un'onda all'interno di tale campo. Esperimenti successivi (a partire da quelli di Wilder Penfield) avrebbero consentito di identificare diverse zone (o "mappe") all'interno del cervello che, come intuito da Gall, sono specializzate in certe funzioni (per esempio, mappe di frequenza nel sistema uditorio). Esiste pertanto una qualche forma di localizzazione, sia nella corteccia cerebrale sia in altre regioni del cervello, ma rimane comunque vero che nessuna funzione e' localizzabile in poche cellule contigue.
In particolare gli studi compiuti da Roger Sperry a partire dal 1953 sullo "split brain", ovvero sezionando il cervello lungo il ponte (corpus callosum) che ne unisce le due meta', hanno rivelato che i due emisferi svolgono funzioni diverse e complementari: quello sinistro, come gia' scoperto da Broca, e' cruciale per le funzioni di linguaggio (in termini tecnici: "e' dominante per le funzioni di linguaggio"), quello destro e' specializzato invece nel riconoscimento ("dominante per il riconoscimento").
Al tempo stesso venne maturando l'evidenza sperimentale che sulla superficie del cervello esista una "mappa" delle funzioni sensori-motorie del corpo che dalla faringe alla lingua, dai denti al labbro arriva fino a rappresentare le funzioni sensori-motorie delle dita dei piedi.
Per l'esattezza Piaget distingue quattro fasi nello sviluppo: In una prima fase (fino a due anni) il bambino esibisce una vita di pura azione esterna (sensorimotoria), nella quale la sua conoscenza del mondo e' data unicamente dalle sue azioni in esso; nella seconda fase (fino a sette anni) si manifesta un primo livello di introspezione con il formarsi dei primi simboli; la terza fase (fino a dodici anni) e' quella in cui il bambino compie azioni interne (non solo esterne) di manipolazione di simboli, ma con la limitazione che quei simboli rappresentino oggetti reali; nella quarta fase (fino a quindici anni) il bambino e' in grado di compiere operazioni puramente mentali su entita' puramente astratte. Le facolta' di pensiero non sono pertanto fissate alla nascita, ma si evolvono durante la vita, e la parte cruciale dell'evoluzione avviene durante i primissimi anni di vita. Il modo in cui si compie la progressiva acquisizione delle facolta' mentali e' tramite un'interiorizzazione ("astrazione riflessiva") delle proprie azioni. La crescita della mente ha come obiettivo quello di mantenere una sorta di equilibrio con la sua conoscenza del mondo.
La teoria evolutiva di Piaget e' pertanto sottesa da un fondamento darwiniano, benche' neghi l'importanza del caso. La razionalita' puo' essere ridefinita come l'insieme dei modi in cui l'organismo si adatta al proprio ambiente (idea gia' presente in Edouard Claparede). La razionalita' si manifesta, infatti, quando e' necessario raggiungere uno stato di equilibrio con l'ambiente (ovvero risolvere un problema). Nel momento in cui tale stato e' raggiunto, la razionalita' non serve piu' e l'organismo agisce semplicemente d'"istinto" (cioe' in totale sintonia con l'ambiente). Soltanto quando l'equilibrio viene nuovamente modificato (sorge un nuovo problema), e' necessario fare ancora ricorso alla razionalita'. Lo sviluppo della ragione e' pertanto esso stesso razionale: Piaget esprime questo concetto tramite quello di "ortogenesi", di evoluzione orientata verso una ben precisa direzione (e non affidata al caso) che e' quella di aumento costante di equilibrio.
Ma Piaget fa anche uso della sociologia olistica di Emile Durkheim (1893), secondo la quale il comportamento dell'individuo e' determinato dalla societa', e al tempo stesso a) il comportamento di questa non e' esprimibile come somma dei comportamenti degli individui, ma e' b) qualcosa che origina dal fatto di essere un tutto. Piaget accetta la prima parte (a) di questa concezione anti-individualista, ma confuta invece la seconda (b), sostenendo che a determinare il comportamento della societa' sono le relazioni fra i suoi individui. Il suo e' pertanto un modello in cui il comportamento del tutto non e' definito ne' da un comportamento astratto ne' dalla somma dei comportamenti delle sue parti, ma dalla "rete" di relazioni fra le sue parti (da cui il nome di "relazionismo").
Da queste osservazioni Piaget derivo' un'"Epistemologia genetica" (1950) come la disciplina formale che studia la conoscenza in funzione del suo sviluppo. L'Epistemologia genetica segno' un importante punto di avvicinamento fra Logica e Psicologia, ma soprattutto sanci' la nascita dell'Epistemologia come scienza sperimentale. Prima di Piaget le teorie della conoscenza erano oscillate fra due estremi: quello di Locke, che negava qualsiasi conoscenza innata e supponeva che tutta la conoscenza derivi dall'esperienza sensoriale, e quello di Descartes (e di Leibniz), che postulava l'esistenza di idee innate tramite le quali sia possibile fabbricare conoscenza indipendentemente dai sensi. Kant aveva provato a mediare queste due visioni cosi' estreme con l'idea che fossero note a priori solo quelle "categorie" che i sensi presuppongono. Piaget forni' un modello sperimentale per studiare come si evolve la conoscenza dai primi attimi di vita fino alla maturita' e impostare in tal modo il dibattito su basi piu' scientifiche.
Piaget non fu l'unico a proporre modelli evolutivi dei processi cognitive. Prima di lui ci aveva provato almeno Pierre Janet nel 1928. Secondo la teoria di Janet esiste una gerarchia di livelli di organizzazione mentale progressivamente piu' complessi. Al livello piu' primitivo ci sono le funzioni di pura risposta agli stimoli. Al livello successivo sono funzioni di adattamento all'ambiente. Poi vengono i livelli che dall'azione portano al pensiero, come linguaggio e memoria. I livelli piu' elevati hanno a che vedere con il senso dell'io, la responsabilita' morale, la capacita' di valutare e cosi' via. Questi livelli si formerebbero durante lo sviluppo e le anomalie psichiche (come l'isteria) non sarebbero altro che deficenze nell'integrazione di questi livelli gerarchici.
Nella piu' recente teoria di Leo Vygotsky (1960) tutti i processi mentali superiori hanno origini sociali. Il linguaggio (nel senso piu' ampio di sistema di segni) risulta allora vitale per consentire lo sviluppo di tali processi. Studiando il modo in cui l'individuo assegna un significato a una parola fittizia, Vygotsky ne dedusse che il linguaggio ha origine per consentire l'interazione del bambino con l'ambiente, e soltanto in seguito viene interiorizzato e puo' essere utilizzato per esprimere il "pensiero". In particolare il significato di una parola e' all'inizio un fatto puramente emotivo, e soltanto col tempo acquista un preciso riferimento a un oggetto e poi un vero e proprio significato astratto. Pertanto diverse fasi dello sviluppo mentale sarebbero guidate da diverse funzioni cognitive: il bambino pensa memorizzando (una nuova memoria causa un processo mentale interno), mentre l'adulto memorizza pensando (un processo mentale interno causa la produzione di una nuova memoria).
Vygotsky ipotizzo' che l'unita' elementare di comportamento umano non fosse la relazione binaria fra stimolo e risposta (come sostenevano i behavioristi), ma una relazione ternaria fra stimolo, mezzo e risposta.
Heidegger assunse l'ermeneutica a fondamento dell'esistenza stessa: l'uomo esiste in quanto comprende il suo mondo e l'interpretazione non e' altro che l'articolazione di tale comprensione. In altre parole l'uomo reagisce "istintivamente" a certe situazioni (vi e' "gettato") senza avere il tempo di comprenderla appieno. Quella reazione "istintiva" e' l'interpretazione, ed e' dovuta al fatto di essere parte del mondo. Non ha senso tentare di distinguere l'interpretato dall'interpretante: l'esistenza e' interpretazione, e viceversa.
Da qui il carattere storico dell'esistenza, che Hans Gadimer (1960) rielabora in termini di interazione con la tradizione attraverso la dimensione del linguaggio, il quale e' a sua volta tradizione. In tal modo si pongono in stretta relazione le tre entita' di storia, comprensione e linguaggio. Il significato dipende dal background culturale dell'individuo, il quale e' a sua volta il prodotto di una storia di interazioni linguistiche, le quali a loro volta furono interpretate, e cosi' via all'infinito. In altre parole, esasperando il concetto di Edward Sapir: il pensiero di un individuo e' determinato dalle tradizioni socio-storiche di una comunita' linguistica.
L'interpretazione oggettiva, impossibile nelle teorie di Heidegger e Gadimer, puo' essere raggiunta secondo Karl Apel e Jurgen Habermas tramite un processo di consenso democratico. Su queste basi Habermas ha intrapreso la costruzione di una "pragmatica universale", assumendo come movente fondamentale di tutti gli atti di comunicazione linguistica appaunto quello di raggiungere un consenso.
Nella visione di Paul Ricoeur il linguaggio non e' soltanto un mezzo di comunicazione, ma anche un oggetto di interpretazione. La comunicazione fra l'autore e il lettore si svolge fra due mondi di simboli distinti, quello dell'autore e quello del lettore, ciascuno dei quali intende in maniera diversa l'oggetto della comunicazione. La comprensione del significato inteso dall'autore e' resa ardua per l'interferenza della soggettivita' del lettore. La comprensione si puo' compiere pertanto solo attraverso una approssimazione graduale del significato dell'autore. La circolarita' dell'ermeneutica (riconducibile al fatto che si comprende sulla base di cio' che si sa, e si sa sulla base di cio' che si e' compreso) viene qui risolta supponendo che la capacita' di comprendere si incrementi man mano che si comprende.
Ricoeur tenta di riconciliare strutturalismo ed ermeneutica: lo strutturalismo descrive il funzionamento di un sistema di comunicazione chiuso e isolato, l'ermeneutica descrive invece il funzionamento dei sistemi di comunicazione in presenza di altri sistemi di comunicazione.
Una radicalizzazione delle teorie che legano l'interpretazione al contesto in cui esso deve avvenire e' quella del "realismo ecologico", scaturita dagli studi psicologici di James Gibson (1979) e da quelli filosofici di Hilary Putman (1975). I realisti ecologici sostengono che le informazioni di cui fa uso ogni organismo vivente risiedono soltanto in parte nell'organismo stesso e per il resto si trovano nell' "ambiente" in cui l' organismo vive. Gibson in particolare, reagendo al modello classico della percezione elaborato da Helmholtz un secolo prima, ha trovato che esiste molta piu' informazione nel mondo di quanto sia comune credere e ha sostenuto che ogni organismo compie un processo passivo di adattamente all'ambiente per poter raccogliere e utilizzare tale informazione.
Da cio' discende che la "situazione" in cui si trova l'agente linguistico e' piu' importante, ai fini dei suoi processi di comprensione, della conoscenza del linguaggio che ha a disposizione nella sua mente. Si puo' pertanto affermare che il significato risiede nelle interazioni degli individui con il loro ambiente. Idee analoghe si trovavano gia' in Thomas Reid (1785), contemporaneo e avversario di Hume (nonche' avversario di tutta la tradizione cartesiana). Dal punto di vista computazionale cio' ha dei risvolti importanti: le operazioni della vita quotidiana non richiedono grandi risorse computazionali perche' l'informazione si trova gia' nel mondo. Pertanto, se il programma di costruire una macchina in grado di comprendere va radicalmente rivisto dal punto di vista di cosa si intenda per "comprendere", al tempo stesso tale programma diventa piu' realistico perche' risulta molto semplificato.
Anche Terry Winograd (1986), attraverso una rielaborazione della fenomenologia e un'analisi dei risultati sperimentali di Maturana, e' pervenuto ad un'ermeneutica di tipo ecologico. L'io e' un portatore di tradizione, in quanto la conoscenza e' interpretazione post-hoc della storia e il linguaggio non fa che cristallizzare cio' che siamo. Il ragionamento e' re-interpretazione: ogni azione e' di fatto una re-interpretazione della storia dell'individuo.
Una prima fase dello studio delle lingue aveva avuto inizio nel 1786, quando William Jones aveva fatto notare le somiglianze fra latino, greco e sanscrito, aprendo di fatto l'era della grammatica comparativa. All'inizio dell'Ottocento Jacob Grimm, nel ricostruire l'evoluzione della lingua tedesca, aveva poi formulato la legge di rotazione delle consonanti che fu la prima legge fonetica ad essere adottata per spiegare l'evoluzione delle lingue. A partire da Karl von Humboldt prevalse cosi' la visione evolutiva delle lingue che suggeri' a August Schleicher l'ambizioso programma di costruire l'albero genealogico delle lingue, ipotizzando un comune antenato di tutte e un insieme di regole in base a cui le lingue si erano differenziate nel corso dei millenni.
All'inizio del Novecento Ferdinand de Saussure formulo' la teoria linguistica dello strutturalismo. Lo strutturalismo esamina il linguaggio innanzitutto prescidendo dal suo contesto (principio di "immanenza") e poi distinguendo le specifiche frasi pronunciate dal codice che presiede alla loro formazione. Saussure paragono' la "langue" allo spartito di una sinfonia e la "parole" all'esecuzione di quella sinfonia da parte di una particolare orchestra. Saussure distinse anche l'analisi sincronica (l'analisi della lingua cosi' com'e') da quella diacronica (l'analisi di come si evolve la lingua).
L'attenzione della linguistica si focalizzo' sull'analisi sincronica e in particolare sui diversi livelli a cui essa poteva avvenire: a livello di fonema, ovvero di suono elementare (da cui la fonologia di Nikolay Trubeckoj, 1929), a livello di morfema, ovvero di unita' elementare dotata di significato (da cui la morfologia, che studia in particolare le desinenze delle parole), a livello di parola (il lessico), a livello di frase (la sintassi, che studia le relazioni fra le parole), a livello di significato (la semantica). Fulcro dell'analisi diventava il "segno", inteso come ogni entita' che esibisca un significante (l'oggetto acustico) e un significato (il concetto mentale), oppure, nella terminologia semiotica di Louis Hjelmslev (1943), ogni entita' che esibisca "espressione" e "contenuto". Cosi' e' possibile distinguere, per esempio, i due segni corrispondenti a "nipote", entrambi con lo stesso significante ma con due significati diversi (figlio/a del fratello/sorella e figlio/a del figlio/a).
Nel Dopoguerra lo strutturalismo venne rivisto in chiave funzionalista da Roman Jakobson e Andre' Martinet, entrambi dediti allo studio delle unita' linguistiche sulla base della loro funzione per i fini della comunicazione. Jakobson in particolare formalizzo' la comunicazione come un processo di trasmissione dell'informazione che ha luogo fra un emittente (sorgente del messaggio) e un ricevente (destinazione del messaggio), dal codice impiegato per rappresentare il messaggio e dal mezzo impiegato per trasmetterlo.
Edward Sapir (1921) reagi' al principio dell'immanenza concependo il linguaggio come un fenomeno estremamente complesso (anche psicologico e sociale). In particolare linguaggio e pensiero risultano funzioni cognitive quantomeno complementari: il primo consente di esprimere il secondo, ma il secondo e' a sua volta influenzato dal primo (da cio' che e' possibile esprimere). Al limite il linguaggio parlato da un individuo e' fondamentale nel determinare la sua visione del mondo.
In parallelo aveva continuato a prosperare la scuola logistica di Frege e Russell, con il suo programma di costruire un linguaggio artificiale. Wittgenstein, invece, riteneva impossibile formalizzare il linguaggio, sostenendo il primato del linguaggio "ordinario", il quale ha origine da una stretta interazione fra linguaggio, utente del linguaggio e mondo dell'utente (Wittgenstein diceva: "non domandatevi quale sia il significato, ma a cosa serva"). George Moore attribui' cosi' una maggiore importanza al senso comune, che e' proprio cio' che si perde quando si tenta di formalizzare della conoscenza. La filosofia analitica si propose allora proprio la missione di analizzare il senso comune.
I risultati piu' significativi in tale direzione vennero dalla teoria illocutoria di Austin e dalla teoria degli universi di discorso di Ryle. Gilbert Ryle sostenne che sia sempre necessario riferire un concetto all'insieme di concetti all'interno del quale e' applicabile: per esempio, il mondo dei fisici, fatto di particelle e forze, appartiene ad un universo di discorso diverso da quello del senso comune, fatto di oggetti e moti, e cosi' i concetti applicabili al primo non sono necessariamente applicabili al secondo e viceversa. John Austin intui' che ogni atto di discorso e' in realta' trino in quanto per ogni frase pronunciata (utterance), si possono distringuere tre tipi di atto: un atto "locutorio", che e' quella frase; un atto "illocutorio", che e' l'azione compiuta implicitamente nel pronunciare quella frase (per esempio, "ordinare", "suggerire", "domandare"); e un atto "perlocutorio", l'effetto di quell' atto nell'interlocutore (per esempio, suggerirgli qualcosa puo' indurlo a compiere un'azione).
Nel 1933 Leonard Bloomfield, influenzato dal bahaviorismo, fondo' il "distribuzionalismo", che si proponeva di studiare il linguaggio basandosi unicamente su dati empirici (le frasi effettivamente osservate) e di interpretarlo senza far ricorso al concetto di "significato": il significato di un'espressione sara' definibile soltanto sotto forma della risposta generata a fronte dello stimolo rappresentato da quell'espressione. Elaborando statisticamente le frasi usate nel linguaggio i distribuzionalisti dimostrarono che erano possibili altre categorie grammaticali oltre a quelle tradizionali (nomi, aggettivi, pronomi, avverbi e cosi' via).
Fu a questo punto che il computer consenti' di simulare numericamente le teorie linguistiche. Nacque cosi' la "Linguistica Computazionale". A dire il vero le prime applicazioni furono soltanto programmi di ausilio ai ricercatori: per esempio, programmi che contavano il numero di volte che una parola compariva in un testo. Il primo progetto ad usare il computer per trattare i fenomeni linguistici in maniera creativo fu quello della macchina "traduttrice", che avrebbe dovuto trascrivere un testo da una lingua all' altra basandosi unicamente sul vocabolario delle rispettive lingue. Il maggiore artefice di questo progetto, Warren Weaver, era stato a capo di un servizio di contro-spionaggio "elettronico" che, servendosi del COLOSSUS, aveva decodificato i messaggi segreti cifrati dell'esercito tedesco. Alla fine della guerra Weaver ebbe l'idea di considerare un linguaggio straniero come una sorta di codice cifrato, e di applicare pertanto le stesse tecniche usate sul COLOSSUS per compiere traduzioni automatiche. I programmi di "machine translation" dimostrarono la debolezza delle teorie linguistiche in voga, perche' esibirono prestazioni ridicole.
Nel 1957 Noam Chomsky critico' il distribuzionalismo in quanto studiava un insieme di frasi che era inevitabilmente inferiore all'insieme di frasi che l'individuo e' capace di articolare. E' ovvio, infatti, che ogni individuo e' in grado di comprendere infinite frasi che non ha mai udito prima (il lettore ha probabilmente capito questa frase, anche se probabilmente e' la prima volta che la vede in vita sua). L'approccio corretto alla grammatica non e' pertanto quello induttivo, che tenta di costruire la grammatica di un linguaggio a partire dalle frasi effettivamente usate in quel linguaggio, ma un approccio deduttivo che da una struttura astratta sia in grado di "generare" tutte le frasi che sono possibili nel linguaggio. Chomsky defini' "grammatica generativa" questa struttura, intendendo che a partire da essa possono essere generate tutte le frasi possibili del linguaggio. Una grammatica generativa e' semplicemente un insieme di regole su come costruire una frase che appartenga a quel linguaggio. Compito della linguistica diventa quello di proporre tali grammatiche e di verificare se esse generano correttamente tutte e sole le frasi che sono possibili.
Anche la dicotomia langue-parole di Saussure trovo' una formulazione piu' corretta. Chomsky sollevo' infatti la distinzione fra "performance"'e "competenza", fra le frasi che un individuo usera' durante la sua intera esistenza (la sua "performance") e le frasi che e' capace di produrre ("la sua competenza") ma che non necessariamente produrra' durante la sua vita. Chomsky sosteneva che il secondo insieme, che e' praticamente infinito, e' quello che conta.
Chomsky si rifaceva a fatti ovvi. Una persona non impara il linguaggio ascoltando tutte le possibili frasi di quel linguaggio, e, anche dopo che la persona ha imparato a parlare, ci saranno sempre frasi che quella persona non ha mai pronunciato o ascoltato ma che e' perfettamente in grado di pronunciare e ascoltare. Ne consegue che esiste una struttura portante del linguaggio, appresa la quale si e' in grado di parlare e capire qualunque frase. Secondo Chomsky, anzi, esiste un livello di competenza del linguaggio (la cosiddetta "grammatica universale") che e' innata, e i bambini non fanno altro che imparare una delle sintassi di superficie disponibili (italiano, inglese, spagnolo, etc). L'innatismo di Chomsky trovava anche una verifica sperimentale nella scoperta che l'emisfero sinistro del cervello era prevalentemente dedicato a funzioni linguistiche.
Nella cosiddetta "teoria standard" del 1965 Chomsky introdusse inoltre una distinzione fra la struttura "superficiale" di una frase e la sua struttura "profonda". Piu' frasi possono avere la stessa struttura di fondo pur essendo "superficialmente" diverse (per esempio, la forma attiva e la forma passiva della stessa azione: "Teresa guarda Aldo", e "Aldo e' guardato da Teresa"). L' idea non era nuova: era stato proprio l' insegnante di Chomsky, Zellig Harris nel 1957, il primo a far notare questa proprieta' dei linguaggi, e a introdurre il termine "trasformazionale", appunto perche' si tratta di trasformare la frase superficiale nella sua struttura profonda.
Dal canto suo Jerrold Katz (1964) ipotizzo' che l'interpretazione del significato di una frase fosse completamente determinata dalla sua struttura profonda: frasi diverse con la stessa struttura profonda devono essere sinonime. Katz propose di utilizzare un "lessico" che, per ogni voce lessicale del vocabolario, fornisse le informazioni sintattiche (ovvero classificasse la parola: sostantivo, verbo, aggettivo, etc.) e le informazioni semantiche ("semantic marker"). Per esempio, "rosa" e' un sostantivo (informazione sintattica) che puo' significare il colore rosa oppure il fiore rosa (informazione semantica). L'inadeguatezza dell'ipotesi di Katz venne subito messa in luce, pero', da esempi banali di frasi che cambiano di significato nel passaggio da forma attiva a forma passiva: "tutte le persona della stanza sanno parlare almeno due lingue" non e' equivalente a "almeno due lingue sono parlate da tutte le persone nella stanza" (la seconda frase implica che tutte le persone parlano almeno le stesse due lingue, mentre la prima consente che ciascuna persona parli lingue diverse da quelle parlate dalle altre persone).
La teoria standard defini' una grammatica come l'insieme di tre componenti: la sintassi e' la componente generativa del linguaggio: genera la sua struttura profonda e la trasforma per produrre la struttura di superficie; la semantica e' la componente "interpretativa": opera sulla struttura profonda e genera i possibili significati; la componente fonologica genera, a partire dalla struttura superficiale, la corrispondente sequenza di suoni.
La grammatica generativa di Chomsky fece compiere un enorme balzo in avanti alla linguistica computazionale, che finalmente poteva trasformare una teoria linguistica in un algoritmo.
Alla grammatica di Chomsky si aggiunsero col tempo altri tipi di grammatiche. Cio' che caratterizza ciascun tipo e' il modo in cui vengono generate le regole sintattiche per combinare le parole in una frase corretta.
Una linea di pensiero a parte e' quella che contesta l'idea stessa della sintassi generativa di Chomsky (secondo la quale prima le regole sintattiche generano la struttura base e poi le regole trasformazionali la convertono nella struttura superficiale). Da un lato Charles Fries sostenne (1952) che il linguaggio viene generato a partire da stereotipi di frase ("sentence frames") che non hanno bisogno di essere generati e che questo spiega la rapidita' della conversazione: la differenza fra padronanza degli stereotipi e padronanza della grammatica e' la differenza fra pratica e teoria, fra esperto e novizio, fra una lingua appresa dal vivo e una lingua appresa a scuola. Dall'altro Petr Sgall (1964) propose una semantica generativa nella quale la struttura base viene generata da regole semantiche, mentre le regole sintattiche la convertono poi in struttura superficiale.
All'innatismo chomskyano si contrappongono diversi sostenitori dell'empirismo, secondo i quali le lingue sono troppo diverse fra di loro per poter ipotizzare l'esistenza di una "grammatica universale" che sia innata in tutti e che presieda allo sviluppo delle singole grammatiche nazionali. All'estremo opposto di Chomsky si situa Skinner, secondo il quale l'apprendimento del linguaggio si potrebbe addirittura compiere sulla base di puro condizionamento stimolo-risposta.
E. Gold nel 1967 ha dimostrato un importante teorema che sembra dar ragione a Chomsky: ogni famiglia contenente tutti i linguaggi finiti e un linguaggio infinito non e' identificabile sulla base unicamente di esempi corretti. E' noto che i bambini imparano il linguaggio a partire dagli esempi di frasi corrette che vengono forniti loro. Gold dimostra che a partire da un insieme, per quanto grande, di tali frasi non e' possibile "indurre" la grammatica di una lingua. Dimostra, cioe', che, se i bambini non avessero della conoscenza innata sulla grammatica, non sarebbero in grado di apprendere nessuna lingua. L'"inferenza grammaticale" e' la teoria secondo la quale la grammatica puo' essere indotta da un certo numero di frasi corrette poiche' esiste un numero limitato di possibili grammatiche e il bambino deve soltanto identificare la grammatica corretta (all'interno di quell'insieme limitato) che e' coerente con le frasi note.
Esistono peraltro confutazioni empiriche e logiche della teoria di Gold. Tramite l'astrazione degli "alberi di predicazione" F. Keil (1979) ha verificato che i bambini apprendono in realta' per gradi, estendendo la loro conoscenza dei concetti nel modo piu' "minimale" possibile: dato un albero di predicazione che descrive i concetti noti e un nuovo concetto, il bambino costruisce l'albero di predicazione che include tanto i vecchi quanto il nuovo concetto e che non contiene nessun altro albero che includa gli stessi concetti. Parallelamente D. Angluin (1978) ha dimostrato che al teorema di Gold si puo' ovviare assumendo che in ogni istante venga indotta la grammatica piu' piccola che e' possibile indurre sulla base degli esempi noti. Questa e' anzi condizione necessaria e sufficiente per l'acquisizione di un linguaggio ricorsivo.
I modelli connessionisti assumono che sia innata una rete di connessioni riguardante il linguaggio e che l'apprendimento di questo o quel linguaggio provochi una specifica configurazione di tale rete tramite rafforzamento o indebolimento delle connessioni rispettivamente utili o inutili a comprendere quel linguaggio.
Piu' correttamente il modello neuro-linguistico prevede che fattori genetici determinino la crescita e lo sviluppo di diversi organi mentali, fra cui quelli che danno luogo alla facolta' linguistica. Questi organi sono in gran parte uniformi per tutti gli individui: due individui che parlino la stessa lingua possono infatti comunicare fra di loro anche su un soggetto che non abbiano mai trattato prima in vita loro. Evidentemente i loro organi mentali hanno qualcosa in comune, ed e' quel qualcosa che consente loro di comunicare con i propri simili indipendentemente dalla loro esperienza passata. Questo "qualcosa" non puo' pertanto essere dovuto all'esperienza del singolo individuo, ma deve essere presente per definizione in tutti gli individui, ovvero innato. Chomsky paragona la capacita' innata di comprendere il linguaggio alla capacita' innata che hanno gli uccelli di volare.
Peirce ricondusse tutta la conoscenza umana al concetto di segno e identifico' tre tipi di segni: indice (che ha un rapporto di causalita' con il suo referente), icona (che ha un rapporto di similarita' con il suo referente), simbolo (che ha invece un rapporto puramente convenzionale con il suo referente). Cosi' il cavallino che denota le Ferrari e' un simbolo (la sua relazione con l'oggetto e' una pura convenzione), mentre la fotografia di una Ferrari appesa nell'ufficio di un concessionario e' un'icona (fra la fotografia e l'auto vera esiste un'ovvia relazione di similarita'). La stragrande maggioranza delle parole che utilizziamo sono simboli: "sedia", "albero", "cielo", "amare" e cosi' via sono tutti segni puramente convenzionali. Il cinema fa invece spesso ricorso agli indici: nuvole scure preannunciano la pioggia, la cenere in un portacenere segnala la recente presenza di qualcuno nella stanza, e cosi' via.
Nel 1938 Morris ridefini' i livelli a cui si puo' studiare un linguaggio di segni: la sintassi, che studia la relazione fra segni e segni ("la" e' un "articolo", "rosa" e' un "sostantivo", "bianca" e' un "aggettivo"), la semantica, che studia la relazione fra segni e oggetti ("la rosa e' bianca" significa che c'e' una rosa bianca), la pragmatica, che studia la relazione fra segni, oggetti e utenti ("la rosa e' bianca" puo', per esempio, essere detto per correggere qualcuno che aveva appena sostenuto che fosse rossa).
Da un lato la semiotica ha studiato i segni come mezzo di comunicazione (Luis Prieto), per esempio l'alfabeto Braille e i segnali stradali, dall'altro e' stata invece utilizzata per investigare i fenomeni socio-culturali (Roland Barthes), dal cinema alla letteratura. La prima accezione in particolare ha contribuito alla teoria della comunicazione esplorando i concetti di "codice" e di "messaggio". Un codice e' definito come un insieme di simboli (l'"alfabeto") e un insieme di regole ("grammatica"). Il codice mette in relazione un sistema di significanti (di espressioni) con un sistema di significati (di contenuti). Un messaggio e' definito come un insieme di simboli dell'alfabeto ordinato secondo le regole della grammatica. Il linguaggio puo' essere visto come un caso particolare di comunicazione e pertanto essere ricondotto a questo tipo di analisi. Una frase diventa un processo di codificazione (per chi la pronuncia) e decodificazione (per chi la ascolta).
Nel 1984 James Fetzer ha proposto di generalizzare semioticamente l'ipotesi di Newell e Simon e di postulare che la mente umana sia un elaboratore di segni, invece che soltanto un elaboratore di simboli. Se definiamo un "sistema" in generale come un insieme di oggetti dotato di una configurazione e un "sistema causale" come un insieme di oggetti la cui configurazione e' data da relazioni causali fra i suoi oggetti, un "sistema semiotico" puo' essere caratterizzato come un sistema causale il cui comportamento puo' essere influenzato da segni che si riferiscono ad esso. Se la mente umana e' un sistema semiotico, e sapendo che il computer e' un sistema soltanto simbolico, occorre prima riuscire ad inventare una macchina che possa fungere anche da sistema semiotico. Questa posizione ha degli aspetti intuitivamente interessanti: condizione necessaria affinche' un sistema causale possa essere anche un sistema semiotico e' che esso possa commettere errori... una delle poche cose che un computer certamente non sa fare e che la mente umana certamente fa spesso.
Nel 1925 Luitzen Brouwer inizio' a rifondare la matematica negando qualsiasi valore al potere inferenziale del linguaggio formale e limitandosi ad utilizzare concetti che rappresentassero oggetti reali. A dare statura scientifica al programma intuizionista fu Arend Heyting (1930), che lo ricondusse altresi' nell'ambito dei linguaggi formali. La logica intuizionista parte dal presupposto che una formula sia un'asserzione sulla possibilita' di costruirla mentalmente. Vengono pertanto banditi tutti gli espedienti logici che non possono essere costruiti, a partire dalla negazione di una proposizione vera e compresa la stessa dimostrazione per assurdo (secondo la quale la negazione della negazione di una verita' e' ancora una verita'), due operazioni che utilizzano concetti che non e' possibile costruire mentalmente. Alcuni teoremi della logica classica non sono pertanto tali nella logica intuizionistica.
Il significato di un'espressione non sta nelle sue condizioni di verita', ma nel modo di dimostrarla. Gli operatori logici vengono coerentemente definiti specificando non la relativa tabella di verita', ma come possano essere dimostrate le espressioni che li contengono. Cosi', per esempio, "p OR q" significa che una dimostrazione di "p OR q" e' una dimostrazione di p oppure una dimostrazione di q. Il quantificatore universale "per-ogni X e' vero che p(X)" significa che la dimostrazione di "per-ogni X e' vero che p(X)" e' una funzione di costruzione che, applicata a un particolare X1, fornisce una dimostrazione di p(X1).
La teoria dei tipi di Per Martin-Lof (1973) formalizzera' il metodo costruttivo delle dimostrazioni matematiche (ovvero definira' meglio quelle "funzioni di costruzione"): le proposizioni di tipo A sono l'insieme P(A) delle dimostrazioni di A; allora se A1 e' un oggetto di tipo A, e' possibile interpretare A come un problema (o, meglio, come la specificazione di un problema) e A1 come uno specifico programma che lo puo' risolvere. La teoria dei tipi si riduce cosi' a una teoria della programmazione (con un linguaggio di programmazione assai simile al calcolo Lambda) che costituisce uno strumento per la specificazione, costruzione e verifica di programmi.
Un altro derivato indiretto del pensiero intuizionista (che la verita' possa essere stabilita soltanto attraverso un processo di "falsificazione" e di "verificazione") e' la semantica di Jaakko Hintikka (1973), detta "game-theoretic" per distinguerla da quella proof-theoretic di Frege e da quella model-theoretic di Tarski, che accetta la logica dei predicati, ma la personalizza ad ogni specifico dominio in cui venga utilizzata. Il problema non e' tanto quello di decidere cosa sia lecito o non lecito calcolare, ma come sia lecito stabilire se alla fine l'espressione calcolata e' vera o falsa. Nella semantica game-theoretic la verita' di un'espressione viene stabilita attraverso un insieme di regole semantiche dipendenti dal dominio. Le regole definiscono un "gioco" fra due agenti, il primo intenzionato a "convalidare" e il secondo a "refutare" l'espressione. L'espressione e' vera se vince il primo agente. Siccome le regole dipendono dal dominio, la semantica puo' essere personalizzata, e al limite puo' diventare anche quella degli intuizionisti. Al tempo stesso la personalizzazione costituisce uno strumento efficiente per rendere piu' rapida la computazione: le regole possono infatti specificare l'euristica che rende accettabile, benche' non esatto, un certo tipo di ragionamento nel contesto di quel dominio. Mentre nella logica classica occorre prendere in considerazione tutte le strade possibili prima di poter affermare di aver dimostrato un teorema, nella semantica game-theoretic e' possibile impiegare delle regole che stabiliscono quando il teorema puo' considerarsi "sufficientemente" dimostrato.
Wittgenstein nel 1953 fece a sua volta notare come sia intuitivo classificare nella stessa categoria concetti che in realta' non hanno quasi nulla in comune, e porto' l'esempio dello sport. E' chiaro che il calcio, la pesca, il solitario a carte, gli scacchi sono tutti esempi della categoria "sport", ma non e' chiaro quale sia la caratteristica che li accomuna: non tutti sono competitivi e non tutti sono esercizi fisici, mentre d'altro canto alcuni sono individuali e altri no, alcuni si svolgono all'aperto e altri no. Cio' che fa raggruppare calcio, pesca, scacchi e solitario sotto la stessa categoria non e' tanto la presenza di alcune caratteristiche comuni quanto la somiglianza fra di loro. La memoria produrrebbe cioe' categorie attraverso una qualche forma di affinita' piuttosto che attraverso un rigido processo di classificazione.
La psicologia cognitiva degli anni Sessanta, ispirandosi a lavori gestalt-iani (in particolare quelli sull'auto-correzione della mente umana di Kenneth Craik del 1943, quelli sul ragionamento di Karl Duncker del 1945, quelli sulla memoria di George Miller del 1956 e quelli sulla percezione di Wertheimer del 1958-59), adotto' il paradigma dell'elaborazione dell'informazione (per l'esattezza dopo che nel 1958 Donald Broadbent aveva proposto un modello di interazione fra sensori e memoria basato su quel paradigma).
Cosi' Harry Jerison (1973), per esempio, definisce l'intelligenza come la capacita' totale di elaborazione di informazione di cui e' dotato un organismo. Non solo l'intelligenza non e' piu' un fenomeno esclusivamente umano, ma Jerison ipotizza anzi una teoria filogenetica dell'intelligenza che faccia discendere quella umana dal comportamento delle specie inferiori tramite i soliti meccanismi dell'adattamento (come aveva gia' sostenuto Thomas Huxley nel 1863), basandosi sull'evidenza empirica dei crani fossili (ovvero sulla scoperta del processo dell'encefalizzazione). Ogni nicchia ecologica causa un processo evolutivo che seleziona un insieme di attributi, uno dei quali e' l'intelligenza. L'intelligenza risulta essere semplicemente uno dei tanti fattori biologici che concorrono a definire l'evoluzione della specie. In alcune nicchie ecologiche l'intelligenza puo' essere piu' importante e in altre meno. Per esempio alcune specie di scimmie esibiscono un tipo di intelligenza "linguistica" simile a quella umana, ma cio' non le rende piu' efficaci di altre specie nell'ambiente naturale di queste. L'intelligenza diventa pertanto un concetto molto relativo: l'intelligenza necessaria ad elaborare l'informazione di una certa nicchia ecologica puo' essere del tutto diversa da quella necessaria in un'altra nicchia.
La teoria ontogenica dell'intelligenza di Robert Siegler (1976) ipotizza altresi' che l'intelligenza di un individuo si sviluppi attraverso l'acquisizione dall'ambiente di regole via via piu' complesse. In ogni istante l'individuo si trova in un certo stato di conoscenza e puo' applicare quello stato ad una nuova situazione per dedurre quale regola utilizzare. Se la regola si rivela sbagliata, lo stato di conoscenza viene aggiornato con una nuova regola.
Tuttora irrisolto e' il dilemma su quanto contribuiscano rispettivamente la genetica e l'ambiente all'intelligenza di un individuo. Dal primo studio statistico di Barbara Burks sui figli adottati (1928) fino ad oggi si sono susseguiti dati controversi e contrastanti.
Per esempio, Joseph Altman (1978) ha tentato una localizzazione gerarchica delle funzioni cerebrali: il paleoencefalo (la parte dominante nei pesci e nei vertebrati inferiori) costituisce il livello "patico" al quale vengono prodotte le risposte a stimoli immediati; il neencefalo (la corteccia cerebrale, dominante nei mammiferi) costituisce il livello "iconico" al quale si genera il senso dell'io, la coscienza di esistere; l'antropocefalo (l'emisfero dominante del cervello umano) costituisce il livello "noetico" al quale si svolgono le attivita' di linguaggio.
Nel 1969 il neurologo Henri Hecaen e il linguista Armand Dubois, fondendo la neuropsicologia alla linguistica, diedero vita alla neurolinguistica, la cui missione e' di studiare i disordini di carattere linguistico causati da lesioni cerebrali e il cui fine e' di scoprire la struttura anatomica delle funzioni linguistiche. Gli studi di Vygotsky (1937) sul rapporto fra pensiero e linguaggio originarono a loro volta la psicolinguistica, interessata appunto a capire come il pensiero venisse trasdotto dalla mente in comportamento verbale. Alexander Luria, un discepolo di Vygotsky, applico' la neurolinguistica alla psicolinguistica, ovvero tento' di pervenire alla comprensione dei meccanismi linguistici tramite il metodo delle lesioni cerebrali. Luria comprese in tal modo che la produzione di un atto verbale e' un processo estremamente complesso al quale partecipano funzioni assai diverse, distribuite in punti diversi del cervello. Una lesione in un certo punto causa infatti la perdita di una qualche funzione linguistica, ma senza compromettere il grosso delle capacita' di comprensione ed espressione dell'individuo.
La neurolinguistica ha trovato una missione ben precisa dopo che George Miller (nel 1962) ha sostenuto che le regole "trasformazionali" delle grammatiche di Chomsky corrispondano a processi mentali compiuti durante la comprensione del linguaggio. Nel 1974 Fodor ha confortato questa tesi quando ha avanzato l'ipotesi che la percezione di una frase contempli un processo atto a reperirne la struttura profonda.
La scuola fisicalista studia invece gli stati fisici e pertanto la struttura neurobiologica del cervello. In questo modello lo stato mentale viene identificato con lo stato fisico: ogni stato mentale e' "realizzato" da uno stato fisico. Il fisicalismo trascura il paradosso della "multiple-realization": lo stesso algoritmo puo' essere eseguito da diversi macchinari (nonche' esseri umani) attraverso stati fisici diversi. Strutture diverse possono dar origine allo stesso comportamento.
Questo paradosso e' stato verificato sperimentalmente: il cervello e' spesso in grado di sostituire una sua parte danneggiata con altre parti in modo che la funzione mentale corrispondente sia ancora possibile. Per tale ragione la terza di queste scuole, quella funzionalista, propone di identificare gli stati mentali con gli stati funzionali del cervello, e che essi abbiano una funzione causale (per esempio, avere fame spinge a cercare del cibo). Tali stati mentali saranno allora definiti da input, output e dalla relazione causale con altri stati mentali. Dal punto di vista computazionale cio' equivale a stabilire un primato del software sull'hardware.
Il funzionalismo ricade pero' nel problema millenario dell'"homunculus": il suo modello presuppone l'esistenza di agenti mentali in grado di compiere le stesse operazioni mentali che il modello intende spiegare. Daniel Dennett ha risolto questo problema supponendo l'esistenza di una gerarchia di homunculi, via via meno cognitivi, fino ad un livello in cui si e' persa qualsiasi capacita' cognitiva. Ogni livello contribuisce a realizzare il livello superiore: l'esistenza di homunculi ai livelli superiori e' puramente illusoria, perche' essi sono (in ultima analisi) il prodotto molto complesso di molte strutture non cognitive del livello piu' basso.
Per ora lo scopo delle teorie computazionali della mente non sembra essere tanto quello di costruire un modello computazionale della mente quanto quello di dimostrare che cio' sia possibile. Se vogliamo, tutto ebbe origine da un'affermazione di Descartes del 1637: la macchina non potra' mai pensare perche' non sara' mai in grado di rispondere a qualsiasi domanda con la stessa proprieta' dell'uomo. Il "test di Turing" non fa che usare quell'affermazione come un metodo per verificare se la macchina possa diventare intelligente.
Il test di Turing origina da un approccio tipicamente behaviorista: se il comportamento della macchina e' uguale al comportamento della mente, allora la macchina e' intelligente. Il test si presta a due critiche di segno opposto. Secondo alcuni il test e' troppo difficile: e' veramente necessario saper rispondere a tutte le possibili domande per essere intelligenti? Secondo altri e' troppo facile: Block ha proposto la costruzione di una macchina ideale che sia stata istruita a rispondere a ogni possibile domanda secondo certi standard di conversazione, e che pure non sarebbe paragonabile all'intelligenza umana.
Il paradosso di Searle del 1980 e' quello che meglio riassume la critica. Supponiamo di voler stabilire non l'intelligenza di una macchina ma la conoscenza della lingua cinese di cui e' dotato un soggetto, e supponiamo di applicare il metodo behavorista di Turing chiudendo in una stanza il soggetto e lasciando che un cinese gli ponga domande di qualsiasi natura: se il soggetto sara' in grado di rispondere a tutte le domande, il cinese ne dedurra' che comprende la lingua cinese. Ma supponiamo che il soggetto non abbia alcuna idea di cosa sia la lingua cinese, ma, molto semplicemente, sia stato dotato di un manuale che spiega come rispondere ad ogni stringa di simboli cinesi: data una certa stringa di simboli, elaborarla in certi modi per produrre una nuova stringa di simboli e rispondere con questa nuova stringa. In apparenza il soggetto esibira' la capacita' di comprendere la lingua cinese, nonostante sia evidente che "non sa" il cinese. Analogamente Searle valuta il test di Turing: se anche mai si costruisse un elaboratore simbolico in grado di elaborare i simboli di una domanda e produrre correttamente i simboli della risposta, si trattera' sempre e soltanto di un elaboratore di simboli, non di un essere intelligente.
Sono state mosse diverse critiche al paradosso di Searle. Da un lato c'e' chi ha fatto notare che si tratta di una tautologia. Searle assume che il trascodificatore non capisca il cinese, mentre e' cio' che dovrebbe dimostrare. Se gli chiedesse in cinese "capisci il cinese"?, il trascodificatore risponderebbe di si'. In realta' Searle non ha modo di dimostrare che l'uomo non capisce il cinese, a meno di postularlo fin dall'inizio.
D'altro canto si puo' anche far notare un'imprecisione nella stessa esposizione del test: il trascodificatore non e' intelligente, ma il trascodificatore "piu'" le regole di trascodifica (ovvero "la stanza" nel suo insieme) lo sono.
Ma nessuna di queste critiche puo' cambiare il punto fondamentale del pensiero di Searle: un sistema che si limiti ad elaborare simboli, senza avere "coscienza", non puo' essere considerato equivalente a un essere pensante, anche se la sua performance lo fosse. Il problema e', insomma, che il computer non sta capendo che sta capendo. Si puo' interpretare questa posizione come "un processo computazionale non puo' essere un processo mentale"; o, in altre parole, "una mente non e' un programma".
Elhanan Motzkin ha riassunto un'altra linea di pensiero in questo modo. Chiedersi se un computer sia intelligente e' come chiedersi se una commedia faccia ridere: e' l'autore, non il testo, a farci ridere. E' il programmatore, non il programma, ad essere intelligente. (A questa obiezione gli informatici hanno pero' una risposta pronta: e se il programmatore fosse a sua volta una macchina? Esistono gia' macchine che programmano altre macchine).
Donald Donaldson ha attaccato il problema da un altro punto di vista: cosa bisogna aggiungere a un computer affinche' possa essere considerato intelligente? quando un essere non intelligente diventa intelligente? La domanda duale e': cosa possiamo togliere a un essere umano senza che per questo smetta di essere intelligente? Fra le proprieta' "sottraibili" possiamo elencare l'origine, la materia, la forma. Fra le proprieta' indispensabili emerge l'intenzionalita', che, non a caso, e' secondo Dennett anche la vera molla del paradosso di Searle. Naturalmente si possono elencare altre proprieta' che qualificano un agente come "cognitivo", per esempio il senso dell'io.
Come ha scritto Fred Dretske (1985): un computer non sa "cio'" che sta facendo, pertanto "quello" non e' cio' che sta facendo. Per esempio, un computer non "calcola" che 5 piu' 7 fa 12: da una rappresentazione fisica del numero 5, da una rappresentazione fisica del numero 7 e da una rappresentazione fisica dell'operatore di addizione ricava una rappresentazione fisica che e' quella del numero 12.
Altre critiche al programma dell'Intelligenza Artificiale sono state mosse dal punto di vista dei sistemi formali. Nel 1961 Lucas aveva gia' ripreso il teorema di Godel, facendo notare come esso stabilisca un chiaro primato della mente umana sulla macchina: alcune operazioni matematiche non sono computabili (in ogni sistema formale esiste almeno una proposizione che non puo' essere dimostrata), eppure la mente umana riesce a trattarle, o quantomeno a dimostrare che non sono computabili. Ergo la mente umana puo' calcolare cose che la macchina non puo' calcolare. (D'altro canto una macchina potrebbe compiere quella dimostrazione relativamente ad ogni altra macchina, e pertanto essere equivalente alla mente umana).
Nel 1979 Hubert Dreyfus ha attaccato il programma dell'Intelligenza Artificiale da una prospettiva fenomenologica. Riallacciandosi a Husserl, Dreyfus sostiene che la comprensione non puo' mai prescindere dal contesto in cui avviene. Per di piu' tale contesto e' dato da un coacervo di situazioni storico-culturali che hanno a che vedere con l'esperienza di ciascun individuo, le quali (seguendo Heidegger e il secondo Wittgenstein) non e' possibile formalizzare e pertanto non e' possibile rappresentare alla macchina.
Infine alcuni pensatori tendono a negare la possibilita' che la mente umana possa comprendere se stessa, o, in termini computazionali, che un automa possa spiegare il proprio funzionamento, o ancora, in termini logici, che un sistema formale possa derivare dai propri teoremi gli assiomi e le regole di inferenza che lo definiscono. La mente avrebbe cioe' un limite fisiologico che le impedirebbe di poter comprendere se stessa. Se le mie facolta' cognitive sono modellate sulla necessita' di sopravvivere, come hanno sostenuto un po' tutti da William James in poi, e' probabile che quella di comprendere il loro stesso funzionamento sia del tutto inessenziale a quei fini e pertanto non sia presente. D'altro canto il fatto che io stia scrivendo questo libro non pare aver nulla a che fare con la lotta per la sopravvivenza o l'adattamento al mio ambiente, eppure e' un fatto che io lo stia scrivendo (e che il lettore lo stia leggendo).
Qualunque sia l'opinione in merito, non bisognerebbe mai dimenticare che la disciplina dell'Intelligenza Artificiale e' innanzitutto una tecnologia, in quanto dipendente dall'esistenza di una macchina, e tale tecnologia e' suscettibile di sviluppi oggi inimmaginabili. Alcune delle critiche mosse al programma dell'Intelligenza Artificiale sono dovute a semplici limiti tecnologici. E' come se qualcuno, secoli fa, avesse sostenuto l'impossibilita' di costruire macchine volanti. Oggi gli aerei non sono solo possibili, sono anche molto diffusi. Per esempio, molti sembrano non essere al corrente dell'esistenza di computer con architettura parallela, in grado cioe' di eseguire piu' di una istruzione alla volta e pertanto di superare una delle limitazioni piu' criticate dell'architettura di Von Neumann. Un esempio classico di scarsa preveggenza fu il ragionamento di Yehoshua Bar-Hillel il quale, convinto assertore dell'importanza del contesto, nel 1960 affermo' che un computer, per poter comprendere il linguaggio umano, avrebbe dovuto non solo disporre dell'intero dizionario della lingua, impresa che gia' pareva impossibile, ma addirittua dell'Encyclopaedia Britannica: oggi una banale unita' CDROM, disponibile per molti personal computer, puo' comodamente contenere tutti i volumi di quella e molte altre enciclopedie.
Messa in questi termini la questione, non e' facile rispondere alla domanda "dimmi una cosa che sara' sempre impossibile, qualunque sia il progresso della tecnologia". L'unico modo per dimostrare l'impossibilita' di qualcosa e' quello di dimostrarne la contraddittorieta' in un sistema formale che rappresenti l'universo. Ammesso e non concesso che sia nei poteri di qualcuno costruire tale sistema formale, bisognera' riuscire a dimostrare che una macchina intelligente e' una proposizione falsa in quel sistema.
E' indubbio che Descartes quando paragonava la mente umana alle fontane, Freud quando prendeva a modello un sistema idraulico, Pavlov quando faceva l'esempio del centralino telefonico e Wiener quando studiava la macchina a vapore erano tutti profondamente influenzati dalla tecnologia del loro tempo. Ogni innovazione tecnologica esercita un fascino incalcolabile sugli uomini di cultura, fosse anche solo perche' si tratta di un dato di fatto, tangibile e inconfutabile, e non di una semplice ipotesi. E' naturale che si sia tentato di riportare il sistema complesso a noi noto, e cioe' la nostra stessa mente, al sistema artificiale piu' avanzato di volta in volta disponibile. Tale sistema e' oggi il computer, ma nulla ci consente di escludere che domani il computer ci appaia tanto inadeguato quanto il sistema idraulico di Freud o il (non tanto remoto) centralino telefonico di Pavlov. Cio' sara' imputabile unicamente alla scarsa immaginazione dei pensatori di oggi, non alla piu' o meno grande probabilita' di penetrare i segreti della mente e di costruire macchine intelligenti.
Piu' seri appaiono i limiti imposti alla computazione. Anche a prescindere dal teorema di Godel e dalle sue conseguenze, la teoria quantitativa della complessita' computazionale dice semplicemente che certi risultati, possibili in teoria, rimangono impossibili nella pratica. Per esempio, la classe dei problemi di Tarski non e' soggetta al teorema di Godel: e' infatti decidibile ogni frase nell'insieme dei numeri reali che faccia uso soltanto di operatori aritmetici, confronti, operatori booleani e quantificatori; il tempo necessario per eseguire un algoritmo capace di decidere il valore di verita' di una frase di Tarski cresce pero' esponenzialmente con la lunghezza della proposizione. In altre parole, anche se si riuscissero a superare tutti gli ostacoli teorici alla costruzione di macchine intelligenti, rimarrebbero da risolvere problemi pratici che potrebbero rendere semplicemente inutile la costruzione di tali macchine. E' come se, per congiungere le due rive di un fiume, fosse necessario costruire un ponte alto cento chilometri: anche quando gli ingegneri fossero certi di poterlo realizzare, converrebbe continuare ad aggirare il fiume passando da un ponte piu' a monte.
Il fatto e' tanto piu' grave se si pensa che l'"utilita'" di costruire macchine intelligenti dovrebbe risiedere nella loro capacita' di prendere decisioni. La severita' di una situazione aumenta esponenzialmente con il tempo impiegato a prendere la decisione...
Un limite computazionale insormontabile e' stato proposto anche da Roger Penrose nel 1990. Secondo Penrose nel cervello esiste un livello quanto-meccanico che, semplicemente, non e' Turing-computabile.
La teoria computazionale della mente che e' stata in voga dagli anni Sessanta agli anni Ottanta e' figlia del funzionalismo di Craik. Partendo dal presupposto che la mente sia composta di elaboratori simbolici, gli output degli stati vengono calcolati unicamente manipolando le loro strutture rappresentazionali. Piu' precisamente, Jerry Fodor ha definito la teoria della computazione in questo modo: i processi mentali sono computazioni; le computazioni sono operazioni finite su rappresentazioni; e' la struttura di una rappresentazione, non il suo contenuto, a determinare il corso della computazione.
Continua a mancare pero' una teoria globale dell'Intelligenza. Humphreys ha posto l'enfasi sul fatto che l'Intelligenza, a differenza della memoria e di altre facolta' cognitive misurabili, e' una pura astrazione. Jensen ha sottolineato l'importanza del background storico e sociale. Per esempio, non molti anni fa la capacita' di eseguire conti molto velocemente era considerata una delle indicazioni piu' ovvie di grande intelligenza, ma l'avvento dei computer ha di fatto ridimensionato queste capacita'. Al tempo stesso la moderna societa' capitalista ha fatto aumentare il valore delle capacita' di marketing e di vendita, riducendo invece quello delle capacita' creative in generale. Il significato di "intelligenza" dipende dall'era in cui si vive.
Un modo semplice per spiegare la differenza fra la Scienza Cognitiva e la disciplina dell'Intelligenza Artificiale e' di dire che che la seconda studia, appunto, un'intelligenza che e' "artificiale", mentre la prima studia quella "naturale". Piu' propriamente la Scienza Cognitiva fa riferimento al principio di equivalenza "forte": due processi sono equivalenti in maniera forte se esibiscono lo stesso comportamento utilizzando la stessa rappresentazione e lo stesso algoritmo, ovvero (di conseguenza) se le loro architetture interne sono identiche. L'Intelligenza Artificiale simula i processi cognitivi da un punto di vista molto lato, con il requisito di ottenere lo stesso comportamento (output a fronte di input), ma senza necessariamente porsi l'obiettivo di replicare il modo in cui si comporta internamente il processo cognitivo (il modo in cui quell'output viene calcolato a partire da quell'input). In pratica la Scienza Cognitiva tenta di trasformare in scienza "forte" le speculazioni sull' intelligenza compiute in maniera assai "debole" da psicologi e filosofi di varia natura. Cio' che la disciplina dell'Intelligenza Artificiale e la Scienza Cognitiva hanno in comune e' il postulato della rappresentazione: gli input danno luogo nel cervello a una qualche forma di rappresentazione simbolica, che deve poi essere elaborata per trasformare quei simboli in nuovi simboli e alla fine in un output.
La scienza cognitiva si e' concentrata sostanzialmente su modelli della memoria. Tanto per le facolta' inferenziali quanto per quelle linguistiche il punto di partenza e' come la mente "ricordi", come metta da parte le informazioni utili e come sia poi in grado di reperire quelle informazioni all'occorrenza.
I primi modelli cognitivi possono essere considerati quello di Craik (1943) e quello di Broadbent (1958). Entrambi postulavano che il cervello fosse dotato di strutture di rappresentazione e che il pensiero consistesse nell'operare su tali strutture.
Il "modello standard" della Scienza Cognitiva prevede due tipi di memoria, come intuito per la prima volta da William James nel 1890: quella a breve termine ("short-term memory") e quella a lungo termine ("long-term memory"). La prima e' caratterizzata da un tempo di accesso molto piccolo (un terzo di secondo) e da una capacita' assai limitata (circa sette blocchi, o "chunk", di informazione). La short-term memory rende conto del fatto che per alcuni minuti ricordiamo perfettamente alcuni eventi, i quali tendono poi ad essere poco a poco dimenticati. Hamilton fu il primo a notare come sia difficile ricordare piu' di sette cose allo stesso tempo, e George Miller nel 1956 formalizzo' questo fenomeno fornendo una stima quantitativa dei "chunk" di informazione che la memoria e' in grado di trattare istantaneamente, appunto circa sette.
La seconda memoria e' invece caratterizzata da un tempo di accesso molto piu' elevato (circa otto secondi per memorizzare un'informazione e circa due per prelevarne una) e da un'architettura di tipo associativo. Il modello delle memorie associative fa ricorso a due principali astrazioni: lo "schemata", un tipo di memoria dichiarativa che sostanzialmente associa a un concetto una sua lista di proprieta', e la "produzione", un tipo di memoria procedurale che esprime una relazione fra condizione e azione (o, in altri termini, fra stimolo e risposta). L'ipotesi delle due memorie e' stata confermata da studi recenti (1970) sull'amnesia.
Nel 1971 Broadbent ha introdotto un'importante novita' nel modello standard, un modello di short-term memory secondo il quale essa contiene non chunk di informazione, ma puntatori a chunk di informazione che si trovano invece nella long-term memory. Cio' spiegherebbe perche' la short-term memory non riesca a ricordare immagini non riconducibili a quelle note. La proprieta' fondamentale dei chunk di cui parlava Miller non sarebbe la loro dimensione, ma la loro familiarita': un'immagine insolita non potrebbe essere un chunk, per quanto semplice essa sia, mentre una frase molto complessa (per esempio una strofa di una poesia imparata a memoria da bambino) potrebbe essere un chunk se e' molto familiare, per quanto grande essa sia. Il termine "memoria di lavoro" ("work memory") ha pertanto preso il posto di quello short-term memory, perche' meglio rappresenterebbe i risultati sperimentali (per esempio nel modello di Alan Baddeley del 1974).
Secondo Endel Tulving (1972), infine, per intensione ed estensione esistono due categorie di memoria ben distinte: la memoria episodica contiene episodi e scene, ovvero l' estensione dei concetti, mentre la memoria semantica contiene concetti universali, ovvero la loro intensione.
Se questa e' la fisionomia generale del modello standard, variano invece da ricercatore a ricercatore i dettagli su come essa funzioni. Alcuni requisiti possono pero' essere posti a comun denominatore di ogni ricerca del campo. Affinche' possa essere considerata valida, un'architettura cognitiva deve esibire almeno queste caratteristiche: la sua struttura deve essere flessibile, il suo comportamento deve essere funzione dell'ambiente e deve essere adattativo, i suoi responsi devono avvenire in tempo reale, deve rendere conto della coscienza di se', deve consentire facolta' di comunicazione, deve essere capace di costruire astrazioni.
Il paradigma piu' accettato e' quello proposto da David Marr e detto della "strada alta" per distinguerlo da quello della "strada bassa" proprio della psicologia sperimentale. Marr separa tre livelli: quello della computazione (a questo livello si tenta di costruire una teoria dei task), quello dell'algoritmo (a questo livello si tenta di costruire teorie dell'algoritmo utilizzato per eseguire il task) e quello del meccanismo (teorie del meccanismo che esegue l'algoritmo). Marr chiama "tipo I" le teorie relative al livello della computazione e la Scienza Cognitiva si focalizza appunto su questo livello e questo tipo di teorie.
Fra le architetture piu' importanti proposte all'inteno della Scienza Cognitiva vanno ricordate almeno EPAM (1963) di Edward Feigenbaum, il primo modello computazionale che rendesse conto di un fenomeno psicologico (utilizzava una cosiddetta "rete di discriminazione" per simulare l'apprendimento e la memorizzazione di sillabe), ACT (1976) di Anderson e SOAR (1984) di Paul Rosenbloom. Fondamentale per tutti questi modelli e' il concetto di "pianificazione" ("planning") introdotto da Miller nel 1960: ogni organismo possiede un processo gerarchico che controlla l'ordine in cui le operazioni vengono eseguite.
Gran parte dei modelli cognitivi si rifanno al pradigma del "sistema di produzione". I sistemi di produzione rappresentano la conoscenza sotto forma di un insieme di "regole di produzione". Una regola di produzione associa una condizione ad un'azione. I sistemi di produzione sono computazionalmente equivalenti a una macchina di Turing, anzi Emil Post nel 1941, studiando la ricorsione, propose di utilizzare regole di produzione per rappresentare tutto cio' che e' computabile. A rendere popolari i sistemi di produzione furono Allen Newell e Herbert Simon nel 1960 con il sistema GPS.
ACT, per esempio, dispone di due long-term memory, una ("dichiarativa") per ricordare le esperienze e l'altra ("produttiva") per ricordare gli skill. I fatti della memoria dichiarativa vengono semplicemente richiamati nella working memory quando servono, e a loro volta nuovi fatti possono essere registrati nella memoria dichiarativa. Le regole della memoria produttiva possono essere richiamate dalla working memory, ma possono anche richiamarsi l'un l'altra (l'azione dell'una puo' far verificare la condizione di un'altra). ACT assume che inizialmente esista soltanto memoria dichiarativa e che le regole della memoria produttiva si formino con l'esperienza. Questo secondo fenomeno e' particolarmente importante, perche' rende conto del miglioramento progressivo delle prestazioni. Anderson si riferisce ad esso con il termine "compilazione della conoscenza", intendenco con cio' che la conoscenza e' inizialmente rappresentata sotto forma "dichiarativa" ma viene progressivamente trasformata in conoscenza "procedurale" e progressivamente consolidata in "chunk" via via piu' complessi. Per esempio, dalla conoscenza dichiarativa di come si fa a pedalare si passa alla conoscenza procedurale di come si fa ad andare in bicicletta (e da quel momento non sara' piu' necessario ragionare per riuscire a farlo) e poi a una padronanza sempre piu' completa e disinvolta del mezzo (dovuta a un chunk sempre piu' complesso).
I concetti fondamentali di SOAR sono invece quelli di "subgoaling" e di "chunking". SOAR traduce ogni problema nella ricerca della sequenza di operatori che possono trasformare il problema nella soluzione desiderata. Ogni volta che si verifica un'impasse, SOAR genera un sotto-problema che ha per obiettivo di trovare una sotto-soluzione. SOAR procede ricorsivamente in questo "subgoaling" universale. Ogni volta che un'impasse viene superata, SOAR genera anche una nuova regola di produzione, che allo "stimolo" di quel problema da risolvere associa come "risposta" la soluzione trovata, in modo tale che la prossima volta l'impasse possa essere evitata: questo e' il processo di "chunking".
Il modello del sistema di produzione discende dal modello originale di Newell, formalizzato soltanto nel 1981, ma implicito in tutti i suoi lavori precedenti. Newell ipotizza che ogni sistema simbolico fisico sia composto da una gerarchia di livelli di elaborazione, da quello materiale che ubbidisce alle leggi dell'elettronica o della biologia a quello dei simboli, che nei computer e' quello a cui si scrivono i programmi. Tramite il livello dei simboli e' poi possibile costruire un livello superiore detto "livello di conoscenza". A tale livello operano "agenti" razionali: un agente e' composto da un "corpo di conoscenze", da alcuni obiettivi (goal) che deve conseguire e da alcune azioni che puo' compiere. L'agente elabora la sua conoscenza per decidere quali azioni compiere. Il suo comportamento e' determinato dal "principio di razionalita'": le azioni vengono scelte in modo da conseguire gli obiettivi. Newell definisce pertanto "conoscenza" cio' che puo' essere elaborato da un agente per determinare il proprio comportamento in base al principio di razionalita'.
Un modello alternativo a quello gerarchico di Newell e' quello reticolare della "societa' delle menti" (1977) di Marvin Minsky. Nella societa' delle menti tanti semplici agenti, per lo piu' dotati di pochissima o nessuna intelligenza, collaborano a produrre risultati estremamente complessi e "intelligenti". In maniera simile alla gerarchia di homuncoli immaginata da Dennett, la mente sarebbe una societa' di agenti specializzati inter-comunicanti organizzati secondo una gerarchia burocratica, e la personalita' dell'individuo sarebbe determinata da uno stato di equilibrio di questo complesso sistema di interazioni. Piu' precisamente Minsky descrive il cervello come un lattice di nodi in cui l'informazione tende a propagarsi verso l'alto: ogni agente puo' passare la propria informazione soltanto ai nodi vicini o a quello superiore, ma non a quelli inferiori. Dal punto di vista di ogni agente esiste quindi una piramide che rappresenta un sistema chiuso, esattamente come in una burocrazia. Il lattice puo' pero' essere composto da molte di queste piramidi di dimensioni differenti. Quando alla rete perviene un segnale di input, gli agenti passano un certo tempo a scambiarsi messaggi e ad aggiornare di conseguenza la propria informazione. Quando la rete converge a uno stato stabile, l'input e' stato elaborato.
Il modello di Minsky spiega pertanto il principio di Seymour Papert: i bambini sviluppano le loro attivita' cognitive non solo imparando nuove capacita', ma soprattutto organizzandole in livelli gerarchici diversi.
Per spiegare il funzionamento della memoria, Minsky postula che ad ogni agente sia appesa una struttura dati detta "K-Line" (Knowledge Line). Una K-Line registra sostanzialmente l'attivita' in corso nel momento in cui una certa percezione si verifica, ovvero registra tutti gli agenti che erano attivi in quell'istante. In altre parole Minsky sostiene che la memoria di un evento e' collegata a cio' che era in corso nel cervello nell'istante in cui l'evento venne memorizzato. Dal punto di vista computazionale una K-Line e' semplicemente l'elenco degli agenti che erano attivi in quel momento. Il lattice ha una sua inerzia, dovuta al modo in cui interagiscono gli agenti, e questo rende conto della persistenza dell' informazione, tipica della cosiddetta memoria a breve termine. Il modello della memoria a lungo termine e' invece piu' complesso: quando occorre reperire un evento, viene ripristinato lo stato mentale descritto dalla sua K-Line, ovvero vengono attivati gli agenti elencati in tale K-Line.
Minsky avanza anche l'ipotesi che molti ricordi siano in realta' ricordi di ricordi, il che' spiegherebbe perche' spesso si ricorda come attraverso il racconto di una terza persona: il corpo muta nel tempo, e cosi' anche il cervello, per cui un ricordo e' destinato o ad essere perso oppure ad essere ri-codificato da una nuova K-Line relativa al fatto di averlo ricordato. La nuova K-Line e' allora relativa allo stato mentale dell'aver ricordare quell'evento. Questo continuo rinnovo di K-Line fa si' che ci si ricordi di fatti occorsi quando la memoria era fisicamente diversa.
Al concetto olistico dell'intelligenza come un tutto unico Minsky contribuisce pertanto con questa visione di una rete di piccoli agenti indipendenti, ciascuno privo di intelligenza e specializzato in un compito ben preciso, i quali comunicano scambiandosi messaggi sulla rete. L' intelligenza del sistema diventa funzione dei messaggi che vengono scambiati, non delle intelligenze dei singoli componenti.
Broadbent ha proposto nel 1986 un modello "parallelo". Quasi tutti i modelli precedenti prevedono una esecuzione sequenziale delle operazioni mentali. Nel modello di Broadbent, invece, piu' operazioni possono essere in corso contemporaneamente.
Nel 1983 Johnson-Laird, ispirandosi alle idee di quarant'anni prima di Kenneth Craik, ha proposto uno schema secondo cui la mente e' in pratica una macchina costruttrice di modelli. La mente capisce il mondo e decide come agire in esso costruendo repliche mentali del mondo e compiendo ragionamenti su di esse.
Johnson-Laird cerca in effetti la risposta a un rompicapo storico. Se l'uomo e' in grado di trarre delle conclusioni che sono vere da premesse che sono vere, allora deve essere dotato di una "logica mentale". Frege aveva risolto il problema postulando che tale logica mentale fosse la logica matematica (che le leggi del pensiero fossero le leggi della logica). Ma Johnson-Laird trova prove inconfutabili che la gente comune non usa la logica matematica nel risolvere i suoi problemi quotidiani. D'altronde una prova evidente che la logica mentale non puo' essere la logica matematica e' quella che gli umani commettono errori. E, a parte la sua incoerenza empirica, da cosa avrebbe origine tale logica mentale? Nel 1966 Piaget aveva tentato di dimostrare come la logica venga acquisita dai bambini attraverso un processo di interiorizzazione delle proprie azioni e di riflessione su di esse. Jerry Fodor (1975), invece, e' il piu' radicale esponente della correntea "innatista", secondo la quale le capacita' logiche sono innate (cosi' come tutti i concetti), non essendo possibile che esse vengano costruite senza ricorrere ad esse stesse.
Johnson-Laird a sua volta fa notare come gli umani siano piu' bravi a risolvere problemi legati alla realta' pratica che non problemi astratti. Nessun umano deriva conclusioni tipiche della logica matematica come "se piove allora o piove o gli elefanti volano" (perfettamente valida), e anzi chi le derivasse verrebbe probabilmente considerato pazzo. Per costruire una logica mentale che rifletta piu' correttamente il comportamento umano, Johnson-Laird si focalizza poi sulle espressioni che limitano il numero di possibilita'. Secondo Rudolf Carnap (1952) un'espressione contiene tanta piu' informazione semantica quante piu' possibilita' logiche elimina. Per esempio, una proposizione semplice elimina soltanto una possibilita' logica, la sua negazione. Invece la congiunzione di due proposizioni "p AND q" elimina ben tre possibilita': "NOT p AND q", "p AND NOT q", "NOT p AND NOT q". La psicologia della deduzione che prevale in ogni persona in possesso delle sue facolta' mentali si basa proprio su questo concetto di informazione semantica: non ha senso trarre una conclusione che abbia una quantita' di informazione semantica inferiore a quella delle sue premesse. E' per questa ragione che nessuno deduce che "o piove o gli elefanti volano" dal fatto che "piove". E', insomma, una sorta di secondo principio della Termodinamica applicato all'informazione semantica invece che all'entropia.
Johnson-Laird propone una teoria del ragionamento che soddisfa alcuni requisiti: rende conto del fatto che i ragionamenti umani sono spesso sbagliati; prevede che i ragionamenti umani sullo stesso problema debbano variare parecchio da individuo a individuo; spiega come i bambini apprendano a ragionare. In tale teoria il ragionamento consiste appunto nel costruire modelli integrati delle premesse secondo un principio fondamentale: il modello mentale di un discorso esibisce una struttura che corrisponde direttamente alla struttura del mondo descritto dal discorso.
In questo schema Johnson-Laird riesce a spiegare anche le inferenze "implicite", che sono quelle compiute piu' o meno irrazionalmente e istantaneamente e sono forse la maggioranza. Per esempio, se sto male di stomaco dopo aver mangiato in un certo ristorante e' probabile che attribuiro' al cuoco di quel ristorante la responsabilita' del mio malore, e lo faro' nel momento stesso in cui comincio a stare male. E' possibile che esistano molte altre spiegazioni razionali che assolverebbero il cuoco, ma e' per me "istintivo" assumere che quella sia la spiegazione. Queste inferenze "implicite" fanno riferimento a un modello mentale unico, a differenza di quelle "esplicite", come i problemi di aritmetica, nelle quali occorre riflettere, ovvero costruire diversi modelli e integrarli fra di loro. Nella teoria di Johnson-Laird inferenze esplicite (ragionamento classico) e implicite (ragionamento del senso comune) trovano pertanto una naturale unificazione. Non solo: in questa teoria, che nega l'esistenza di una logica mentale, non e' difficile spiegare come si formino le capacita' inferenziali (ovvero di modellizzazione) nei bambini, senza ricorrere ne' agli artifici di Piaget ne' ai dogmi di Fodor.
Johnson-Laird puo' in tal modo risolvere anche l'implausibilita' psicologica delle teorie del significato (in particolare quelle dei "mondi possibili", per le quali la mente dovrebbe essere capace di manipolare un numero infinito di mondi possibili) adottando una semantica "procedurale": il significato di una frase non puo' prescindere da quello dell'intero discorso, e questo e' dato dal modello mentale che ha costruito. Una frase non e' altro che una procedura per costruire, modificare, estendere un modello mentale.
L'Informatica consenti' inoltre di verificare direttamente su una macchina reale le architetture cognitive che venivano proposte. La simulazione al computer nell'ambito di teorie scientifiche non matematiche ebbe probabilmente inizio nel 1954, quando due neurofisiologi, Farley e Clark, realizzarono per la prima volta un modello del sistema nervoso. Il revival della Psicologia Cognitiva, che e' stato propedeutico alla nascita della Scienza Cognitiva, ebbe luogo dopo la pubblicazione (1960) del libro in cui Miller dimostrava come fosse possibile e auspicabile l'uso del computer per modellare teorie sulla mente umana (il manifesto della psicologia cognitiva moderna, "Cognitive Psychology" di Ulric Neisser, venne pubblicato sette anni dopo).
In un certo senso la simulazione tramite computer consente di "falsificare" piu' facilmente una teoria scientifica. Per secoli la comunicazione delle teorie scientifiche si era basata sulla pubblicazione di trattati. Stava alla comunita' scientifica di studiare quei trattati e scoprire se essi contenevano delle contraddizioni in termini (vedi Russell con Frege) o delle incoerenze empiriche (vedi Einstein con Newton). Dato un trattato, erano pochissimi gli individui a) dotati della cultura necessaria per leggerlo e capirlo, b) che avessero intenzione di leggerlo, c) che lo studiassero attentamente per scoprirne eventuali errori. La probabilita' che una teoria venisse falsificata era pertanto molto bassa. In particolare per rendere quasi impossibile la falsificazione da parte di un essere umano basta che una teoria sia sufficientemente vaga (non completa). Ogni grado di "vaghezza" equivale a un grado di liberta' in piu', ovvero a un ordine di combinatorieta' maggiore nel numero di modelli che e' possibile generare da quella teoria. E' umanamente impossibile verificare tutte le sue conseguenze pratiche.
Il computer costringe invece a definire nei minimi dettagli la propria teoria. Se la teoria ha un qualsiasi grado di incompletezza, non puo' dar luogo ad un modello computazionale. Il modello viene poi semplicemente tradotto nel linguaggio formale del computer (ovvero in un programma). Terminata la traduzione, il computer in pochi secondi esegue il modello (il programma) e a) verifica che esso non presenti contraddizioni logiche (se ne presenta, il programma si interrompera') e b) fornisce dei risultati numerici che possono essere confrontati con i dati degli esperimenti per verificare che esso non presenti incoerenze empiriche. Il problema della ricerca scientifica viene quasi capovolto: bastano pochi secondi per verificare la teoria, mentre e' necessario molto piu' tempo per poter affermare di avere una teoria. E infatti quasi tutte le nuove teorie simulate al computer (in campi tanto diversi come l'Economia e la Neurofisiologia, la Fisica e la Psicologia) tendano a fallire le prime volte e a richiedere numerosi raffinamenti prima di poter essere considerate complete e coerenti.
E' emblematica la fortuna nell'era informatica delle varie correnti e discipline della psicologia e della filosofia: le piu' penalizzate sono certamente la psicoanalisi, l'esistenzialismo, tutte le forme di teologia o metafisica. Cio' non e' dovuto tanto alle convinzioni personali dei ricercatori informatici, ma al fatto banale che non e' possibile simulare quelle teorie al computer, che il linguaggio in cui esse sono state espresse non si presta ad una elaborazione meccanica (ovvero ad una verifica automatica). E' una conseguenza diretta delle idee gia' esposte da Wittgenstein nel suo "Tractatus Logico-Philosophicus" (1921). Per l'informatica, e di conseguenza per il programma dell'Intelligenza Artificiale, esse sono inutili.
Per molti versi l'uso del computer nelle ricerche sull'Intelligenza ha costituito la naturale controparte pratica del programma dell'Empirismo Logico formulato da Rudolf Carnap nella "Costruzione Logica del Mondo" (1929) e nell' "Enciclopedia Internazionale della Scienza Unificata" (1938). Obiettivo di Carnap, sotto l'influsso del "Tractatus" di Wittgenstein, era quello di riformulare le teorie di tutte le scienze nei termini dei sistemi formali introdotti da Frege e Russell, eliminando in tal modo tutta la "zavorra" metafisica e teologica. Il programma dell'empirismo logico (riprendendo la distinzione di David Hume fra asserzioni che esprimono relazioni fra idee e asserzioni che esprimono percezioni sensoriali) evidenzia le proposizioni "analitiche", la cui verita' e' un fatto puramente tecnico (come "gli scapoli sono uomini non sposati") e le proposizioni "sintetiche", la cui verita' dipende dalla realta' (come "Piero Scaruffi e' scapolo"). Le prime sono un fatto essenzialmente linguistico, mentre le seconde sono un fatto empirico. Secondo Alfred Ayer (1936) gran parte della filosofia (metafisica, etica, estetica) e della psicologia si scoprono cosi' essere prive di significato. Il programma informatico dell'Intelligenza Artificiale e' semplicemente pervenuto allo stesso risultato.
E' probabile che, se mai il computer verra' utilizzato per investigare anche argomenti di etica e metafisica, lo sara' secondo canoni piu' simili a quelli della "filosofia esatta" di Mario Bunge (1968), che estende il metodo dell'empirismo logico anche a queste dottrine.
In embrione l'idea dei sistemi esperti era gia' contenuta nei primi programmi realizzati da Newell e Simon. Il loro programma Logic Theorist non risulto' soddisfacente perche' seguiva un approccio diverso da quello seguito dagli esseri umani. Benche' applicasse nel modo piu' rigoroso possibile le regole della logica dei predicati, le sue soluzioni non avevano quasi mai la stessa efficienza di quelle scelte dai matematici. Il Logic Theorist ragionava infatti "all'indietro" (backward): dato un teorema da dimostrare, cercava tutte le regole che lo potessero dimostrare, e poi se quelle regole potessero a loro volta essere dimostrate, e cosi' via a ritroso finche' non perveniva agli assiomi. Il suo ragionamento poteva essere rappresentato come un albero la cui radice era il teorema da dimostrare, i cui nodi erano tutti i sotto-teoremi da dimostrare per dimostrare che il teorema era vero, e i cui rami stavano per altrettanto possibili linee di ragionamento. Un matematico preferisce procedere piu' economicamente, partendo da alcuni assiomi e applicando soltanto alcune delle regole di inferenza che di volta in volta e' lecito applicare. Il suo ragionamento puo' essere rappresentato con un albero molto piu' limitato in larghezza, con molti meno rami (spesso soltanto uno) e molti meno nodi.
La differenza sta nella strategia di ragionamento. Il Logic Theorist partiva dal presupposto di poter provare tutte le combinazioni possibili di ragionamenti e di poter giungere certamente in tal modo a dimostrare il teorema, se una dimostrazione esisteva. Il matematico non arriva necessariamente alla dimostrazione cercata, ma, se ci arriva, ci arriva con molta meno fatica perche' prende in considerazione soltanto quelle regole di inferenza che "intuitivamente" lo avvicinano alla soluzione. Newell e Simon costruirono allora (1960) un programma, GPS (General Problem Solver), che seguiva piu' fedelmente il comportamento umano, meno esatto ma piu' efficace. La strategia di ragionamento per cui il programma sceglie sempre di ridurre la "distanza" che lo separa dalla soluzione, piuttosto che provare tutte le strade possibili, venne battezzata "means-end analysis".
Ad enucleare la conoscenza di cui si serviva il programma e ad associare "conoscenza" con "esperienza" fu Joel Moses, la cui tesi di laurea (discussa nel 1967) e' il primo documento che proponga esplicitamente l' uso di "expertise" (esperienza specifica) al fine di risolvere in maniera efficiente un problema. L'obiettivo del suo programma era di risolvere i problemi di calcolo simbolico di integrazione e derivazione utilizzando delle "regole di produzione" per trasformare le espressioni in espressioni equivalenti ma via via piu' semplici. Le regole di produzione codificavano appunto l'esperienza di uno stagionato e brillante matematico.
Indirettamente questi primi tentativi di isolare il concetto di "conoscenza", e di farne la struttura portante del ragionamento, indagavano un problema millenario del pensiero umano: da cosa abbia origine la conoscenza. Per i fini del loro lavoro (risolvere problemi pratici) bastava identificare conoscenza con esperienza: e' attraverso l'esperienza che l'"esperto" sintetizza le regole da applicare nelle situazioni comuni del suo campo d'azione. Il "buon senso" diventava il vero motore del comportamento intelligente, secondo una tradizione di pensiero iniziata da Dewey all'inizio del secolo.
Nel 1965 Edward Feigenbaum adotto' questo paradigma per costruire il programma DENDRAL, capace di interpretare i risultati di esperimenti sulla struttura molecolare di composti organici. DENDRAL simulava in tutto e per tutto il lavoro di un ricercatore di laboratorio: basandosi sulla sua conoscenza del problema, proponeva delle ipotesi e gli esperimenti da condurre per verificare tali ipotesi. La conoscenza era di almeno tre tipi: la conoscenza relativa alla chimica veniva impiegata per interpretare i risultati degli esperimenti e proporne di nuovi; la conoscenza relativa al composto specifico sotto esame si andava formando poco alla volta e veniva utilizzata per guidare la scelta dell'esperimento piu' idoneo; infine la conoscenza relativa al modo in cui si procede sperimentalmente, per quanto limitata, serviva a simulare l'esperienza di un abile ricercatore chimico. Quest'ultima costituiva forse la novita' piu' saliente del programma: le regole di tale conoscenza esprimevano suggerimenti pratici su quali strade perseguire con priorita' maggiore e su quali strade tentare di evitare.
Nel 1976 Edward Shortliffe realizzo' infine il programma MYCIN, un sistema esperto nel campo della diagnosi di malattie infettive. MYCIN fu il primo programma in cui venisse esplicitata la dipendenza del ragionamento dalla conoscenza del dominio. Il programma rappresentava la conoscenza medica sotto forma di un insieme di regole di produzione scritte in LISP. Ogni regola era composta di una premessa e di una conseguenza, ogni premessa era una congiunzione di clausole, ogni clausola aveva la forma "predicato attributo valore". In altre parole ogni regola era del tipo "se il sintomo e' questo allora la malattia e' quella" (dove "e'" e' il predicato, "sintomo" e "malattia" sono attributi, "questo" e "quella" sono i loro rispettivi valori) oppure era relativa a deduzioni intermedie. Ciascuna regola era inoltre "pesata" anche da un "fattore di confidenza" sulla base del quale era possibile calcolare il grado di affidabilita' della diagnosi. MYCIN ragionava a ritroso (backward) in modo ricorsivo, tentando di dimostrare una regola di produzione tramite le altre regole di produzione che potevano soddisfare le sue premesse.
Grazie al successo di MYCIN l'idea che la costruzione della macchina "intelligente" fosse da perseguire esclusivamente attraverso tecniche di "ragionamento" sempre piu' sofisticate venne definitivamente soppiantata dall'enfasi attribuita alla "conoscenza" del problema da risolvere.
Con la costruzione dei primi sistemi esperti il programma dell'Intelligenza Artificiale aveva fornito una prova pratica della propria utilita'. Ma questo importante risultato era stato ottenuto a scapito degli obiettivi originali. La tendenza era diventata quella verso una disciplina che era sempre piu' potenzialmente lo studio formale del comportamento umano in ogni campo d'azione (medicina, esplorazione mineraria, diagnosi di guasti, finanza,...) e che si proponeva di costruire macchine in grado di: dato un campo d'azione, dato un agente di quel campo, e data una situazione in quel campo, determinare l'azione dell'agente a fronte di tale situazione. Il meta-problema era quello di ricavare l'insieme di leggi che governano il comportamento di un agente in un campo d'azione, e questo insieme di leggi veniva ribattezzato "conoscenza del dominio".
Il sistema esperto rappresenta pero' un ben povero risultato dal punto di vista del programma originale. L'"intelligenza" che e' in grado di esibire e' quantomeno schizofrenica. Il sistema esperto che sa come stabilire se un paziente ha una certa malattia infettiva non saprebbe consigliare la strada migliore per recarsi in ufficio in un giorno di sciopero dei mezzi pubblici. Si apprezza appieno la potenza del cervello umano quando si pensa che e' in grado di compiere inferenze in qualsiasi dominio.
E' stato fatto notare un equivoco di fondo relativo all'intelligenza. Per intelligenza si puo' intendere tanto il processo di apprendimento quanto il prodotto dell'apprendimento. Per "intelligenza artificiale" oggi si intende piu' la simulazione del secondo processo che non quella del primo. Il modello del sistema esperto prevede che il comportamento venga generato da un sistema di produzioni, ovvero da un sistema che ad ogni condizione nota associa un'azione da compiere. La critica a questo approccio e' che l'intelligenza "vera" sarebbe quella che presiede alla costruzione del sistema di produzione, non quella che ne regola l'uso. L'intelligenza "vera" sarebbe necessaria soltanto quando il sistema di produzione deve essere modificato.
In altre parole il passaggio dalla percezione al sistema di produzione costruisce nuova verita', mentre il passaggio dal sistema di produzione al comportamento non aggiunge nulla alla verita' gia' nota ma la "trasduce" semplicemente in qualcosa di operativo.
Per effetto del boom dei sistemi esperti la Conoscenza acquisi' una rilevanza sempre maggiore. Il punto di vista da cui ebbe origine questa generazione di sistemi e' quello secondo cui un agente dotato di un quoziente di intelligenza basso, ma con una conoscenza approfondita del problema da risolvere, e' piu' efficace di un agente dotato di un quoziente d'intelligenza elevato ma ignorante del dominio. Cosi', per esempio, un genio della Fisica non riuscirebbe a diagnosticare malattie con lo stesso successo di un umile medico di provincia.
La disciplina dei sistemi esperti ha messo in risalto la differenza fra "conoscenza" e "informazione". La scienza dei computer e' stata battezzata "scienza dell'informazione" poiche' cio' che bisogna fornire al computer affinche' esso sia utile e' informazione. Se vogliamo prescindere dalla sua struttura interna, possiamo definire il computer come una macchina in grado di elaborare informazione. La conoscenza costituisce in qualche modo un grado superiore di descrizione del mondo rispetto all'informazione. Una volta dotato di conoscenza, e della capacita' di elaborare tale conoscenza, il computer diventerebbe "esperto", se non addirittura "intelligente". Informazione e' cio' che si puo' trovare in un'enciclopedia. L'enciclopedia medica fornisce certamente gran parte dell'informazione relativa alla scienza medica. L'enciclopedia medica non puo' pero' fornire quel coacervo non strutturato di regole che il medico impiega quotidianamente per svolgere il proprio mestiere. Ed e' intuitivo che non basterebbe studiarsi a memoria l'enciclopedia medica per diventare dei bravi medici. Cio' che l'enciclopedia non puo' darci e' cio' che nel contesto dei sistemi esperti viene detta "conoscenza del dominio", che e' qualcosa di piu' della semplice informazione su quali siano le malattie, i loro sintomi e cosi' via. In effetti soltanto una piccola parte delle regole di comportamento che impieghiamo quotidianamente derivano da una fonte di informazione. La stragrande maggioranza possono essere associate genericamente all'"esperienza". Anche quando un'informazione e' disponibile da una qualche fonte ed e' facilmente reperibile, si preferisce acquisirla tramite l'esperienza. Viceversa si puo' anche dire che molti fatti arcinoti potrebbero essere facilmente resi come informazioni, ma invece non lo sono. Nessuno farebbe imparare a un bambino un manuale che elenchi: "quando piove, prendi l'ombrello; quando vai in spiaggia, mettiti il costume; e cosi' via". E' implicita nel modo di comportarsi dei genitori la convinzione che esista un modo molto piu' efficace di far apprendere questi fatti ovvi a tutti. La conoscenza piu' utile, quella che stabilisce il rapporto di forza con il quoziente di intelligenza, ha origine dall'esperienza. Il "buon senso" e' una forma di conoscenza vitale.
Per rendere l'idea della differenza fra un agente che impieghi "informazione" e un agente che impieghi "conoscenza" nel risolvere problemi, supponiamo di voler programmare un calcolatore a risolvere gli anagrammi. Tradizionalmente il programmatore scriverebbe un programma che descrive passo per passo come giungere alla soluzione utilizzando l'informazione contenuta in un dizionario d'italiano: .IP - data la parola di cui devi trovare l' anagramma, .IP - costruisci tutte le possibili permutazioni delle sue lettere (ogni permutazione e' una possibile soluzione); .IP - confronta ognuna di queste permutazioni con tutte le parole della lingua italiana, tenendo conto di tutte le possibili forme in cui ogni parola puo' comparire (machile o femminile, singolare o plurale, l' intera coniugazione di ogni verbo e cosi' via); .IP - se una delle cinquemila permutazioni coincide con una delle ottantamila parole del dizionario, quella e' la soluzione dell'anagramma.
Ovviamente questo programma (che richiede una media di 5.000 per 80.000 diviso due confronti, ovvero circa 200.000.000 di confronti) costituirebbe un'impresa titanica per qualsiasi essere umano. Al ritmo di un confronto al secondo ci vorrebbero circa sei anni per giungere alla soluzione. E' ovvio che la mente umana tenta di risolvere l'anagramma in maniera assai diversa. Secondo il modello del sistema esperto la mente umana scarta a priori tutte le soluzioni non plausibili, anzi non le prende neppure in considerazione. La mente umana sa che molte delle cinquemila permutazioni non possono trovarsi nel vocabolario: "mmrioae" non e' una parola italiana, e non c'e' bisogno di controllare sul dizionario. Il numero di parole plausibili e' molto ridotto ("momiera", "ramiome", etc) e tra queste e' assai piu' facile trovare quella giusta ("memoria").
Cio' che ci rende piu' spediti nel risolvere l'anagramma e' la "conoscenza" della lingua italiana, di come sono fatte le parole in italiano. In effetti un bravo "anagrammista" italiano non sarebbe necessariamente altrettanto bravo in giapponese: il problema da risolvere e' esattamente lo stesso, ma la conoscenza necessaria e' del tutto diversa. In compenso il computer giunge certamente alla soluzione, mentre, come ben sappiamo, talvolta l' uomo non vi riesce. Non solo: il computer e' tanto infallibile con l'italiano quanto con qualsiasi altra lingua. Cio' nonostante per qualche ragione, non facile da giustificare, un uomo che risolva molti anagrammi difficili e ne sbagli qualcuno viene considerato intelligente, mentre un uomo che seguisse il metodo del computer di esaminare tutte le soluzioni possibili verrebbe certamente considerato stupido (o quantomeno pazzo) benche' giungerebbe sempre alla soluzione corretta.
Se l'anagramma e' un esempio di problema che puo' essere risolto sia dalla prospettiva dell'informazione sia da quella della conoscenza, esistono anche problemi che ha senso tentare di risolvere soltanto se si e' dotati della conoscenza del relativo dominio. Per rispondere alla domanda "chi e' il presidente d'Italia?" basta aver acquisito l'informazione consistente nel nome del presidente d'Italia, ed e' assai semplice scrivere un programma che consenta al computer di rispondere correttamente. Ben diverso sarebbe chiedere "chi sara' il prossimo presidente?". Nessuna informazione puo' condurre alla risposta a questa domanda: occorre disporre di un'approfondita conoscenza della situazione politica, dei potenziali candidati e cosi' via. Analogamente e' semplice scrivere un programma che sappia rispondere alla domanda "dove si trova la nave X?" fornendo al computer l'informazione relativa agli spostamenti delle varie navi. Ma la domanda "dove si trova l'Arca di Noe'?" puo' essere risolta soltanto da un archeologo che sia dotato di immensa conoscenza della problematica.
L'enfasi sulla conoscenza porto' a una rivalutazione delle teorie del ragionamento incerto o approssimato. Una delle differenze piu' appariscenti fra informazione e conoscenza e' quella fra l'esattezza della prima e l'inesattezza della seconda. Un'affermazione di conoscenza non viene mai recepita come totalmente vera o totalmente falsa. E' facile rendersi conto dell'importanza e dell'ubiquita' dell'incertezza, che rappresenta in realta' la base di quasi tutte le azioni compiute durante la vita quotidiana: che il 23 dicembre faccia freddo o che una guerra fra USA e Libia venga vinta dai primi o che lo sportello automatico stia funzionando sono tutte informazioni plausibili, ma non certe.
In pratica l'intelligenza artificiale venne sempre piu' concentrandosi sulla soluzione di quattro tipi di problemi: i problemi di natura "esperta" sono quelli, come la diagnosi medica, nei quali non esiste un algoritmo che definisca il comportamento dell'agente tipo (l'agente non e' in grado di spiegare razionalmente la propria azione); i problemi di natura "euristica" sono quelli, come quello di non toccare una pentola di acqua bollente o di prendere l'ombrello se il cielo e' nuvoloso, per i quali esiste un algoritmo che spiega il comportamento dell'agente tipo, ma tale algoritmo e' nella pratica del tutto inutile (l'agente non ha bisogno di quell'algoritmo per decidere quale azione compiere, anche se, volendo, saprebbe spiegare razionalmente la propria azione); infine i problemi di natura "incerta" sono quelli, come la predizione di chi vincera' i campionati mondiali di calcio o le previsioni del tempo, per i quali l'algoritmo e' impossibile in quanto le quantita' sono indeterminate; i problemi di natura "complessa" sono quelli, come il calcolo di un integrale o la progettazione di una nave, per i quali l'algoritmo e' troppo complesso, sia da definire sia da utilizzare. In questi quattro casi la macchina puo' risolvere il problema soltanto se, come l'uomo, fa ricorso massicciamente alla conoscenza.
La disciplina dei sistemi esperti tento' pertanto di definire una "ingegneria della conoscenza", una scienza esatta di come acquisire ed elaborare conoscenza.
Stabilito il primato della "Conoscenza", la disciplina dell'Intelligenza Artificiale si trasformo' in gran parte in una disciplina per la rappresentazione della conoscenza in una forma che fosse computazionalmente efficiente. Gli spunti sulla struttura e funzione della memoria forniti dalla Psicologia Cognitiva vennero cosi' bilanciati da requisiti squisitamente tecnici come quello che fosse possibile eseguire "calcoli" sulle strutture rappresentazionali. Qualsiasi struttura che fosse riconducibile alla logica dei predicati soddisfava questo requisito. Qualunque altra struttura poteva invece essere accettata soltanto una volta definite le operazioni che sia possibile compiere su di essa.
E' antica l' ambizione di utilizzare un calcolo matematico per rappresentare e manipolare le idee. Leibniz e Aristotele non avevano pero' a disposizione l'arsenale dei linguaggi formali, ne' i computer. In comune con gli antichi, anche i moderni partono dal presupposto che la rappresentazione della conoscenza debba essere funzionale a due obiettivi: 1) descrivere la conoscenza umana nel modo piu' esplicito possibile e 2) consentire di compiere dei calcoli in modo da ricavare automaticamente dell' altra conoscenza. Cio' significa che occorre predisporre un insieme di simboli con cui comunicare conoscenza, una specie di "alfabeto della conoscenza", e che ogni simbolo, oltre al suo valore semantico, deve anche essere un ingranaggio nel complesso meccanismo del calcolo matematico. Un sistema di rappresentazione della conoscenza esiste gia', ed e' il linguaggio che noi utilizziamo tutti i giorni: purtroppo nessuna lingua si presta ad essere oggetto di calcolo automatico. Con le sue ambiguita' e ridondanze ogni lingua costituisce anzi un ottimo esempio di come "non" debba essere fatto un linguaggio ideale per la rappresentazione della conoscenza.
Nel 1969 MaCarthy sintetizzo' questo discorso dicendo che il problema dell'Intelligenza Artificiale e' da un lato epistemologico e dall' altro euristico: da un lato si tratta di stabilire cosa puo' essere rappresentato in modo formale, e dall' altro si tratta di definire come cio' possa essere elaborato da una macchina. Il programma dell'Intelligenza Artificiale non e' pertanto molto distante da quello della "characteristica universalis" di Leibniz.
"Rappresentare" un oggetto significa trovare un altro oggetto, equivalente al precedente ai fini della risoluzione del problema ma piu' facile da elaborare. La rappresentazione dell' informazione, per esempio, si riduce spesso a una sua trascodifica in termini numerici: una volta che l' informazione sia stata ridotta a una sequenza di numeri, il computer la puo' elaborare con facilita' tramite le comuni operazioni aritmetiche. Una volta codificati i nomi "Aldo" e "Giuseppe" come "65-76-68-79" e "71-73-85-83-69-80-80-69" (il cosiddetto codice ASCII) il computer puo', per esempio, stabilire quale dei due viene prima in ordine alfabetico: basta guardare quale comincia con il numero piu' piccolo (65, cioe' "Aldo"). Per la conoscenza vennero proposti metodi che si rifacevano almeno alla logica dei predicati e in taluni casi anche a logiche del tutto nuove. Le strutture piu' comuni per la rappresentazione della conoscenza vennero identificate in fatti, regole e liste di proprieta': un dato di fatto e' "Giuseppe e' mio zio"; una regola e' "se una persona e' mio zio allora i suoi figli sono miei cugini"; una lista di proprieta' e' "Giuseppe ha 85 anni, e' alto m.1,65, ha un figlio". Queste tre strutture hanno il pregio di poter essere ricondotte facilmente alla logica: "Giuseppe e' mio zio" e' una proposizione; "se una persona e' mio zio allora i suoi figli sono miei cugini" e' equivalente alla disgiunzione di due predicati (una persona non e' mio zio "OR" i suoi figli sono miei cugini); "Giuseppe ha 85 anni, e' alto m.1,65, ha un figlio" e' equivalente a una congiunzione di predicati.
In natura tutti i sistemi complessi (alberi, montagne, etc.) non vengono costruiti, "crescono". E cio' vale anche per la conoscenza. Il processo di costruire un computer dotato di conoscenza e' un processo innaturale. Quanto sia o possa essere equivalente a un corpus naturale di conoscenze e' un altro tema di discussione. Se da un alto c'e' chi sostiene che ogni processo di rappresentazione della conoscenza si traduce inevitabilmente in una sottrazione di senso al reale, poiche' deve accontentarsi di una granularita' piu' rozza di quella del mondo reale, dall'altro esiste la convinzione che sia possibile costruire sistemi di rappresentazione con una cardinalita' maggiore, ovvero in grado di esprimere piu' di quanto esiste, e il linguaggio umano ne sarebbe un esempio (una qualsiasi favola esprimerebbe, secondo questa corrente, piu' di quanto esista).
Un'altra popolare diatriba e' quella fra "proceduralisti" e "dichiaritivisti". Secondo i primi (fra cui Minsky) la conoscenza umana e' principalmente del tipo "so come": "so come curare questa malattia". Per i secondi invece (fra cui McCarthy) la conoscenza umana e' principalmente del tipo "so che": "so che questa medicina va presa a fronte di questo sintomo". I primi scrivono programmi che spiegano al computer "come" ottenere la soluzione; i secondi scrivono programmi che spiegano al computer quale conoscenza serve per ottenere la soluzione e si affidano poi alle sue capacita' deduttive. E' stato dimostrato che in ultima analisi il dualismo e' puramente retorico.
Grande rilievo venne dato al "parallelismo" insito nel secondo schema. Il programma e' una sequenza di istruzioni che il programmatore impartisce al computer spiegandogli come risolvere il problema passo dopo passo. Il computer non fara' altro che eseguire meccanicamente tali passi. Questa viene chiamata programmazione "sequenziale" appunto perche' l'operato del computer e' riconducibile a una sequenza di istruzioni. Quando si fornisce al computer la conoscenza necessaria per la soluzione del problema, si assume invece che sara' quella conoscenza a guidare il suo operato; dal punto di vista del computer quella conoscenza costituisce un insieme disordinato di istruzioni. Di volta in volta il computer eseguira' l'istruzione piu' idonea a raggiungere la soluzione del problema. In tal modo il programmatore puo' limitarsi a dichiarare tutta la conoscenza necessaria a risolvere il problema, e poi lasciare che sia il computer stesso a stabilire in quale ordine utilizzare le istruzioni per giungere alla soluzione. La programmazione diventa pertanto "non-sequenziale": il programmatore non deve piu' preoccuparsi di specificare in quale sequenza devono essere eseguite le istruzioni.
In ogni istante il computer e' in grado di decidere quale azione compiere perche' e' dotato di capacita' inferenziali: esaminando la conoscenza a sua disposizione, inferisce l'istruzione che e' piu' opportuno eseguire (ovvero l'azione che e' piu' opportuno compiere). Nel modello del sistema esperto pertanto obiettivo dell'Intelligenza Artificiale e' quello di fare in modo che la macchina sia in grado di compiere inferenze su una data conoscenza.
Ben presto ci si rese conto che l'inferenza esatta della deduzione logica non era sufficiente ad elaborare la conoscenza comunemente trattata dagli umani. Per esempio, ogni forma di conoscenza incerta o approssimata mette in crisi le regole di inferenza classiche. Ci si rese conto, in altri termini, che il buon senso non poteva essere trattato con la Logica Matematica inventata per trattare quantita' astratte. In ultima analisi si scopri' che la conoscenza da sola non fornisce alcuna soluzione. E' appunto la capacita' di compiere inferenze sulla conoscenza che genera il comportamento "intelligente". Quelle inferenze non sono pero' quasi mai deduttive, non sono quasi mai quelle che i matematici avevano studiato nei secoli precedenti. La Logica, che era stata promotrice del programma di Intelligenza Artificiale con la sua ambizione di costruire la macchina in grado di risolvere tutti i problemi matematici, ritorno' al centro delle discussioni, ma non come soggetto, bensi' come oggetto: per realizzare quel programma bisognava innanzitutto cambiare la Logica. La Logica era il problema, non la soluzione.
Cio' era accaduto perche' nel giro di trent'anni era cambiata drasticamente la prospettiva dell'Intelligenza Artificiale. L'enfasi posta sulle attivita' piu' informali della mente umana, quelle che consentono di risolvere problemi "reali" (per esempio, alzare un oggetto da terra) anche a chi non ha la preparazione per risolvere i problemi "ideali" (calcolare l'energia meccanica necessaria per vincere l'energia potenziale dell'oggetto), aveva portato a un concetto molto piu' pragmatico di "intelligenza". Il test di Turing, in un certo senso, non garantiva che la macchina vincente sarebbe mai riuscita a sollevare un oggetto da terra, pur sapendo rispondere a tutte le domande possibili sull'energia e il moto degli arti.
Da un'altra prospettiva ancora si puo' invece notare una certa continuita' con il programma di Turing. Il sistema esperto, limitatamente al proprio dominio, realizza proprio il sogno di Turing: e' in grado di rispondere a tutte le domande (relative a quel dominio) con la stessa competenza di un esperto umano, e pertanto e' indistinguibile da un esperto umano. La tecnologia dei sistemi esperti ha pero' rinunciato a priori a costruire l'"esperto di tutto". E' come se da un lato avesse capito che l'intuizione di Turing aveva un'applicazione molto utile nella societa' moderna, e dall'altro avesse altresi' capito che una macchina che fosse "umana" in tutto e per tutto era sia praticamente impossibile sia, tutto sommato, inutile.
Naturalmente i sistemi esperti vanno incontro anche alla critica fenomenologica di Hubert Dreyfus, che la conoscenza effettivamente impiegata dall'uomo nel risolvere problemi non possa essere formalizzata. Nel costruire sistemi esperti l'Intelligenza Artificiale sembra ripetere il tentativo di Husserl, che vanamente provo' a catalogare il contesto. Dreyfus ha infatti notato (1982) una forte similitudine fra il programma di Husserl e il programma dei sistemi esperti e fra la critica all'intenzionalita' di Heidegger e le critiche al programma dell'Intelligenza Artificiale.
Terry Winograd (1986) ha ripreso il concetto di Heidegger dell'"essere gettato" nel mondo: gli esseri umani prendono decisioni circa le situazioni della vita quotidiana senza bisogno di riflettere. Cio' li rende "ciechi" di fronte alle possibili alternative. Se e quando l'azione fallisce, allora e solo allora l'essere umano esamina la situazione a freddo, percependola nei suoi costituenti elementari, e tenta di derivare l'azione in modo "razionale", ma questo e' piu' tipico del novizio che non dell'esperto. Una macchina che si comporti nel modo "istintivo" dell'esperto costituirebbe un problema computazionalmente "intrattabile".
Analogamente Stuart Dreyfus, ispirandosi alla filosofia della percezione di Morleau-Ponty, ha criticato il concetto stesso di "expertise", di conoscenza relativa all'essere "esperto" in un certo dominio, sostenendo che soltanto i novizi adottano un comportamento analitico formalizzabile in un computer sotto forma di conoscenza strutturata, mentre l'esperto vero ha ormai sintetizzato la sua esperienza in un comportamento inconscio che reagisce istantaneamente a una situazione nel suo complesso. Il comportamento inconscio dell'esperto non e' pertanto scomponibile in conoscenza strutturata. Piu' in generale la critica fenomenologica sostiene che l'Intelligenza Artificiale non potra' mai rendere conto del comportamento quotidiano dell'essere umano, per esempio del buon senso; appunto poiche' si tratta della sintesi non scomponibile di un'intera vita di esperienze.
Quella dei sistemi esperti si e' infatti rivelata una tecnologia piuttosto "debole". "Forti" sono le tecnologie come l'ingegneria civile, che e' in grado di costruire un ponte sempre e comunque, garantendone con precisione l'affidabilita'. "Debole" e' una tecnologia che e' in grado soltanto di risolvere "qualche" problema in "alcuni" campi e con "alcune" limitazioni. Chi costruisce un ponte sa dove inizia e dove finisce ed e' in grado di calcolarne i limiti entro i quali il funzionamento e' garantito. Chi costruisce un sistema esperto non e' in grado neppure di stabilire quando il sistema esperto sia terminato (quando tutta la conoscenza necessaria sia stata acquisita) e tanto meno quali siano le condizioni di operabilita' del sistema esperto.
L'epistemologia studia invece aspetti piu' generali. Per esempio, quello di stabilire cosa giustifichi la conoscenza. Tanto i "fondamentalisti" quanto i "coerentisti" assumono l'esistenza di un insieme di credenze basilari che vengono utilizzate per giustificare tutte le altre (in un caso per dimostrarne la verita' nel secondo caso per dimostrarne la coerenza). Platone fu il primo a definire la conoscenza come "credenza vera giustificata", distinguendo innanzitutto fra ignoranza, credenza (doxa) e conoscenza (episteme) e poi asserendo che la conoscenza richiede anche una giustificazione. Avere una convinzione di qualcosa e' presupposto per conoscere quel qualcosa, ma non basta; e' anche necessario che quel qualcosa sia vero, altrimenti non puo' essere considerato "conoscenza; ed e' anche necessario che quel qualcosa sia giustificato da altre conoscenze (altrimenti potrebbe essere vero per pura coincidenza). Gottfried Leibniz fu il primo ad affermare esplicitamente che "giustificare" qualcosa potesse essere ridotto a "dimostrarne" la verita' tramite la logica.
La critica portata al razionalismo cartesiano dagli empiristi inglesi, che conferivano preminenza alla percezione (ovvero ai sensi) sulla mente, si espresse soprattutto nello scetticismo di Hume, secondo il quale l'esperienza non puo' mai produrre conoscenza certa. In particolare Hume nego' validita' logica all'induzione, sostenendo che il verificarsi molte volte di un fatto a fronte di un altro fatto non giustifica (se non psicologicamente) la formulazione di una legge che preveda il verificarsi di quel fatto ogni qualvolta si sia verificato quell'altro fatto. L'intero gigantesco apparato delle scienze naturali e' per Hume privo di fondamento: e' pura psicologia.
La posizione degli empiristi venne ripresa nel ventesimo secolo da George Moore, il quale risolse lo scetticismo di Hume assumendo che la percezione costituisca in se' un fatto certo. Che la relazione fra percezione e realta' sia fallibile o meno non ha nessuna importanza. Grice sostiene addirittura che la percezione costituisca un tramite diretto con la realta' perche' esiste una relazione causale fra l'oggetto e la percezione di esso. Di conseguenza la percezione non solo e' un fatto certo in se', ma anche la realta' a cui essa si riferisce lo e'.
La formalizzazione della definizione di conoscenza data da Platone porto' alla seguente formula: l'agente A conosce la proposizione P se a) A crede che P e' vera; b) A e' in grado di giustificare P; c) P e' vera. Il teorema di Godel dimostro' pero' che questa definizione non aveva alcun senso se per "giustificare" si intendeva "dimostrare".
Nacque allora una scuola di pensiero che tendeva a interpretare le verita' scientifiche non come verita' logico-matematiche, ma in senso piu' pratico, legato agli scopi che la scienza si prefigge (di costruire teorie coerenti con i dati empirici, di verificare tali teorie con esperimenti e cosi' via). Lo studio della conoscenza venne cosi' a trovarsi immerso nel dibattito su cosa fosse o non fosse scientificamente dimostrabile.
La prima, vigorosa critica all'organizzazione del pensiero scientifico era sorta a cavallo fra i due secoli per effetto di alcuni importanti eventi: la scoperta delle geometrie non-euclidee (ovvero il fatto che si potessero costruire delle geometrie perfettamente coerenti e vere, anche se violano i postulati intuitivi di Euclide), la critica dei concetti assoluti di spazio e tempo portata da Mach nel 1883, la stessa Relativita' di Albert Einstein (1905). Jules-Henry Poincare' formulo' a partire dal 1902 l'ipotesi del "convenzionalismo": un'affermazione scientifica e' vera o falsa unicamente in relazione alle "convenzioni" stabilite all'interno della particolare teoria che la studia. Cosi' alcuni teoremi possono essere veri nella geometria euclidea ma non in quelle non-euclidee, e viceversa. Non esiste modo per stabilire "intuitivamente" quali siano le convenzioni "giuste", quelle che riflettono correttamente la Natura. E cio' appare giustificato dal fatto che le scoperte scientifiche sono quasi sempre andate contro il buon senso (la Terra e' rotonda, la Terra gira attorno al Sole, lo spazio e il tempo sono relativi e cosi' via). Duhem (1906) porto' alle estreme conseguenze questa concezione della scienza facendo notare che le scienze empiriche sono ancor piu' vulnerabili della geometria: mentre in geometria e' possibile dimostrare quali siano tutte le ipotesi che soddisfano certe condizioni, nelle scienze empiriche le ipotesi sul mondo sono infinite e presumibilmente ignote. Nessuna teoria scientifica puo' avere la presunzione di ritenersi "definitiva".
La provvisorieta' di ogni teoria scientifica venne sottolineata in particolare da Karl Popper (1934), riprendendo aspetti dello scetticismo di Hume (in particolare riguardo il metodo induttivo): il punto fondamentale della storia della scienza e' la sua "falsificabilita'", l'esatto opposto della "dimostrabilita'". Data una teoria, lo scienziato ne deriva tutte le conseguenze possibili e le verifica sperimentalmente. Se scopre delle contraddizioni con la realta', abbandona la teoria. Questo e' il metodo cosiddetto "ipotetico-deduttivo". Popper propone invece che la teoria venga formulata in modo da poter essere facilmente falsificata: in tal modo si otterrebbe una forma di competizione fra le teoria simile a quella della selezione naturale (un'idea gia' proposta da Charles Peirce). Popper ripudia senz'appello l'induzione, considerata l'esatto opposto (una formulazione della teoria che ne facilita la conferma) e pertanto ingannevole.
Una critica all'induzione e' stata portata anche dagli stessi statistici. Una legge induttiva e' un modello della popolazione usata per costruirla: non e' detto che possa essere estesa ad un'altra popolazione. Per esempio, una banca puo' costruire una legge induttiva che descrive il cliente ideale della banca fra tutti coloro che hanno chiesto dei prestiti in passato. Quella legge non puo' pero' essere applicata a coloro che non hanno mai chiesto prestiti in passato poiche', presumibilmnete, questi costituiscono una popolazione dalle caratteristiche completamente diverse. Una legge che spieghi i primi non spiega necessariamente i secondi.
Nel 1962 Carnap formalizzo' l'idea che una teoria scientifica non possa essere confermata (dimostrata) in toto, ma che esistano "gradi" di conferma di tale teoria. Una legge scientifica, in altre parole, puo' essere piu' o meno affidabile a seconda di quanto forti siano i dati empirici su cui si basa. Carnap esprime in probabilita' questo "grado" di affidabilita', cosi' come aveva gia' fatto Keynes a proposito dell'induzione.
Willard Quine (1960) complico' ulteriormente il dibattito sulla dimostrabilita' della verita' scientifica quando, riprendendo argomenti di Pierre Duhem, introdusse il concetto di background: quando un esperimento rivela un errore nella teoria, esistono infiniti modi di modificare la teoria per renderla di nuovo coerente, ma generalmente si scartano a priori alcune possibili soluzioni poiche' non sono in accordo con il "buon senso". Per esempio, i pianeti potrebbero ruotare attorno al Sole perche' altrettanti giganti di una civilta' aliena, a noi invisibile, li stanno trasportando con loro durante la corsa di una specialita' olimpica che quella civilta' pratica in una gigantesca arena ellittica. Quine non trova una netta divisione epistemica fra convinzioni scientifiche e convinzioni non scientifiche, ed afferma alla fine che la scienza e' semplicemente buon senso cosciente. Parafrasando Einstein, la scienza non e' altro che un raffinamento del pensiero quotidiano. Michael McCloskey (1983) ha addirittura dimostrato che la fisica "naif" (o "folk" o "intuitiva") utilizzata dall'uomo della strada e' piu' aristoteliana che newtoniana: la forza impressa da un'auto e' proporzionale alla sua velocita', non alla sua accelerazione; una bomba lasciata cadere da un aeroplano cadra' in verticale; e cosi' via. Eppure la scienza naif dell'uomo della strada costituisce a tutti gli effetti una teoria completa e coerente, perfettamente adeguata agli scopi della sopravvivenza nel mondo.
Quine ritiene cosi' che la scienza sperimentale obbedisca a un principio "olistico", che l'analitico e il sintetico non possano essere separati e che pertanto non abbia senso distinguere fra giustificazioni empiriche e giustificazioni logiche. In particolare il criterio di Moritz Schlick, secondo cui "il significato di una proposizione e' il metodo della sua verifica" (1926), e' l'unico modo per uscire da questo circolo vizioso.
Thomas Kuhn (1962) sottolineo' l'importanza del "paradigma" di una scienza: ogni scienza ragiona sulle proprie scoperte utilizzando alcuni postulati teorici e alcuni criteri di validazione. E' il paradigma che consente di aumentare le conoscenze scientifiche all'interno di una scienza. Quando il paradigma non consente piu' di controllare i dati empirici, esso viene abbandonato a favore di un nuovo paradigma. Questi punti di vista sono stati ulteriormente approfonditi da Imre Lakatos e Paul Feyerabend.
Per effetto di questo dibattito il programma dei sistemi esperti, di raccogliere e formalizzare la conoscenza relativa a un comportamento esperto (che, nel suo piccolo, e' una forma di teoria scientifica), e' assai piu' delicato di quanto sembri. Nell'ambito dell'Intelligenza Artificiale il programma di rappresentazione della conoscenza ha comunque ridimensionato questi aspetti epistemologici, focalizzandosi sulla formulazione di strutture rappresentazionali che siano computazionalmente efficienti.
Come ogni ingegneria anche quella della conoscenza necessita innanzitutto di "strumenti". Uno strumento per l'ingegneria della conoscenza deve consentire di rappresentare la conoscenza in una forma che sia computazionalmente efficiente. Al tempo stesso lo strumento dev'essere progettato secondo le funzioni di cui l'ingegnere deve far uso.
Nel caso dei sistemi esperti le funzioni sono essenzialmente due: rappresentare la conoscenza e compiere inferenze. Un sistema esperto si puo' infatti considerare composto da due componenti: una "base di conoscenza" e un "motore di inferenza". Uno strumento per l'ingegnere della conoscenza deve pertanto fornire: uno o piu' modi di rappresentare la conoscenza, uno o piu' modi di eseguire inferenze. Una volta dotato l'ingegnere della conoscenza di tale strumento, il suo mestiere consiste nel raccogliere la conoscenza del dominio specifico per il quale intende costruire il sistema esperto. Una volta fornito lo strumento, il vero obiettivo diventa quello di acquisire la conoscenza dall'esperto umano. Il principio di equivalenza che ispira la disciplina dei sistemi esperti e' infatti quello secondo cui, in un dominio sufficientemente ristretto, il computer passera' il test di Turing se sara' dotato della stessa conoscenza dell'esperto. Nel 1982 Brian Smith lo ha espresso formalmente cosi': "Ogni processo in grado di ragionare intelligentemente sul mondo deve consistere in parte di un campo di strutture (vagamente linguistiche) che in qualche modo rappresenta la conoscenza e le convinzioni che il processo possiede sul mondo, e che in questo modo gioca un ruolo causale nel generare il comportamento intelligente". 'LP L'ingengeria della conoscenza si scontra contro il fatto che gran parte della conoscenza impiegata dagli esseri umani non e' espressa in termini formali, ma va tradotta in termini formali per poter essere elaborata dal computer. Ogni metodo di rappresentazione della conoscenza e' suscettibile di perdere del significato durante questa traduzione. Inoltre la conoscenza che viene impiegata dai sistemi esperti e' prevalentemente quella "euristica" che l'esperto impiega piu' o meno meccanicamente. E' questa, infatti, la conoscenza che consente all'esperto di trovare rapidamente la soluzione a un problema che, espresso in termini formali, darebbe probabilmente origine a un numero infinito di passi di ragionamento. L'uomo della strada sa che non bisogna infilare le dita nella presa della corrente, esattamente come sa che in montagna fa piu' freddo che in pianura, anche se forse non saprebbe giustificare scientificamente nessuna di queste conoscenze. Un sistema esperto ha tutto l'interesse ad utilizzare questo tipo di conoscenza precisamente perche' rappresenta una "scorciatoia" computazionale di valore inestimabile. E' proprio cio' che distingue l'esperto dal non esperto. Un alieno che non fosse mai vissuto sul pianeta Terra dovrebbe porsi la domanda di quale sia la temperatura in montagna sulla base delle sue conoscenze di Fisica: non solo impiegherebbe molto tempo a trovare la risposta, ma probabilmente concluderebbe che, essendo il Sole la sorgente di calore principale ed essendo la montagna piu' vicina al Sole, in montagna deve fare piu' caldo che in pianura. Ben pochi esseri umani saprebbero spiegare perche' in montagna faccia piu' freddo che in pianura, nonostante la montagna sia piu' vicina al Sole e nonostante sia altrettanto ovvio a tutti che avvicinandosi al Sole con un'astronave la temperatura aumentera' certamente; tuttavia gli esseri umani utilizzano senza indugio la conoscenza che in montagna fa piu' freddo per compiere un'inferenza che richieda la temperatura della montagna.
Sono conoscenze di questo tipo quelle che guidano il lavoro quotidiano degli specialisti. Il loro campo e' regolato da leggi cosi' complesse che nessuno potrebbe trovare soluzioni ai problemi in tempi ragionevoli se tentasse di risolverli applicando quelle leggi. Siano avvocati o medici, esploratori petroliferi o contadini, gli specialisti applicano la forma di conoscenza consolidata con l'esperienza che consente di "intuire" quale debba essere la soluzione giusta sulla base di alcuni "indizi". L'acquisizione di questo tipo di conoscenza non puo' che avvenire "intervistando" gli esperti.
I sistemi esperti non sono altro che la conseguenza pratica di un principio gia' implicito nei manifesti dell'Intelligenza Artificiale. Rispetto alla cibernetica, alle reti neurali e alla scienza cognitiva, che prendono ad esempio la struttura fisica degli oggetti che studiano, l'Intelligenza Artificiale fa parte della linea genealogica che parte dalla teoria della decibilita' e quindi della computazionabilita', una linea che ha come obiettivo quello di dimostrare cosa sia computabile. L'enfasi viene inevitabilmente posta sulla costruzione di macchine in grado di eseguire calcoli in maniera sempre piu' efficiente, non necessariamente imitando il funzionamento del cervello. E' naturale che questa linea di pensiero sia approdata a metodi "euristici" per aumentare l'efficienza computazionale della macchina.
Marvin Minsky nel 1968 chiari' la distinzione fra i metodi cibernetici (in particolare delle reti neurali) e i metodi dell'Intelligenza Artificiale, e le rispettive probabilita' di successo. Il metodo "euristico" dell'Intelligenza Artificiale, che sarebbe sfociato appunto nei sistemi esperti, presenta il vantaggio di saper risolvere problemi molto complessi (appunto perche' impiega la conoscenza che un essere umano esperto di quel tipo di problemi ha sviluppato durante l'arco della sua esistenza), mentre un sistema auto-organizzantesi non riesce a risolverli, dovendo impiegare troppo tempo e troppe risorse computazionali per riuscire ad "adattarsi" a quel problema (in pratica, dovrebbe ripercorrere esperienza dopo esperienza lo sviluppo del cervello dell'esperto umano, dalla nascita fino al giorno in cui divenne effettivamente esperto nella soluzione di quei problemi). Poco conta pertanto se il sistema esperto rispecchi effettivamente il modo in cui funziona il cervello umano. Conta unicamente il fatto che il sistema esperto e' in grado di risolvere una nuova classe di problemi, precedentemente insolubile. E cio' grazie alla conoscenza accumulata da un esperto umano su come risolvere quei problemi in modo efficiente.
Il ruolo singolare di questi programmi nella societa' post-industriale e' dovuto non tanto al fatto di aprire nuovi orizzonti all'automazione ma al modo in cui cio' avverra'. Sono tre le figure professionali che vengono coinvolte in un sistema esperto: l'ingegnere della conoscenza, l'esperto del dominio e l'utilizzatore. Se oggi l'utilizzatore dipende dall'esperto del dominio (per esempio il medico), per l'erogazione del servizio (per esempio, la diagnosi), l'ingegneria della conoscenza si propone di "clonare" l'esperto in un sistema esperto e fare pertanto in modo che l'utilizzatore possa ricevere il servizio direttamente della macchina. L'esperto, che e' oggi sia deposito di conoscenza sia utilizzatore di tale conoscenza, viene ridotto a solo deposito. L'utilizzatore della conoscenza e' il sistema esperto, che grazie a quella conoscenza fornisce il servizio.
Da quando i computer sono entrati a far parte della realta' quotidiana, generando una nuova struttura sociale nella quale i servizi sono preminenti sull' industria, si e' diffuso il termine "Era dell' Informazione". Il tratto caratteristico della Societa' dell' Informazione e' quello di sostituire il movimento fisico delle persone con il movimento virtuale delle informazioni. Vent'anni fa la segretaria dattilografava una lettera sulla sua macchina da scrivere, in diverse copie grazie all' uso della carta carbone, inseriva i fogli dentro buste indirizzate ai vari destinatari, consegnava le buste a un fattorino che le recapitava. Quando le fosse stato richiesto di sostituire un periodo della lettera, la segretaria avrebbe riscritto diligentemente la lettera sulla stessa macchina da scrivere. Compito della segretaria era anche quello di conservare un archivio delle lettere spedite.
La segretaria dell'era dell'informazione ha sulla scrivania un computer, che per lei e' equivalente a una macchina da scrivere dotata di uno schermo. Dal suo punto di vista la differenza principale fra il computer e la macchina da scrivere e' la possibilita' di correggere e modificare in maniera semplice ed economica, senza dover riscrivere la lettera da capo. Cio' e' reso possibile dalla memoria del computer, nella quale il testo viene tenuto fino alla fine della composizione. Per tutto quel periodo il testo puo' essere cambiato con la stessa facilita' con cui possiamo cambiare la memoria di una persona dandole nuove istruzioni. Quando la lettera e' terminata, la segretaria chiede al computer di inviare la lettera ai destinatari, ed e' il computer ad incaricarsi di farne delle copie e a trasmetterle via filo ai personal computer che si trovano sulla scrivania di ciascuno dei destinatari. I destinatari a loro volta potranno leggere la lettera sul loro schermo, e poi rispondere allo stesso modo. La segretaria puo' anche chiedere al computer di conservare la lettera nella sua memoria magnetica. E li' rimarra' per usi futuri. In qualsiasi momento la segretaria potra' andare a riprendere quella lettera, cambiare un periodo e spedirla. Il tutto avviene senza che sia prodotta una sola riga di carta stampata. Tant'e' vero che la segretaria non e' piu' indispensabile: tutto il lavoro possono farlo direttamente il mittente, il destinatario, e il computer.
La differenza sono quei fogli di carta che si spostavano da un ufficio all' altro, che finivano in archivi, che affollavano scrivanie. Nell' "era dell' informazione" tutto cio' non esiste piu': l'unita' di comunicazione e' l'"informazione" pura (la lettera elettronica) che viaggia all'interno di una "rete" di computer.
In questo esempio abbiamo indirettamente introdotto i due concetti basilari della societa' dell' informazione: la "base di dati" (database) e le "comunicazioni" (communication).
Il database e' un insieme di informazioni relative a uno stesso soggetto: per esempio, i dipendenti di una certa azienda. La communication e' cio' che consente a diversi computer, vicini o lontani, gemelli o dissimili, di parlare fra di loro. Questi due concetti sono sufficienti per definire l'infrastruttura della societa' dell' informazione: una rete integrata di centri informativi.
Il sistema esperto amplia la portata delle "basi di dati", trasformandole in "basi di conoscenza". Il loro potere non sta piu' soltanto nel fatto di contenere miliardi di informazioni, cosi' tante che nessun umano potrebbe mai ricordarle o gestirle; il loro nuovo potere sta soprattutto nel fatto che quelle "informazioni" sono ora quelle che regolano il funzionamento della societa' umana. Il computer dotato di una base di dati e' in grado di fornire all'utilizzatore un dato; per esempio, quale sia lo stipendio di un dipendente, a l'ora di arrivo di un volo, o il costo di un prodotto. Il computer dotato di una base di conoscenza e' in grado di prendere decisioni nel dominio rappresentato da quella base di conoscenza; per esempio, diagnosticare una malattia, o consigliare come investire i propri capitali. La transizione da base di dati a base di conoscenza determina una transizione del ruolo del computer e induce una trasformazione strutturale della societa', da societa' dell'informazione a "societa' della conoscenza".
La societa' della conoscenza potra' usufruire del computer per tutte quelle attivita' che oggi sono appannaggio di una elite di "specialisti". La societa' della conoscenza produrra' su scala industriale "cloni" di tali "specialisti" da mettere a disposizione di un numero ben piu' elevato di utenti. La societa' della conoscenza sara' una societa' in cui tutti potranno utilizzare il computer che "clona" l'esperto di investimenti, oppure allacciarsi al servizio che fornisce una diagnosi medica, oppure affittare per qualche minuto il computer esperto di investimenti.
Cio' mutera' sia il ruolo dei professionisti sia quello del loro mercato. Il professionista diventera' un raccoglitore di conoscenze, la cui professione consistera' essenzialmente nell'aumentare continuamente la propria esperienza. A lui si attingera' per costruire "cloni" esperti nel suo settore. Saranno poi loro, le macchine, a consigliare l' utente. Una volta clonato, l' unico obiettivo dello specialista diventera' quello di diventare piu' specialista del proprio clone in modo da rimettere in vendita la propria esperienza in un continuo ciclo di raffinamento e di concorrenza con gli altri esperti del settore. La ridefinizione del ruolo dell'esperto, l'emergere di una nuova figura professionale, quella dell'ingegnere della conoscenza, e l'accesso alle attivita' decisionali da parte di una popolazione piu' ampia sono fenomeni di una portata tale da poter generare una rivoluzione sociale ed economica.
Il concetto di ereditarieta' venne trattato in maniera scientifica nel 1866 da Gregor Mendel, ma sarebbe stato ignorato fino all'inizio del ventesimo secolo, quando la neonata Genetica ne avrebbe fatto il proprio manifesto. Mendel noto' delle regolarita' nel modo in cui venivano ereditati il colore e la struttura dei piselli e da questo intui' che dovesse esistere una unita' elementare di trasmissione dei caratteri ereditari detta "gene". Le leggi dell'ereditarieta di Mendel relegarono definitivamente nella preistoria l'idea (accettata sia da Lamarck sia da Darwin) che i caratteri acquisiti si potessero trasmettere per via ereditaria. Dapprima sembro' che la scoperta di Mendel rimettesse in discussione l'intera teoria di Darwin, ma nel 1930 Ronald Fisher avrebbe dimostrato che selezione naturale e Genetica sono del tutto compatibili.
Il programma riduzionista che era in corso in tutte le scienza aveva gia' portato i biologi a concepire un organismo come un insieme di cellule. Il gene venne identificato come una struttura di cromosomi che si trova nel nucleo della cellula: in un certo senso era stato scoperto il "cervello" della cellula. La biochimica riusci' in seguito a penetrare i segreti del nucleo: nel 1944 Oswald Avery scopri' che il trasmettitore chimico dell'informazione genetica era un acido detto DNA (acido deoxiribonucleico).
Nel 1953 Francis Crick e James Watson scoprirono anche quale fosse la struttura interna del DNA, proponendo il modello classico della "doppia elica": i geni sono composti di quattro unita' chimiche che fungono da alfabeto per un codice scritto lungo due lunghe stringhe complementari, arrotolate l'una attorno all'altra. Il codice che esse implementano costituisce la serie di istruzioni che stabiliscono come l'organismo debba crescere e riprodursi.
Negli anni successivi il quadro si venne completando e il processo dell'"epigenesi", quello che trasforma il genotipo (molecola di DNA) in fenotipo (l'organismo), venne ricondotto a una serie di istruzioni logiche che danno luogo a reazioni chimiche. Crick enuncio' allora il principio fondamentale della Biologia molecolare: il DNA viene trascritto in RNA (acido ribonucleico) messaggero, il quale a sua volta viene tradotto dai ribosomi in catene di aminoacidi, ovvero in proteine.
Erano numerose le analogie con la nascente cultura dell'informazione, dal fatto che i geni memorizzino informazioni in forma digitale al fatto che esista un "nastro" di istruzioni alla Turing. La teoria di Turing trovo' cosi', a posteriori, una sua plausibilita' scientifica. Nel 1979 Douglas Hofstadter ha illustrato un elegante parallelo fra la Biologia molecolare e la Logica Matematica che dal codice di partenza (DNA nel primo caso e espressioni logiche nel secondo) arriva fino all'auto-replicazione (nel primo caso) e all'auto-referenziabilita' (nel secondo).
La scoperta del DNA stabili' di fatto una diretta dipendenza della Fisiologia dalla Genetica. Negli anni successivi nacque infatti la "Genetica del comportamento", che studia la relazione fra il "genotipo" (il codice genetico) e il "fenotipo" (i tratti caratteristici) di un particolare individuo.
Che il codice genetico determini (almeno in parte) il comportamento dell'individuo e' noto fin da quando esiste l'allevamento selettivo di razze di cani, bovini, cavalli, etc. Al tempo stesso gli psicologi hanno determinato in maniera sempre piu' precisa l'influenza dell'ambiente. Benche' non sia ancora chiaro in che misura i due fattori agiscano sullo sviluppo dell'organismo, oggi e' convinzione diffusa che entrambi vi contribuiscano.
La genetica avrebbe anche dato un impulso determinante alla comprensione della mente, perche' avrebbe consentito di comprendere il funzionamento del sistema immunologico e da cio' sarebbe scaturita la teoria neurobiologica del cervello.
Esistono diversi approcci alla programmazione automatica, ma tutti si possono ricondurre allo stesso: la sintesi di un programma a partire dal comportamento desiderato. Un caso particolarmente studiato e' quello di costruire un programma che produca certi output a fronte di certi input. In questo caso l'input al programma-programmatore e' la sequenza di coppie [input, output] piu' la conoscenza del programmatore (la conoscenza di come si scrivono i programmi). Se si rappresenta il programma da costruire con un predicato p(X), che e' vero se X e' un input valido, e la sequenza di coppie con un predicato r(X,Y), che e' vero se X e Y costituiscono una di quelle coppie [input,output], allora il programma p(X) e' definito logicamente dalla formula:
Per-ogni X p(X) --> Esiste Y tale che r(X,Y)
(per ogni input che rende vero il programma esiste un Y che e' l'output accoppiato all'input X).
Costruire il programma p(X) significa trattare questa formula come un teorema e tentare di dimostrarlo. La sua dimostrazione "e'" il programma. Infatti dimostrare il teorema significa dimostrare che e' possibile trovare, per ogni X, l'Y che lo soddisfa; e per dimostrare cio' si deve costruire il metodo con cui si trova Y; e il metodo con cui si trova l'Y corrispondente all'X e' proprio il programma cercato.
Questa prassi e' la conseguenza di un'importante proprieta' dei teoremi con quantificatori esistenziali scoperta da Cordell Green nel 1969: la dimostrazione di un teorema di tale tipo contiene implicitamente la sequenza di operatori necessaria per trovare gli oggetti di cui il teorema asserisce l'esistenza. Da questo teorema ebbe anche origine la teoria dei tipi di Martin-Lof. Nel 1980 Zohar Manna ha inoltre proposto un metodo deduttivo per estrarre tali operatori.
Un'estensione della sintesi di programmi a partire dalle coppie di input e output e' quella (proposta da E. Gold nel 1967) di inferire una grammatica a partire dalle stringhe che essa deve essere in grado di generare. Una grammatica e' infatti un caso particolare di programma, composto di istruzioni per generare stringhe.
Nel 1975 John Holland ha introdotto evoluzionismo e genetica nell'informatica formulando un algoritmo "genetico" in grado di simulare l'evoluzione darwiniana per stringhe di caratteri binari (bit) di lunghezza fissa. Tali stringhe (che in seguito sarebbero state estese anche a quelle di lunghezza variabile) rappresentano pertanto i cromosomi. Holland dimostro' che molti problemi di tipo adattativo possono essere risolti in maniera efficiente mediante tale algoritmo.
In particolare nel 1986 applico' la sua teoria genetica ai sistemi di produzione ideando un "classificatore" di regole di produzione modellato sulla teoria dell'evoluzione: generare nuove popolazioni di regole selezionando le piu' efficaci all'interno di una popolazione iniziale. Precisamente l'algoritmo procede cosi': 1) genera a caso una popolazione iniziale di regole; 2) calcola la "performance" di ciascuna regola; 3) di ciascuna regola calcola la probabilita' di selezione, data dal rapporto fra la sua performance e la somma totale di tutte le performance; 4) tenendo conto di questa distribuzione di probabilita' e applicando gli operatori genetici alla popolazione attuale, genera una nuova popolazione di regole. Gli operatori genetici necessari per generare la popolazione per la prossima iterazione sono quelli di ricombinazione, mutazione e inversione: la ricombinazione crea una nuova regola mettendo insieme i termini di varie regole; l'inversione rimescola casualmente i termini di una stessa regola; la mutazione sostituisce termini con nuovi termini in maniera casuale. Inversione e mutazione sono pertanto operatori "asessuali", mnetre la ricombinazione e' il tipico operatore sessuale che crea un nuovo individuo i cui tratti sono ereditati da due genitori. Ad ogni iterazione viene calcolata la probabilita' di riproduzione di una regola in funzione del suo grado di performance.
Nel 1990 John Koza ha esteso le idee di Holland alla generazione genetica di interi programmi. La popolazione darwiniana e' pertanto rappresentata da programmi (strutturati in maniera gerarchica) i quali subiscono trasformazioni genetiche per soddisfare i requisiti di saper risolvere un certo problema. Il problema viene definito da una serie di output attesi a fronte di certi input. Ogni individuo della popolazione ha associata una misura del suo adattamento all'ambiente calcolata come (l'inverso della) differenza fra il proprio output e l'output richiesto dall'ambiente.
Nel 1943 Warren McCulloch e Walter Pitts, basandosi su quelle idee, proposero il modello secondo cui il neurone poteva essere immaginato come un'unita' logica a "soglia": quando il segnale di input supera un certo "valore di soglia", il neurone emette il suo segnale di output. I due dimostrarono poi come sia possibile implementare tramite neuroni binari ogni espressione logica finita, ovvero come una rete di tali neuroni sia equivalente a una macchina di Turing universale. Per neurone "binario" si intende un'unita' astratta che si attiva se e soltanto se l'input totale che riceve raggiunge il valore di soglia proprio dell'unita' stessa. Viene detto "binario" perche' si presenta soltanto in due stati: attivo e non attivo (quando e' attivo, emette sempre lo stesso output). Un neurone puo' ricevere input da due tipi di sinapsi: eccitatorie e inibitorie. Se una delle seconde e' attiva, il neurone non puo' diventare attivo.
Con questo semplice schema e' possibile costruire "circuiti neuronali" che realizzano le operazioni booleane di AND, OR e NOT. Una rete di tali neuroni costituisce una complessa macchina booleana, in grado di esprimere ed eseguire complicate espressioni logiche. L'intuizione piu' importante era pero' un'altra: McCulloch e Pitts si resero conto che l'"intelligenza" di una tale rete sarebbe stata dovuta al fatto di essere una rete, al fatto di contenere migliaia di collegamenti, e non certo all'intelligenza del singolo neurone, che e' anzi limitato a due soli stati (attivo e inattivo). Anche se i due ricercatori sospettavano gia' che l'ipotesi binaria fosse una grossolana approssimazione della realta' (in effetti gli stati possibili di un neurone sono infiniti e variano con continuita'), le reti di neuroni binarie fornirono il primo strumento matematico per costruire modelli computazionali del cervello.
Benche' l'idea del neurone potesse rendere conto di come venisse generato un comportamento casuale dell'organismo, rimaneva del tutto misterioso come quel comportamento potesse essere in relazione con i milioni di input pervenuti alle varie zone del cervello, input che possono talvolta essere persino in contraddizione fra di loro. In altre parole, restava da stabilire come dal caos di miliardi di neuroni potesse nascere l'ordine di un comportamento intelligente a fronte di una data situazione. Nel 1959 McCulloch e Pitts formularono allora il principio della "ridondanza del comando", in base al quale il comando viene trasferito alla zona del cervello che riceve l'informazione piu' significativa. I neuroni di quella zona prendono l'iniziativa e, per attivazione ricorsiva di neuroni ad essi collegati, la rete neurale produce alla fine un comportamento ben definito. Il punto saliente di questo modello e' che in realta' nessun neurone possiede l'informazione globale necessaria a stabilire quale sia l'azione da compiere.
Nel 1949 Donald Hebb formulo' la legge secondo cui la connessione fra due neuroni viene "rinforzata" ogni volta che viene usata, ovvero ogni volta che uno dei due neuroni invia lungo quella connessione un segnale all'altra (assai simile alla "legge dell'effetto" di Thorndyke). Hebb ipotizzava pertanto che le connessioni non fossero fisse, ma fossero variabili nel tempo a causa di un qualche tipo di metabolismo non meglio identificato. Non solo: Hebb ipotizzava anche che esse variassero secondo una legge che premiava semplicemente quelle piu' frequentemente usate. In tal modo Hebb forniva una prima spiegazione di come il cervello possa "imparare" nuove nozioni.
Lashley apri' la strada al modello distribuito della memoria, secondo il quale l'informazione non e' localizzata in un punto univoco ma in piu' punti. E' un fenomeno assai simile a quello dell'ologramma (inventato in quegli anni da Dennis Gabor), che contiene in ogni suo punto l'informazione dell'immagine, e conservera' quell'immagine, sia pur sbiadita, anche se una parte viene rimossa. Gli studi di Lashley fecero comprendere che per rappresentare un concetto era necessario disporre di una rete di neuroni.
Per effetto di queste e altre scoperte si venne consolidando un modello neurale del cervello secondo il quale esiste una rete di cellule nervose (circa cento miliardi) fra di loro connesse (circa 200.000 miliardi di connessioni). Tramite le interconnessioni ciascuna cellula (ciascun neurone) riceve segnali elettrochimici (input) da altre cellule (altri neuroni). Il neurone integra gli input e genera un nuovo segnale elettrochimico (output) che e' funzione di tali input. L'output viene inviato lungo altre interconnessioni ad altri neuroni. Le interconnessioni di input vengono chiamate "dendriti", quelle di output "axoni", ma e' uso comune chiamare entrambe semplicemente "sinapsi". Un neurone si comporta come un'apparecchiatura elettrochimica con un potenziale interno: quando il potenziale (somma "pesata" degli input) supera la soglia del potenziale interno, il neurone propaga un potenziale di attivazione lungo l'axone.
Ogni input viene "pesato" secondo la forza della relativa connessione. La forza delle connessioni e' dinamica e varia secondo l'esperienza (legge di Hebb). Pertanto una connessione molto "usata" sara' piu' forte di una poco "usata", e questo avra' degli effetti sugli input che vi passano.
Ogni esperienza si realizza tramite un'attivazione a catena dei neuroni del cervello. La percezione sensoriale costituisce una serie di input che scatenano una propagazione di segnali all'interno della rete di neuroni. Alla fine della catena vengono attivati dei neuroni periferici che emettono i segnali di output. Questa e' la risposta del cervello a quella esperienza.
Il caso piu' tipico e' quello del riconoscimento. Un cervello viene "addestrato" dall'esperienza (per esempio) a riconoscere che un certo viso appartiene a una certa persona. Il cervello viene cioe' addestrato a produrre un ouput che e' il nome di quella persona a fronte di una varieta' di input: tutte le possibili maniere in cui il suo viso si puo' presentare (di fronte, di profilo, inclinato, variamente ombreggiato, con o senza barba e cosi' via). L'"addestramento" avviene tramite l'esperienza: man mano che il cervello viene esposto al viso di quella persona, si rafforzano le connessioni piu' adatte a far riconoscere quel viso come appartenente a quella persona. Dopo un numero sufficientemente grande di volte che cio' si e' ripetuto, le connessioni dovrebbero aver raggiunto una configurazione di eccellenza, tale che ogni immagine di quel viso, non importa da quale angolazione e in quali condizioni di luminosita', causera' sempre un tipo di attivazione a catena dei neuroni che alla fine fornira' come risultato il nome di quella persona.
La misura dell'intelligenza diventa una misura del "traffico" di segnali che i neuroni si scambiano. Il singolo neurone e' invece un'unita' molto semplice che non e' in grado in compiere alcuna operazione complessa. Ha la stessa funzione di una pallina dell'abaco: l'abaco e' in grado di compiere operazioni aritmetiche grazie al modo in cui le sue palline sono connesse, ma ogni pallina e' in se' del tutto insignificante. Sono le configurazioni, non i neuroni, che contano.
Al tempo stesso sbiadisce la differenza fra "memoria" e "ragionamento". Il modo stesso in cui vengono memorizzate le informazioni sembra essere parte integrante del modo in cui il cervello ragionera' su di esse, e viceversa. Contrariamente a quanto suggerisce il buon senso, la memoria sembra molto piu' efficace nel "riconoscere" che nel "ricordare": nessuno sa ricordare nei minimi particolari il viso persino del piu' intimo amico, ma ovviamente tutti siamo perfettamente in grado di riconoscerlo quando ne vediamo una fotografia, indipendentemente dagli occhiali, dalla barba, persino dall'eta'.
Dallo studio della visione nella rana Maturana pervenne nel 1960 alla conclusione che non esistano rappresentazioni interne della realta', ma semplicemente reazioni provocate da fibre piu' idonee a rispondere a caratteristiche della luce come l'intensita'. In seguito Maturana vedra' questo fenomeno all'interno di un piu' generale principio che accomuna tutti gli organismi viventi: quello dell'"autopoiesi", in base al quale ogni organismo e' composto da una rete di processi che, attraverso la loro interazione, rigenerano di continuo la rete stessa. L'adattamento, per esempio, consiste semplicemente nel rigenerare la struttura dell'organismo in modo che il suo rapporto con l'ambiente rimanga costante. L'apprendimento e' un processo che trasforma continuamente il comportamento in base agli stimoli dell'ambiente. Il ricordare non dipende da una memoria di entita' astratte, ma dal saper generare il comportamento che meglio si accoppia con le situazioni ricorrenti nell'ambiente. Un organismo, pertanto, non fa alcun uso di strutture rappresentazionali, bensi' la sua conoscenza e' dovuta al cambiamento continuo del sistema nervoso indotto dalla percezione: la conoscenza e' azione. Un organismo biologico e' allora una struttura in grado di rispondere all'ambiente, e lo stimolo e' la parte di ambiente che viene assimilata in tale struttura. Maturana fondo' in tal modo la "Neurofisiologia cognitiva", il cui obiettivo e' studiare come i processi biologici diano origine ai fenomeni cognitivi, ovvero come gli stimoli dell'ambiente perturbino il sistema nervoso producendo comportamento.
Gerald Edelman scopri' nel 1969 un importante principio del sistema immunitario: ubbidendo a delle elementari leggi di come le molecole si possono "legare" fra di loro, sono i batteri stessi a selezionare chimicamente gli anticorpi che li possono combattere piu' efficacemente, scegliendoli fra i milioni di anti-corpi presenti nel corpo umano. Gli anticorpi selezionati hanno a quel punto maggiori probabilita' di riprodursi, e pertanto vengono "premiati" dal fatto di essere quelli piu' "adatti". E' un fenomeno che ricorda il principio darwiniano di competizione e che introduce il concetto di "population thinking" (ragionare in termini di popolazione, e non solo di individuo) nello studio del sistema nervoso. Negli anni successivi Edelman tento' di applicare questa legge al sistema nervoso, pervenendo (1978) a un modello in base al quale sarebbero gli stimoli a selezionare direttamente i gruppi neuronali piu' adatti a riconoscerli (la cosiddetta teoria della "selezione dei gruppi neuronali", o NGS). Uno stimolo da' luogo ad un processo competitivo fra i gruppi che rispondono ad esso: i gruppi neuronali che rispondono meglio ne escono "rafforzati".
Secondo l'NGS le operazioni mentali hanno origine da tre fasi di sviluppo. Nella prima, tipicamente prenatale, le molecole di coesione cellulare (CAM) causano la nascita e la crescita di reti neuronali: le connessioni fra i neuroni si modificheranno durante l'arco dell'intera esistenza in funzione delle esperienze del cervello (da quanto spesso i singoli neuroni verranno selezionati). Nei primi mesi di vita (seconda fase) ha luogo la formazione di mappe neuronali composte da neuroni che rispondono meglio degli altri a certi stimoli. Ogni mappa si specializza nel riconoscere certe caratteristiche (una frequenza, un'ampiezza, una forma). Ciascuna mappa non e' sufficiente da sola a fornire una descrizione completa di un oggetto. Nella terza fase il cervello e' invece in grado di impiegare un processo di "rientro" per mettere in relazione fra di loro diverse mappe e dar cosi' luogo alle operazioni mentali. Dalla nascita in poi i neuroni sono sempre gli stessi (circa mille miliardi): durante la vita variano soltanto le intensita' delle connessioni.
Nella teoria dei gruppi neuronali di Edelman selezione, apprendimento e comportamento sono le entita' fondamentali, e si riferiscono allo stesso fenomeno (sono di fatto la stessa cosa). L'apprendimento, in particolare, e' cambiamento acquisito.
Un semplice esempio del modello neuronale e' quello del pipistrello, illustrato da Nobuo Suga nel 1990. Il pipistrello impiega impulsi di vario tipo per navigare e per cacciare la preda. Il sonar del pipistrello riesce infatti a catturare tutta una serie di informazioni contenute negli echi degli impulsi che l'animale ha emesso. La corteccia uditoria e' suddivisa in gruppi neuronali, ciascuno specializzato nell'estrarre un certo tipo di informazione dall'eco: i neuroni di una regione rispondono alle frequenze, i neuroni di un'altra rispondono alle differenze di frequenza fra un impulso e il suo eco, i neuroni di un'altra ancora rispondono agli intervalli di tempo fra un impulso e il suo eco, e cosi' via. Tutto cio' ha uno scopo molto pratico: dall'effetto noto in Fisica come spostamento Doppler (una differenza di frequenze) e' possibile calcolare direttamente la velocita' relativa e persino il battito di ali della preda; il ritardo dell'eco e' proporzionale alla distanza della preda; dall'ampiezza dell'eco e' possibile determinare le dimensioni della preda; e cosi' via. L'insieme di questi segnali non viene pero' "elaborato" per derivarne i dati di cui sopra e poi elaborare una rotta. I neuroni specializzati in tali "rilevamenti" emettono istantaneamente l'impulso che meglio guida la navigazione del pipistrello. Questa complessa e sofisticata configurazione di segnali di risposta "e'" il comportamento del pipistrello.
Il modello neurobiologico che e' emerso da questi studi e' quello di un cervello evolutivo. I geni determinano quali neuroni sono connessi inizialmente e con quali pesi; ma e' l'esperienza, e non i geni, a determinare lo sviluppo delle sinapsi, favorendo quelle usate piu' spesso. Le connessioni piu' sollecitate dall'esperienza si rafforzano, le altre si indeboliscono. A seconda delle esperienze vissute dall'individuo si avranno configurazioni neuronali diverse, ovvero cervelli diversi. I neuroni si organizzano a loro volta in aree che danno origine alle parti specializzate del cervello. L'interazione dell'ambiente e' pertanto determinante per lo sviluppo del cervello, anzi e' cio' che determina come si sviluppa il cervello. Anche la formazione della struttura cerebrale soggiace pertanto a una forma di competizione darwiniana.
Lo studio fisiologico del cervello puo' avvenire a diversi livelli e a diverse dimensioni: al livello chimico delle molecole l'ordine di grandezza e' l'Armstrong; a livello di sinapsi l'ordine di grandezza e' un micrometro (milionesimo di metro); a livello di neurone e' di un decimo di millimetro; si arriva al centimetro parlando di mappe. Il livello piu' alto e' ovviamente quello del sistema nervoso completo.
La fortuna del modello connessionista ha fatto si' che gli etologi tentino di spiegare sotto forma di processi neuronali un po' tutti i comportamenti esibiti da una specie. Il canto di un uccello, per esempio, potrebbe comunicare qualcosa ai suoi simili semplicemente perche' nel loro cervello quelle particolari frequenze attivano certi neuroni che fanno loro compiere certe azioni. E cosi' via: e' relativamente semplice proporre modelli analoghi per qualsiasi tipo di comportamento.
Il modello neuronale del cervello ha riportato in auge la polemica fra dualisti e riduzionisti, i primi convinti che mente e cervello siano due entita' distinte, i secondi convinti che la mente si possa spiegare in termini della struttura del cervello. Dei progressi della neurofisiologia si e' servito, per esempio, Penfield nel 1975 per affermare che la mente e' frutto dei processi fisici che si svolgono nel cervello. D. Armstrong (1968) ha sostenuto questa teoria dell'identita' psicofisica con le parole "possiamo fornire una spiegazione completa dell'uomo in termini puramente fisico-chimici".
Ancora non e' stata fornita pero' una spiegazione fisico-chimica di quale processo causi il verificarsi della legge di Hebb. La situazione della neurobiologia ricorda un po' quella della Fisica del Seicento, quando Johannes Kepler aveva scoperto una legge che spiegava il comportamento dei pianeti, ma senza poter spiegare a sua volta quale processo causasse quella legge (la teoria della gravita' di Newton e la teoria generale della relativita' di Einstein sono due possibili teorie di tale processo). Non e' pertanto neppure possibile sapere se la legge di Hebb non sia un caso particolare di una piu' generale proprieta' della materia. Il muscolo esercitato e' piu' forte, il muscolo non esercitato si atrofizza. E' intuitivo che fenomeni di "apprendimento" simili a quello neuronale si possono osservare nella vita quotidiana: un pezzo di carta piegato molte volte tendera' a rimanere piegato, e tendera' ad assumere di nuovo la sua configurazione piatta se invece lasciato stare per un tempo sufficientemente lungo. E' possibile anche (Piero Scaruffi, 1990) notare similitudini con la forza di attrazione gravitazionale (l'attrazione fra due masse aumenta quando si aggiunge materia ad esse) e la fisica delle particelle (il modello della "stringa" proposto da Nambu ha come conseguenza che la forza di coesione fra due quark aumenta quando si aggiunge energia ad essi).
Dal punto di vista computazionale il modello neurobiologico diede origine alla disciplina delle reti neurali e piu' in generale al modello computazionale del connessionismo (revisione di quelli di William James e di Edward Thorndike). In questo modello le proprieta' neurobiologiche del cervello sono espresse in modo astratto come "ridondanza" (la perdita di una parte della rete non fa perdere alcun concetto specifico, causa soltanto un degrado uniforme della memoria), "tolleranza" al rumore (un disturbo non degrada la memoria), elaborazione "analogica" (i segnali non sono digitali, ma variano nel continuo), e cosi' via. Ogni processo cognitivo e' dovuto a un insieme di "agenti" che interagiscono scambiandosi messaggi. Ogni agente e' un'unita' elementare in grado di eseguire soltanto un compito molto semplice. Sono i messaggi a determinare la complessita' del sistema. L'intelligenza del sistema e' una misura del "traffico" di messaggi.
La cibernetica, e in particolare l'obiettivo di inventare il sistema auto-organizzantesi, forni' di fatto gli strumenti matematici necessari per costruire modelli elettromeccanici delle reti neurali del cervello. A partire dagli anni Cinquanta, con il Perceptron di Rosenblatt, si tento' la costruzione o la simulazione di macchine neurali, ma nel 1969 Marvin Minsky evidenzio' alcuni problemi di fondo della disciplina. Per effetto di quella critica durante gli anni Settanta l'interesse per le reti neurali diminui' considerevolmente, di pari passo con l'emergere dei sistemi esperti. La rinascita di interesse si verifico' nel 1982, quando John Hopfield dimostro' la possibilita' di costruire macchine neurali avvalendosi della stessa tecnologia VLSI impiegata nella costruzione dei comuni computer.
Se la programmazione (non-sequenziale) dei sistemi esperti era sostanzialmente diversa da quella (sequenziale) dei programmi convenzionali, la programmazione delle reti neurali e' a sua volta assai diversa da quella dei sistemi esperti. Una volta costruita la rete neurale (ovvero dopo aver definito i nodi che la compongono e tutte le connessioni possibili fra tali nodi) occorre "addestrarla" ad eseguire il compito per cui e' stata costruita. Tale compito puo' essere espresso come "riconoscere una situazione". L'addestramento a riconoscere una situazione di un certo tipo consiste nel presentarle diverse situazioni e le corrispondenti azioni da compiere a fronte di esse. Ad ogni occorrenza della coppia situazione-azione, la macchina neurale modifica le connessioni fra i nodi in modo che gli input corrispondenti a quella situazione generino un output corrispondente a quell'azione. Dopo aver ripetuto molte volte questa operazione con molte coppie diverse di situazione-azione, si suppone che la macchina raggiunga uno stato stabile. La macchina e' a quel punto "addestrata" a riconoscere altre situazioni di quel tipo. A fronte di una nuova situazione di quel tipo, dovrebbe saper generare l'azione che le e' stata insegnata.
Se programmare un computer tradizionale significa spiegargli "come" risolvere passo per passo un certo problema, se programmare un sistema esperto significa fornirgli la conoscenza che serve per risolvere un certo problema, programmare una rete neurale significa farle risolvere molti esempi particolari di quel tipo di problema. L'addestramento prende il posto della programmazione, la neuro-computazione prende il posto della computazione programmata.
Nel 1986 David Rumelhart e James McClelland hanno definito la neuro-computazione come una forma di "computazione distribuita e parallela" (PDP o "parallel distributed processing").
Anche il modello computazionale delle reti neurali, come i suoi predecessori, e' stato sottoposto a critiche di principio. Ancora una volta ha senso domandarsi se il cervello possa scoprire la propria struttura, o se cio' non costituisca un paradosso, e in tal modo mettere in discussione l'intero programma neurobiologico.
Esiste inoltre un problema scientifico: i dati fisiologici sulla struttura del cervello sono ancora molto primitivi. Nessuna struttura del cervello e' stata pienamente compresa. Quella delle reti neurali e' una tecnologia che ha poco a che vedere con la neurologia, eccetto che ne prende in prestito alcune idee molto generali. In pratica si e' verificata una sequenza di transizioni del tutto arbitrarie: il cervello, che non e' compreso, ha ispirato un modello del cervello, che e' compreso, il quale ha a sua volta ispirato la neuro-computazione, che viene addirittura usata. Questo passaggio dall'ignoto al certo e' stato ottenuto astraendo informazioni approssimate e incerte e derivandone una teoria matematica precisa e certa. Ma e' dubbio quale sia la relazione fra quella teoria e la realta'.
Infine esiste un problema tecnologico: quella delle reti neurali e' una tecnologia molto "debole", esattamente come quella dei sistemi esperti. Puo' essere usata con successo soltanto in casi molto limitati e senza alcuna garanzia della sua stabilita' nel tempo.
Il modello connessionista non e' soprattutto in grado di spiegare come si passi dalle strutture neuronali ai processi mentali superiori. Il modello della mente come elaboratore simbolico esibisce la caratteristica opposta: tratta i processi mentali superiori, ma non e' in grado di spiegare come essi corrispondano con l'attivita' neurale del cervello. Il problema e' come si passi dal livello neurale a quello simbolico, ovvero dal processo fisiologico a quello cognitivo, dalla rete neurale al concetto, dall'anatomia al pensiero, e, in ultima analisi, dalla struttura alla funzione.
Un sistema chiuso di simboli e' soltanto un manipolatore di segni: soltanto un osservatore ad esso esterno puo' mettere in relazione quei segni con un significato. Fra il livello fisico e quello mentale deve esistere un livello intermedio che modelli l'attivita' del cervello in modo che i simboli "significhino" qualcosa. George Lakoff (1986) ha trasferito il modello connessionista al livello simbolico affermando che il mondo non e' organizzato in un'ontologia fissa, ma il cervello deve imporre una categorizzazione del mondo prima di poter usare dei simboli per riferirsi a qualcosa. A maggior ragione allora si deve postulare l'esistenza di un livello intermedio che costruisca simboli.
Il modello "subsimbolico" di Paul Smolensky (1987) prevede che esista un livello intermedio fra quello neurale e quello simbolico. La descrizione di un processo mentale al livello subsimbolico e' la descrizione di un sistema neurale. Il problema del modello subsimbolico e' che manca di una funzione di interpretazione. Il livello subsimbolico necessita dell'analogo della semantica model-theoretic per il livello simbolico: la funzione di interpretazione che calcoli i valori dei simboli. Tale funzione dovrebbe pero' essere a sua volta calcolata, e non puo' essere calcolata tramite simboli perche' cio' darebbe origine a una regressione infinita.
Nonostante i progressi della neurobiologia, permane ancora il sostanziale dualismo fra mente e cervello: quanto piu' riusciamo ad esprimere quantitativamente (e quindi computazionalmente) i processi cognitivi della mente e i processi neurofisiologici del cervello, tanto piu' le due dimensioni della mente e del cervello ci appaiono diverse; tanto piu' ci appare difficile conciliare l'una con l'altro, definire quale "ponte" possa congiungere le strutture elementari dell'una con le strutture elementari dell'altro. Gli stati mentali sono stati cerebrali? Smolensky considera la mente come una descrizione ad alto livello del cervello e tenta di scoprire la procedura finita tramite cui la descrizione di alto livello puo' essere derivata da quello di basso livello. Se la descrizione di livello alto descrive l'attivita' collettiva di un livello inferiore, e' possibile che si verifichi qualcosa di simile alla Fisica: al livello basso di atomi e molecole si osservano certi fenomeni (il moto browniano, per esempio) e si utilizza un certo linguaggio (massa, spin, etc.), mentre al livello superiore si osservano fenomeni collettivi (come l'equilibrio) e si utilizza un linguaggio di variabili diverso (temperatura, energia).
Per ora, comunque, gli effetti del darwinismo nel campo della neurofisiologia sono simili a quelli della rivoluzione copernicana nel campo dell'astrofisica: il cervello e' sempre meno al centro dell'universo e sempre piu' asservito al mondo che lo circonda.
Le teorie neurologiche hanno anche riportato in auge la frenologia, la disciplina fondata da Franz Gall all'inizio del diciannovesimo secolo che sostiene di poter derivare i caratteri comportamentali dell'individuo dalla forma del suo cervello. La frenologia, per quanto apparentemente piu' vicina alla stregoneria o all'astrologia che alla scienza, ha invece il merito storico di aver per prima reagito al dualismo cartesiano secondo cui mente e cervello sono due entita' distinte. Secondo Gall la mente e' invece strettamente legata alla forma fisica del cervello. Non solo: Gall classifico' diverse aree del cervello sostenendo che ciascuna potesse in qualche modo fornire indicazioni su una specifica caratteristica della personalita'. In tal modo anticipo' l'idea della localizzazione delle funzioni mentali. Nel 1983 Jerry Fodor ha proposto un modello a "moduli" del cervello che rispecchia proprio i principi dei frenologi, pur assegnando ai vari "moduli" funzioni comportamentali diverse da quelle originali e un po' naif di Gall.
La geometria dei frattali e' tipica dell'era degli algoritmi e dei computer: una forma iniziale molto semplice viene moltiplicata dal computer, che poi moltiplica allo stesso modo la forma risultante e cosi' via all'infinito. L'accumularsi di forme da' origine a forme complesse come appunto la selce. Ogni frattale non puo' essere decomposto in forme piu' elementari (a differenza delle forme della geometria euclidea, che possono sempre essere decomposte in elementi piu' primitivi, fino ai singoli punti). Un frattale e' definito nel suo insieme da un algoritmo. Un algoritmo puo' essere "eseguito" da un computer, ma non decomposto in algoritmi piu' primitivi.
L'utilita' dei frattali sta proprio nel fatto che possono descrivere forme come la selce. Per descrivere una selce con la geometria euclidea servirebbero milioni di segmenti e curve, mentre per descriverla con la geometria dei frattali e' sufficiente un algoritmo ricorsivo. Anche forme piu' complicate, come appunto una costa o un cratere, possono essere descritte da un frattale, ovvero da un solo algoritmo, invece che da miliardi di enti geometrici.
Una proprieta' importante dei frattali e' quella di essere caratterizzati da un numero di dimensioni che non e' un numero intero, ma un numero come 2,1 o 1,9. Nella Geometria euclidea una retta, per esempio, e' un ente a una dimensione, e un cerchio e' un ente a due dimensioni.
La teoria dei frattali e' il primo esempio di come i concetti di ricorsivita' e algoritmo possano aumentare le nostre capacita' di rappresentare il mondo. La scienza classica era legata al concetto che una legge di natura fosse esprimibile con una "formula" e che tutti i fenomeni fossero continui. I frattali suggeriscono che alcune leggi di natura siano meglio rappresentabili sotto forma di algoritmi e che alcuni fenomeni siano discreti.
Robert Sternberg ha pero' obiettato che esistono molteplici "ideali", facendo notare come alcuni gruppi di individui (socialmente, storicamente e culturalmente diversi) adottino "prototipi" di intelligenza assai diversi fra di loro.
In tal senso era meglio la definizione "fattoriale" data da Charles Spearman nel 1904: l'intelligenza e' composta da un fattore generale, necessario per risolvere qualunque tipo di problema, e da un certo numero di fattori specifici, ciascuno necessario soltanto quando si deve risolvere un certo tipo di problema. Sottoponendo un individuo a test mentali di diversa natura, Spearman era in grado di scomporre la sua intelligenza in un fattore che rimaneva uguale per tutti i test e in tanti fattori specifici. L'analisi fattoriale dell'intelligenza venne sviluppata negli anni Trenta da Cyril Burt, Godfrey Thompson e da Louis Thurstone, l'uno convinto che il fattore generale fosse innato, l'altro che fosse acquisito e il terzo che fosse un insieme complesso di "abilita' mentali primarie" (linguaggio, memoria, ragionamento, etc.). La teoria fattoriale di Spearman e' stata portata alle estreme conseguenze nel 1967 da Guilford, che nega l'esistenza di un fattore generale e classifica ben centoventi fattori specifici (o abilita' elementari) la cui combinazione darebbe luogo all'intelligenza. Nel 1971 Philip Vernon ha proposto invece il modello gerarchico dei fattori secondo il quale i fattori sono disposti gerarchicamente a seconda del loro livello di generalita'. Il fattore generale di Spearman risulta allora essere quello che sta in cima alla gerarchia. Al secondo livello si situano i fattori di abilita' verbale e manuale (ancora molto generici), e cosi' via fino ai fattori specifici di Guilford.
Le definizioni "fattoriali" dell'intelligenza sono le uniche che possano dirsi corroborate da dati sperimentali, anche se tutte sono vulnerabili all'affermazione paradossale di Edwin Boring: "l'intelligenza e' cio' che il test misura".
Rifacendosi alla definizione gerarchica di Vernon e ai modelli di information-processing di Newell e Simon, nel 1979 Robert Sternberg ha proposto a sua volta un modello a due livelli gerarchici che esprime i concetti "fattoriali" nei termini moderni della scienza cognitiva. Esiste un livello di "meta-processi", che servono a "pianificare" come risolvere i problemi, ed esiste un livello di quattro tipi di "processi": di performance (cioe' quelli che risolvono materialmente il problema), di acquisizione (cioe' quelli che apprendono nuova conoscenza), di retenzione (quelli che ricordano la conoscenza acquisita) e di trasferimento (quelli che generalizzano la conoscenza).
Tutti i tentativi di definire cio' che comunemente si intende con "intelligenza" analizzando i comportamenti ritenuti "intelligenti" sono falliti. Si potrebbe forse tentare la strada opposta: tentare di definire l'intelligenza come l'opposto della stupidita' e vedere se per caso definire la stupidita' risulta piu' semplice. E' illuminante, per esempio, il fatto che riesca molto piu' facile stabilire se sia stupida una domanda che non una risposta. Una riposta puo' essere sbagliata, incompleta, fuori luogo, ma non e' chiaro quando sia stupida. Domande come "qual'e' il fiume piu' corto d'Italia?" o "in quale citta' la temperatura e' oggi di mille gradi?" sono certamente stupide. Il loro essere stupide deriva da una combinazione di inutilita' e impossibilita', ovvero, in ultima analisi, dal fatto di non poter servire a nulla. Anche nel valutare l'intelligenza si tende a esaminare soltanto la capacita' di fornire risposte, ma forse sarebbe altrettanto interessante studiare la capacita' di fornire domande. Sono numerose le domande che pochi si pongono, benche' sarebbe piu' che lecito attendersi che tutti se le ponessero: "perche' in montagna fa piu' freddo che in pianura, visto che la montagna e' piu' vicina al sole della pianura?", "perche' gli aerei volano a diecimila metri d'altezza invece che a dieci metri d'altezza?", "perche' lo specchio ruota gli oggetti di 180 gradi in orizzontale e non li ruota per nulla in verticale?". Sono tutte domande relative a fenomeni ben noti a tutti, e che quasi nessuno sa spiegarsi, eppure pochi si domandano quei "perche'". Sono forse piu' numerosi coloro che sanno risolvere un complicato teorema di algebra che non coloro che si sono mai domandati quei "perche'". Porsi domande e' forse un indice di intelligenza maggiore che non quello di saper trovare risposte, mentre i test sul quoziente di intelligenza vertono unicamente sulla capacita' di fornire risposte.
Quanto poco sia chiaro il concetto di intelligenza e' dimostrato dal fatto che nessuna misura di essa, con qualsiasi test venga eseguita, ha carattere predittivo. In altre parole, una volta noto il quoziente di intelligenza di una persona non e' possibile predire con certezza praticamente nulla relativamente a quella persona, neppure se sara' o meno in grado di risolvere un certo tipo di problema (fosse anche proprio uno dei tipi di problema che e' stato utilizzato per misurarne il quoziente d'intelligenza!).