I video negli occhi umani

 

Traduzione articolo di Scientific America, aprile 2007

 

 

Prendiamo le nostre incredibili capacità visive così per scontate che pochi di noi si fermano a considerare il modo in cui in realtà vediamo. Per decenni, gli scienziati hanno assimilato il nostro apparato di elaborazione delle immagini alla camera da presa: le lenti dell’occhio mettono a fuoco la luce in entrata al di sopra di una zona di fotorecettori nella retina. Questi captatori di luce magicamente convertono quei fotoni in segnali elettrici che sono spediti lungo il nervo ottico al cervello per l’elaborazione. Ma recenti esperimenti di due di noi e di due altri ricercatori hanno evidenziato che questa analogia è inadeguata. La retina in realtà procede a un significativo processo di pre-elaborazione proprio all’interno dell’occhio e successivamente spedisce una serie di rappresentazioni parziali al cervello per l’interpretazione.

La retina fa molto più che trasmettere semplici segnali al cervello. Sorprendentemente, estrae una dozzina di rappresentazioni distinte di una scena visiva – sofisticati filmati simili a fantasmi formati da relativamente pochi tipi di neuroni.

Il cervello usa queste astrazioni per costruire un mondo visuale affinato con dettagli e ricco di significato.

Capire il “linguaggio visivo” che questi video portano aiuterà i ricercatori che stanno costruendo sensori artificiali che possono aiutare i ciechi a vedere di nuovo. Queste applicazioni dovrebbero inoltre condurre a sforzi per decodificare il modo in cui occhi e cervello vedono chiaramente, e a come possono essere ingannati.

 

Siamo arrivati a questa sorprendente conclusione dopo aver indagato le retine dei conigli, che sono notevolmente simili a quelle degli uomini. (il nostro lavoro con le salamandre ha condotto a risultati simili). La retina, come appare, è un piccolissimo semicerchio di materia celebrale che è stato portato fuori in periferia per guadagnare un accesso diretto al mondo. Come fa la retina a costruire le rappresentazioni che invia? Come appaiono quando raggiungono i centri visivi del cervello? Come rendono la vasta ricchezza del mondo reale? Impartiscono significato, aiutando il cervello ad analizzare una scena? Sono solo alcune delle incalzanti domande a cui il lavoro ha iniziato a rispondere.

Innanzitutto, abbiamo trovato che delle cellule nervose specializzate, o neuroni, presenti in profondità all’interno della retina, progettano cosa può essere pensato attraverso una dozzina di tracce video – diversi tipi di astrazione del mondo reale. Ogni traccia identifica una rappresentazione primitiva di un aspetto della scena che la retina aggiorna continuamente e spedisce al cervello. Una traccia, ad esempio, trasmette un’immagine che assomiglia a una rappresentazione lineare che dà informazioni dettagliate solo sui contorni degli oggetti. Un’altra risponde al movimento, spesso in una specifica direzione. Alcune tracce trasportano informazioni riguardanti ombre o forti luci. Le rappresentazioni di altre tracce statiche sono difficili da ricondurre a delle categorie. Ogni traccia è trasmessa dalla sua popolazione di fibre all’interno del nervo ottico a centri visivi superiori situati nel cervello, dove avvengono processi ancora più sofisticati. (Il sistema uditivo umano ha un’architettura simile: ogni nervo acustico porta informazioni circa un intervallo di frequenze molto limitato e il cervello le combina). I ricercatori che stanno studiando la corteccia celebrale hanno scoperto che caratteristiche come il movimento, il colore, la profondità e la forma sono processati in varie regioni e che una lesione in una di queste regioni può causare un deficit nella percezione di una caratteristica specifica. Ma la capacità del cervello di percepire queste caratteristiche si origina nei video retinici.

Il digramma esplica le nostre migliori spiegazioni per come la retina crea le surreali immagini elettriche che informano il cervello. Mentre continuiamo la nostra ricerca, stiamo iniziando a fare un po’ di luce su come ognuno di questi video è costruito, ma in nessun modo siamo pronti a fornire un modello complessivo. I 12 video che portano tutte le informazioni al cervello riceveranno prima o poi un’interpretazione del mondo visivo, ma non possiamo ancora dire come i loro pattern si integrino. Potrebbe essere che i video servano semplicemente come indizi, una sorta di impalcatura, al di sopra della quale il cervello fa le sue costruzioni. Questa nozione non è dissimile da quella ben descritta dell’“occhio della mente”, che tesse le parole di una novella trasformandole in una narrativa piena di significati.

Sebbene le rappresentazioni della retina sembrino catturare globalmente le caratteristiche visive di una scena, come ad esempio un tavolo apparecchiato, una cascata o un volto parlante, i componenti essenziali  sembrano essere assenti. Nulla circa il sentimento, la capacità, la texture o il fuoco della scena sembrano essere presenti. Forse questi tratti sono in qualche modo contenuti all’interno delle tracce video che interpreta il cervello. O forse, usando le retine dei conigli, possiamo non essere riusciti a trovare tutte le rappresentazioni che potrebbero essere catturate da una retina umana – retine ad “alta risoluzione” che potrebbero estrarre qualità come i sentimenti in modi che non sono stati ancora scoperti.

Ciò non di meno, è chiaro che le rappresentazioni della retina formano un linguaggio visuale naturale. Intendendo che la parola linguaggio ha un significato particolare oggi.

Vari gruppi in tutto il mondo stanno cercando di ridare la vista ai ciechi introducendo un sensore artificiale proprio di fronte al nervo ottico che potrebbe così scavalcare la retina. Il lavoro è ad uno stato avanzato, ma i risultati sono relativamente rozzi, con trasmissioni limitate a vaghe versioni di alcuni pattern fondamentali. Gli studi sugli esseri umani sono iniziati presso l’Istituto Doheny Eye della University of Southern California e stanno per salpare anche alla Wayne State University Medical School. Lo scopo finale di queste sperimentazioni è probabilmente molto lontano, ma il loro successo risiede in ultima istanza nel fornire al cervello patterns di attività simili a quelli che normalmente sono forniti dalla retina, ricreando il linguaggio naturale della visione. Lo scopo subito seguente sarà di scoprire come “allacciare” ogni astrazione alle fibre appropriate nel nervo ottico.

Una comprensione dettagliata del linguaggio naturale della visione formata all’interno della retina è necessario per progettare dispositivi di protesi funzionanti. Allo stesso tempo, questa comprensione aiuterà i ricercatori a scoprire di più circa il modo in cui l’occhio e il cervello insieme vedono chiaramente, sono ingannati dalle illusioni ottiche, seguono oggetti in rapido movimento e riempiono le parti mancanti caratteristiche di ogni rendering su uno schermo televisivo, del computer o del cinema. Speriamo che la nostra descrizione del potere di pre-elaborazione della retina sia un passo verso questa conclusione.

 

 

Anatomia Attiva

 

Il sorprendente comportamento della retina si basa sulla sua complessa struttura. Esperimenti sulla soglia del dolore di molti specialisti hanno aggiunto dettagli fisiologici al classico modello di circuitazione della retina precedentemente delineato dal grande anatomista spagnolo Santiago Ramon y Cajal un secolo fa e ripresi nei testi da allora.

 

La retina trasparente (1) consiste di una stratificazione meravigliosamente organizzata di neuroni (2). Lo strato più esterno, il più lontano dalle lenti, contiene i coni e i bastoncelli, che assorbono la luce in entrata e la convertono in attività neuronale. Questi fotorecettori si connettono a dieci tipi diversi di neuroni conosciuti come cellule bipolari, che spediscono il segnale attraverso le loro lunghe propaggini, o assoni, all’interno di uno strato di "plexiform interno”. Questa banda appare come una serie di 10 strati paralleli distinti. Gli assoni di ogni tipo di cellula bipolare consegnano segnali solo ad alcuni dello strato.

 

Nella parte più interna di questo strato (3) ci sono 12 diversi tipi di cellule gangliari (porpora). La maggior parte dei tipi spediscono propaggini chiamate dendriti all’interno di uno strato distinto, dove ricevono input eccitatorio da un limitato numero di neuroni bipolari (verde). Le cellule gangliari fanno uscire i vari canali video che il nervo ottico porta a differenti regioni del cervello per l’interpretazione. Alcuni dendriti gangliari si ramificano molto, portando informazioni diffuse, mentre altri si ramificano molto meno, portando informazioni ad alta risoluzione. Alcuni rispondono ad un cambiamento nella velocità a cui le cellule bipolari liberano neurotrasmettitori (molecole-messaggere), alcuni ad una variazione decrescente della velocità. Gli input spediti dalle cellule bipolari alle cellule gangliari all’interno dello strato non sono comunque abbastanza per creare le dodici rappresentazioni video. Il segnale emesso dalle cellule bipolari è modulato da un tipo di piccoli neutroni chiamati cellule amacrine (grigio). Alcune di queste cellule operano lateralmente all’interno di uno strato, inibendo la comunicazione tra cellule gangliari distanti nello strato. Altri neuroni amacrini inibiscono i segnali verticali tra gli strati -  e inoltre tra differenti tracce video, come se dovessero dire ad uno strato di non registrare ciò che sta registrando un altro strato. In questo modo, le cellule amacrine raccolgono ed emettono segnali per coordinare le tracce video. Ricercatori come Heinz Wassle del Max Plank Institute for Brain Research a Francoforte, Thomas Euler del Max Plank Institute for Medical RFesearch a Heidelbeng e Richard Masland del Massachusetts General Hospital hanno identificato almeno 26 tipi di cellule amacrine (così come 10 tipi di cellule bipolari e 12 tipi di cellule gangliari). Tutto ciò che vediamo nello spazio è osservato in progressione nel tempo. Addirittura la registrazione di un punto nero immobile fissato in uno spazio privo di colori tridimensionale costituisce un video, perché la retina lo vede in modo continuo al passare del tempo. Molte cellule di ogni tipo gangliare popolano la retina, e l’insieme di tutte quelle di ogni tipo fornisce un video diverso. Ma a differenza del film da box office, che è generato fotogramma per fotogramma, i film gangliari sono continui flussi di segnali. Le interazioni tra le cellule bipolari e le cellule amacrine che sono “lette a voce alta” simultaneamente da ogni insieme di cellule gangliari, forma i dati che riceviamo per interpretare il mondo visivo. Mentre leggiamo, prendiamo oggetti, riconosciamo volti e camminiamo, varie combinazioni di questi video sono i soli indizi visivi che riceve il cervello.  Formano un fondamentale “linguaggio visivo”, con le sue regole fraseologiche e grammaticali che incarnano il dizionario neuronale della visione.

 

FRANK WERBLIN e BOTOND ROSKA

 

 

Video in un lampo

Le nostre descrizioni della complessa attività della retina sono basate sui nostri esperimenti. Registriamo ciò che accade nelle singole cellule gangliari con un minuscolo ago di vetro cavo. Questa micropipetta inietta tinta gialla che rapidamente si diffonde attraverso i dendriti della singola cellula gangliare mostrando gli strati che raggiunge. La pipetta funziona inoltre come un elettrodo, misurando l’attività elettrica della cellula, che riflette la combinazione di segnali eccitatori dalle cellule bipolari o segnali inibitori dalle cellule amacrine.

Per conquistare una sensibilità per i video che le cellule gangliari spediscono al nervo ottico, abbiamo cominciato in modo molto semplice: abbiamo inizialmente registrato come un braccio lineare delle cellule gangliari ha rappresentato un lampo quadrato di luce sparato direttamente all’interno della retina di un coniglio (1). Il lampo è durato un secondo ed è stato confinato in un quadrato di 600micron di lato. Inoltre, il lampo è caduto su una regione piccola e ben definita della retina per un preciso intervallo di tempo. Abbiamo registrato i segnali inibenti ed eccitatori ricevuti da ogni tipo di cellule gangliari in questo periodo, ripetendo la procedura per ognuno dei dodici tipi cellulari. Ogni tipo ha avuto una risposta unica, e la varietà di risposte è stata notevolmente diversa. Nello schema sotto (2), un box rappresenta un secondo, un colore indica la magnitudine del segnale corrente in un tipo di cellula. E’ interessante che, per i tipi di cellule gangliari qui illustrati, le cellule all’interno  dell’area colpita dal lampo hanno risposto, ma non erano attive per tutto il tempo in cui il lampo stava brillando. E inoltre, alcune di loro fuori dai 600micron colpiti si sono attivate dopo la fine del lampo -  comportamento che appare nella mappa sotto forma di due lobi (blu) che si creano dopo l’intervallo di un secondo. Una terza area, all’interno della regione illuminata dal lampo di luce, inoltre, si attiva leggermente, vicino ai due secondi. Come dobbiamo interpretare questo pattern? Se tutte le cellule avessero inviato segnali per tutto il secondo, il pattern si sarebbe “innalzato” lungo l’intera area per l’interno secondo, riempiendo i corrispondenti quadrati della nostra griglia (3). In realtà, l’output è filtrato; è largo come il flash ma è troncato nel tempo, durando circa un decimo di secondo dopo che è iniziato. Non solo c’è stata un leggero ritardo prima che le cellule gangliari abbiano risposto, ma apparentemente hanno risposto solo abbastanza da notare come la luce incidente ha cambiato, da scura a luminosa. Forse questo tipo di gangliari rappresenta l’accensione dell’illuminazione ma non è una presenza sostenuta. La leggera attivazione di queste cellule rappresentata dai due globi fuoriuscenti potrebbe fornire una sorta di segnale di spegnimento. La terza macchia blu a due secondi dopo lo spegnimento è una componente del segnale che ancora non riusciamo a comprendere. Ognuno dei dodici insiemi di cellule gangliari crea una lettura unica, che accentua alcuni aspetti del mondo visivo. Questo output risulta dall’eccitazione prodotta da cellule bipolari e dall’inibizione prodotta dalle cellule amacrine. Il risultato complessivo è un pattern ridotto. Le mappe (4), (5), (6) mostrano i due input e  l’output per una tipo di cellula gangliare diverso da quello precedentemente illustrato.

In questo modo, ogni tipo di cellula gangliare spedisce una rappresentazione spazio-temporale finale lungo il nervo ottico al cervello. Ogni rappresentazione è un prodotto unico che si genera a partire da pattern di eccitazione e inibizione (7).

I dodici tipi di cellule gangliari spediscono in modo continuo 12 di queste strisciate video al cervello al trascorrere del tempo. (ne abbiamo registrate solo sette per rendere l’esperimento gestibile). Un’incredibile diversità di attività si genera in risposta ad un semplice quadrato illuminato.

 

 

 

Volto filtrato

Il nostro scopo, naturalmente, è di capire come ogni set di cellule gangliari estrae il significato dal mondo visivo. Poiché la retina è progettata per fornire informazioni più interessanti di un flash luminoso, ci siamo chiesti cosa sarebbe successo nel caso in cui la retina avesse dovuto testimoniare una scena naturale, come una persona che parla. Che cosa avrebbe mostrato ognuna delle 12 rappresentazioni? Qualche caratteristica sarebbe estratta da un video ma ignorata dagli altri? Nonostante spiegazioni apparentemente facili di come abbiamo catturato l’elaborazione di un quadrato di luce, è incredibilmente difficile apparecchiare la retina di un coniglio vivo con elettrodi sufficienti durante un flash di un secondo, ancora meno per una scena naturale che dura un minuto. Per il secondo esercizio, abbiamo programmato i dati dall’esperimento del fascio luminoso in un computer che simula un famoso chip artificiale della retina – la rete cellulare neuronale – sviluppato da Leon Chua dell’Università di Berckley in California, e Tamas Roska dell’Accademia Ungherese di Scienze a Budapest. Il sistema trasformava il lampo quadrato in una dozzina di pattern spazio-temporali di eccitazione e inibizione che somigliavano molto da vicino ai pattern generati dalla retina vivente. Incoraggiati, abbiamo presentato al chip programmato da retina una scena naturale: uno di noi (Werblin) sedeva di fronte a una telecamera e parlava per circa un minuto. Il simulatore, che era programmato per questo esercizio da David Balya dell’Università  di Tecnologia ed Economia di Budapest, ha generato un film di dati per sette delle rappresentazioni delle singole cellule gangliari (1). A confermare che la simulazione del chip era accurata, abbiamo misurato le reazioni al volto parlante di diversi neuroni nella retina del coniglio vivo. E’ presto diventato evidente che ogni popolazione di cellule gangliari agisce come un filtro, estraendo un’unica rappresentazione spazio-temporale del mondo che è spedita in un unico video al cervello. Abbiamo imposto un colore su ognuna delle rappresentazioni generate dal computer per distinguerle l’una dell’altra. Per esempio, un filtro (arancione) sembra estrarre solo i contorni delle espressioni sul visto che si muove, mostrando il mondo essenzialmente in forma di contorni disegnati. Un altro filtro (porpora) accentua le ombra sotto occhi e naso. Un terzo filtro (beige) riproduce le luci piuttosto che le ombre o i contorni.

Naturalmente, le nostre conclusioni circa l’informazione che ognuno dei 12 filtri scoperti può non essere corretta. Sfortunatamente, è impossibile rappresentare in modo accurato i pattern che abbiamo registrato sulla pagina stampata, perché scorrono continuamente come film, ma dovrebbe potersi notare che contengono molti intervalli bianchi. Ogni filmato si mette in attività per pochi millesecondi per volta ed è altrimenti oscuro. Ciò non di meno, il nostro metodo mostra che ogni filtro è sensibile a una particolare qualità del movimento e dell’aspetto fisico del volto; ogni tipo di cellula gangliare ha il suo modo unico di dipingere il mondo.

Colorare le rappresentazioni ci permette inoltre di tracciare i contributi di ogni set di cellule gangliari nella rappresentazione finale combinata quando i filmati sono sovrapposti. Abbiamo combinato i sette flussi in un uno filmato maestro. Quattro fotogrammi da istanti differenti durante l’orazione di un minuto di Weblin (2) forniscono un’idea di come la sua faccia si sposta da e verso la camera e di come le sue labbra si aprono e si chiudono, con alcune rappresentazioni che ondeggiano e scompaiono, facendolo sembrare simile all’apparizione di un fantasma. Questo è ciò che la retina produce. Questo è ciò che il cervello riceve.  

I nostri video sono solo approssimazioni. Ancora, rendono chiaro che, il tessuto neuronale sottile come un foglio di carta sul fondo dell’occhio sta già scomponendo il mondo visuale in una dozzina di componenti discrete. Queste componenti viaggiano, integre e separate, verso differenti regioni visive del cervello – alcune coscienti, altre no. La sfida delle scienze neurologiche ora è di capire come il cervello interpreta questi pacchetti di informazione per generare visioni della realtà magnifiche e unitarie.

 

 

 

 

 

 

 

 

I filmati prodotti dalla retina sono visibili, a pagamento all’indirizzo

 

www.sciam.com