4.1 知覺
4.2 語言
4.3 心智理論與社會認知
4.4 非人類系統
4.4.1 動植物
4.4.2 人造系統
根據 Orlandi (2018) 的考據,「預測編碼」一詞源於五〇年代映像管電視中的訊號傳送 (signal transmission) 技術。電視畫面需要源源不絕的影像傳送,但如何避免大量的訊號造成傳遞中繼過載則是當時的一個工程挑戰。舉例來說,要傳送一幀影像,其中一種方式是將該影像的所有資訊(如每個像素的色彩或亮度)加以編碼並傳送。但如此一來,當傳送的資訊豐富或數量龐大時則有過載的風險。另種方式是只傳送與首幀影像相異之處的訊號,而不傳送與之前相同(可高度預測)的冗餘訊號。這種訊號只在預測失準時送出錯誤提示,故能大幅降低傳送中繼過載的問題。這種訊號被稱為預測編碼訊號。其中,「預測」與「錯誤」為預測編碼技術的核心概念。
到了八〇年代,這種工程概念被用來理解人類視覺處理初期的神經反應。科學家發現在初級感覺區 (primary sensory areas) 的神經元具有「空間側抑制」(spatial lateral inhibition) 與「時間抑制」(temporal inhibition) 兩現象。前者是指視網膜的神經組織有中央活化但周圍抑制的特徵。後者則指神經元具間歇式反應:剛開始可能處於活化狀態,隨後卻變為中立或抑制。預測編碼正好能用以解釋此二種現象。例如,空間抑制是因為當周圍神經接觸視覺刺激時會產生統計預測。如該預測為最佳預測,則周圍訊號會被抑制而無法進入中央。只當預測錯誤時中央與周圍才會溝通,故而排除多餘資訊以維持傳遞效率。同樣的,時間抑制是因為恆定強度的光會使神經元產生一開始的活化反應。但之後除非預測的強度改變,否則神經元將無任何反應,從而降低傳遞負擔。這被稱之為「知覺的預測編碼假說」。
後來,預測編碼逐漸從解釋視神經活動,擴大應用到說明整個腦神經活動及其計算處理策略。Orlandi (2018) 認為這種擴大應用的背後動機有三:首先,除視覺皮質之外,整個大腦皮質都具有類似的階層式結構,而預測編碼正好提供所需的解釋架構;其次,預測編碼與其他認知理論相容。以行動控制研究為例,頂尖球員或樂手之所以能迅速且流暢的展現技巧性動作,是因大腦的前進模型 (forward model) 在收到體感反饋出現前會預先產生模擬反饋訊號。除非模擬出錯,否則大腦會持續輸出行動指令,而不受體感反饋在傳送時間上的限制。故外野手在看到球的實際落點前,就能先跑到定位準備接殺;第三,它可解釋人與環境的互動。任何生物系統與環境互動時都須盡量減低自由能(如透過改變期待,或以行動改變環境)才能避免混亂並維持行動的慣性,而預測編碼假說提供了解釋自由能最小化 (free energy minimization) 的機制。故基於上述解釋的優勢,預測編碼得以順利擴展至整個認知系統。
雖然「預測編碼」一詞始於一九五〇年代,但將人類認知視為是預測過程的思想起源卻有兩派傳統。一派主張它可追溯自德國哲學家康德有關知覺與心靈過過程的理論(如 Swanson 2016)。另一派則主張它與認知的生態觀點(如 Orlandi 2018)或 4E 取徑有關。
首先,將大腦視為由上而下的推理預測器,而非由下而上的被動接收、處理外在刺激[1],可追溯到德國哲學家康德。Swanson (2016) 指出預測編碼的早期重要文獻源自於對生成模型[2]的研究 (Dayan, Hinton, Neal & Zemel 1995)。文獻提出的模型被作者稱為亥姆霍茲機器 (the Helmholtz machine),乃緣於 19 世紀德國科學家赫爾亥姆霍茲率先將人類知覺系統視為是一統計推理的引擎。亥姆霍茲也是預測編碼領域公認的鼻祖 (Hohwy et al. 2008)。[3]但鮮為人知的是亥姆霍茲曾明確指出並推崇康德早已指出人類的心智過程與知覺過程之間的這種關係 (Helmholtz 1925)。
Swanson (2016) 認為,康德的理論是當代預測編碼假說的先驅。舉例來說,康德的超驗論證方法 (method of transcendental argument) 採用自上而下的分析。這個方法要證明某些概念成立的方式,是證明該概念是其他可能的經驗事實之必要條件。此特點不但是康德迥異於其同時代學者的一個定義特徵 (Stern, 2015),也與當代許多由下而上、描述性的認知科學研究不同。因此,Swanson (2016) 認為預測編碼反轉主流認知科學由下而上的分析方法,不應被視為一種新的研究典範。相反的,這種反轉可追溯到康德所開創的理論,亦即康德在知覺上的哥白尼革命。
另個例子是,預測編碼假說與康德都在回應休謨 (David Hume, 1711-1776) 對歸納法的挑戰(關於休謨的歸納法問題,可請參閱「科學知識的證成及其挑戰」詞條)。Swanson (2016) 指出,以貝氏機率來理解人類認知最大的挑戰在於「人類的思維如何超越經驗數據?」(Griffiths et al., 2008)。畢竟大腦唯一使用「數據」是感官傳來的訊號,而且大腦只測量此感官訊號而不直接測量外在世界 (Battaglia et al., 2012)。這會產生一個難題:大腦如何僅依據知覺刺激之「結果」,來推出在外在世界中的「原因」?Clark (2013) 將此難題稱為「從黑盒子裡看世界」,Hohwy (2013) 則將之形容為「囚禁於頭骨內的大腦」。同樣的,休謨對歸納法的批評中也包括「知覺與知覺之間並無必然的因果關係」。康德接受並嘗試回應休謨的挑戰。康德稱其《純粹理性批判》以儘可能放大的方式闡述了休謨的問題 (Kant, 1783, sec. 4: 261)。而預測編碼假說的最終目的,在於提出神經科學上合理的機制來解釋大腦如何僅憑感官訊號來找出現實世界的因果結構。因此,預測編碼假說與康德都由上而下來說明人如何在知覺經驗中掌握因果關係。
另派則主張預測編碼假說不見得源自康德,而是與認知的生態觀點 (ecological approach to cognition) 或 4E (embodied、embedded、enacted、extended) 取徑有關。Orlandi (2018) 認為,雖然康德-亥姆霍茲的傳統預設了知覺乃一推論過程,但事實上預測編碼系統不必然涉及「推論」與「表徵」。首先,預測編碼系統是為了減少預測錯誤。減少錯誤的系統常被認為最終一定近似於貝氏推論(因為此推論會替大腦的內在模型增加證據故為貝氏。由於貝氏系統必涉及推論與表徵,故預測編碼系統亦然。)然而,Orlandi (2018) 不認為預測編碼系統只能發展成等同貝氏推論系統。例如自由量最小化假說被認為是預測編碼發展源頭之一,但其早期支持者如完形心學家 Wolfgang Köhler (1920) 卻將大腦視為是動態的物理系統且會趨近於最小能的平衡,而非將大腦當作一推論機器。
其次,預測編碼也不必涉及表徵。預測編碼的應用很廣,從仰賴表徵的高階認知或心理狀態,到不仰賴表徵的低階生理訊號等。低階處理訊號一定帶有資訊,但帶有資訊並非表徵的充分條件。例如,視網膜或初級視覺皮質或許包含有關於光線的資訊,但這些資訊並不指導更高層次的人類活動。同樣的,誤差信號在告訴大腦當前預期的哪些是錯誤,它只涉及大腦內部的神經層次的狀態,也非指引人類層次的行動。由於表徵的特性在於可指引人類行動 (Orlandi, 2018; Hohwy, 2018),因此,這些低階訊號並非表徵 (Orlandi, 2018)。相反的,預測編碼與 Gibson (1966) 的「認知的生態說」更相容,後者主張知覺不是人與世界的中介(表徵),而是直接與環境互動。「認知的生態說」雖承認知覺必定涉及神經活動,但否定這些低階活動涉及推論與表徵,這些活動只是對世界的微調 (Orlandi, 2018)。
相較之下,Hohwy (2018) 雖也認為預測編碼與 4E 或類似的認知生態說相容,但他採取了和 Clark (2013, 2015, 2016) 主張「知覺推論並非表徵推論」的不同策略。[4]他主張 4E 必涉及推論與表徵。Hohwy(2018)認為知覺涉及無意識的推論過程。而知覺的預測編碼模型旨在說明大腦如何根據不完美的輸入數據來推出原因。而此解釋的核心,便是預測錯誤最小化(prediction error minimization,簡稱 PEM)概念。在 PEM 中,大腦對身體的預測狀態包含了內在感覺 (interoception) 與外在感覺 (exteroception) 而無法自身體與環境抽離,故符合 embodied、embedded 特徵。此外,傳統 4E 之所以不具推論與表徵乃源於能供性考量 (affordance-based account):過去認為知覺時大腦須將所有感官刺激在有限時間內全部編碼並加以處理。但這一來,卻會產成計算瓶頸 (computational bottleneck) 困難。然而,PEM 只將這些刺激當作對於預測正確與否的反饋,而不必將所有感官刺激加以編碼,故不會有瓶頸問題。更重要的是,能供性考量雖能解釋人類認知中快速而流暢的面向,但卻不能說明人類認知的彈性(flexible:人類認知可在不同脈絡、信念、行為中切換)。PEM 的優點便在於能同時解釋認知的流暢度與彈性這兩個面向:由於知覺過程涉及推論與表徵,故能提供認知彈性並指引行動。但因其又沒有計算瓶頸問題,故能縮短時間實現快速且流暢的認知。最後,Hohwy (2018) 認為 PEM 能決定心智與外在世界的邊界:如果某個狀態屬於推論的過程,而此推論乃為了得出外在刺激的原因,那麼此狀態便落於知覺邊界以內。這麼一來,PEM 便有可能不限於頭殼內,而符合 extended 認知。因此,以 PEM 為核心的預測編碼與 4E 相容。
預測編碼假說有各種不同的理論版本。甚至有些研究者不認為其他人的版本可以被歸類在「預測編碼」的範疇中。這些版本的種類繁多,其中最主要的差異在於是否具備反向模型 (inverse model) 與主動推論 (active inference) 兩個組成要素。各自延伸出的版本雖多,以下僅擇要簡略說明。
在神經科學、心理學、哲學、計算科學中,「預測編碼」一詞的定義與用法不盡相同。為避免混淆,Clark (2011, p1) 提出一較嚴格的用法:預測編碼是計算與神經科學中內涵豐富的技術概念,主要探討大腦如何利用預測和預期來理解傳入信號並使用它們來指引知覺、思考與行動。[5]但是,即使在 Clark 這種較嚴格意義下的預測編碼也涉及兩種不同的架構:輔助前向模型 (auxiliary forward model) 和整體前向模型 (integral forward model) 兩架構 (Pickering & Clark, 2014)。他們雖然同樣都以前向模型的貝氏推論來產生對世界的預測,但兩者的最大的差異,在於輔助前向模型包含了一額外的機制:亦即反向模型 (inverse model) 及其所需的運動指令 (motor commands) 與感知副本 (efference copy) 等兩種訊號。反向模型的主要功能在於區別自己的肢體動作與所觀察到的他人動作,但在整體前向模型中則缺少此一機制。有些版本的整體前向模型則以主動推論來解釋運動輸出。總而言之,雖然有些學者只用「預測編碼」一詞來稱呼整體前向模型(如 Clark, 2015),但其他學者則將預測編碼、運動指令與感知副本等概念整合來解釋人類認知 (Ford& Mathalon, 2012; Keller & Mrsic-Flogel, 2018; Kort et al., 2017; Seth et al., 2012; Wang et al., 2014)。
在某些輔助前向模型中,還包含了主動推論 (active inference) 此一機制:當預測出現錯誤時,認知系統會將錯誤信號將送回前向模型以產生校正後的外部感受性預測(即 perceptual update)或是產生自體感受性預測(即 motor control)來減少誤差。這種更新預測並降低誤差的處理程序,被稱為主動推論 (Hohwy, 2013; Clark 2015)。
主動推論和主動知覺 (active perception) 雖然有很多類似之處,但是主動知覺的涵意較廣。它可以被解釋為 Gibson (1966) 生態知覺式的視覺內容,而不只是改變注視或注意力的方向。因此,儘管主動推理對某些預測編碼假說的版本來說乃至關重要,其他反對預測編碼假說的人也可以接受主動知覺。此外,雖然主動推理是某些輔助前向模型版本(例如 Friston, 2019)的核心,但其他的輔助前向模型則並未包含主動推理(例如 Rao&Ballard, 1999 的模型)。
哲學和認知科學中長期存在的一個難題,是人類如何將有意義的物體與嘈雜背景加以區隔?研究大腦如何識別物體的一種方法,是構建能夠識別物體的人工系統,然後在大腦中尋找所需的設計原則 (Griffiths et al., 2012)。近來不少認知科學研究都指出,我們所知道的會改變現在所看到的 (Çukur et al., 2013)。語言的確會改變我們的當下知覺 (Lupyan & Ward, 2013) 以及知覺記憶 (Doyle & Lindquist, 2018[6])。
為解釋這些現象,Lupyan & Clark (2015) 則將預測編碼應用於解釋語言如何影響我們的知覺。在他們的預測編碼架構中,高階的心理表徵影響了由上而下的預測,並與由下而上的知覺信號之間產生相互作用。這個架構是說明了我們所知道的會如何(以及何時)改變我們所看到的內容,並幫助我們理解語言(高層處理)如何影響知覺(底層處理)。在這個框架中,語言在建構知覺預測上扮演核心角色,且這個預測可用來評估知覺訊號。因此,此架構解釋了為何語言能對知覺、思想、行動產生影響,不同語言的使用者如何以不同的方式來建構相同的事實 (Lupyan & Clark, 2015)。
以康士維錯覺 (Cornsweet illusion) 為例,明明同顏色的上下兩個磚,看起來卻一深一淺。依預測編碼的解釋是大腦習慣以過去知識(預設物體具有相同反射與亮度的表面)來預測並形成視覺經驗。故當遇到特殊情形時(康士維錯覺)會出錯。但懷疑論者能會質疑,若知覺知識可以穿透並影響知覺,為何知道兩塊磚顏色相同時,我們仍無法避免地將兩者看成不同色?為何錯覺無法被消除?Lupyan & Clark (2015) 的解釋是,如果某種知覺方式在絕大部份情形中都能提供最佳預測,只有少數情形中(康士維錯覺)失效,則仍為貝氏最佳化。如果讓某信念(知道兩磚同色)可以輕易穿透知覺(覆蓋所輸入的刺激)則長期來看會與錯誤最小化的貝氏模型不相容,反而在大部份的情形中產生預測錯誤。
圖:左為康士維錯覺,左右兩個表面看似一深一淺卻實為同色。右為 A13C 歧義圖像,中間符號之意義取決於其脈絡。左圖授權為 GFDL 而右圖修改自 Lupyan & Clark (2015)。
Lupyan & Clark (2015) 認為知覺會被知識所穿透(即 cognitive penetration,指的是知覺內容會受到認知因素的影響而改變),並在一般情形下降低預測錯誤。這種穿透如發生在低階時,會改變我們對所意識到的知覺內容。但有時後則會發在高階,並解決輸入與預測兩者的衝突(如歧義圖像 A13C,語意可消歧義但視覺仍有歧義)。他們更進一步指出,知覺會受先前知識影響,不但會發生在高層(如歧義圖像 A13C)也會在低層(如康士維錯覺)。語言會限制過去知識的擷取範圍而產生偏誤,因此語言會影響知覺以及我們建構世界的方式。
另個語言影響知覺的例子是 Çukur et al. (2013) 的 fMRI 實驗。該實驗探討(語言提示所引發的)注意力如何改變知覺資訊的神經表徵(即連續的語意空間[7])。受測者在 fMRI 中觀看影片,並被分成純粹被動看片、看片時尋找畫面出現的車、尋找出現的人等三組。被賦予搜尋任務的會在片頭顯示「車」或「人」等字詞,並在片中出現車禍時按下按鈕。他們發現不同組的受試者位於枕顳區和額頂皮質 (occipito-temporal and fronto-parietal cortex) 的許多體素會改變,以用來表徵被注意到的分類別。換言之,視覺搜尋(注意力)會改變語意表徵(視覺內容):被注意到的刺激其表徵會被擴展,但不被注意的刺激則會被忽略。
Lupyan & Clark (2015) 認為語言也是一種知覺刺激。雖然看到的車輛必定是一輛特定的車,但字詞「車」卻是類別式的。故語言線索可作為有彈性的脈絡(過去知識)使人藉由快速地調整整個語意網絡來衡量當下的刺激。而如果 Çukur et al. (2013) 的觀察正確,則光是看到或聽到一個字應該也能促使視覺系統產生預測信號來評估輸入的刺激。事實上,最近的研究的確指出,聽到一個字可以使原本無法看到的物體的影像進入觀察者的意識 (Lupyan & Ward, 2013)。而從預測編碼觀點來看,語言不只是溝通過去知識的工具,而是各種神經階層所表徵的過去知識的重要來源。語言既可有彈性地改變由上而下的知覺預測,也可選擇性地影響對預測錯誤的衡量(因此決定由上而下的資訊如何影響低層次的處理)。換言之,語言是一種人為脈絡,有助於限制哪些表徵能被提取,以及該表徵又對推論有何影響。總而言之,Lupyan & Clark (2015) 認為語言學習會產生偏見,此偏見決定了哪些過去知識被提取,以及預測或知覺訊號哪個比較重要。
社會溝通與互動中,大腦常需以心智理論 (theory of mind) 來理解他人的心理狀態與行動,但背後機制為何則是尚待釐清。Tamir & Thornton (2018) 曾提出一符合貝氏認知與預測編碼的架構,來回應兩個社會認知的重要難題:何種資訊或知識可用來表徵他人的狀態與行動?大腦如何利用這種表徵來進行社會預測?
他們所提的多層架構至少包含一個可觀察階層與兩個隱藏階層。其中,可觀察層專門處理對他人的行動的描述,另外兩層則分別描述他人的心理狀態(如快樂或疲憊)與人格特質(如樂觀或聰明)。該架構的優點在將過去許多社會認知文獻的觀點形式化。透過度量表徵空間 (metric representational spaces) 與各層之中與之間的轉換機率 (transitional probabilities),將過去有關「社會預測」的模糊論述轉換為精確的數學語言。
首先,大腦究竟是根據何種資訊或知識來表徵他人的狀態與行動?在 Tamir & Thornton (2018) 的多層架構中,第一層的人格特質層包含權力 (power)、效價 (valence) 和社會性 (sociality) 三個維度。這些維度主要是利用表徵相似性分析 (representational similarity analysis,RSA) 與多體素模式分析 (multivoxel pattern analysis,MVPA) 等方法從大腦[8]的神經活動模式中所得出。
更詳細來說,表徵相似性分析是一種驗證心理學理論的方法。最早由 Kriegeskorte, Mur & Bandettini (2008) 所提出。它透過腦造影來記錄不同刺激所引發的神經活動的模式,並比較神經模式的相似性與理論所預測的相似性。舉例來說,當fMRI的受測者在字卡上看到「愛」這個詞時要決定它究竟與擁抱母親或寫情書更相關。研究人員藉由眾多受試者歸納出對應於「愛」之神經表徵的可靠模式。接著,研究人員評估不同神經模式之間的相似性(例如看到「愛」與「嫉妒」所引發的神經模式有多相似?)最後,研究人員將「神經模式的相似性」與「理論預測的相似性」加以比較。例如,當某理論假設人會使用社會影響力維度 (social impact dimension) 來理解心智狀態時,由於愛與嫉妒有類似社會影響力,兩者所引發的神經模式應非常類似。相反地,當另個理論假設人會使用效價維度 (valence dimension) 來理解心智狀態時,由於愛與嫉妒分別具有正面和負面價值,相對應的神經模式應非常不同。換言之,每個維度都可預測不同心理狀態間的相似性。RSA 透過比較模式相似性與維度的相似性來評估理論的準確性。此過程中,RSA 指出哪些維度會塑造神經模式,而哪些神經區域又會應用這些維度 (Tamir & Thornton, 2018)。Kriegeskorte et al. (2008) 認為神經科學的一個基本挑戰是整合大腦活動測量、行為測量、計算建模等三個主要研究,而 RSA 正好能連結三者。
另一方面,多體素模式分析是一神經影像學技術,在腦造影中專門紀錄血氧變化的 fMRI 並無法提供細胞層次的詳細數據。fMRI 的 3D 圖像是由眾多稱為體素 (voxel) 的單位所構成。每個體素代表一個具上百萬細胞的腦組織立方體。在 fMRI 影像中常見的橘紅色光點,便是成群的體素。相較於傳統線性模型,MVPA 可同時分析不同群的體素活動。其中社會認知的全體素編碼模型 (voxelwise encoding model of social cognition) 便是一種 MVPA,它可藉由評估心理學理論中的維度如何解釋每個體素的活動與跨體素群間的活動模式來檢驗該理論。
透過上述方法,Tamir & Thornton (2018) 發現,當大腦在理解不同人的人格特質時,這些維度成功解釋了約 2/3 神經活動的可靠性差異 (reliable variance)。第二層則的心理狀態層包含了理性 (rationality)、效價 (valence) 和社會影響力 (social impact) 三個維度。這也是以 RSA 方法,從常見的七個評估他人心理狀態的維度[9]中所歸納而來。最高層則是行動層,專門評估他人的行動。由於行動的複雜性(例如相同的身體動作可被描述成踢、傳球、團隊合作踢足球等不同層次,取決其脈絡資訊)使得該層的維度未有定論。但 Tamir & Thornton (2018) 認為至少包含戰逃反應、效價或成本 (valence or costliness) 等維度。此架構的優勢在整合了心理學文獻中多個既有的維度理論。當大腦理解他人時,該架構的人格特質、心智狀態、行動層中的各種維度可用於社會預測。因此,這些維度是理解他人時所需的表徵資訊。這便回答了第一個難題。
第二個難題是,如何利用這些表徵來預測有關他人的社會知識?Tamir & Thornton (2018) 認為人會利用三層之中與之間的表徵來推論出有關他人的知識。他們認為此三層架構與貝氏認知與預測編碼高度整合[10]:大腦會計算各層之中與之間表徵座標的轉換機率 (transitional probability) 來建模出對他人的社會預測。例如,直覺會知道如何以人格特質預測心理狀態(例如,好相處的人較易快樂)、以心理狀態預測其他心理狀態(快樂的人往往心存感激)、以心理狀態預測他人行為(心存感激的人傾向於合作)以及以特質預測行為(好相處的人傾向合作)。在每種情況下,人們使用關於一層的知識進行預測,最終朝著預測可觀察行為的最終目標前進。雖然社會認知研究早已指出人們在特質,狀態和行為之間做出這些直覺的預測,但除 Tamir & Thornton (2018) 外卻很少明確指出這些預測背後的形式化機制。
更詳細來說,社會預測時大腦要能映射層內與層間的轉換 (mapping transitions within and between layers)。一方面,「層內的轉換」須滿足兩個先決條件:一是心理狀態需有規律的從一個轉換到另一個,二是感知者對此轉換的規律必須有一準確的心理模型。這兩個條件目前都已有文獻支持其成立 (Thornton & Tamir 2018)。例如當兩個心理狀態(感恩和快樂)在理性、價值、社會影響力維度上越接近,人們就越會預測它們之間的轉換,反之當越遠則否(如從感恩轉換到蔑視)。因此,上述的心理維度可作為社會預測的支架。不過,雖然對狀態轉換的預測具高度準確性,但這些預測也常是自我中心 (egocentric):每個人獨特的情緒經驗都會影響他們對其他人情緒轉變的判斷。
另一方面,「跨層間的轉換」時,如果知道某人的人格特質(如能力強卻消極)則應能預測其在心理狀態空間的可能座標(社會影響力大但卻負評較多),並預測他們可能採取的行動類型(侵略好鬥的行為)。換言之,機率預測應被用來約束從特質層到狀態層,以及從狀態到動作層的預測。值得注意的是,特質層和狀態層常有重疊。例如具有特定特質(如可信度)的人常被系統性地等同於具有特定狀態(如幸福)的人。特徵和狀態層並非各自獨立,而只是在不同的時間中對相同的資訊進行採樣。
總而言之,Tamir & Thornton (2018) 主張其多層架構不但替社會推論提供一明確的數學模型,更有助於解決社會認知中模擬理論 (simulation theory, ST) 和理論理論 (theory-theory, TT) 長期爭論所潛藏的錯誤二分法,進而整合兩者。[11]
如果預測編碼可以解釋人類大腦(作為一個自主適應系統)學習與周遭環境互動的模式,那麼在其他也具備學習能力的系統上,預測編碼是否也能夠說明呢?事實上近年來對於其他生物與人造系統的討論也越來越多,以下簡述之。
生物學家發現,植物在適應環境方面常會展現預測能力與預期行為 (Trewavas, 2014; Calvo & Keijzer, 2011; Novoplansky, 2016),例如會根據所預期的陽光位置而提前啟動像是轉動葉子的受光面等外在變化。Calvo&Friston (2017) 更認為,這些預期行為除了可以優化適應性,也可用預測編碼假說的自由能和推論過程來解釋。具體來說,為了避免意外並降低不確定性,植物需要將主動推理與知覺推論加以整合。一方面,這裡的知覺推理可以調整植物的內部狀態以更新預測,使這些預測與實際的感覺狀態保持一致。他們認為植物的這種預測機制,可用函數表示為 D (q (η:μ)∥p (η|s) )– lnp (s),其中 s 為感官輸入,可表示為 s=g (η, a)+ω,ω 為隨機波動 η 為所處環境,a 則是主動推理中對環境採樣的動作。內部狀態和動作都能被改變以將自由能最小化。這種自由能可以表示成 q (η:μ),它是感官輸入和(由內部狀態編碼的)概率表徵的函數,其中 μ 為植物系統。另一方面,主動推理可提高感官數據的準確性,從而對環境進行採樣並使之與感官的預測相吻合。其函數可以表示為 D (q∥p (η) )–〈lnp (s (a) |η) 〉 q。Friston (2014, Friston et al. 2021) 認為,主動推理是所有生命與所處的周遭世界交流的必然結果。這種推理過程對於所有生物有機體系統都至關重要,可減少預測錯誤和可能的風險。
預測編碼處理對於所有需要學習環境變化並加以適應的生物來說都屬必要,但對於人工智慧中的機器學習是否同樣重要?
Friston (2019) 認為學習與知覺推理是一體兩面,兩者都在優化相同事物(即 model evidence 或自由能)。如果將知覺、學習、注意力與感官衰減 (sensory attenuation) 等視為密不可分並加以研究,則應能提供一重要的整合觀點。只可惜,目前認知科學中研究「學習」與「知覺」的兩大傳統壁壘分明。一方面,前者重視外在環境如何形塑神經連結與活動(又稱神經可塑性),有其行為主義的傳統。例如在強化學習 (reinforcement learning) 的研究中,較易忽略了知覺推理的角色。另一方面,後者則強調不同層次的神經系統之間的複雜資訊路徑與交互作用(又稱神經動力學),乃源自知覺心理學的傳統。例如預測編碼常忽略了伴隨證據積累的經驗學習。上述兩者種差異在機器學習也有類似的對立,譬如「深度學習」與「數據同化和不確定性量化」(data assimilation and uncertainty quantification) 問題:前者中的深度學習強調如何透過類神經網路從原始輸入中自動發現並學習到特定的特徵。但在後者中,在不確定性量化主要探討數學模型中的不確定性,以模擬和預測複雜現象。而數據同化則關注如何將記錄到的數據整合到模型裡,來改進模型預測並量化預測不確定性。兩者側重面向不同,有時亦有緊張關係。然而,不論是要沿著神經模擬的取徑來創造人工智慧,或是對人類大腦有更清楚的認識,未來整合兩者都是必要卻又極富挑戰的工作。
預測編碼假說的最大批評在於,雖然它對人類認知的解釋在統計與數學模型上相當合理且融貫,但卻缺少足夠的經驗證據的支持。舉例來說,Kogo & Trengove (2015) 指出預測編碼的機制仍無法對應 (mapping onto) 到大腦生理學上的神經細胞反應。Bastos et al. (2012) 也指出預測編碼的誤差最小化的機制中的錯誤訊號的生理基礎為何並不清楚,而且這些錯誤訊號在不同層次的資訊處理中如何被計算亦有待說明。但另一方面,預測編碼假說雖然被批評證據力不足,但該假說卻多次成功預測出大腦的神經反應。譬如 Friston (2019) 就辯護指出,預測編碼的優點是在認知科學上的預測通常有效。在神經解剖學上,最早的預測編碼公式中得出的一個預測是:根據其功能上的差異,正向和反向模型的資訊路徑應該是分開的,而在神經迴路方面,具有外在分叉軸突的神經元不會向兩個方向投射。而這個預測在後來 Shipp (2016). 的研究中已獲得證實。因此,預測編碼假說如何在合理的科學解釋與預測之外提出更具體的神經生理學證據,將是未來的一大挑戰。
[1] 在討論資訊傳遞時,由上而下(top-down)與由下而上(bottom-up)是兩個常被文獻提及卻又缺少明確說明的概念。為釐清兩者的關係Rauss & Pourtois (2013)指出,由上而下處理常常藉由干涉由下而上的處理,而使後者變得更靈活。反觀,在缺少由上而下的處理時,由下而上的處理常會發生延遲或是失敗的狀況。
[2]在統計或機器學習中,生成模型(generative model)與判別模型(discriminative model)是兩個主要方法,能從已知變量x推出未知變量y。前者透過聯合分布(同時對於x和y的機率分布),亦即P(x,y)來預測y。後者則透過構建條件機率分布P(y|x)來預測y。
[3] 值得注意的是,亥姆霍茲也率先提出的無意識推理(unconscious inference)概念,來指出在視覺印象形成時的一種類似反射、不自覺的資訊處理機制。
[5] 相較之下,預測處理(predictive processing)則是神經計算最基本的功能之一,預測錯誤會驅動大腦的處理與行為(du Bois & Elliott 2017)。
[6] Doyle & Lindquist(2018)主張情緒詞語有助於獲取臉部動作的概念知識,並影響對後續臉部動作的知覺記憶。他們讓受測者觀看臉部動作並與特定字詞配對。他們發現當受測者將從未見過的面部動作與無意義的單詞配對,會使得隨後觀看的面部動作的知覺記憶產生偏差。換言之,將面部動作與單詞配對可以塑造後來的對臉部動作的知覺記憶
[7] 人能看到並命名上千個不同物體與動作類別,譬如看到並辨識出動物、城市、跑、旅行等類別。過去的fMRI研究指出某些類別與特定腦區有關。 但腦大小有限,要有效分類最好在連續空間內集中處理,而非以不同腦區來表徵每個類別。為尋找此空間,Huth et al.(2012)的fMRI研究讓受測者觀看影片,並使用體素模型來檢查1,705個對象和動作類別的神經表徵。他們發現,大腦會藉由一橫跨(大部分視覺與非視覺)皮質表面的連續語意空間(continuous semantic space)來表徵各種類別,且這個空間在每個人身上都可找到。
[8] 包括背內側前額葉皮層(dMPFC),腹內側前額葉皮層(vMPFC),內側頂葉皮層(MPC),顳頂交界處(TPJ)和前顳葉(ATL)。
[9] 在社會心理學中,這七個維度包括效價和喚醒度(valence and arousal)、溫暖和能力(warmth and competence)、能力和經驗(agency and experience)、情緒與理性(emotion and reason)、心智和身體(mind and body)、社會和非社會(social and nonsocial)、人類獨有和與動物共享(uniquely human and shared with animals)。
[10] 一方面,該架構中的特徵、狀態、行動都由低維度心理空間之座標所定義。這些座標既描述了社會刺激的靜態面向,也描述刺激間的動態轉換(例如狀態層中喜悅與友善間的轉變)。如以貝氏機率來解釋,則表徵他人當前狀態(而非他人未來狀態的先驗預測)的座標位於機率分佈的中心。平滑函數(smooth function)可連結座標間的距離與先驗分佈的機率密度。在信念更新上,接收新信息時可根據信賴度來修正此函數,或來移動分佈的中心。因此,要表徵先驗僅需要一組座標和機率函數,而非完整的轉換機率矩陣(transitional probability matrix)。故此低維表徵空間有更好的計算效率。另一方面,該架構與預測編碼相同。兩者的表徵都包含自動預測。例如在預測編碼理論中,當看到飛球的同時大腦無可避免的會去預測其軌跡。同樣該架構在考慮他人心理狀態時也會自動編碼他人的情緒軌跡。此外,如同預測編碼透過錯誤來調整未來預測,該架構也藉由先前推斷的座標與新推斷的特徵(或狀態、或行動)之間的向量差來計算出誤差。並將此誤差加現有座標中,以便以最小化未來錯誤的方式調整它們在表徵空間中的位置。不斷重複此一過程則可提供有效方式來建立社會知識並形成這些表徵空間。
[11] 我們如何理解他人呢?模擬理論(ST)主張大腦會根據過去知識來模擬他人的心理狀態來理解,這種模擬常涉及鏡像神經。理論理論(TT)則主張人會運用明確的常民理論來理解他人。兩者的爭議在於形成社會理解的「內容」為何(主體經驗vs.常民理論)與形成該內容的「過程」為何(自我vs.觀察世界)。但Tamir & Thornton(2018)認為這兩種內容都是多層架構中的預測基礎:例如我們可藉觀察他人或自身體驗得知飢餓使人易怒。但不論是對他人或自我的預測錯誤,都能影響未來的預測。故兩種「內容」差異不大,真正差異是形成內容的「過程」。雖然兩者都能以特徵,狀態和行為三層之間的機率關連來預測,但TT只以最可能的連結(常民理論)來推理預測,故提供了一直接且連續路徑來得出最佳預測結果。但其缺點是過於狹隘,排除了機率低或例外的其他方案。反觀ST不是只採用最大可能性的路徑,而是透過隨機採樣來建立機率連結。ST的優點是預測結果更全面,缺點是需要更多的認知計算資源投入。至於ST與 TT能否因此互補,則有待未來研究。