2.1 古典三層模型與模組論
2.2 動態系統取徑
2.3 雙處理系統
3.1 心智的古典計算理論
3.1.1 計算概念的釐清與區分
3.1.1.1 對丘奇-圖靈論題的常見誤解
3.1.1.2 對「符號」的不同定義
3.1.1.3 古典計算模型外的替代方案
3.1.2 思想語言假說
3.2 連結論
3.3 混合論與非計算觀點
一九六〇年代歐美學界就有運用「架構」的概念來探討人類心智或認知現象,但心理學文獻有關認知架構的正式紀錄則始於 1983 年 John Anderson 所著的 The Architecture of Cognition 一書。哲學界則屬 Jerry Fodor 與 Zenon Pylyshyn (1988) 合寫的 "Connectionism and Cognitive Architecture: A Critical Analysis" 一文最為著名。然而,隨著認知科學中各領域的蓬勃發展,雖然「認知架構」一詞的使用越來越頻繁,但理解上的差異卻也越來越大。例如認知架構有時可用來指稱解釋大腦資訊處理策略的計算模型,有時則用來指稱可用來執行或模擬特定認知能力的演算法。為了避免不必要的誤解,不少學者提出「解釋的層次」(levels of explanation)。
所謂「解釋的層次」是針對某一研究對象的不同面向,提出只適用於該特定面向的理論或說明。區分解釋層次的優點,是當面對一龐大複雜的自然現象,可先針對局部範圍或特定面向加以研究,以降低問題的複雜度並提高研究的成功率。舉例來說,Fodor & Pylyshyn (1988) 認為在探討世界的因果結構時,物理學家可以從古典牛頓力學提出對世界的描述,也可從量子力學提出描述。而在探討人類社會的供需活動時,既有從總體經濟學的角度提出的宏觀分析,也有從由個體經濟學提出的微觀描述。然而,不同層次的理論解釋之間或許會有關連,但跨層次的解釋是在方法論上卻是不被允許的。例如,以A層次的現象來反駁對B層次的理論就很可能導致推論上的不相關性謬誤。因此,事先區分解釋的層次,可以避免跨領域學術交流上常見的混淆。
認知科學中各領域學者常根據各自身專長與興趣,提出不同區分方式。這些區分的關係比較,請見圖一。其中最著名的是 David Marr (1982) 的三層分析,包括「計算層次」(computational level)、「演算層次」(algorithmic level) 與「硬體實現層次」(implementation level)。所謂計算層次,是用電腦科學的術語來描述有關於大腦的資訊處理策略與一般性任務;演算層次則是詳細說明計算層次的任務可以透過哪些演算法加以執行;硬體實施層次則探討上述算法可以藉由何種物理機制(神經細胞或矽晶體)加以實現。Marr 的三層分析原本是用來解釋人類視覺,但後來卻被廣泛用於探討整個認知系統(如圖一灰格)。同樣地,Fodor & Pylyshyn (1988) 則區分了認知與非認知兩個層次 (cognitive and non-cognitive levels),「認知層次」的科學解釋關注於可將外在世界加以編碼而成為認知系統的內部狀態。反觀「非認知層次」則包含了大腦組織的神經與分子狀態。
Daniel Dennett (1989) 也提出解釋的階層結構 (A hierarchical structure of explanation):最上層的「意圖層次」(Intentional level) 主要是透過理解行為者的意圖來解釋其行為。例如行為者的信念、慾望與想法都是這個層次所關注的焦點。位於中間的「設計層次」(Design level) 則透過功能機制來說明意圖層次中的心靈狀態。這個層次探索哪些機制是信念的形成與修正所必需者。最基層則是「物理層次」(Physical level),它所聚焦的是設計層次的功能機制在實際上能夠如何被建構。例如神經細胞的組織與活動如何促成記憶的存取等等。此外,其他學者如 Bermúdez (2005)、Elton (2000)、Hurley (1998, 2001) 則提出更簡化的分類:個人與次人層次 (personal and subpersonal levels)。一方面,「個人層次」所探討的描述包含人的語言、知覺、慾望、信念等等。例如何謂概念、人究竟能否有非命題式的概念 (non-propositional concept) 等問題就屬於傳統哲學所關注的核心。另一方面,「次人層次」則探討各種假設的功能機制(如語言模組假說)能否用來解釋個人層次的能力(如語意理解能力)等問題。這種區分請見圖一左方白色方格。
此外,Hurley (2008) 等人後來更聚焦於功能層次(functional level,圖一中央白色格子)以進一步區分次人層次中的心智具有哪些不同的功能構造,可使人類各種複雜的認知能力成為可能。此功能層次,如依 Dennett 的分類則屬於設計層次、如依 Marr 的區分則在計算層次之上。在過去,在功能層次上採取某立場者(如古典三層模型)在計算層次上也會偏向於特定立場(如心智的古典計算機理論),例如八〇年代的 Fodor (1983) 便是如此。但隨著相關理論發展日益複雜,各種新的排列組合也紛紛出現。例如 Smonlensky (1995) 在功能層次的立場雖然較接近古典三層模型,在計算層次上卻採取了連結論。同樣的,在功能層次上偏向動態系統取徑的觀點的學者,在計算層次上也可採取連結論者(如 Clark 1997)或是非計算觀點(如 van Gelder 1999)。甚至,最近在計算層次上採取混合論者,在功能層次上也常分裂成不同陣營。
區分上述這些不同解釋層次的優點,在於提供了理解人類大腦或心智的不同面向,同時避免討論時的混淆。例如一個計算層次的問題,並無法透過演算層次的說明來回答。有鑑於此,本文以下將分別從功能層次(第二節)與計算層次(第三節)來釐清認知科學文獻中幾個較熱門的認知架構及其批判。
最後,大腦 (brain) 與心智 (mind) 的關係也須簡單說明。本文所謂的「大腦」是位於頭殼內的神經中樞,是心智活動的生理器官與必要條件。然而,心智卻不限於頭殼內的大腦,心靈狀態亦無法化約為大腦的神經生理狀態。因此,儘管有些功能論者主張「大腦是心智的硬體,心智是大腦的軟體」,但這實屬過度簡化。相反地,本文認為,心智不只受到大腦影響,也受到生體與自然環境等物理狀態的影響(詳見 2.2 節有關心智研究的 4E:embodied、embedded、enacted、extended 趨勢)。換言之,儘管大腦是心智的必要條件,卻非其充分條件。
圖一:解釋的層次(其中*號表示與認知結構有關的解釋層次),而本文則聚焦於計算層次(第二節)與計算層次(第三節)
功能層次上的認知架構,主要探討心智具有哪些不同的功能構造,可使人類各種複雜的認知能力成為可能。主要理論包括心智的古典三層模型 (Classical three-system model)、動態系統取徑 (Dynamic system approach),各陣營下所衍申出的論述與模型更不計其數。
首先,所謂的古典三層模型主張,人類心智由三種功能各異的元件所構成。它包含了一個負責將外在刺激轉化成感官訊號的「知覺系統」、負責產生行為的「運動系統」,以及負責處理像是語言、推論等高階能力的「認知系統」。這三個系統的位階以認知系統最高,負責指揮知覺與運動兩個邊緣系統(圖二)。在硬體實現層次,「認知系統」常對應到大腦的中樞神經系統 CNS,而兩個邊緣系統則對應到人體的周圍神經系統 PNS。
然而,扮演中樞角色的認知系統其資訊處理方式為何,卻未有定論。有部分學者提出「心智的模組假說」(Modularity hypothesis of mind),主張人類的認知系統是由許多不同功能的模組所組成,每個模組(如聽覺系統、視覺系統)都負責特定的認知任務(處理聲訊號、光訊號)且只能處理特定種類的訊號(視覺系統無法處理聲音訊號)。其優點是訊號處理的速度較快較有效率,且有利於損害管制(如後天失明者仍可保持良好聽覺)。而支持該假說的論證與證據多來自演化心理學研究 (Cosmides & Tooby 1994; Sperber 2002; Carruthers 2003a, 2003b, 2003c, 2004a)。在這之中,更有提出語言器官或語言模組 (The language faculty) 假說者,主張人類豐富的語言能力並非來自於後天的學習,而是人類演化出專門用來處理語言的語言器官。惟同陣營內部對語言模組的內涵莫衷一是 (Pinker 1994, Jackendoff 1997; Hauser, Chomsky, and Fitch 2002; Chomsky, Gallego, Ott 2017)。甚至,語言模組假說近年也受到重大挑戰 (Clark & Lappin 2010, Hung 2015; Christiansen et al. 2016; Christiansen & Chater 2017)。
相反地,另一派則認為儘管知覺、運動系統都是都是模組化的,但中央的認知系統卻非如此。例如 Fodor (1983, 2008) 就提出訊號配置 (allocation problem) 與整體計算 (global computation) 兩難題來反駁模組論。所謂「訊號配置難題」是指,如模組論為真,則當知覺系統輸出訊號時,只有兩種方法可將該訊號傳到認知系統中的正確模組。第一種方式是透過一個能存取全部各類型訊號的機制,來決定要將訊號配送到哪個適當的模組。另種方法,是由每個模組資訊路徑上的前個模組來決定。然而第一個方法無疑承認認知系統存在著「領域一般性」(domain-general mechanism) 的機制,可以接受各種形式的訊號(同時包括光訊號與聲訊號)而非全然模組化。至於第二種方法則會造成無限後退,畢竟前一模組的資訊分配也有賴更前一模組所決定。這便導致了訊號配置的兩難。
至於「整體計算難題」是指兩種計算現象的衝突。由於古典符號計算程序是由表徵的語法結構所決定。這裡的表徵,簡言之,是指可用指稱或代表其他狀態(如外在世界)的物理配置。對於古典符號計算來說,這些表徵有特定性質(如語意、語法的組合結構)且需依照特定方式來處理(只根據表徵的語法性質)。例如被輸入 p 與 p→q 時,計算裝置必需依據特定演算規則(例如假言推論,Modus Ponens)來輸出 q。此過程不但是強制而自動的,亦與 p 、 q 之內容為何毫不相關,此一特性稱為計算的局部性 (locality)。然而另方面,大腦的資訊處理似乎是整體性的 (globality) —亦即一個程序 c 不只對語法結構有反應,也對內容與脈絡有反應。因此,如果大腦具整體性,其資訊處理策略就不可能只會接受「領域特定」的訊號(domain-specific,例如視覺模組只能處理視覺訊號,無法處理聽覺訊號)更不會是封裝性的(encapsulated,每個模組只能接受有限範圍內的特定訊號)。換言之,模組論所預設的古典計算理論無法解釋大腦的資訊處理特性。
對於 Fodor 提出的難題,有些人質疑難題本身並不成立。例如模組的概念是否真如 Fodor 所說,得具「領域特定」與「封裝性」兩個特性,便遭到不少反駁 (Smith and Tsimpli 1995; Sperber 2005; Sperber and Wilson 1996)。而且模組論不見得需接受古典符號計算理論,而可以是非古典的類神經網路系統 (Smolensky 1988, 1991)。但是,也有些學者則承認 Fodor 提出的這些難題,並嘗試加以辯護。例如 Barrett (2005) 就提出酵素模組 (enzymatic module) 來回應訊號配置與整體性難題。但這能否成功替心智模組假說辯護,卻不無疑問 (Hung 2014)。由於對古典三層模型的質疑日益增多,除有關模組論的爭論外,也開始有學者另起爐灶提出全然不同的認知架構。其中,動態系統取徑就是古典三層模型的重要競爭者。
圖二: 在古典三層模型中(圖左),認知系統掌控了知覺與運動系統。但在動態系統取徑中(圖右)輸入與輸出系統直接與環境互動,中間虛線方格代表兩者交互作用中的各種動態資訊路徑(又稱知覺運動交互作用 sensorimotor interactions),可用來解釋人類認知能力,而不需額外假設一認知系統才能解釋。(Brooks, 1999, pviii and xi)
動態系統取徑 (Dynamic system approach) 是指人類的認知能力由輸入、輸出系統與環境的複雜互動所形成(圖二右)。這裡的輸入系統並不等於感官知覺,由於人類的知覺不是只有被動接受,而是常需運動控制的配合來主動偵測或過濾外在刺激。因此感官內容常由輸入與輸出系統間的動態資訊迴路所共同決定(運動指令的內容亦然,故輸出系統亦不等同於運動系統)。換言之,這派認為感官能力與肢體運動密不可分,兩者共享了相同的資訊處理機制,此機制稱為「知覺運動系統」(sensorimotor system)。
動態系統取徑的支持者認為,人們不需額外假設一個高等的認知系統才能夠解釋人類的認知能力,相反地,人類的認知能力是來自於輸入系統、輸出系統,以及環境間複雜的交互作用(可用動態資訊迴路來呈現)。這派認為,我們之所以有複雜的認知能力,並非因為我們演化出複雜的大腦,而是我們所處的世界本來就這麼複雜。在與世界互動的過程中,人類的各種認知能力會透過先天演化與後天發展而逐漸被形塑。
認知科學中的動態系統取徑,主要承襲自資訊科學九〇年代興起的 New AI(又稱為基於行爲的機器人學,behaviour-based robotics)。New AI 與 Classical AI 的差異主要有二。一是 New AI 並不預設古典模型的認知、知覺、運動的三層階層式 (hierarchical) 結構,而只用輸入與輸出系統來解釋與模擬認知。二是兩者在工程上的方法概念迥異。我們以「選擇路徑」此一任務為例,Classical AI 的模組是根據其「功能」來區分,每個模組都需透過知覺系統將外在刺激編碼成可計算的符號,再上傳至中央系統內的路徑規劃模組 (route-planning module) 處理,最後才透過運動系統來執行特定轉彎或前進等動作。反觀 New AI 的階層 (layers) 是根據「活動」來區分,每個階層都能平行處理不同的任務。例如有的階層負責避免碰撞,有的負責返回起始點 (Goldberg and Mataric, 1999; Brooks 1991, 1999)。這種基於行為的 New AI 在工業或商業的應用上取得極大成功,從大規模的自動化工廠到美國太空總署 NASA 的火星探測車,都廣泛的利用這種 New AI 的設計 (Brooks 1999)。
受到 New AI 鼓舞,不少採取動態系統取徑的學者紛紛提出各種功能模型。例如 Susan Hurley (2008) 的迴路共享模型 (Shared circuits model) 就是透過感知、運動與外在環境之間的即時互動來解釋人類諸如模仿學習、理解與預測他人行為等社會認知能力。相較於古典三層模型,這類模型的優點在於能更好地解釋即時 (real-time)、與行為相關的認知能力 (behaviour-related cognition)。更重要的是,動態系統模型更相容於當前認知科學發展的4E潮流,亦即:體現性 (Embodied),強調人類認知也需建立在身體的知覺運動基礎上。嵌合性 (Embedded),反對將大腦視為是認知的中央處理器,而主張人類心智應置於環境脈絡下方能被正確理解。引動性 (Enacted),強調人類認知的演化是為了使人執行某個情境的動作,進而提高生存機率。延伸性 (Extended),主張人類的認知系統不只侷限在頭顱內,甚至延伸到外在世界。如挖土機駕駛的大腦皮質中對於自己身體的神經表徵會自動擴展以與怪手手臂協同運動,而改變自身資訊路徑使與外在工具共同形成一個完整的控制或認知系統。
雖然類似 Hurley (2008) 的這類動態系統模型在解釋工具行動之學習上有很多優點,但由於它們多不接受古典符號計算理論所預設的符號表徵概念,也反對假設一個專門處理這些表徵的處理器(如語言模組),故常被批評只能說明低階的、與行動相關的認知能力,而無法解釋諸如概念推理、語言等高階認知能力。然而,近來不少研究卻不約而同指出人類的語言能力和知覺運動系統息息相關。用以解釋人類運動能力的機制,很大程度上也能用來解釋語言 (Garrod et al. 2014; Glenberg & Gallese 2012; Hung 2015; Pickering & Garrod 2013; Pulvermüller & Fadiga 2010; Kiverstein & Clark 2008)。此外,機器學習的文獻也指出人工適應系統可在極其有限的初始知識下,僅靠貝式學習 (Bayesian learning) 方式就可學到自然語言的語法規則,完全不需預設一內建的普遍文法 (Universal Grammar) 或是語言模組 (Clark & Lappin 2010; Thompson and Newport 2007)。
圖三:在古典人工智慧系統中的模組是垂直式的(圖左),但在新人工智慧系統中的階層則是水平的 (Brooks 1999, p. 67)。
如從功能上來說,不少學者都注意到人類的心智常呈現兩種彼此相衝突的性質,九〇年代後出現所謂的「雙處理系統觀」(Dual-process system),主張人類心智具有兩種截然不同的資訊處理方式。第一種資訊處理方式具有無意識的、自動的、平行處理的等特徵。這種處理方式在演化上年代久遠,且在其他生物上也都可發現。第二種則為人類或高等靈長類所獨有,這種資訊處理方式具有意識的,可控制的,序列式的等特徵 (Carruthers 2008; Evans 2003; Evans and Over 1996; Frankish 2004; Kahneman & Frederick 2002; Samuels 2009; Sloman 1996, 2002; Stanovich 1999)。這兩種方式分工合作,以解決各種日常生活所遇到的難題。前者提供少時省力的處理方式(如直覺),後者則提供較精確但耗能的方案(如理性)。
但要注意的是,雙處理系統觀不見得會與古典三層次模型、動態系統取徑不相容。由於在演化上,雖然兩個不同的機制必定蘊含有兩種不同類型的方式,但是反之卻不然。兩種不同類型的處理方式並不蘊含著著兩種截然不同的機制 (Samuels 2009)。如果主張這兩種方式是兩個不同種類 (type) 的資訊處理機制的產物,則雙處理系統可能會與古典三層模型、動態系統取徑相競爭,但如果只主張這雙重處理方式是兩個不同個例 (token) 的資訊處理機制的產物,則並不衝突。事實上,亦有不少預設古典三層結構的學者接納雙處理系統觀,並在此二元架構下探討不同處理策略之間的相互作用 (Carruthers 2008; Mitchell 1998a, 1988b; Payton et al., 1990)。
計算層次上的認知架構探討人類之所以有各種認知能力,其背後的資訊處理策略為何。主要的觀點包含了心智的古典計算理論 (classical computational theory of mind)、連結論 (connectionism)、混合理論 (Hybrid approach) 與非計算觀點 (non-computational view)。
心智的古典計算理論,簡言之,主張人類大腦或心智如同一部計算機,專門處理各種心靈表徵 (mental representation)。而所謂的思考或認知狀態,即等同於資訊處理或計算的過程。此理論在一九八〇以前是認知科學的主流觀點與科學典範,後來則受到連結論等非古典計算理論的嚴峻挑戰。
心智的古典計算理論有兩個核心概念,分別是「表徵」與「計算」。首先,所謂的表徵是指人類大腦或心智中,能夠用來表示外在世界性質的內在物理配置 (physical configuration),它是大腦神經細胞與外在物質世界的中介。根據古典計算理論,這些表徵必需是符號式且具有語意和語法的組合結構,才能解釋人類許多的認知能力。而人類的心智計算機,會根據表徵的語法性質來自動處理這些表徵。這種定義下的表徵又被稱為「古典表徵」(classical representation)。然而,人類的心靈表徵是否如古典論所言必需是符號式的,卻常是爭論焦點(關於非古典計算理論與非古典表徵請見 3.2 節)。
其次,「計算」一詞來自 Alan Turing (1936) 對可計算性的定義。Turing (1936, 1937) 描述了一個可執行一串指令序列的抽象通用裝置。裝置中,每條指令都是某個演算法的一個子句或步驟程序,且皆可被機械式地執行。如果某個數學函數,從中導出的值可透過有效程序(effective procedures,即可在有限處理資源、時間內,以有限數量的步驟實現)來辨識,則該函數就是可計算的。這種可計算性又被稱為圖靈可計算性 (Turing computability,Barker-Plummer 2009)。根據圖靈自己的看法,這種抽象邏輯裝置可以「計算任何可計算的序列」(Turing 1936,第 10 頁),並可以處理任何「純粹機械」的東西(Turing 1948,第 7 頁)。由於這個命題後來被證明與 Alonzo Church (1935,1936) 的命題「任何遞歸函數可以被有效地計算」等值,兩者被共稱為丘奇-圖靈論題 (Church–Turing thesis,Kleene 1967)。
心智的古典計算理論雖引起跨領域學者眾多討論,但不少文獻上的爭論多來自對此概念的理解不同。為了更精確的理解此理論,以下將從(一)對丘奇-圖靈論題的常見誤解、(二)對「符號」的不同定義、(三)古典計算模型以外的替代方案,三方面來釐清有關該理論的爭議。
自一九六〇開始,由於心智的古典計算理論與「丘奇-圖靈論題」因提供了一套完整解釋人類認知能力的基礎架構,而受到跨領域學者的廣泛使用。然而認知科學中不少心理學、語言學、哲學等學者對於表徵、計算等概念的理解與用法卻不盡相同而產生爭議。其中不少文獻所宣稱的命題常超過丘奇-圖靈論題所能證成者,而造成推論謬誤。常見錯誤包括認為計算的概念已被圖靈機所窮盡,但事實上並非如此 (Dennett 1978; Deutsch 1985; Smolensky 1988; Copeland 2004, 2008; Copeland & Sylvan 1999; Copeland & Proudfoot 2000; Gandy 1980)。
Copeland (2004, 2008) 便指出對丘奇-圖靈論題的兩個常見誤解。第一個是誤以為所有可用數學來描述的處理程序都可以用圖靈機來模擬。這個理解顯然有誤,因為並不是所有明確定義的函數都可被有效計算。事實上,證明有些函數是不可被計算的正是當代數學中的重要成就。例如,某個函數將一階邏輯的所有公式映射為 {T,N},其中 T 是定理的值,N 是非定理的值。該函數雖定義明確,卻無法被有效計算,這是因為並不存在著針對非定理性 (non-theoremhood) 的有效證明程序。因此,圖靈機並無法模擬所有可明確定義的函數。
第二個誤解是,機器能計算的所有東西都具有圖靈可計算性。這個誤解又分別與抽象和真實的物理機器有關。一方面,「抽象機器可以計算的任何東西都是圖靈可計算的」乃錯誤命題。雖然圖靈證明不可能有一通用計算機,能計算所有可被非通用圖靈機計算的函數,但的確有某些抽象的概念機器可能產生一些被認為是圖靈不可被計算 (Turing noncomputable,Copeland 2004) 的函數。例如,基於超遞歸算法的非常規計算方式便是一例。其中,超計算 (hyper-computation,Burgin 2004, 2005) 包含一組演算法和自動機可以用來處理圖靈機所無法計算的函數。[1]另個例子是互動式計算 (interactive computation),它與傳統不同之處在於其計算程序是與世界互動的連續過程,而不只是根據函數將輸入轉化成輸出 (Goldin & Wegner,2006)。這種互動式計算亦不局限於圖靈可計算性。但另一方面,概念上可能不代表實際上可行。雖然某些學者主張,存在著某些物理過程不同於圖靈可計算函數,但卻可被機器操作 (Copeland 2008; Copeland & Proudfoot 2000),然而目前尚未有證據顯示物理的非圖林機器可實際被製造出來。是故,宣稱物理機器可計算的任何東西都具圖靈可計算性,顯然言之過早。[2]
資訊科學中的「符號」概念應與語言學、哲學、神經科學等學科的用法加以區分。有關「符號表徵是否古典計算理論所必要?」的爭議,常取決於對符號的定義。資訊科學中,符號與數字不同:前者主要指英語的字母,而後者則是表示用於計數的單位,如阿拉伯數字。在此區分下,古典演算法計算 (classical algorithmic computation) 主要並非由是否涉及符號來定義,而在於使用循序演算法(sequential algorithms,一種根據數列的順序從頭執行到尾的演算法)。這些算法中的每個指令都可被機器解釋,並用來解決特定問題的一組明確指令。循序演算法以逐步依序方式執行,當有多條指令時,除非前面指令已執行完成,否則後面的都無法被執行 (Oxford Dictionary of Computing 2018)。當然,符號操作 (symbol manipulation) 也是古典計算的一個重要面向,它指的是對形式語言的字母表中的一組獨立元素進行操作的計算過程,其具有語法和語義的明確規則。不可否認,第一個被製造出來的圖靈機正是一個操作符號的邏輯裝置[3],但這不表示古典的演算法計算必涉及符號操作。事實上,大部分的科學計算是量化的而不是符號的,皆應用於數學資料並產生數據輸出。這種古典演算法計算可產生非符號的數據結構,且均具有內容。在此意義上,古典計算並非符號操作。
反觀在語言學、哲學和神經科學等學科中,「符號」一詞則用法迥異:符號泛指所有能代表事物的信號,舉凡字母、數字、聲音、標記、事件和行為等皆能成為符號。不少學者更認為,心智的計算必涉及符號 (Crane 2004; Fodor 1981; Haugeland 1981; Pylyshyn 1984; Sprevak 2010)。例如圖靈機最初可以被認為是操作其他無意義的標記 (mark),當這些無意義的標記被用來指稱某對象且符合語法規則時,則變成符號。例如,當標記 0 和 1 被視為是數字而用來表示二進制數時,則為符號(個人電腦的編碼即是典型的將單純標記變成符號的例子)。透過更多的二進制編碼,有助於建構出更為複雜的符號與表徵。如此一來,就能產生更高階的表徵(如複合概念),用以指稱更多樣的對象,並適用更多類型的語法規則。這些高階表徵被認為具有所謂的古典性質(具有句法和語義的組成結構)能解釋人類心智中較高階的認知能力,例如語言和概念推理 (Fodor & Pylyshyn 1988)。
由上可知,即便較低階的符號(例如二進制代碼)在古典量化計算中是不可或缺的,這不表示高階符號(例如命題表徵)亦然。區分兩種使用「符號」方式的優點,是避免了跨學科研究中常見的概念混淆。
雖然 Fodor (1975) 主張思想語言假說(詳見 3.1.2)與其所預設的古典計算理論是唯一可用來解釋人類諸如語言和概念推理等高階認知能力的論述,但事實上,古典計算模型有許多完全可行的替代方案可用來解釋這些認知能力的資訊處理。儘管有不少哲學家相信,符號是心智的計算的必要條件,但對 AI 研究者來說卻並非如此。例如,不確定推理 (uncertain reasoning) 在機器學習中根本不需透過命題表徵,而只需透過機率理論來模擬。這種機率理論即可直接適用於「充滿事物與關係的世界中」(Russell and Norvig 2010,492 頁)。Piccinini (2008) 也認為,計算的狀態不是藉由其非語意性質來區分,而是透過功能來區分。這裡所謂的功能並不需要仰賴符號來定義,而可被機械式地定義。
古典計算中,基於符號的資訊處理方式只是機器學習和機器人工程的眾多方法之一。Luger (2009) 指出機器學習中解決問題的幾種不同的資訊處理策略,其中包括古典的符號計算、神經網絡、機率學習等方法。例如,在隨機學習 (stochastic learning) 中,一個系統可用貝氏定理為工具,透過計算事件的條件機率變化的數學公式來加以學習 (Joyce 2016),使隨機學習能根據過去的經驗獲得新知識。除了機率外,基於行為的機器人技術(請見 2.2 節的 New AI)也是一種熱門的替代方案。
一個計算系統到底是不是一古典系統,有時也取決於該系統使用什麼樣的表徵。表徵有眾多種類,它可以是不連續(數位式)或連續(類比式)編碼。前者譬如儀表板上 LED 的數字時速表,透過每小時的公里數值來顯示車輛的速度;後者類則如類比式時速表,其中速度的增加或減少由指針的平滑移動來表示。類比表徵的處理,往往涉及連續物理流上的機械操作。像是電壓、時間和蒸氣,雖然也能以數位的方式來表示或模擬,但這些連續訊號流本身常涉及類比式的機制。例如 van Gelder (1995) 提出以蒸氣調節閥便以進氣量決定輸出動力的多寡,來控制開關的大小(詳見 3.3 說明),這種類比式的開關控制方式本身並非圖靈意義上的計算。[4]但這種類比計算不應與廣義上的類比過程相混淆,例如天氣、水流、行星運動等自然過程雖是連續的(因此是類比的)但卻不是計算的 (Piccinini 2008)。 此外,數位表徵可進一步分為古典與非古典。古典表徵具有組合語法和語義結構,非古典表徵則否。甚且,數位與類比表徵既可是內部的,也可以是外部的:所謂「內部表徵」是指必須在系統內存儲、傳遞、操作,而「外部表徵」則指存於系統之外。但是,由於內部的數位符號表徵不是唯一的表徵形式,其他形式的表徵處理也可以被認為是計算的(請見圖四)。
圖四:有關「計算」與「表徵」的各種分類,其中灰色部分代表古典計算論理(上)與古典表徵(下)所涉及的概念分類。
心智的古典計算理論中有一派認為,古典表徵與我們的自然語言相似。我們人類的思考都是透過這些類似語言的內在表徵方得以完成。這種觀點又稱為思想語言假說 (Language of thoughts hypothesis,Fodor 1975, 1980, 1987)。思想語言假說之立論根據,在於只有該假說能解釋兩個重要的語言現象。它們分別是量產性 (productivity) 與思想的系統性 (systematicity of thought)。首先,量產性是指人們能夠理解並且產生幾乎無限多的語句,即便人過去從未聽過或親口說過這些語句。人的能力是有限的,只能透過有限手段來達成。而目前已知的唯一手段是透過遞歸 (recursion) 的方式將有限符號,重複組合成無限語句。這唯有仰賴一個具有組合語意與語法的表徵系統方能達成。其次,「思想系統性」是指任何能夠理解並產生某些語彙(例如「綠色方形」、「紅色圓形」)者,必定也能理解並產生其他另些語彙(例如「紅色方形」、「綠色圓形」)。這是因為心智可以透過組構性 (compositionality) 原理,建構出綠色 ∩ 方形(∩ 代表兩者的交集,指所有綠色集合之元素中也同時屬於方形者)、紅色 ∩ 圓形等概念表徵。並計算每個組成元素的真值條件(亦即其為真或為假的條件)。接著,再將語彙「綠色」從綠色此一概念中擷取出、「方形」從方形擷取出,最後根據複合性重新排列組合而成紅色方形與綠色圓形 (Blutner et al. 2004)。此外,思想的系統性有時又被稱「推論融貫」(inferential coherence,Aydede 2004)。這是因為如果某人可根據某些推論規則產生特定想法,他必可用同要規則去形成產生其他想法。例如當某人知道小明、小華與小英在百貨公司,他必能據此導出小華、小英在百貨工司,亦能導出小英在百貨公司。而這些語言現象或能力,均有賴假設一個具有語意和語法組合結構的表徵方能解釋。然而,不論是古典計算機理論或是語言思想假說都面臨重大挑戰。不只是主張「計算需要經典的符號操作」已被推翻(例如,連結論模型就不需預設古典的符號表徵,見 3.2 節),學界也越來越少人相信大腦的資訊處理必須涉及語意和語法的組合結構。例如,Fodor (1981) 認為感官和圖像輸入無法形式化為組合表徵,而 Brooks (1999) 也認為在基於行為的機器人模型中的隱式表徵 (implicit representation) 毋須形式化為組合表徵,且就算能這麼做也不見得有必要。此外,Fodor (2000, 2008) 也重申整體計算難題仍未解決:古典計算是局部的,故很難從整體來解釋人類思想。因此,人類心智實際上不可能是純粹的古典符號表徵的處理器。換言之,心智的古典計算理論遭受嚴峻挑戰。
連結論 (connectionism),簡言之,是一種類似大腦神經網絡的計算模型,可用來解釋和模擬人類心智的功能。這種類神經網絡由各種相似於神經細胞的單元或節點 (units/nodes) 所構成,而單元間則有類似於突觸的連結 (connections)。這些單元又可分為三部分:輸入單元 (input units)、輸出單元 (output units)、多層次的隱藏單元 (layers of hidden units)。輸入單元負責接收外部資訊,並通過隱藏單元將其傳送到輸出單元(請見圖五左)。網絡中的每個單元都有多個活化值 (activation values)。這些活化值的模式由單元間的連結的權重或強度決定。當權重是正值則連結變得較活躍,但在負值時則被抑制 (McLaughlin 1998)。
相較於古典計算中每個表徵的處理是序列式的(處理完一個才能處理下一個),連結論則允許平行處理(不同單元可同時被啟動)。而連接論之所以仍屬計算理論,乃因它也可以模擬任何圖靈意義上的可計算函數 (Hyötyniemi 1996),同時也與圖靈的可計算性分析一致 (de Oliveira et al. 2001)。雖然在連結論的神經網路中,也可模擬具有語法和語意的古典表徵,但連結論卻不屬於古典計算理論 (Marcus 2003)。
構建連結論網絡的方法有很多種,不同的建構方法可用來說明不同的心智功能。舉例來說,反向傳播模型 (back-propagation model) 是一種訓練模型,根據輸出訊號中的誤差量來對連結進行加權。這個特徵,可使反向傳播網絡藉由內部反饋,來檢查並修正先前的表現,從而學習新事物。例如當連結與訊號不吻合時,分配給連結的權重便會減少。反之,吻合時則增加。故而當根據誤差調整權重時,網絡便可「學習」。然而,早期的反向傳播網路的學習能力受到不少限制,這是因為它缺乏用來存儲先前輸出值的記憶裝置,因此不能執行高度複雜的學習任務 (Clark & Lappin 2010; Garson 2008)。為了解決此問題,Elman (1990) 提出了簡單循環網絡 (Simple recurrent Network,SRN)。在 SRN 中單元的輸出訊號,能藉由傳送有關其自身活化基準 (activation level) 的資訊來影響另一個單元的活化基準。但 SRN 還有個額外的階層,是由脈絡單元 (context units) 所構成(見圖五右)。這個脈絡單元會複製隱藏層所產生的輸出訊號,並將此副本送回給隱藏單元,使之能在下個處理循環中被重新使用。這些副本可以用來計算(預測)下一組輸入到網絡的訊號的(可能)輸出值,從而有效地增加了 SRN 的學習能力 (Clark & Lappin 2010; Elman1990 McLeod et al., 2008)。
圖五:連結論網路(左) 改良後的簡單循環網絡(右)
雖然 Fodor & Pylyshyn (1988) 認為連結論因缺少語法與語意的組合結構(即古典表徵),故無法說明人類思想的系統性,但不少模擬實驗卻反駁了此觀點。舉例來說,Smolensky (1991, 1995) 提出了向量生成表徵 (Vector production representations,VPRs) 的概念來解釋思想的系統性。所謂的向量生成表徵並不具有古典表徵的組合結構,但卻能透過模擬古典表徵的計算的特性,來達成相同目的。這種連結網路不但可以重構具有語法與語意的組合表徵系統,也能依循其語法特徵來進行處理。此外,Chalmers (1990) 也提出了一連結論模型可將英語現在簡單式語句從被動語態(如 "John is kissed by Mary")轉換為主動語態(如 "Marry kisses John")。McClelland & Kawamoto (1986) 則提出可解釋語言學「格角色分配」(case-role assignment) 的連結網絡。由該網路會將語句中的語序和語意限制納入考量,因此不但可用來解釋語句中「誰」對「誰」做了「什麼」,也可用來消除歧義(例如 "she saw the boy with binocular" 語句中,望遠鏡究竟在誰手上?)。同樣地,Pollack (1990) 和 Clark (1991) 也不約而同指出,連結論的非古典表徵即可產生系統性的思考,而完全不需預設古典的符號表徵系統。
但懷疑論者可能會質疑,上述的例子只解釋了人類思考系統性的某一面向,卻未能說明思想系統性的其他面向。舉例來說,Hadley (1994) 曾區分3種系統性概念:「弱系統性」(weak systematicity) 是指當一個句子中出現的每一個單字都可出現在語法規則中所允許的任何語句位置上,則為弱系統性。而如果一個弱系統性的模型,能夠處理一個包含一個嵌入句子的新句子,使得這兩個句子在結構上與以前學過的句子是同構的 (isomorphic),則為「準系統性」(quasi- systematicity)。當一個新的句子包含一個也存在於其中嵌入的句子中的單字時,這個單字可能在這兩個句子中佔據相同的語法位置。最後,「強系統性」(strong systematicity) 是指具有弱系統性,且能學習語句中的單字而不學這些單字的語法位置者,則為強系統性。根據 Hadley (1994) 的觀點,由於人類學習者能夠將句法規則應用於新詞,故人類思想屬於強系統性。因此,連結論者光能解釋弱的系統性還不夠,還需解釋強的系統性才能說明人類思考的真正特徵。
對於 Hadley (1994) 提出的挑戰,不少連結論者紛紛提出能解釋強系統性的模型來回應。例如 Niklasson & Van Gelder (1994) 的連結論模型,可說明邏輯運算式轉換 (transformation of logic expressions) 的強系統性。這個模型是由兩個獨立的連結論網絡所組成:一個是用於複雜運算式的編碼/解碼網絡,另一個則是用來產生這些運算式表徵的轉換網絡。Niklasson & Van Gelder (1994) 認為,該模型可被訓練成能夠根據規則 A→B⇔~AÚB 來轉換簡單公式(但在說明時,他們將轉換規則簡化為 A→A⇔AÚA。而不考慮原 A→A⇔~AÚA 中的 ~ 以減少複雜度)。在用標準反向傳播算法訓練約反覆 4000 次後,該模型可處理包含全新元素 s 的公式轉換。此外,該模型也可系統地產生 18 個公式表徵。亦即,pÚp, pÚq, pÚs, qÚp, qÚq, qÚs, sÚp, sÚq, sÚs, p→p, p→q, p→s, q→p, q→q, q→s, s→p, s→q, and s→s。換句話說,上述模型的確可以展現強的系統性。
此外,Hadley and Hayward (1997) 也提出了一連結論模型來展現強的語義系統性 (strong semantic systematicity)。所謂「語義系統性」是指,當一個具強系統性的模型可以正確地將意義分配到新語句上(當某語句包含了在訓練過程中從未出現在特定語法位置的新單字,則為「新語句」),則稱之為強的語義系統性。在訓練期間,Hadley & Hayward (1997) 準備了許多名詞作為訓練素材,這些名詞均以語法的主語或賓語呈現。結果顯示,該模型僅僅暴露於所有訓練素材的三分之二時,就能正確地將意義賦予新語句(包含新語法位置的單字),而且還可推廣到新的詞嵌入(word embedding,機器學習中一種用來處理自然語言的語言模型與表徵學習技術)。因此,連結論網路的確可以透過訓練,來產生組合結構和與系統性的表徵。
對於上述古典計算理論(符號處理)與非古典計算理論(連結論)的爭論,有學者嘗試整合兩者的優點而提出混合式的計算理論、或是從根本質疑將人類認知系統視為是計算機的假設是否正確。
首先,所謂的「混合論」(hybrid view) 是指在計算策略選擇上採取了一種以上的策略並加以整合,或是嘗試以一種計算策略來模擬另種計算的處理特徵。例如早期 Smolensky (1991, 1995) 嘗試透過連結論網路的 VRs 來模擬古典表徵的組合結構和依循語法規則的資訊處理方式。但近來混合論的重點則在整合演繹邏輯、貝氏機率與溯因推論 (abduction) 的計算上。例如 Lin (2016) 就提出單一的 cognitive agent system,在此系統中就包含一個二進制子系統與機率子系統可以並行合作來找處特定處境下的最佳信念 (beliefs)。另外,Lieto, Chella, & Frixione (2017) 也提出一個概念空間 (conceptual space),專門用來整合不同認知架構所預設的不同表徵(如符號表徵、連結論表徵等)。概念空間可作為一種中介,使不同的類型的表徵可以溝通,並處理表徵的組構性 (compositionality)。這種混合取徑近年在人工智慧的領域中,發展豐富。
其次,也有學者開始反省將大腦或認知系統視為是計算機(不論是古典或非古典計算機)是否一開始就錯誤的假設。例如,van Gelder (1995) 就提出另個可能性:人類認知系統並非一資訊處理器,而是如同一個蒸氣動力調節器,是一個不涉及符號或連結論表徵的動力系統。這個蒸氣調節器,具有三個重要元件。一個「節流閥」(valve) 可透過調整進氣口的大小來控制蒸汽的流量,這些蒸氣產生的壓力可以推動蒸汽動力機的「飛輪」(fly wheel) 而產生動力,這些動力則可以推動「軸臂」(spindle arms) 使其改變角度,藉以控制節流閥的大小。因此,節流閥開太大而進氣過多時,會使飛輪產生較大的力,促使軸臂的角度變大而將節流閥關小。相反地,當節流閥關太小使進氣過少,將使會使飛輪產較小的力,而使軸臂的角度變小而將節流閥開大。如此一來,蒸氣調節器就能穩定氣流與動力之間的平衡。在這個例子中,各個元件的動作並非由一個中央處理器來協調,各元件之間也不須透過古典或連結論表徵來溝通,而是透過蒸氣與動力的轉換加以完成。在此類比下,人類的認知系統亦是由不同功能的元件之間的動態資訊流所驅動。人類之所以有各種複雜的認知能力與行為,並不是我們演化出複雜的大腦,而是我們所處的世界本就充滿各種複雜的刺激與資訊。這種觀點,為日後的動態系統取徑(請見 2.2 節)的發展,提供理論基礎。
如本文開頭導論所說,認知架構是既是用來解釋也是來模擬人類認知的重要工具。然而,雖然在「模擬」方面,人工智慧領域的研究已取得重大成果,但在「解釋」方面,認知科學的進展卻相對緩慢,甚至近來也出現以計算概念套用在大腦上是否適當的反省聲浪。
更詳細來說,一方面,以計算層次的認知架構模擬人類智能,在人工智慧的領域進展迅速。一九六〇年代的 AI 發展就已經發展出光學自動對焦相機以及自動化的工廠生產線。九〇年代後出現所謂的 New AI(見 2.2),再加上機器學習,透過歸納法或是貝式機率等方式在龐大的資料中找出抽象規則,以模擬面孔辨識、語音處理、社會決策等人類原本具備的認知能力。但是這種機器學習,其實也發展好幾十年了。2012 年後 AI 發展神速,主要是因這幾年在「大數據」以及「深度學習」方面的進展。「深度學習」讓原本的連結論網路在運用更複雜的演算法之後,大幅提升學習的效率。而大數據(尤其是社群網路興起後,人類在網路上累積了巨量的行為記錄)提供了機器「深度學習」所需要的素材。未來在諸如自駕車、醫療等領域的應用上料將更加廣泛。
但另一方面,以計算層次的認知架構來解釋人類認知不只進展相對緩慢,近來也出現反省聲浪。例如,Piccinini (2007, 2008a) 就質疑目前大部分以計算概念來解釋心智現象過於浮濫,而混淆了不同的計算概念。他區分了三種常見的計算系統:(1) 某系統的行為可以透過計算程序來建模,但該系統本身不需是計算的(例如,地球的大氣系統)。(2) 某系統的內部狀態可由計算程序的內部狀態來建模,且該系統也不需是計算的(例如,由 forward model 來模擬身體運動)。(3) 某系統的行為,可以被該系統本身的計算過程及其屬性所描述(例如,為何某裝置會輸出 q 可由其輸入 p 與規則 p→q 所描述)。
根據 Piccinini (2007) 的觀點,只有第三種才是嚴格意義上的計算概念,也只有此概念下去探討人類心智是否為計算的,才有意義。這是因為前兩種意義過於寬鬆而導致太多案例(如地球大氣系統,網球選手的上臂動作)都可被納入計算的範疇,而使計算的概念變得瑣碎 (trivialized)。然而,Piccinini (2008b,Piccinini and Bahar 2013) 認為,並非所有的大腦神經細胞都具有第三種意義下的計算。但對於這些符合第三種計算改念的神經細胞,他們的計算方式又可進步分為三類:(3a) 古典計算,神經網路中的每個細胞相當於一邏輯門 (logical gate)、 (3b) 非古典計算,它通過連續的動力學將輸入轉化為輸出,不能分成中間步驟、(3c) 特殊計算,它們不能被數位和類比計算的數學所描述,而需要專門設計的數學工具。Piccinini & Bahar (2013) 認為,一方面人類大腦的神經傳導流 (neural spike trains) 是由離散的電化學訊號所構成的,故好像是數位的。但另方面,這些神經傳導流卻又被視為是連續訊號般被處理,故又好像是類比的。因此,為了理解大腦神經元的資訊處理,只能被歸類在 (3c) 意義上的計算。
總而言之,這派認為以目前主流的心智計算理論(古典符號或連結論)來解釋人類認知似乎都不適當。因此,究竟應發展什麼樣的(3c)計算理論,以專門解釋心智的資訊處理現象,則將會未來認知科學領域的重要課題。
[1]雖然公認的物理超級機器尚未構建,但超級計算的確是圖靈計算以外的選擇(更多細節見 Syropoulos 2008)
[2]同樣地,是否可用通用的圖靈機來定義量子計算仍有爭論。雖然Deutsch(1985)和Penrose(1989)認為量子計算和圖靈計算在數學上可以形式化為等價形式,但 Stannett(2003)認為從物理學的角度來看並非如此,因為理論上有可能提出抽象的量子機器,不代表實際上做得出來。換句話說,既沒有確鑿的證據也沒有數學證明能指出普遍的圖靈機窮盡了計算的概念。
[3]這種三系統狀態控制器包括(a)一個輸入系統,可以讀取無限長的磁帶; (b)中央處理系統,遵循指定的指令來處理磁帶上的有限但無限數量的標記; 和(c)輸出處理結果的輸出系統。 為了使機器更有用,這些刻印的標記可以被解釋為表示不同的東西。 例如,磁帶上的標記“0”和“1”可以被解釋為使得自然數n被定義為“1”的n + 1個拷貝,而0則被定義為“1”。因此,編號2相當於“1”的三個副本,並且數字1相當於“1”的兩個副本。