AI,電影,AI電影,及關於未來的探討

參加人員:

劉偉:北京郵電大學人機交互與認知實驗室主任,博導。

周雯:北京師範大學藝術與傳媒學院教授、博導、數字媒體系主任。

郭帆:電影導演、編劇及監製。代表作品:《流浪地球》系列。

陳洪偉:電影製片人、監製、AI電影領域研究學者。

張煜:《當代電影》編輯部主任。

(一)人工智能發展現狀

周雯:2024年2月16日,OpenAI發佈了視頻生成模型Sora,輸入文本可生成一分鐘高清長視頻。一經發布就引起整個影視行業的驚呼和恐慌,認爲將對視覺創作領域帶來了巨大沖擊。雖然OpenAI官方放出的賣家秀視頻並未達到1分鐘時長,但“世界模擬器”的生成機制還是引發極大關注,並一騎絕塵領先之前衆多4秒短視頻AI生成工具。後續OpenAI發佈了Sora技術報告,相關研究論文也不斷髮表,最近也有一些測試號的買家秀視頻放出。這個時候,我們可以更理性客觀第討論人工智能視頻生成,以及Sora的重要發展節點。

現階段的人工智能是基於大語言模型的突圍,其涌現和幻覺的特性更適合較爲寬容的藝術領域,因此首先在藝術領域爆發。請問劉老師,基於Transformer大語言模型的人工智能後續會如何發展呢?可否爲我們解釋人工智能的多元進展情況嗎?

劉偉:現在整個人工智能界都處於比較高亢的狀態。爲什麼高亢?因爲看到了一絲曙光。比如ChatGPT,大家切實地感受到人工智能可以做很多文本工作。又比如用於視頻創作的Sora,大家感覺和以前不太一樣,時長不一樣,清晰度不一樣。但其實中美兩國的科學家都認爲,這還不是根本性的變化。爲什麼?美國加州伯克利大學的學者羅素說,過去的人工智能是現在的自動化,現在的人工智能是未來的自動化。所以現在的人工智能還處於自動化狀態,這是它的技術底層。現在人工智能軟件系統的底座都是transformer架構,但它是有缺陷的。三年前,我們翻譯了一本書叫《代數大腦:揭秘智能背後的邏輯》,它指出多內層神經網絡內部有兩個函數,一個叫線性函數,一個叫激活函數,這兩個函數會造成transformer架構出現瓶頸,這也是它造成幻覺的由來——線性函數和激活函數相互作用產生了全程分配的不均勻、不透明與不可解釋性。除了其自身缺陷外,還有數據源、算法底座與“卡”的限制。比如:現在大語言模型或者多模態大模型的數據源基本上還是英文,中文數據的語料庫很少,大模型底座也主要由美國等西方國家開發。國內有人提出可以另闢蹊徑,把大模型的東西模塊化,如推模型、算法等不同模塊,使用什麼模型則調用什麼模塊,能較好解決垂直領域應用的問題。

周雯:去年11月,谷歌DeepMind團隊在一個3D模擬環境中,用神經網絡結合強化學習訓練出了一個智能體,這個智能體從未使用任何預先收集的人類數據訓練,但從零開始,學習周遭環境,以模仿開始,自我優化甚至超越被模仿者,習得人類行爲。這也很類似於人類間的文化傳播,因此,他們發表在Nature Communications上的研究論文的題目就是Learning few-shot imitation as cultural transmission。請問劉老師您怎麼看待這種人工智能的發展路徑?

劉偉:目前,有許多研究致力於開發這類能夠從效率和隱私角度,從與人類相仿的其他個體那裡進行社會化學習的AI智能體。這樣的智能體可以通過觀察其他個體執行任務來學習新技能,而無需大量的監督式演示。常用的一種方法是利用仿真環境,讓AI智能體觀察虛擬角色執行任務。這種虛擬仿真環境可以大大降低學習成本,因爲可以輕鬆生成大量的訓練數據。還有一種方法是利用互動式學習,讓AI智能體與人類或其他智能體進行交互,並從交互中學習新技能。這種方法可以模仿人類之間的社交學習過程,使智能體能夠更快地學習新技能。

這篇研究論文是對具身智能(指有身體並支持物理交互的智能體)實現快速知識傳播的一次概念驗證,也是向人類-AI互動的開放式交互學習邁出的第一步。我想說明的是,這種人機交互智能的方式還處在探索階段,基本上還屬於“得形忘意”階段,距離“得意忘形”階段還比較遠,究其因,涉及人類的情感、意識、認知能否通過數學計算實現的底層問題,畢竟人類智能中除了學習性以外,還有非學習性(指本能的、遺傳的先驗能力),除了客觀顯性的動作行爲以外,還有主觀隱性的意圖動機,所以機器的具身智能與人類的具身智能還不能完全等價。但這個研究在一定程度上爲 AI領域和文化演化心理學之間的密切互動奠定了基礎。

當下,人機交互中最困難的部分在於確定性與不確定性的疊加糾纏。在人與機器的交互過程中,機器處理和運算數據的能力往往遠超過人類,但是在面對複雜問題和環境時,人類的判斷和決策能力通常更準確和靈活。確定性是指事物或事件發生的結果是可以預測和確定的。在機器中,確定性往往由算法、邏輯和規則來驅動。機器可以根據已有的數據和先驗知識,以一定的規則進行計算和判斷,並給出準確的結果。然而,在複雜的現實世界中,存在許多不確定性因素,如不完全的信息、不可預測的環境變化、人類主觀因素等。不確定性是指事物或事件發生的結果無法完全預測和確定。在人類的決策中,我們常常需要根據個人經驗、直覺、情感和價值觀等因素來做出判斷,這些主觀因素往往是難以量化和規則化的,也是機器難以模擬和理解的。人類和機器在解決不確定性與處理確定性的過程中是互爲補充的,通過結合人類的算計(謀算)和機器的計算能力,可以更好地應對複雜問題和不確定性的挑戰。

周雯:《流浪地球2》裡設置了智能量子計算機550,還有圖恆宇女兒圖丫丫的數字生命,請問郭帆導演,您是如何考慮這些人工智能相關設定的?您對於人工智能是怎麼理解的?

郭帆:拍攝《流浪地球2》的時候,我們邀請中科院研究人員爲顧問,一起思考人工智能的發展,這麼做也是爲了把《流浪地球》的世界觀拓展開,不再停留於宇宙的範疇。拍攝《流浪地球2》是在2021年,我預估像GPT這種級別的人工智能還需要七八年才能出現,但其實在《流浪地球2》上映前一個月它就出現了,真沒想到如此之快。我們還在《流浪地球2》裡設定了一個機器,就是550C自適應計算機,它可以自主發現一些問題,以適應周圍環境生成相對應的策略,基於生成的策略再生成相對應的應用。這本是我們天馬行空想出來的機器,卻在浙大看到了類似的應用,我想這或許可以給予我們新的解題思路,避免創作者陷入經驗主義怪圈。科幻跟科學之間有着巨大的鴻溝,爲了學習人工智能相關知識,我們參加了世界人工智能大會,在國內考察了華爲、小米、商湯等高新技術公司,在國外考察了谷歌、Meta、蘋果、英特爾等高新技術公司,以及浙江大學、斯坦福大學等高校的高新技術實驗室。

但迴歸電影創作本身,我對技術的態度是“能用纔有意義”。比如虛擬製片技術,事實證明實操性價比較低,最安全的方式還是迴歸到傳統綠幕或者藍幕拍攝。雖然虛擬拍攝LED屏企圖打造的是實時、可見即所得的狀態,但背景特效也得提前做,與傳統拍攝需要花費的時間其實不相上下。所以我對能實際用在創作和製作中的AI工具更爲關注。

(二)人工智能工具的產業應用

周雯:您現在做《流浪地球3》的前期,會使用哪些AI工具?在哪些環節使用?

郭帆:對於前期的文字工作,語言模型如Claude3對我們影視創作幫助很大。Claude3比GPT4更趨於一種“人”的狀態,它甚至會對我提出的問題進行“先測試”。比如問題提出後,它會先“糊弄”你一下,當你提醒它說這個回答太糊弄時,它纔會非常認真地回答你的問題。這可能是它節省算力的一種方式,但其實很類似於人類社會中“領導-員工”的關係。語言模型在文字創作上能呈現很多發散性的思考,甚至幫助並不專業的編劇去解決一些基礎的數學、化學、物理層面的計算,包括天體物理級別的計算。

我們現在把人工智能應用在電影生產上,是將基礎邏輯拆分開,一個語言模型完整地編寫一個劇本這並不現實,但整個編劇工作流程可以分成若干塊。在編劇開會的時候,錄音與AI識別可以解析出每位與會人員的發言,最終形成語料庫。在連續十天、每天十小時的討論後,AI識別可以“秒速”精準提煉每個人的重要觀點,避免人工查詢的冗雜。寫劇本也是同樣,在Claude3語言模型的幫助下,我們基本上釋放了雙手。事實上,人工寫劇本這件事需要耗費很大一部分精力在遣詞造句上,現在這樣的工作可以交付AI來完成,我們只需要在創意上花費更多的思考——傳統的劇本流程,從有想法到落成文字可能需要幾個月到幾年不等,但現在只要你的故事思路完整,人物確立,邏輯健全,那麼從落成文字,再到生成劇本格式,乃至文學潤色,最多一週就可以完成。作爲電影來講,劇本是需要轉化成視聽語言的,並不如小說那般注重文學性,Claude3、GPT4等語言模型完全可以承擔“將事情講清楚講明白”的任務。我認爲這很好地保護了我們的創作精力。

周雯:概念設定也是基於AI工具鏈集成的使用邏輯嗎?

郭帆:是的,我們是試着將不同的人工智能應用分攤到所有生產環節裡面,哪怕很小的一個環節也可能對應一個應用,最終形成應用組合,類似有扳手、螺絲刀等不同工具的工具箱。比如說劇本階段會分切出五六個分支環節,使用不同的應用;籌備的時候又會分出若干個部門,同時部門中又分出幾個環節,對應不同應用,相互組合使用,幫助我們從傳統的價值不高的這些工作中解放出來。

概念設定也是,在基本想出一段劇情之後,我們馬上就會用Runway、Stable Diffusion、Midjourney生成視覺概念圖,而且會有動態的概念視頻。使用邏輯是,我們會先給出設定讓Midjourney鋪面,生成1000、2000張都可以,我們像看照片一樣概覽,然後把與想法接近的圖片選出來給Stable Diffusion進一步深化。此外,Runway能讓概念圖更有氛圍,比如飄雪、下雨、閃電等動態氛圍型的效果可以很快呈現。深化結束後,我們會再從中選出一到兩個最終使用方案,此時人工纔開始介入,基於AI生成的意向性概念進行細化設計、拆分模型、動畫測試。所以說,這些應用並沒有取代創意這件事情,而是幫助我們節省實現創意的過程。

有時候,AI生成的內容還可以促進編劇思考。比方說編一個“辦公室開會”的橋段,辦公室其實沒有細節,只是腦海中的一個概念,AI會根據我們“模糊的辦公室”生成幾張圖,那麼當編劇看到圖片上相對具象化的環境之後,可能會基於具體物品進行拓展,這種拓展與情節、環境有關。這樣通過視覺讓編劇進行具象思考,使“辦公室”不再停留在腦海中的抽象概念,而是能幫助編劇激發想象力,實現從文字語言向視覺語言的重要轉化。這樣不斷地相互促進、相互激發,能夠更好地進行前期創作。

總之,我們現在的整體思路就是儘可能把傳統生產邏輯拆分成一個個單點的步驟,給這些步驟找到對應的應用,並測試哪個應用好用,好用就記錄下來。選定好這些流程之後,未來的創作就可以依照這些好用的應用直接使用。這是一種類似於汽車生產線一樣的生產自動化邏輯。

周雯:所以AI工具其實已經系統性地應用在《流浪地球3》的前期階段了,這應該在國內影視行業中是很領先的。

陳洪偉:一定是,郭帆導演提到的這種在項目開發環節與AI的實時交互,應該是目前影視行業對AI運用的標杆了。我很贊同各種工具爲我所用、逐漸沉澱工作流的邏輯。AI工具迭代很快,我們傳統影視內容的生產工藝流程,還不是會很大程度被改變,除非劇組的主創,特別是導演與製片人願意主動擁抱新技術,纔會創造一些新的可能性。我反而認爲,新技術的更多應用場景,可能不太會在成熟的影視劇組,而會在更多缺乏影視資源的小團隊。比如更多的自媒體、青年導演,或者願意進行影視內容創作的普通人,都可以因爲AI的技術賦能,做出更多富有想象力、創造力的作品。同時,各種AI應用工具的迭代速度非常快,是以月爲單位的,處在這種涌現式發展的旋渦之中,我們很難準確判斷這一次生產力技術的革新會發展到什麼程度。

劉偉:我們把這種羣體的人機環境相互作用的生態稱爲人機環系統。事實上,基於transformer的AI應用軟件都是人機環。第一部分預訓練的時候,這些模型框架都是找人打標,這是人在介入;第二部分需要人的反饋調試,也是人在作用;第三部分在使用層面也需要人的選擇。所以這些軟件都有一個共同特點,就是“欺軟怕硬”——你的水平越高,它給你的東西越好;你的水平越低,它就泛泛而談。

郭帆:在處理專業知識的幻覺問題上,我們現在的方式就是在它回答完之後立刻“罵”它一遍,讓它再細算,它會給出一個更細的方案,緊接着再“罵”一次,它又會再細化一步,最終給出一個相對準確的數據。直到這個數據不再變化或變化不大的時候,我們纔會拿去與專業人士討論。此外,作爲導演,我還注意到AI對於提升管理效率的重要作用,即使這與電影創作無關,但是劇組人數衆多、工種龐雜,高效運作也是一個亟待解決的問題。

劉偉:您所提到的管理問題是AI工效學所關注的,管理學的鼻祖和工效學的鼻祖都叫泰勒。這也與AI的自動化與智能化有關。在定義裡,所有可編程的、確定的輸入和確定的反饋叫自動化,凡是部分可編程的、不可編程的、不確定的輸入和不確定的反饋叫智能化。智能化的特點在於利己,即有利於我團隊、有利於我個人。非常希望未來能在電影中能看到利己的、不確定的智能化AI設定。

(三)作爲世界模擬器的Sora

周雯:談到Sora,其實當下它還很難應用在電影產業製作中,但工具會不斷成熟,各位怎麼看待它的後續發展?

陳洪偉:Sora的發佈,對於2024年意義很大,人工智能在圖像和視頻生成領域爲大衆帶來了感官上的重大沖擊。過去認爲AI很強大主要是一種想象,但Sora帶來真正的視聽震撼是。不管它是“買家秀”,還是確定性地展示了AI技術在視覺創作方面的潛力,都會加速AI技術的迭代和進步。Sora的能力在一定程度上,會影響和改變內容創作者的工作流程,使得個人創作者能夠有機會製作出具有專業水準的視覺作品。Sora能夠提高生產效率,還降低製作成本,使得更多創作者有機會參與到影視製作中來。同時,它也對行業內的就業結構和專業技能標準帶來挑戰,促使從業者不斷學習和適應新技術。

郭帆:Sora現在的費用大概是平均150美元一分鐘,但這不等於花150美元就能得到可用的一分鐘。也許生成100個一分鐘乃至1000個一分鐘才能獲得可用的那一個,那我們的選擇成本、耗時成本、資金成本都會變得非常高。所以當Sora出現時,對我來說,直覺上影響並不強烈。但是Sora如果在短視頻創作上繼續發力,那對廣告或者短視頻行業的衝擊會比較大,長視頻行業則暫時會好一些。另外,目前AI帶來的生產自動化並不涉及純粹的創意層面,那麼對創作者的影響就不是特別大,反倒能夠釋放生產力,讓更多年輕創作者擁有更多機會。拍攝一部電影的門檻在於需要組織大量的人力、物力去生產,對於年輕創作者來講,組織幾百人或上千人的隊伍去拍攝可能難度更高。這不是創意問題,而是號召能力、管理能力的問題,而新的AI應用可以幫他們降低組織的成本。也許在未來,幾個年輕創作者就可以做出一部電影了,這是對整個創意領域的釋放,讓他們有更多的可能去施展自己的才華,被大衆看到。我覺得這是一件好事,對於電影行業來講也是好事。

當然,我們也仍然要關注Sora的發展和可用性,但最近放出的藝術家生成“黃色氣球腦袋”的視頻,這個黃色其實是靠人爲手段以傳統DI完成的,而非直接生成。未來,如果Sora能完全覆蓋傳統拍攝的手法,那麼我們就需要重新審視它在創作上的作用了,有可能會對行業產生很大影響。

周雯:另外,Sora之所以引起大家的驚恐,並不僅僅因爲它能生成視頻,而在於它的“世界模擬器”特徵,是脫離二維圖像的侷限,基於三維空間、物理世界的生成。當然,現在的模擬程度還未達到大家的期待。

陳洪偉:關於世界模擬器這部分,確實是很大的爭議所在。也有很多專業人士,特別是在後期特效、3D建模等領域深耕的專業人士,也對Sora到底多大程度上可以還原物理世界持有比較大的疑慮。目前AI在3D領域的發展具有並存的兩條路徑:在Sora之前,物理3D世界的還原,主要是基於3D模型的算法構建,除傳統的3D模型軟件之外,遊戲引擎的發展是希望所在,特別是以UE5遊戲引擎的發佈爲標誌,它在呈現物理世界的自然光線、肌理質感等方面,取得了令人驚豔的成果,物理世界的構建和還原在相當一段時間內都是依託於遊戲引擎算法的;直到Sora的演示片發佈,讓很多傳統3D建模的相關專業人士很難接受,或者持有很強的質疑態度。至於Sora到底能不能像演示所言,通過大語言模型的構建,可以充分實現世界模擬器的能力,還要等待Sora真正面向大衆使用之後,才能一探究竟。

周雯:今年3月底,OpenAI主動拜訪好萊塢也證明了OpenAI進入電影領域的強烈意願。

陳洪偉:OpenAI的這次拜訪帶有很大的營銷屬性。好萊塢在電影製作的工業體系上已經非常健全和完整,對AIGC的實際產能一直保持比較高的警覺和質疑,從好萊塢編劇到演員諸多領域的罷工也可以看到,雖然AI的爆發式發展製造了一定的焦慮,但OpenAI想通過Sora進入好萊塢的核心生產環節應該沒有那麼容易,主要原因在於我們尚且不考慮能耗,不考慮算力的巨大成本消耗,樂觀預計AI的影像生成可以在3年內完成多次迭代。這已經是一種非常樂觀的預判。只要你目前實際用過所有一線的AI影像工具,就會很明顯感覺到目前所有AI影像工具的侷限性。電影發展100多年,已經創造了非常豐富多樣的視聽語言成果,很多視聽表達要想用AI輕鬆完美地生成,還有比較遠的距離。結合實際AI工具使用的情況,我們不妨得出如下推論,兩到三年甚至更長時間內,AIGC都不太可能成爲主流影視製作的核心生產力工具,也無法替代攝影機實拍和演員表演的核心生產要素功能。但各種眼花繚亂的AIGC工具,就如郭帆導演所闡述的,一定會成爲非常重要的效率溝通工具、創意互動工具和生產支持工具。當然我們也期待以Sora爲代表的更多AIGC工具面向大衆投放使用,即使主流電影工業無法短期內將AI工具作爲核心生產力,但對於青年創作羣體、獨立電影工作室甚至自媒體創作者而言,在沒有更多資金資源的前提下,有機會藉助AI工具實現更優質的視聽語言創作與表達,可以更快地被主流觀衆看到,也一定是電影產業的大好事。

周雯:今年3月,黃仁勳在英偉達GTC 2024大會時說:在5~8 年的時間內,我們看到的每個像素都將被生成,而不是被渲染。藉助AI生成模型,這些像素將在被觀看或被消費的同時生成。各位怎麼看待?

劉偉:黃仁勳提出的這個觀點涉及人工智能在圖像生成方面的發展。如果這個預測成真,將會帶來巨大的變革,影響諸如娛樂、設計、醫學影像等多個領域,意味着圖像生成技術的進步將達到一個新的高度。

目前的圖像生成技術已經相當先進,但如果在未來5至8年內,每個像素都可以通過生成而非渲染來產生,這將意味着更加細緻和逼真的圖像,甚至可以達到人眼難以分辨真實與虛構的程度。這種技術的應用將更加廣泛,除了娛樂和遊戲行業外,醫學影像、建築設計、虛擬現實技術等領域也將受益匪淺,如在醫學影像領域,更逼真的圖像可能有助於醫生更準確地診斷病情,提高治療的成功率。在建築設計中,這意味着可以根據客戶的具體要求和場地特徵生成高度個性化的設計方案,設計師可以更快地嘗試不同的設計方案,並根據反饋進行調整,從而提高設計的質量和效率。在AR和VR環境中,可以創建更加逼真的虛擬世界,還可以與自動生成和自適應性技術相結合,使設計系統能夠根據環境和用戶需求自動調整和生成設計方案,大大提高設計的靈活性和適應性,進而提供更加令人信服的用戶體驗。

但是,這種技術的發展也可能會帶來一些挑戰和問題。首當其衝的就是倫理和道德問題,例如虛擬人物的濫用、隱私保護、圖像視頻造假等方面,可能會引發爭議和社會矛盾升級。再者,技術的進步可能導致一些工作崗位的消失,特別是那些依賴於傳統渲染技術的行業等。總而言之,黃仁勳的觀點展示了人工智能在圖像生成領域的潛力和前景,如果這個預測成真,將會對我們的生活和工作產生深遠的影響,需要我們做好充分的準備來應對。

(四)人工智能對電影敘事的影響

周雯:AI介入後,不僅電影的視聽語言與生產方式會產生變化,甚至敘事方式都會發生很大的變化。AI Agent可能會成爲角色之一,甚至與用戶產生隨機性的故事,學界把這種敘事方式叫“涌現敘事”。或許未來每個人都可以在自己創建的故事世界觀裡和AI角色進行獨特的劇情互動和情感交流,每個觀者的體驗都不一樣,故事呈現方式會從“故事講述”(Story telling)向“故事生存”(Story living)轉變。您如何看待這種可能?

郭帆:我對此心態比較開放。因爲人類對於故事的需求至今都不曾發生變化,從山洞壁畫、結繩記事,到皮影戲、小說創作,再到電影膠片、數字影像,這些都只是講故事載體的變化,而個性化、定製化、互動化的講述載體,本質上也還是在講故事——人類是對故事有需求,而非對載體有需求,載體一定在不停變化。載體的變化是基於科技的變化,而對故事的需求是不會發生改變的,像英國紡織工人搗毀珍妮紡織機運動,即使反抗聲音再大,也無法阻礙時代的車輪,我們沒有辦法違逆技術的發展趨勢。更何況,電影本身也是隨着技術的發展而產生的一種信息載體,沒有技術何談電影。那麼,基於信息化技術的發展,電影產生變化是非常正常的一件事情,無論我們主觀上是否喜歡這種技術迭代,載體革新都不會照顧到人類的主觀感受,我們需要秉持開放、學習的態度去關注這種發展。

陳洪偉:電影誕生一百多年,其實人類的影像敘事方式一直在不斷髮展變化,一直在朝着複雜化、多元化、高信息濃度的方向發展。在本質上,與其說是電影的進化,不如說是人類大腦這一接收和反饋信息的處理器,伴隨着工業革命、信息革命、科技發展,在不斷被更大的信息量所重構。舉一個最簡單的例子,我們都經歷過2000年初好萊塢電影《黑客帝國》三部曲的上映,那時候大量觀衆都反饋看不懂,認爲各種隱喻造成了巨大的理解障礙,而只能感嘆於表面的各種科技特效,如子彈時間等。但在20年後的今天,我們再重看《黑客帝國》時沒有任何觀影障礙,甚至驚歎於這是一部非常超前的預言電影。爲什麼?因爲我們在這20年間,經歷了數字信息洪流的席捲,從互聯網到移動互聯網,人類進入了空前的數字信息爆炸時代,生活的方方面面都在深度數字化,越來越能夠感受到數字世界與現實世界邊界的模糊。基於這樣全面數字化的時代背景,“涌現敘事”本質上就是人類信息涌現帶來的“故事”需求的改變。而這個過程中,AI的語言大模型技術突破與應用,代表着數字信息將得到指數級的放大,人類進入與AI共存的時代,這其中的信息交互方式,從單純的人與人藉助互聯網交互,徹底進入人與人,人與AI,AI與AI等更加複雜的信息傳遞震盪,郭帆導演藉助AI參與到電影劇本的創作,已經是與AI共同創作的多元信息交互模式。這是前所未有的全新局面,會是人類大腦這顆超級信息處理器面臨的全新挑戰。

周雯:基於現在已知的人工智能,您對未來人工智能的判斷是什麼?以及人類與AI的關係?

陳洪偉:我認爲相比較於快速發展的數字信息科技,人類的本性並不會如此之快地進化和與之匹配,我們依然有着可以稱爲“人之常情”的各種古老情感,短時間來看,這諸多情感並不會湮滅,但會被各種繁雜、高頻、快速、碎片甚至冗餘超載的信息衝擊。這會帶來非常多的戲劇張力,也是近些年越來越多的全球影視作品的着墨重點。整體來看,未來的電影敘事將呈現兩種極端樣態,一種爲信息濃度暴增,通過高倍的信息轟炸與視覺、聽覺等感官的全面衝擊,引起普通人的情感共鳴與觀影興奮度;另一種爲傳統、緩慢、真實、樸素的各種古典敘事表達方式,物以稀爲貴,它們依然會如今天的各種非遺文化一樣,歷久彌新,保持綿延而悠長的生命力。畢竟,我們還是人類。

郭帆:我認爲也許會變成對於定義權的爭奪。對於一個事物,我們人類的認知是什麼?AI的認知是什麼?假設AI的認知和人類的認知不匹配,甚至高於人類認知,會發生什麼樣的事情?比如我們現在認爲水蒸氣、液體水、冰塊在本質上是一樣的,但也許AI不這麼認爲,它有更精確的定義,那麼到那時會如何?

周雯:有專家認爲通用人工智能(AGI)的到來大約需要5到10年,可解釋人工智能大約需要10到15年,基於這些觀點,劉偉老師您如何看待AI的發展路徑和速度?

劉偉:也有專家認爲現在的人工智能實際上是高級的自動化,因爲人類已有的數學支撐不了大家期待的AGI。和郭帆導演的思考類似,蘇格蘭哲學家大衛·休謨提出了重要的“休謨之問”,即人類能否從客觀事實裡得出主觀價值?從“being”裡能否得出“should”?“should”就是智能的核心。在東方思想裡,“天行健”與“君子自強不息”便是一對“being”與“should”。如果沒有“should”產生,那麼智能機器就只是一個自動化裝備。

所以,關於人工智能與AGI,我們需要格外關注我們“人”的“should”的作用。維特根斯坦在《哲學研究》中推翻了他前一部《邏輯哲學論》中的核心觀點,指出真正的理念是在生活、實踐當中產生出來的,有生命力的語言就叫自然語言(NLP),而不是規定的學術化語言。這與拍電影類似,倘若一部電影全都是規範式的鏡頭,那觀衆必然覺得索然無味——不確定的表達更抓人心。這也就更好地解釋了爲何AGI無法存在。Sora雖然被稱爲“世界模擬器”,但底層邏輯上仍然是數學統計,而機器的物理和生活的物理完全是兩個世界,人類不單有物理的,還有心理、倫理、道理等,Sora和GPT是不可能模擬出這種豐富程度的。特別是東方“非常名,非常道”的表述,機器是很難清晰生成出來的。

郭帆:我們在拍攝《流浪地球2》的時候,“都在酒裡了”這句話就很難翻譯。

劉偉:所以說,機器是計算,人類是算計,機器無法理解人類的“should”、人類的“算計”,AGI是很難成功的。能夠取代科學的是複雜系統——機器做“復”人做“雜”。科學在西方以還原主義姿態取代了宗教,而東方則更看重系統觀,機器與人的思維融合組成複雜系統才符合當下的發展。事實證明,人機協同已經成爲當下人因工程最重要的研究方向。在未來,並不是單看Sora或Claude這些單個AI應用如何發展,而是人機協同生態——人與機誰結合得更好,誰就領先。所以,在人工智能主題的科幻電影創作上,我認爲應該把人類的哲學、神學、複雜性加進電影創作中,這是人工智能無法涉足的領域。

周雯:AGI的普遍定義,是能夠像人類一樣思考、學習和執行多種任務的人工智能系統。去年10月,英偉達、華盛頓大學、港大發布類人智能體Humanoid Agents。按照心理學家丹尼爾·卡內曼(Daniel Kahneman)的理論,人類有兩個互補的思維過程:直覺的、輕鬆的、即時的系統1,和邏輯的、有意的、緩慢的系統2。之前的AutoGPT等多是構建基於系統2的以任務爲導向的智能體,而Humanoid Agents則依據心理學,模擬類人智能體的日常活動。在生成對話響應時,可以同時考慮到系統1的基本需求(例如飽腹感、健康和精力)以及情感、親密度等多個方面,這些內在的動態因素使得智能體能夠根據自身的狀態來調整其日常活動和對話方式,就像真正的人類一樣。各位如何看待這種AI發展路徑?

陳洪偉:影視作品傳遞情感,本質上就是通過信息的傳遞和反饋,實現人類心理感受的起伏過程。這兩種互補的思維過程,如果簡單直接地概括,就是意識與潛意識的區別。意識,涵蓋定義、概念、邏輯這樣的人腦理性活動行爲,語言文字都是意識的表現形式。而大語言模型,顧名思義,就是基於人類語言研究搭建的數學算法模型,因此從某種程度而言,目前的AI可以無限趨近於人類的意識表達。這也確實是我們目前使用各種AI工具實踐過程中的切身感受。但是,人類的潛意識層面,更涉及直覺、碎片、非線性的感性心理活動,而正是這種不可輕易捕捉的潛意識活動,構成了人類意識活動的主體部分。就AI的發展看來,通過意識的堆疊、算法的提升,達到或者接近人類的潛意識思維,目前應該還是不太可能的。

劉偉:其實丹尼爾·卡內曼理論中人類系統1感性思維與系統2理性思維的常常是混合在一起的,這種混合往往會讓當代的數學、邏輯學研究者們慚愧不已,即目前的數學及其他工具還遠遠不能支持機器智能模仿人類的混合思維。要實現機器的仿人混合性智能,除了新數學工具的發展,還需要探索新的方法和技術,如新的機器學習方法、自主認知系統和複雜領域的交叉研究等。只有綜合利用多種方法,才能更好地支持機器智能模仿人類的學習能力。

儘管機器智能在某些方面可能比人類更強大,比如處理大量信息的速度和準確性,但是機器智能遠遠不能實現人類的非理性智能,包括情感、創造力、直覺、藝術等方面,這些是當前機器無法模擬或者達到的。雖然機器智能可以通過學習和推理,從數據中挖掘出有用的信息,並執行特定的任務,但要使機器智能具有價值性,就需要考慮和引入倫理、道德以及社會等因素。所以未來AGI的發展還面臨着技術性、生物性和社會性三大瓶頸。

技術性瓶頸表現在人工智能系統需要更高的計算能力、更先進的算法和更有效的數據處理方法,以實現更復雜、更智能的功能。通用智能的“算”不僅包括計算能力,還涉及算計(謀算)能力,它指的是智能系統在處理複雜問題、進行推理和決策時所需要的能力。當前人工智能技術在處理各種現實世界的複雜問題時,往往受限於算法設計、數據質量、模型解釋性等方面。隨着技術的不斷進步和研究的深入,我們可以期待智能系統在算計能力上取得更大突破,從而更好地應對各種複雜挑戰。

生物性瓶頸主要體現在我們對人類大腦的認知能力和運作機制的理解還非常有限,要實現類似的智能水平,需要更深入的神經科學和認知研究。人類大腦是一個高度複雜的器官,大腦神經元之間的相互作用非常複雜,我們對它們工作原理的理解還很有限。要開發出真正具有通用智能的人工智能系統,需要更深入地理解大腦的工作原理,並將這些原理應用到計算機系統中。人類能夠輕鬆地處理非結構化和模糊的信息,但對於計算機來說,這是一個更大的挑戰。

社會性瓶頸則包括了人工智能系統與人類社會的融合問題,例如文化差異、倫理道德、隱私保護等,這些都是影響人工智能發展的重要因素。由於不同文化和社會背景下行爲規範和價值觀的差異,通用智能系統需要適應並尊重不同的文化,如用於全球市場的客服機器人需要理解和迴應不同文化背景的用戶,這是一種跨文化交流。同時,通用智能系統必須考慮倫理和道德問題,包括隱私保護、公平性、安全性等方面,以確保其發展和應用符合道德標準和社會期望。

克服這些瓶頸需要跨學科的合作和持續的創新努力,只有在技術、生物和社會方面取得突破,“通用智能”才能邁向更加成熟和全面的發展。但這終究極難實現,或許根本實現不了,也許“長生不老藥”只是傳說和神話。

(五)人工智能與影視教育

周雯:AI技術的發展對高校衝擊也很大,教師和學生的危機感、緊迫感都很重。我們從去年5月份開始開設AIGC課,本學期是第二次,是和北京電影學院攝影系合作,共同探索如何培養學生運用AI工具進行影視創作,如何綜合AI和傳統技術方法創作優秀作品。洪偉也作爲主課教師,邀請了非常多創作者和學生互動,實現了深度產教融合。您有哪些印象比較深刻的感受?

陳洪偉:AI技術發展對於我們提升教育理念是一個非常好的契機。我們經常會感慨,在傳統影視教育體系中,教學內容距離產業實踐比較遠。而AI技術的突飛猛進,對影視教育是一次巨大的利好,因爲AIGC會給同學們提供快速充分的實踐機會,在實踐中,學生們會深刻感受到自己在基礎知識、理論系統上的不足,進而非常有針對性地學習和補充,形成正反饋的學習節奏。我們這次教學實踐是以視聽語言爲核心,但放棄了專業影視院校在講授視聽語言時以理論和文字爲主的思路,全面藉助AIGC工具,使每一個視聽語言知識點都可以通過AI生成,快速呈現在同學們面前,讓他們更好地感受視聽語言帶來的非文字可描述的魅力。

這次只要是大二的學生,幾周內,很多同學就隨堂創作出優秀的視聽作品。雖然這次課程是以AIGC爲核心,但本質上是非常系統的電影視聽語言課,只是同學們的創作探索過程,正如郭帆導演所言,不再按照傳統影視行業的創作工作流進行。雖然AIGC創作過程很多時候是個人化的,但他們的創作並不孤獨,他們的創作夥伴不再是身邊的同學,而是GPT等各種各樣的AIGC工具。我的感受是:這是一次美好的教育探索和嘗試,而且在教學過程中,更加感受到了視聽語言在未來AIGC高速發展後的重要性,甚至是未來人們必須充分掌握的核心能力。郭帆導演對此怎麼看呢?

郭帆:我特別贊同您的說法,我一直覺得我們的基礎教育中就應該包含視聽語言教育。在做《流浪地球2》的1000人覆盤時,我們發現短視頻已經佔到日常文化消費的97.5%,觀看時間從兩三個小時到十多個小時。這意味着觀衆已經習慣於通過“視聽”方式進行信息接收了,所以我們需要培養他們的視聽表達。

在未來,可能我們會面對更多不同領域的視聽方式信息傳遞。人工智能如果能夠提高效率、降低門檻,也許在未來更多的社交媒體、公共信息傳播都會傾向於使用視聽語言,而非文字語言。從報紙到門戶網站,再到今天的短視頻,信息傳遞的本質沒變,變化的是信息傳遞的方式。未來,在人工智能降低製作與傳播門檻的前提下,可能有更多視聽信息傳播,不僅僅是故事,還包括社會新聞、科學普及,甚至表達情緒也以視頻的方式呈現。我對此比較樂觀。

劉偉:我是比較悲觀的,我認爲強調視聽其實也是在弱化我們的智力。因爲人機交互是“脖子以下”,是生理和物理之間的交流,而人機融合智能是“脖子以上”,也就是人腦和電腦進行交融。實際上當機器的水平越高,人的水平是相對下降的。

郭帆:我贊同。我剛纔的觀點是在影視行業這個前提下,視聽語言這種語言傳播的面越來越廣,意味着我們的機會越來越多。但從社會問題來思考,這會讓我們不太像原來進行那麼多的深度思考。

陳洪偉:從視聽語言教育的角度出發,我認爲可以找到“可思考”的基準線的。創作者在做電影時會對影像畫面有質感要求,希望擁有“電影感”這種高級感受,這告訴我們視聽思考其實也分高、中、低。在此我引入“顯性—意識”與“隱性—潛意識”這兩個概念:一部電影的主題概念可以通過文字表述,是顯性的,而視聽語言有着更海量的信息,是隱性的。畫面構圖很多隱性的內容是我們在學習文字思考時意識不到的,但是我認爲,影視相關專業的學生更要自覺知道隱性內容的重要性。要做高階品質的作品,通過畫面傳達思想跟情感,隱性方法尤爲重要。在傳統的影視教育中,我們往往過於強調顯性意識的重要性,而忽略影響力更大、更深遠的潛意識的塑造與傳播。劉偉老師認爲短視頻會對人類思考弱化,主要問題不在於短視頻影像內容本身,而是目前的社交媒體算法投喂機制,主導和推動了勾起人們淺層慾望而非深刻思考的海量垃圾信息內容的廣泛傳播,這是另外一個對人類非常重要的文化和社會議題。但我們不能因爲目前社交媒體算法帶來的社會問題,就放棄對視聽語言更加系統化的研究,甚至放棄讓未來的孩子們在成長階段更加系統化學習視聽語言的機會,否則他們將在AI信息爆炸的時代更加茫然無措,更加只能被動地接受AI視聽信息的投喂,而徹底喪失與AI共舞的創造能力。

郭帆:我特別贊同這個說法,視聽語言作爲一種語言其實還不是那麼普及。九年義務教育解決了很多文字文盲,大家可以通過文字傳遞思想與感情,這樣的掃盲工作是文字語言傳播的“基建”。但遺憾的是,視聽語言還沒有完成這種基建,很多人其實並不會拍攝畫面、組合鏡頭。只有先完成基建,我們才能繼續發展,並達到順暢使用視聽語言的程度。我期待未來AI幫助我們完成視聽語言的基礎設施建設,有了這個基建,更多人才能掌握視聽技能,影像發展領域纔會有更肥沃的土壤與源源不斷的人才。

周雯:對於行業項目來講,當下的AI工具能夠大量節省前期工作和溝通成本。對於高校影視教育來講,也是很好的創作訓練及創新實現的工具。

陳洪偉:是的,目前AI在視聽領域的各種探索應用,可能還不能快速成爲傳統影視產業的核心生產工具,但卻是非常好的學習傳統視聽語言的工具。專業影視院線的本科生,在學習攝影、光線、構圖等多種畫面技能過程中,需要掌握各種攝影器材,進行各種實踐拍攝,這其中還會遇到基於場地、硬件等多方面不可控因素的變數,教學任務的達成是一個緩慢的過程。而AIGC具備高效率,同學們可以在沒有豐富攝影器材的情況下,根據視聽語言知識點去完成AI生成創作,並通過創作的成果對基礎視聽語言知識點進行快速理解與掌握。當然,一線的實踐學習至關重要,但AIGC的方式確實能夠大幅度提升學習效率。這次“視聽語言與AIGC實踐”課程剛進行了兩個多月,很多同學的短片作品非常令人驚喜,在視聽語言的駕馭和應用上已經展現了很高的天賦,這說明只要在教學過程中進行足夠精準的引導和培養,就可以激發同學們學習視聽語言的興趣與熱情,讓他們更快地看到自己的“準成熟”作品問世,這樣的正反饋機制,也是激發數字時代的孩子們創作熱情的有效教學手段。

此外,伴隨着AI的發展,對人的教育變得更加重要。郭帆導演提到AI共創很明顯的特點,就是AI欺軟怕硬、遇強則強的屬性,你要有更加清晰的獨立思考能力,纔不會被AI“敷衍”。具體到影視方面,越是在視聽語言領域專業程度高的創作者,越能夠創造出更好的AIGC作品。從去年到今年,AIGC發展了一年的時間,通過各種媒體平臺的AIGC影視作品,我們就已經明顯地看到這樣的特點。甚至很多早期AIGC創作者依賴信息差,造成過一鳴驚人的短暫假象,但因爲視聽語言的根基不牢,對電影質感缺乏足夠的理解與審美認知,隨着AIGC創作熱潮的涌動,泯然衆人的也大有人在。

此外,視聽語言的教育與學習,在目力可及的時間範圍內,不會因爲AI技術的迭代而被取代,甚至會更加重要。就以Sora樣片爲例,它們都是通過Prompt語言驅動完成的,只有對視聽語言熟稔於心的創作者,才能夠輕鬆駕馭Sora,實現想要的鏡頭、景別、畫面和質感,也才能成爲最好的AI創作者。

周雯:無論是作爲創作者、教師、還是學生,也不管我們是否做好準備,我們都將進入與AI共生共創的時代。

我非常認可斯坦福HAI研究院院長,被譽爲“AI教母”的李飛飛在今年3月發表的觀點:AI 的影響是對人類本質、能力和定義的深刻影響。AI 會創作電影,創作供人們娛樂的內容。但只有人,能利用 AI 創作觸動他人、啓發他人或服務他人的內容,AI 做不到。

在此與各位共勉!感謝各位參與討論!