人人都在談?wù)揋PT,但它究竟是什么?
ChatGPT是由美國(guó)OpenAI研發(fā)的能夠通過(guò)自然語(yǔ)言驅(qū)動(dòng)的人工智能技術(shù)工具,因?yàn)樗鼜?qiáng)大的執(zhí)行力和任務(wù)處理能力,一經(jīng)亮相就引起了極大的關(guān)注。與之類(lèi)似,在圖像智能生成方面,新近崛起許多新型模型的AI,如Dall-E2 Midjourney V5等, 通過(guò)算法可以產(chǎn)生的逼真影像,讓許多攝影師感覺(jué)到危機(jī)。一時(shí)間,人們都在熱議我們究竟要如何與人工智能相處,攝影的未來(lái)會(huì)如何被AI所改變? 基于這樣的話題背景,《中國(guó)攝影》雜志邀請(qǐng)美國(guó)加州庫(kù)埃斯塔學(xué)院終身教授,藝術(shù)系數(shù)字設(shè)計(jì)方向主任劉燦國(guó)撰寫(xiě)了《AI攝影與GPT圖像》一文,嘗試?yán)迩錑PT和AI的基礎(chǔ)概念和底層邏輯,并探討AI與攝影相結(jié)合的各種可能。 這是劉燦國(guó)教授第二次為我們撰寫(xiě)討論人工智能的文章。2019年1月刊上曾經(jīng)發(fā)表了他的《平坦之境,或映成之影》,文中作為對(duì)科學(xué)技術(shù)對(duì)藝術(shù)的影響進(jìn)行了展望,僅僅過(guò)去了4年時(shí)間,他的文章的一些預(yù)言已經(jīng)成為了現(xiàn)實(shí)。未來(lái)已來(lái),我們要如何應(yīng)對(duì)人工智能的大潮,希望本文能為您提供一些思考的線索。 《AI攝影與GPT圖像》原文刊發(fā)于《中國(guó)攝影》雜志4月刊,我們摘錄了文章的核心觀點(diǎn)在此呈現(xiàn)。如欲了解本文的全貌,歡迎點(diǎn)擊文末的雜志封面購(gòu)買(mǎi)4月刊雜志。 GPT是什么? GPT的含義 GPT 又稱(chēng) (Generative Pre-trained Transformer) 是一種基于 Transformer(轉(zhuǎn)換器) 的語(yǔ)言模型,通過(guò)大規(guī)模的自然語(yǔ)言數(shù)據(jù)訓(xùn)練,機(jī)器可以掌握和“學(xué)習(xí)”自然的語(yǔ)言表述方式和規(guī)律。 經(jīng)過(guò)不斷的演化,GPT-3基于萬(wàn)億級(jí)別的單字訓(xùn)練,創(chuàng)建了史無(wú)前例的自然語(yǔ)言模型AI服務(wù)——ChatGPT。GPT的圖像版本稱(chēng)之為 Dall E2,系使用同樣的類(lèi)似訓(xùn)練方法來(lái)發(fā)展。GPT的成功,代表了一種有效的知識(shí)學(xué)習(xí)模型,可以反向?qū)τ谌祟?lèi)的學(xué)習(xí)和研究提供啟迪和思路。 G 所代表的“生成式”(Generative)即一種創(chuàng)作仿生。 P 指“預(yù)訓(xùn)練”(Pre-Trained)說(shuō)明了預(yù)先訓(xùn)練基礎(chǔ)數(shù)據(jù)從而形成知識(shí)對(duì)創(chuàng)作的重要性。 “預(yù)訓(xùn)練”(Pre-Trained)的系統(tǒng)在攝影領(lǐng)域里早已存在 對(duì)于攝影領(lǐng)域而言,可用于個(gè)人 “預(yù)訓(xùn)練”(Pre-Trained)的系統(tǒng)化的知識(shí)早已存在和相對(duì)完善。譬如,對(duì)于設(shè)置器材、設(shè)備、燈光、存儲(chǔ)等的技術(shù)控制特點(diǎn)的特性的認(rèn)識(shí),從而了解到其中的優(yōu)缺點(diǎn),在實(shí)際使用中進(jìn)行最佳的組合。攝影基礎(chǔ)理論,包括曝光、光學(xué)、鏡頭焦距,景深,空間構(gòu)圖等方面的知識(shí),以及按攝影門(mén)類(lèi)的拍攝技巧和后期技術(shù)都是系統(tǒng)化的知識(shí)。攝影史論,攝影作者和作品,則形成了這些基礎(chǔ)理論知識(shí)的具體驗(yàn)證和匹配的模型。 百多年來(lái)的攝影知識(shí)體系是我們一切發(fā)展的基礎(chǔ)。那么在這個(gè)基礎(chǔ)上,算力和模型就是接下來(lái)要著重關(guān)注的要點(diǎn)。 T 指代的Transformer(轉(zhuǎn)換器)是由谷歌研究團(tuán)隊(duì)在2017年美國(guó)加州第31屆神經(jīng)信息處理系統(tǒng)會(huì)議上發(fā)表的一篇名為 “《你只需要注意力》(Attention Is All You Need)”(Vaswani et al., 2017) 的開(kāi)創(chuàng)性論文中提出的一種神經(jīng)網(wǎng)絡(luò)架構(gòu)。這篇文章指出,傳統(tǒng)的神經(jīng)信息大都需要通過(guò)編碼器和解碼器過(guò)程來(lái)進(jìn)行語(yǔ)言分析,但該論文提出了一種新的簡(jiǎn)化的結(jié)構(gòu),完全基于一種稱(chēng)之為“注意力(Attention)”的機(jī)制。這是一種機(jī)器學(xué)習(xí)技術(shù),用于對(duì)序列數(shù)據(jù)進(jìn)行建模。 注意力機(jī)制與攝影注意力 前文提到了“注意力(Attention)”,那么什么是“注意力”機(jī)制?它對(duì)攝影有什么啟示并和攝影有什么關(guān)聯(lián)?Attention指的是一種機(jī)器學(xué)習(xí)技術(shù),用于對(duì)序列數(shù)據(jù)進(jìn)行建模。具體而言,在傳統(tǒng)的序列模型中,如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),每個(gè)時(shí)間步只能訪問(wèn)輸入序列中的一個(gè)位置。然而,在實(shí)際應(yīng)用中,有些輸入位置可能更加重要,需要更多考慮。這就是 “注意力” 機(jī)制的作用,它允許模型在計(jì)算輸出時(shí),動(dòng)態(tài)地為每個(gè)輸入位置分配不同的權(quán)重,以便更加關(guān)注重要的位置和數(shù)據(jù)。簡(jiǎn)而言之,只抓最關(guān)鍵的點(diǎn)。 就像我們的攝影創(chuàng)作一樣,我們?cè)趫?chǎng)景中面對(duì)復(fù)雜的視覺(jué)“數(shù)據(jù)”,但我們總是會(huì)關(guān)注那些對(duì)我們來(lái)說(shuō)的重點(diǎn)對(duì)象,隨后才能將注意力集中于構(gòu)圖、取景和拍攝。攝影中的構(gòu)圖是指攝影師通過(guò)調(diào)整拍攝角度、取景范圍和線條構(gòu)成等方式,使得照片的布局和結(jié)構(gòu)更加清晰、有條理,同時(shí)能夠吸引觀眾的視線。 Transformer 的 “注意力” 機(jī)制也是通過(guò)對(duì)輸入序列的不同部分進(jìn)行加權(quán),從而實(shí)現(xiàn)對(duì)序列的建模和組織。在攝影后期中,當(dāng)我們打開(kāi)圖像,我們會(huì)優(yōu)先關(guān)注需要優(yōu)化調(diào)整的部分,強(qiáng)化重要的、更好的部分,然后忽略對(duì)主題無(wú)意義的內(nèi)容和無(wú)效細(xì)節(jié)。這就是類(lèi)似的 “注意力”在起作用。 當(dāng)GPT和AI遇到攝影 攝影總是要解決拍什么、怎么拍、選片修片、展示分析等環(huán)節(jié)和問(wèn)題。那么AI會(huì),或者該怎樣融入攝影的世界呢? AI 攝影選題的智能化 攝影選題是攝影創(chuàng)作前期最重要的一個(gè)環(huán)節(jié),AI介入選題后,可以將許多攝影選題、陳述和評(píng)論納入資料庫(kù)進(jìn)行學(xué)習(xí),通過(guò)建立相應(yīng)的學(xué)習(xí)模型,可以為攝影師在題材和項(xiàng)目研究階段,提供更多的創(chuàng)意樣本和激發(fā)更多的想法。 使用現(xiàn)有的AI生成技術(shù)如ChatGPT,以及知識(shí)管理工具Whimsical, Notion,Carft等軟件或系統(tǒng)的AI組件,用戶(hù)可以直接將所設(shè)想的攝影計(jì)劃加以分析,AI將依據(jù)你的輸入,不知疲倦地提供更多的相似想法和延伸方案。 AI化攝影計(jì)劃 當(dāng)AI介入我們的攝影流程,我們會(huì)發(fā)現(xiàn)一個(gè)更為智能的行程規(guī)劃。譬如AI可以通過(guò)歷史數(shù)據(jù)分析某個(gè)地區(qū)最佳的拍攝時(shí)間、地點(diǎn),甚至角度、拍攝點(diǎn),這樣就會(huì)對(duì)攝影師產(chǎn)生很有價(jià)值的參考。AI工具如roamaround.io 可以根據(jù)目的地生成建議的行程表,提供可以去的信息以及詳細(xì)的行程安排,占用時(shí)間,等等。隨著數(shù)據(jù)的增加或擴(kuò)大化,針對(duì)攝影的計(jì)劃行程可以最大限度的得到提升。 由這類(lèi)工具出發(fā),譬如我們可以融合攝影為主題的計(jì)劃以及歷史上某地區(qū)的圖像后藝術(shù)數(shù)據(jù),等等,開(kāi)放性地構(gòu)建一個(gè)智能攝影協(xié)助平臺(tái),這樣會(huì)極大地減少攝影師的時(shí)間消耗,也能推動(dòng)地方經(jīng)濟(jì)的發(fā)展。 AI化相機(jī)和攝影 相機(jī)的AI化是一個(gè)長(zhǎng)久以來(lái)的趨勢(shì),主要體現(xiàn)在相機(jī)對(duì)于場(chǎng)景的分析上面。雖然從AI化場(chǎng)景來(lái)說(shuō),現(xiàn)代相機(jī)早已實(shí)現(xiàn)很多通過(guò)現(xiàn)場(chǎng)信息分析來(lái)進(jìn)行拍攝配置優(yōu)化的“自動(dòng)”設(shè)定,但有人工智能參與以后,這種參與就可以更為具體和具有更有可能的想象力。 光圈、焦距、快門(mén)配置的AI助理化,使得拍攝即有可能進(jìn)入新的“自動(dòng)”模式。具備更豐富的選擇,相機(jī)可以通過(guò)內(nèi)置的AI引擎來(lái)實(shí)時(shí)分析場(chǎng)景,提供更多的專(zhuān)業(yè)拍攝選擇。甚至隨著技術(shù)的進(jìn)步,可以達(dá)到攝影的“萬(wàn)能底片”。即拍攝完成后,按需生成不同的專(zhuān)業(yè)攝影組合搭配樣本。 另外AI的介入,相機(jī)除了更好地滿足我們的這些要求外,還可以變成一個(gè)數(shù)據(jù)學(xué)習(xí)的捕獲器。現(xiàn)有的技術(shù)下,AI可以識(shí)別樣本,對(duì)每張拍攝的圖像作以文本描述。AI可以做到根據(jù)場(chǎng)景的相似性臨場(chǎng)提供實(shí)時(shí)的視覺(jué)相似攝影名作對(duì)比,這樣可以作為一個(gè)學(xué)習(xí)的機(jī)器來(lái)提高攝影水平。雖然沒(méi)有直接具體的產(chǎn)品出現(xiàn),我們可以通過(guò)整合技術(shù)、創(chuàng)建流程的方式在該領(lǐng)域?qū)崿F(xiàn)不斷創(chuàng)新。 AI化圖像后期 圖像后期其實(shí)早就是用了預(yù)先訓(xùn)練的方式來(lái)生成特定的圖像風(fēng)格,比較典型的就是膠片模擬軟件,通過(guò)生成風(fēng)格樣本來(lái)直接轉(zhuǎn)換普通的數(shù)字照片。典型的有Exposure系列軟件或Nik的系列軟件。簡(jiǎn)單而言,AI概念在數(shù)字后期領(lǐng)域主要用于用AI生成可以?xún)?yōu)化圖像的細(xì)節(jié)或風(fēng)格。譬如已經(jīng)非常成熟的AI放大、AI圖像自動(dòng)優(yōu)化,AI去噪點(diǎn)等方面,都在近些年AI的飛躍之下有了更多的發(fā)展空間。 圖像專(zhuān)業(yè)軟件如Photoshop近些年接連推出許多AI的智能化的工具,鞏固在該領(lǐng)域的領(lǐng)導(dǎo)者地位。 如果說(shuō)橡皮圖章類(lèi)的工具是較為原始形態(tài)的數(shù)字圖像修復(fù)的話,那么后續(xù)的新型“內(nèi)容感知縮放”“內(nèi)容感知填充”則顯得更為智能。內(nèi)容感知填充(Content-Aware Fill)基于機(jī)器學(xué)習(xí)算法,能夠自動(dòng)識(shí)別圖像中的對(duì)象和背景,并生成新的像素信息,將指定區(qū)域中的對(duì)象或不需要的元素刪除或填充,使得圖像看起來(lái)自然而完整。 Adobe較早布局AI產(chǎn)品線,從Adobe Sensi開(kāi)始,使用AI來(lái)優(yōu)化和改善現(xiàn)代數(shù)字圖像工具。從2020年的Photoshop22.0版本開(kāi)始,推出了純AI的 “神經(jīng)元濾鏡”(NeuralFilters),從此不斷迭代升級(jí)。將圖像處理過(guò)程語(yǔ)言化、具體化和助理化。用AI來(lái)處理具體特定的任務(wù),是AI設(shè)計(jì)的概念基礎(chǔ)。因?yàn)榭梢酝ㄟ^(guò)機(jī)器學(xué)習(xí)來(lái)學(xué)習(xí)特定類(lèi)型的數(shù)據(jù),來(lái)解決具體的常見(jiàn)問(wèn)題。 AI 化攝影圖像分析、研究與傳播 使用逆向提示分析工具,可以使用AI技術(shù)來(lái)對(duì)現(xiàn)有圖像進(jìn)行分析,獲得一系列對(duì)于AI而言所相關(guān)的識(shí)別數(shù)據(jù),提供和擴(kuò)散延伸研究的范圍和創(chuàng)意。譬如我所分析的一張威廉·艾格斯頓的經(jīng)典街頭攝影作品,分析出來(lái)彩色攝影、街頭攝影、喬伊·斯滕菲爾德(Joel Sternfeld)、1970年代街頭、中畫(huà)幅、埃里克·索斯(Alec Soth)等關(guān)聯(lián)性,達(dá)到了一定專(zhuān)業(yè)儲(chǔ)備。如果以此為核心,更有針對(duì)性的AI訓(xùn)練,創(chuàng)建一個(gè)圖像創(chuàng)意、學(xué)習(xí)和教育模型平臺(tái),則可以為攝影史、研究和創(chuàng)作提供強(qiáng)有力的創(chuàng)意支持。 AI亞當(dāng)斯,使用AI增加圖像攝影細(xì)節(jié)的綜合后期實(shí)驗(yàn),2023 劉燦國(guó) AI可以將相關(guān)的藝術(shù)家、作品、流派和風(fēng)格自動(dòng)加以歸類(lèi)和整理。就像一個(gè)動(dòng)態(tài)的信息目錄,有了AI的幫助,攝影研究者能更容易找到特定選題的信息、規(guī)律和方法,從而推進(jìn)學(xué)術(shù)創(chuàng)新。 技術(shù)會(huì)對(duì)傳播媒介和方式產(chǎn)生影響和變化,AI的幫助下,攝像機(jī)可能能創(chuàng)作、優(yōu)化、提示、生成更具平臺(tái)吸引力的AI動(dòng)態(tài)或靜態(tài)作品,并根據(jù)趨勢(shì)實(shí)現(xiàn)自動(dòng)發(fā)文、自動(dòng)標(biāo)簽、自動(dòng)優(yōu)化和風(fēng)格化。更進(jìn)一步考慮的話,AI攝影的組合和管理工具,結(jié)合相機(jī)圖庫(kù)的整理,可以將拍攝的影像自動(dòng)進(jìn)行差異化的編輯。根據(jù)AI學(xué)習(xí)數(shù)據(jù)庫(kù)對(duì)于組照的一般搭配方式,自動(dòng)選擇圖像進(jìn)行整合展示。這都為攝影的研究和學(xué)習(xí)帶來(lái)了新的助力。 人工智能對(duì)攝影美學(xué)的影響 AI給攝影帶來(lái)了許多可能性,也帶來(lái)了許多可能的技術(shù)發(fā)展的弊病。譬如形成對(duì)技術(shù)的過(guò)度依賴(lài),減弱了媒介的美學(xué)和藝術(shù)價(jià)值,過(guò)于雷同的“完美攝影圖像”,等等。這都需要我們?cè)诓粩嗟膶?shí)踐過(guò)程中逐步摸索、完善、發(fā)展,對(duì)其展開(kāi)也超過(guò)了本文的定位和設(shè)計(jì)。 無(wú)論何種行業(yè),在這個(gè)領(lǐng)域內(nèi)的核心的人類(lèi)需求和需要還是基本恒定的,只要我們還服務(wù)的是一個(gè)以人為主的社會(huì),我們就可以以AI來(lái)幫助我們更好更快地處理問(wèn)題,但AI就像一個(gè)越來(lái)越高的水桶的最短板一樣,會(huì)逐步拉高某些領(lǐng)域的門(mén)檻,對(duì)行業(yè)的進(jìn)入要求和底層工作提出了新的要求。 AI與攝影目前仍在探索期,可以預(yù)見(jiàn)會(huì)在短時(shí)間造成信息爆炸和垃圾雜訊,產(chǎn)生許多新的問(wèn)題。新型AI可以生成可用性極高的文本報(bào)告、論文、圖像、音樂(lè)、視頻、動(dòng)畫(huà)、3D模型、產(chǎn)品設(shè)計(jì)、程序代碼、藝術(shù)創(chuàng)作概念。內(nèi)容(文明)生產(chǎn)模式變成了一種復(fù)雜的,又符合邏輯的選擇模式。我還是偏向于認(rèn)識(shí)這是一種“先進(jìn)”形態(tài)生產(chǎn)力,會(huì)深遠(yuǎn)地影響人類(lèi)社會(huì)的諸多層面。