導讀:據分析,這種偏見現(xiàn)象的背后有兩層原因,一方面是標記數據集中各類樣本數量不均衡,一方面是標記過程受標記員主觀影響較大。
日本富士通的一支研究團隊利用有向無環(huán)圖模型(DAG)研究AI生成藝術中的偏見現(xiàn)象。該研究發(fā)現(xiàn),目前的AI模型在藝術創(chuàng)作時展現(xiàn)出對特定流派、創(chuàng)作風格、種族、思想運動等因素的明顯傾向性。
據分析,這種偏見現(xiàn)象的背后有兩層原因,一方面是標記數據集中各類樣本數量不均衡,一方面是標記過程受標記員主觀影響較大。
該研究發(fā)表在康奈爾大學的論文庫arXiv上,名為《藝術史視角下分析AI生成藝術中偏見產生的原因(Biases in Generative Art—A Causal Look from the Lens of Art History)》。
▲日本富士通研究團隊發(fā)表《藝術史視角下分析AI生成藝術中偏見產生的原因(Biases in Generative Art—A Causal Look from the Lens of Art History)》一文
原文鏈接:https://arxiv.org/pdf/2010.13266.pdf
一、研究方法:采用DAG進行因果關系分析
隨著人工智能技術研究的不斷深入,人工智能的應用領域也越來越廣泛,其中就有AI生成藝術。從創(chuàng)作繪畫到開辟新的藝術風格,AI被應用到藝術創(chuàng)作的方方面面。
然而,隨著AI藝術創(chuàng)作工具不斷涌現(xiàn),日本富士通的研究團隊卻指出:社會偏見可能會滲透到AI的藝術創(chuàng)作過程中。
為了驗證猜想是否屬實,富士通研究人員從相關學術論文、在線平臺、應用程序入手,從中挑選出描摹現(xiàn)有流派和風格的樣本并展開研究。
研究團隊首先對影響AI創(chuàng)作的主要因素進行了分類,從而確定研究樣本。他們最終選定的樣本均由業(yè)內領先的AI系統(tǒng)創(chuàng)作,這些AI系統(tǒng)接受了文藝思潮、流派、創(chuàng)作材料、藝術家等各類標記數據集的訓練。
文藝思潮方面,有文藝復興、立體主義、未來主義、印象派、表現(xiàn)主義、后印象派、浪漫主義等。流派方面,有風景畫、肖像、戰(zhàn)斗繪畫、素描等。材料方面,有木版畫、版畫、油漆等。藝術家方面,則有克萊門汀·亨特(Clementine Hunter)、瑪麗·卡薩特(Mary Cassatt)、文森特·梵高(Vincent van Gogh)、古斯塔夫·多雷(Gustave Doré)、吉諾·塞維里尼(Gino Severini)等。
該文共同作者稱,該研究利用了一個名為“有向無環(huán)圖”(Directed Acyclic Graphs,“DAG”)的因果模型,他們能夠通過這個模型識別出和AI藝術生成有關的因素,以及這些因素相互影響的方式。
比如,藝術思潮會影響創(chuàng)作材料的選擇,肖像主體會影響藝術家風格的選擇,而DAG能夠將這些復雜的關系可視化,從而更好地分析不同因素之間的因果關系。
二、研究結果:AI藝術創(chuàng)作工具存在種族、性別歧視
經分析,AI系統(tǒng)在進行藝術創(chuàng)作時,存在對特定流派、風格、種族的明顯偏好。
以藝術渲染工具DeepArt為例,用戶可以在DeepArt上導入圖片并添加藝術化渲染效果,最終生成具有特定藝術家風格的圖片。
在處理立體派畫家費爾南·萊熱(Fernand Léger)的作品《推進器(Propellers)》時,DeepArt未能成功將其轉換至未來派風格。在將瑪麗·卡薩特(Mary Cassatt)的現(xiàn)實主義畫作《瑪麗·埃里森小姐(Miss Mary Ellison)》轉換成表現(xiàn)主義風格時,DeepArt又未能展現(xiàn)出表現(xiàn)主義的典型特征。
▲中為瑪麗·卡薩特(Mary Cassatt)的現(xiàn)實主義畫作《瑪麗·埃里森小姐(Miss Mary Ellison)》;右為凱爾希納(Ernst Ludwig Kirchner)的表現(xiàn)主義畫作;左為AI藝術創(chuàng)作工具Deepart根據右圖風格對中圖加工生成的表現(xiàn)主義作品。然而表現(xiàn)主義的典型特征之一——變形物體,并未出現(xiàn)在左圖中。
更有甚者,DeepArt同類平臺GoArt在為克萊門汀·亨特(Clementine Hunter)的畫作《黑族長(Black Matriarch)》添加表現(xiàn)主義濾鏡時,直接將主體人物的黑膚色變成了紅色,在加工狄賽德里奧的雕塑作品《小男孩(Giovinetto)》時,卻保留了藝術品中人物原本的白色膚色。
▲GoArt將克萊門汀·亨特(Clementine Hunter)的畫作《黑族長(Black Matriarch)》中的主體人物的黑膚色變成了紅色,保留了狄賽德里奧的雕塑作品《小男孩(Giovinetto)》中人物的白膚色。
藝術換臉軟件AIportraits將黑膚色女星泰莎·湯普森(Tessa Thompson)的照片加工成藝術畫時,直接將她的膚色調亮了幾個度。
▲AIportraits將黑膚色女星泰莎·湯普森(Tessa Thompson)膚色調亮
另一款藝術加工工具Abacus直接把拉斐爾(Raphael)和皮耶羅·迪科西莫(Piero di Cosimo)作品中的長發(fā)年輕男子識別為女性。
三、原因分析:標記數據集的樣本失衡
富士康的研究團隊認為,這種偏見主要來自前期訓練AI時使用的標記數據集。一方面,受到研發(fā)人員偏好影響,這些標記數據集涉及的樣本數量可能不夠均衡。以AI Portraits為例,該應用程序的訓練樣本便是以文藝復興時期的白人肖像為主。
另一方面,給數據集做標注或是打標簽的過程中可能存在標準不一致的情況。注釋者擁有不同的偏好、文化和信念,這些差異可能會在他們創(chuàng)建的標簽中得到反映。
論文指出,各類訓練樣本的數量并不均衡,比如照片很多、雕塑很少;歐洲藝術家很多、本土藝術家很少;文藝復興、現(xiàn)代藝術運動作品居多,其他思潮作品很少。數據集也未能體現(xiàn)出不同種族、風格的面孔差異,因此出現(xiàn)了代表性偏差。
研究團隊警告說,為藝術生成AI建模時,如果忽略某些細微因素,將造成社會、文化、政治方面的錯誤歷史認知,從而影響人們正確地認識某些重要史實。
他們敦促AI研究人員和從業(yè)人員在考慮相關社會政治因素的前提下,應謹慎檢查AI系統(tǒng)的設計原理。
結語:機器理性仍靠人智實現(xiàn)
還記得《終結者》系列中,施瓦辛格扮演的機器人T-800眼冒紅光、冷面無情的模樣,然而事實和科幻相去甚遠,機器人目前既沒有自主思考能力,更沒有人類獨有的情感和欲望。
人工智能仍依賴算法編程實現(xiàn)。因此,人工智能的好與壞、公平與偏頗全掌握在人類手中,這就對人類軟件開發(fā)專家提出了更高的要求。
俗話說“上梁不正下梁歪”,如果人類開發(fā)者在訓練AI的過程中,沒有很好地考慮到社會公平的因素,那么個人認識的局限性和偏差便會傳遞到AI上。
比如說,谷歌BERT等大語言模型的訓練樣本就忽略了貧困地區(qū)尚不能聯(lián)網的弱勢群體,藝術生成AI的訓練樣本又主要以西方白人肖像為主。
不管是在藝術創(chuàng)作領域,還是在語言模型領域,AI訓練樣本不均衡導致的代表性偏差都是一個值得關注和深思的問題。若想充分發(fā)揮機器的理性優(yōu)勢,人類開發(fā)者在設計系統(tǒng)架構和訓練AI的過程中必須更加謹慎細致。