FINDIT
2022.02.22

【新興領域/2022.2焦點】來自領頭羊的啟示,2021 Google AI技術總結與大神的趨勢觀點

說到人工智慧(AI)大神,Google AI團隊的負責人Jeff Dean肯定榜上有名。一月中Jeff Dean發布了一份報告,針對2021年Google所投入的AI研究進行盤點,並描繪了未來的展望。Jeff在報告中歸納了五項機器學習(Machine Learning, ML)趨勢, 涵蓋模型演算法的通用性、效率性、為個人與社群帶來的效益、特定領域的發展,以及對ML模型更深層的理解。本文將摘要翻譯2021 Google AI技術總結,以及AI大神對五項機器學習(ML)趨勢的看法,讓大家對ML有更進一步的理解。

趨勢一、功能更為強大的通用模型

近年來在語言領域,機器學習(ML)的模型訓練規模從百億級參數(如110億參數的T5模型),進展到建立在數兆數據標記上的千億級參數,如密集模型(dense model)中OpenAI基於1,750億項參數的GPT-3模型,以及DeepMind基於2,800億項參數的Gopher模型;稀疏模型(sparse models)中Google基於6,000億項參數的GShard 模型與高達1.2兆項參數的GLaM模型。這些數據集與模型規模的增長讓各項語言相關任務的準確度顯著提升,也全面性地拉高了自然語言處理(Natural Language Processing, NLP)的基準。

這些模型大多專注於單一但重要的文本數據,並在語言理解與開放式的對話能力上展現出優異的成果,滿足不同領域的應用。此外,也可以在訓練數據相對較少的情況下執行新的語言任務。例如改善長式問答(long-form question answering, LFQA)、NLP中的零標籤學習(zero-label learning)。而Google的LaMDA模型更展示了進行開放式對話的複雜能力,在多輪來回的對話中仍能保持上下文的一貫性。

Transformer模型則是在圖像識別與影片分類上帶來重大突破,利用基於圖像與影片數據的協同訓練模型,改善基於單一影片數據的模型表現。Google AI團隊針對圖像與影片Transformer開發了稀疏式的軸向注意力機制(axial attention mechanisms),提升演算效率,並為圖像找到更好的標記方法。另外,結合卷積神經網路(convolutional neural networks, CNN)運算,Transformer模型在視覺及語音辨識上也有著顯著的進展。

而在生成模型(generative model)中則是以圖像生成的表現最為突出。給予特定的類別,如動物或物件,模型便能將低解析度的圖像自動「填補」,生成高解析度且逼真的圖像,甚至可以自動生成任意大小的自然場景。這些圖像也可被轉換為一系列的離散標記,並利用自迴歸生成模型(autoregressive generative model)創造出合成圖像。

除了單模態的ML模型外,Google也注意到目前最為先進的大規模多模態模型(multi-modal models),可以同時接收不同的輸入模式,如文字、語音、圖像、影片等,並且在特定條件下產出不同的輸出模式,如從描述性的文句或文章段落生成圖像,或是以人類的語言描述所看到的圖像內容。這一類的模型更貼近於真實世界的學習方式。因此,圖像和文本的配對可以協助完成多語言檢索任務,也更能理解配對後所帶來的成效。而視覺與文本數據的聯合訓練亦有助於提高視覺分類任務的準確性與穩健性,對圖像、影片及語音的聯合訓練可以提升所有模態的通用性。自然語言可用於圖像處理,告訴機器人如何與世界互動、控制其他軟體系統,以及未來用戶介面的開發方向。這些模型處理將不僅包括語音、圖像、影片與文字,甚至可擴展到結構化數據、知識圖譜與時間序列資料。

通常ML模型是透過自監督學習(self-supervised learning)方式進行訓練,從觀察未經管理或標記的原始數據中學習,如GPT-3與GLaM所使用的語言模型、自監督語音模型BigSSL、視覺對比學習模型SimCLR,以及多模態對比模型VATT。以語音模型來說,自監督學習允許大規模的語音識別模型在僅使用3%已被註記的訓練數據下,達到可與Voice Search的自動語音識別(Automatic Speech Recognition, ASR)相近之準確度,大幅降低ML在執行特定任務時所需的工作量。同時也讓我們在利用具代表性、反映不同子集的數據時,如地區、語言等不同表徵維度,模型訓練變得更加容易。

以上這些趨勢均指向同一個方向,通用模型的功能越來越強大,可以處理多個模態並解決大規模的任務。在稀疏式模型的架構下,就算是只利用部分模型處理特定任務也會是最佳化的結果,而多模態模型也能更具效率。接下來的幾年,Google將透過Pathways的架構,朝向此一方向發展。

趨勢二、機器學習效率的持續提升

效率的提升來自於硬體設計與演算法的進步,從訓練到執行的每個階段都可以進行優化,並實現顯著的乘數效果。與幾年前相比,ML效率有著大幅的進展,而這些進展也讓模型更符合成本效益,並帶動了ML的民主化。

1.ML加速器性能升級

每一代的ML加速器都在效能與系統規模上有所突破。2021年5月Google發表了第四代張量處理器(Tensor Processing Unit)TPUv4,在MLPerf基準測試中顯示其效能比前一代TPUv3高出2.7倍。每個TPUv4晶片的峰值性能約是TPUv3的2倍;每組TPUv4 pod的規模為4,096個晶片,是TPUv3 pod的4倍;一組TPUv4 pod的每秒浮點運算次數約為1.1 exaflops(1,100 petaflops),而TPUv3則為100 petaflops。而利用高速網路串連的大量晶片可以提高大型模型的效能。此外,行動裝置上的機器學習能力也在顯著增加。Pixel 6手機採用全新的Google Tensor處理器,其整合了強大的ML加速器以支援重要的設備功能。ML加速器也強化了自身晶片設計的效率,利於開發出下一代的產品。

2.ML編譯與工作負載優化

就算是硬體條件不變,編譯器的改進與其他系統軟體的優化亦能提升ML的效率。例如「A Flexible Approach to Autotuning Multi-pass Machine Learning Compilers」展示如何利用機器學習方式自動調校程式編譯的設置,並在同樣硬體環境下取得5~15%的效能提升。另外,基於XLA編譯器的GSPMD則是一個自動化平行系統,其能擴展大多數的深度學習網路架構,甚至超出加速器的內存容量,並已應用於許多大型模型,如GShard-M4、LaMDA、BigSSL、ViT、MetNet-2與GLaM。

3.探索效率更高的模型架構

模型架構的改善大幅減少算力需求。Google在2017年開發的Transformer架構能夠提高多個NLP與翻譯的水準,並使用比當時其他方法少10至100倍的運算量,如LSTM與其他循環架構。 同樣,Vision Transformer所使用的運算量比卷積神經網路少4至10倍,但能夠在許多不同的圖像分類任務上表現出優異的結果。

4.由機器所驅動的架構探索

在給定的問題下,神經架構搜尋(Neural architecture search, NAS)可以自動探索更具效率的ML架構。雖然執行NAS的前置作業成本較高,但針對每個搜尋範疇與問題的組合只需要進行單次驗證,且探索成果可被重複使用,因此可大幅降低整體算法開發所需投入的資源。例如Evolved Transformer架構下的NLP模型效率提高15~20%,但該架構的探索僅產生了3.2噸二氧化碳當量。近期更是發現了一種更高效的架構,Primer(已開源)。與普通的Transformer相比,Primer可以將訓練成本降低4倍。

NAS也被運用在視覺領域,如EfficientNetV2模型架構是NAS聯合優化精確度、規模與訓練速度的成果。在ImageNet測試中,EfficientNetV2將訓練速度提高了5至11倍,並大幅降低模型規模。另外,CoAtNet模型架構亦是NAS的探索成果。該架構結合了Vision Transformer與卷積網路,訓練速度比Vision Transformer快4倍,並在ImageNet寫下新的紀錄。而除了模型架構之外,機器自動探索也可用於尋找更有效率的演算法,如AutoML-Zero。

5.稀疏性的運用

稀疏性係指在龐大的模型中,針對特定任務的執行只啟動其中的一部分。這種簡化模型運作的方式雖然可以大幅提高演算速度,但也需要同時確保其精確度。2017年Google引入稀疏門控混合專家層(Sparsely-Gated Mixture-of-Experts layer, MoE),在確保模型的精確度下,運算量比先進的密集LSTM模型少10倍。此外,結合MoE與Transformer架構所開發的Switch Transformers,與T5-Base Transformer相比,訓練速度提高了7倍。GLaM模型也顯示Transformer與MoE所生成的模型,平均來說,可在29個基準測試中超過GPT-3的準確性,且訓練所投入的能源減少3倍,推論運算量減少2倍。同時,稀疏性也可用於降低Transformer架構核心中注意力機制(attention mechanism)的成本。

以上提升ML模型效率的做法都能夠相互結合,並帶來巨大的效益。與目前美國高效數據中心以P100 GPU訓練的Transformer模型相比,在同等的精確度下,整合這些做法能讓能源效率提高約100倍,二氧化碳排放減量約650倍。

 趨勢三、機器學習將更有益於個人與社區

隨著ML與硬體的創新,許多新的體驗成為可能,行動裝置能夠更好地理解與感知環境。這些進展不僅讓新功能更加普及,也進一步推動算力的提升,如攝影、即時翻譯等。值得一提的是,近期的技術進步亦為用戶提供更加個人化的體驗,並強化隱私保護。

人們越來越依賴手機攝像頭紀錄生活,而機器學習在攝影上的應用也不斷地提升手機拍照的性能與功能,如改善HDR+,使手機能在極暗環境下拍照,更好地處理人像;使相機更具包容性,適用於所有膚色;以及拍攝出更符合攝影師視覺與主題的好照片。基於ML的影像工具,Google Photos,用戶也能進行照片後製,如情境模式、電影照片、噪點與模糊處理、魔術橡皮擦等。

除了拍攝,在跨語言溝通上,人們也會利用即時翻譯(Live Translate)與即時字幕(Live Caption)於訊息傳送與通話。由於自我監督學習與noisy student training等技術,不論是口音、吵雜的環境或重疊的音訊,語音識別的準確性也顯著提升。基於文本及語音合成技術的進步,人們可以在越來越多的平台上使用Google的Read Aloud朗讀技術收聽網頁與文章,使訊息更容易跨越形式和語言的障礙。Google Translate中的即時語音翻譯也越來越完善,改善了用戶溝通體驗。此外,結合ML技術,Lyra語音與SoundStream音頻編解碼器能以更低的位元率(bitrate)傳達更高保真度的語音、音樂與其他音訊。

Duplex技術則是讓日常的對話變得更加自然,如自動話務篩選與機器語音待線客服等。一些用戶經常在手機上執行的小任務,如自動選擇電話或地址,以及文句校正的功能,也因智慧文本工具(Smart Text Selection)而改善。結合視線識別,Screen Attention可防止用戶在看Pixel 6的時候,螢幕變暗。機器學習更為個人與社群的資訊安全提供新的方法,如Suspicious Message Alerts會對可疑的網路釣魚攻擊發出警告;Safer Routing會偵測hard-braking事件並建議替代路由。

由於這些功能背後的數據具有潛在的敏感性,因此在設計上必須默認為私有(private by default)。許多功能是在一個獨立於其他操作系統的安全開源環境中運作,Android's Private Compute Core,並確保在隱私運算核心中處理的數據不會在用戶未採取操作的情況下共享給任何應用程式,且阻擋核心內的任何功能直接訪問網路。反之,這些功能會透過一組開源API與Private Compute Services進行通訊,這些API去除了可識別的訊息並利用了隱私技術,如聯合學習、聯合分析與隱私資訊檢索,從而在確保隱私的同時實現機器學習的效果。

這些技術對於發展下一代運算與互動模式至關重要,個人或公共設備可以在不損害隱私的情況下訓練出群體模型。以聯合無監督方式學習與訓練,並對特定的任務或環境進行微調,可以產生更多智慧系統。這些系統的集合將會更像是一個社會實體而非機器,與人的互動也會更加直觀。而唯有對從邊緣到數據中心的技術堆疊進行深度改造,使其適當地支持神經運算,才能讓這些智慧系統廣泛且公平地被使用。

 趨勢四、機器學習對科學、健康與永續的影響越來越大

從物理學到生物學,機器學習在基礎科學中的影響與日俱增。在相關領域中亦帶來令人振奮的實際應用,如再生能源與醫學。機器視覺已被用於解決個人與全球性的問題,如協助醫生執行日常工作;增進人們對神經生理學的理解;提供更好的天氣預報及簡化救災工作。此外,ML模型在因應氣候變遷上也有重要成果,如減少碳排與提升替代能源產出。隨著機器學習技術的演進,其應用將有助於解決我們在現實世界中所遭遇的一些最具挑戰性的問題。

1.機器視覺的大規模應用帶來新的洞察

過去十年機器視覺技術進步,ML模型能夠基於視覺數據的分析,高效且準確地執行各種任務,並應用於不同的領域。在神經科學中,自動重建技術可以藉由從腦組織的高分辨率電子顯微鏡圖像中復原神經結締結構。數年前Google便透過合作,針對果蠅、老鼠與鳥類的大腦進行研究。2021年與哈佛大學Lichtman實驗室合作,分析最大的腦組織樣本,並重建圖像細節。此外,也首次對人類大腦皮層中的神經突觸連接進行了大規模研究,跨多種皮層細胞類型。目標是建立精細的神經圖像資源,協助科學家研究複雜的人類大腦。

機器視覺技術亦成為強大的工具,用以因應全球規模的挑戰。基於深度學習的天氣預測模型,在輸入衛星與雷達圖像,並結合其他大氣數據後,12個小時內的預測能力比傳統基於物理的模型更加準確。此外,模型可以更快速地生成更新的預測,而這在因應極端氣候時尤其重要。

除此之外,從人口估計、都市規劃,乃至於人道措施與環境科學,精確的建築足跡記錄是其基礎。在全球許多地區,如非洲大部分地區,這類的訊息無法被使用。而將機器視覺技術應用於衛星圖像可以幫助我們在整個大陸尺度下,精準識別建築邊界,Open Buildings數據集便是如此。其為一個新的開放訪問數據資源,涵蓋非洲大陸大部分地區中5.16億座建築物的位置與足跡。Google也在與世界糧食計畫署(World Food Programme)合作中使用Open Buildings數據集,應用機器學習技術,在自然災害發生後提供快速的損害評估。

2.自動化的空間設計

另一項取得重大進展的方向是應用ML技術自動探索與評估問題,改善設計空間。例如基於Transformer的變分自動編碼器(Variational Autoencoder, VAE)能夠學習如何創建美觀且實用的文檔布局,甚至可以擴大應用於探索可能的家具布局。另外,機器學習技術也被應用於遊戲的開發上,能夠自動調整與設計遊戲內的空間場景,提高遊戲的娛樂性。

更進一步,ML可被用於評估ML加速器晶片本身的空間架構。Google利用機器學習技術加速ASIC的晶片設計布局,其成果不僅優於人類專家,更可在數小時內完成。此降低了晶片的固定工程成本,以及為不同應用快速打造專用硬體的障礙。Google在即將推出的TPU-v5晶片設計中成功地使用了這種自動設計方法。

在ML方法應用於材料探索上,Google Research與加州理工學院合作,結合特製化的噴墨印表機、顯微鏡,以及機器學習模型,能夠快速搜尋數十萬種可能的材料,並鎖定出51種過去未曾試驗過的三族金屬氧化物,可應用於電池與水電解等技術領域。

3.健康領域的應用

資訊技術應用於健康醫療並非新鮮事,Google早期就曾以軟體分析流行病相關數據,但機器學習技術的加入則是在這個領域打開了一扇新的大門,以及新的挑戰。

以基因組學為例,算力一直是該領域的關鍵發展要素,機器學習在這方面不僅顛覆了傳統的方法,更增加了新能耐。一開始Google投入基因組研究時,許多該領域的專家們難以想像可以利用深度學習技術從基因定序儀的輸出結果推論遺傳變異。如今這種機器學習方法卻被認定是最為先進的技術。未來隨著基因組學公司開發出更準確、更快的新定序儀器,也將對機器學習技術帶來新的推論挑戰。Google發布的開源軟件DeepConsensus,以及與UCSC(加州大學聖塔克魯茲分校)合作的PEPPER-DeepVariant均支持這些尖端的新儀器。

除了處理定序儀數據外,基因訊息相關的ML技術也被應用於個人健康上,大型的基因表現型與定序資料庫可以改變我們理解與管理遺傳性疾病的方式。其中,基於ML的基因表現型分析方法,可將大型成像與文本數據轉換為遺傳關聯研究,擴大其研究範疇的可能性。此外,Google的DeepNull模式也利用了大型基因表現型數據進行遺傳探索。而這兩種方法皆已開源發布。

如同機器學習協助我們發現基因組數據的隱藏特徵,機器學習也能夠從其他健康數據中探索新的訊息。疾病診斷通常是在於辨識模式、量化相關性,或在大類別中找到新的實例,而這些都是ML擅長的工作。Google在2016年發表了關於深度學習於糖尿病性視網膜病變的篩檢應用,被美國醫學會雜誌(The Journal of the American Medical Association, JAMA)選為十年來最具影響力的十篇論文之一。而不僅是學術貢獻,Google也透過全球合作夥伴將該研究落實於篩檢印度、泰國、德國和法國的數萬名患者。

Google也期待看到相同模式的輔助機器學習系統被應用於改善乳腺癌篩檢、肺癌檢測,以及加速癌症放射治療、X光異常標記與前列腺癌活體篩檢流程等。其中,以機器學習輔助結腸鏡檢查程序是一個值得一提的實例。結腸鏡檢查不僅用於診斷結腸癌,Google利用機器學習,協助醫師捕捉難以肉眼觀察到的息肉,並且提升檢測品質,如利用同步定位與映射技術的覆蓋映射。Google與耶路撒冷Shaare Zedek醫療中心合作,展示這些檢測系統不僅可實時運作,平均在每次手術過程中可檢測出一個原本會被遺漏的息肉,且每次手術的誤報少於四次。

另外,醫療保健計畫Care Studio使用最先進的ML與NLP技術,分析結構化數據與醫療記錄,並在正確的時間點給予臨床醫師重要訊息,協助其提供更主動且準確的醫護措施。

機器學習在臨床醫療的環境與準確性提升有其重要性,但Google也發現了一個同等重要的新趨勢,機器學習應用於改善人們日常健康與福祉。隨著設備上所搭載的感測器日益強大,藉由健康數據指標與訊息的大眾化,人們可以就自己的健康做出更明智的決定。如利用智慧手機的相機檢測心率與呼吸,或透過Nest Hub設備以非接觸式的方式,讓用戶了解其睡眠時的健康狀態。此外,Google不僅能在ASR系統中顯著提升無序語音的識別品質,更可以使用ML技術協助語音障礙者重建聲音;支援機器學習的智慧手機甚至可以協助人們檢測皮膚狀況或幫助視力不佳的人慢跑。

4.氣候危機的機器學習應用

另一個最重要的領域是氣候變遷的因應。對此,Google提出了諸多方案。例如在Google地圖中推出環保路線,估計每年將可減少約100萬噸的二氧化碳排放量(相當於從道路上減少二十多萬 輛汽車)。最近的一項實證研究指出,在鹽湖城使用Google地圖路線可以減少1.7%的二氧化碳排放及6.5%的交通時間。此外,讓地圖更適用於電動汽車亦有助於緩解駕駛的里程焦慮。Google也與世界各地的城市合作,透過歷史交通數據擬定信號設置的改善方案,在以色列與巴西所進行的一項早期試點研究顯示,用於實驗的十字路口,燃料消耗與延誤時間減少10~20%。

在改變遊戲規則的再生能源討論上,過去很長的一段時間,核融合都是其中一個選項。在與 美國TAE Technologies的長期合作中,Google利用機器學習方式設計了一千多個相關控制參數,協助穩定其核融合反應器(TAE Norman reactor)中的電漿,讓核融合發電的盈虧平衡向前邁進了一步。反應器在30毫秒內保持3,000萬克耳文(Kelvin)的穩定電漿,達到該系統的最大可用功率。TAE已完成了規模更大的設計,期待在本世紀實現核融合盈虧平衡的條件。

在自然災害的預防上,Google在2021年推出由衛星數據支持的野火邊界地圖(wildfire boundary maps),讓民眾能直接透過手上的行動裝置了解火災的大致規模和位置。在此基礎上,Google將所有野火訊息整合,在全球推出Google Map上的新圖層,並應用圖形優化演算法改善火災疏散路線,協助人們因應快速蔓延的火災。此外,2021年Google的洪水預警系統(Flood Forecasting Initiative)覆蓋擴大至3.6億人,向面臨洪水風險的人們發送超過1.15億則通知,並首次在實際系統中部署了基於LSTM的預測模型與新的Manifold inundation模型。

Google本身也不斷落實一系列永續發展計畫。2007年Google實現碳中和,2017年則是達成100%使用再生能源的目標。Google營運業內最清潔的全球雲端系統,也是全球最大的再生能源企業採購商。此外,在2020年成為第一家承諾在全球數據中心與園區使用24小時無碳能源營運的大型企業,並預期在2030年以前完成這項工作。而在ML模型訓練的碳排上,Google已證明藉由模型架構、數據中心與ML加速器類型的優化,可將訓練的碳足跡減少約100~1,000倍。

 趨勢五、對機器學習更深刻的理解

隨著機器學習技術的應用越來越廣泛,確保其公平性與公正性愈發重要,「負責任的AI(Responsible AI)」也成為一門顯學。首先是基於使用者網路足跡所設計的推薦系統。這些推薦系統通常是由多個不同的決策要素構成,因此要了解整個系統的公平性之前通常需要先掌握各個要素對「公平」的優先性與反應,以及各要素組合在一起後的決策方式。2021年Google發表了一篇文章,指出如何提升單一要素與整體推薦系統公平性的方法。此外,從匿名用戶的活動中學習時,推薦系統的中立性也很重要,從過去用戶的行為所學習到的結果可能會產生偏見,如擺在更顯眼位置的產品廣告往往會更頻繁地被推薦給其他用戶。

與推薦系統類似,上下文的內容為機器翻譯的關鍵。大多數機器翻譯系統都是個別翻譯單一文句,未考量上下文的影響,因此翻譯結果往往存在偏見,如性別、年齡等。其中,Google在減少翻譯系統中的性別歧視方面進行了長期研究。2021年Google發布了一個數據集,用於研究維基百科翻譯的性別歧視問題。

機器學習在應用上的另一個常見問題是分佈偏移(distributional shift):用於訓練模型的數據與輸入模型的數據統計分佈不同,可能造成模型產生的結果不可預測。最近Google使用Deep Bootstrap框架,比較數據有限的「現實世界」與數據無限的「理想世界」,以更好地理解模型在這兩種情況下的行為落差,協助開發通用性更好的模型,並對固定數據的訓練表現出更少的偏見。

另外,雖然機器學習技術與模型開發受到廣大關注,但由於訓練ML模型的數據可能才是導致應用程式產生偏見與公平問題的潛在來源,因此數據收集與管理的議題也同等重要。分析此類數據串列有助於識別ML項目的生命週期中可能對結果帶來重大影響的部分。對ML開發人員與設計師來說,數據串列的研究提供了實證基礎,並形成數據收集與評估指南,People + AI Research (PAIR) Guidebook修訂版。

在ML的研究中,更好地掌握數據是重要目標,如發現異常數據。對此,基於因錯誤標記的數據或其他類似問題對模型所可能帶來的負面影響,Google開發了一些特定訓練範例的研究方法。另外,Google也構建了Know Your Data工具,以幫助ML開發人員了解數據集的屬性。2021年Google利用該工具探索性別與年齡歧視等問題。

而在掌握基準數據集的使用上,最近Google發表了第一個關於數據集創建、採用和重複使用的大規模動態實證分析報告。此外,2016 年Google發布Open Images數據集,包含約900萬張圖像,涵蓋數千個類別標籤與600個定義框標記(Bounding Box Annotation)。2021年Google在Open Images Extended中加入更具包容性的人物標記(More Inclusive Annotations for People, MIAP),包含更完整且具公平性的人類層次定義框標記。更有甚者,Google推出Dataset Search協助開發者自行透過網路發掘新的數據集,用於改善機器學習。

處理各種形式的網路濫用行為,如發表有害言論、仇恨言論或散佈錯誤訊息,是Google的優先事項。能夠可靠、高效且大規模地檢測此類濫用形式,對於確保平台安全,避免機器學習到負面言論的風險至關重要。Perspective API是一個起點,但大規模檢測所涉及的細微差別仍是一個複雜的問題。近期Google與學術夥伴們合作,引入了一個全面性的分類方法,用以推論分析網路仇恨與騷擾言論的變化,研究如何檢測網路上經常被忽略,較隱蔽的不當言論,如微歧視(microaggression),以及傳統方法如何因資料標記而邊緣化少數群體的觀點,並提出新的分解建模方式,以多任務框架來解決這個問題。此外,藉由質化研究與網路內容分析,Google的Jigsaw團隊與喬治華盛頓大學合作,研究仇恨集群(hate clusters)現象,以及其如何在社群媒體上散佈虛假訊息。

另一個潛在問題是,機器學習在語言理解與模型生成上,有時也會產出缺乏證據支持的結果。為了解決此一問題,Google開發了一個新的框架來衡量模型產出結果是否可以歸因於特定來源,並且發布標記指南,證明該框架可以可靠地運用於候選模型的評估。

此外,模型的互動式分析與修正仍是負責任地使用機器學習技術的關鍵。Google更新了語言可解釋性工具(Language Interpretability Tool),包括對圖像與表格數據的支持;從What-If Tool中延續各項功能;以及內建Testing with Concept Activation Vectors支援公平性分析等。而在負責任的AI願景中,ML系統的「可解釋性」是關鍵。對此,透過與DeepMind的合作,Google在理解AlphaZero西洋棋系統上取得進展。

如何將負責任的AI拓展至非西方國家亦是Google的重要課題。Google在近期的研究指出,基於西方社會背景下的傳統演算法公平性框架不適用於非西方社會,並為印度的發展路徑提出數個方向。演算法在公平性的研究上僅關注少數幾個屬性,忽視非西方社會中的歧視,且相關研究經驗不足。基於此,Google與密西根大學合作開發弱監督模式,在更廣泛的地理文化背景下,NLP模型仍可穩定檢測出人們在不同區域的攻擊與非攻擊性言論。Google亦探索了ML在南方世界(Global South)的應用。如以農民為中心的研究,鼓勵該領域思考如何應用ML的解決方案改善當地小農戶的生活。

另外,為了讓社區工作者參與負責任的ML開發與部署,Google邀集外部教師、非營利組織負責人、政府和非政府組織代表,以及其他領域的專家,舉辦Health Equity Research Summit,討論如何為整個機器學習生態帶來更多公平性。基於社區的研究也為Google在設計數位福祉(digital wellbeing)與解決ML系統中的種族平等問題上提供了參考依據,如研究美國黑人使用ASR系統的體驗。

當機器學習模型變得更有影響力,保障機器學習中所使用的個人訊息就更加重要。Google近期的一些研究解決了大型模型中的隱私問題,不僅可從大型模型中提取出訓練數據,亦可滿足對隱私的要求,如應用差分隱私(differential privacy)的 BERT(Bidirectional Encoder Representations from Transformers) 。除了前述的聯合學習與分析方法外,Google亦使用其他ML技術,確保差分隱私,如隱私集群(private clustering)、隱私個人化(private personalization)、隱私矩陣補全(private matrix completion)、隱私加權取樣(private weighted sampling)、隱私分位(private quantiles)、半空間的隱私穩健學習(private robust learning),以及具備樣本效率的隱私PAC(Probably Approximately Correct) 學習。此外,Google也一直擴大可針對不同應用程式與威脅模型的隱私概念集,包括隱私標記,以及用戶與項目層級的隱私。

 結論

研究要對現實世界帶來影響往往需要多年的旅程。數年前Google啟動的早期研究投入,如今不僅對產品更對世界帶來重大影響。Google在TPU等硬體加速器,以及TensorFlow與JAX等軟體框架的投資已取得成果。隨著機器學習模型功能的強大、應用的簡化,以及準確度與性能表現的提升,ML在Google諸多產品的應用越來越普遍。模型架構的研究,如Seq2Seq、Inception、EfficientNet、Transformer等;演算法的研究,如批次標準化(Batch Normalization)、知識蒸餾(knowledge distillation)等,均正在推動語言理解、視覺、語音等領域的進步。而這些基礎能力的提升將被廣泛地應用於各項產品,如網路搜尋、機器助理、廣告、雲端系統、Gmail、地圖、YouTube、Workspace、Android、Pixel、Nest與翻譯等,並帶來變革。

現在是機器學習與電腦科學真正激動人心的時代!透過對語言、視覺與聲音的理解,電腦與周圍世界的互動能力不斷提高,並為人們在開拓新領域的道路上帶來幫助。而本篇文章所提到的五項趨勢與眾多實例,都是這長途旅程中的路標!

 

參考資料:

Jeff Dean, 2022/01/11, “Google Research: Themes from 2021 and Beyond,” Google AI Blog. https://ai.googleblog.com/2022/01/google-research-themes-from-2021-and.html