【新興領域/2023.03焦點】從文本生成到圖像創作再到語音影像，生成式AI的狂熱潮|FINDIT:臺灣新創募資第一站

生成式AI在2022年大爆發，科技大廠開始在自家服務嵌入生成式AI優化體驗，甚至有龍頭業者直接打包成產品供企業使用，連微軟公司創辦人比爾蓋茲都曾在論壇活動上表示「比起Web 3和元宇宙，人工智慧（AI）才是真正具革命性的技術」，尤其是在2022年底爆紅的OpenAI聊天機器人ChatGPT令他印象非常深刻，發布不到一週的時間就吸引100萬用戶使用，在今年（2023年）1月就累積超過1億名活躍用戶，每天大約吸引1,300萬人使用。如今不只是企業能預見生成式AI在許多產業上的應用，ChatGPT讓我們瞥見即將到來的未來。本文藉由CB Insight發佈的「The state of generative AI in 7 charts」摘要整理，一窺生成式AI領域的狀態及各類別的應用。

一、獲投趨勢

2022年是生成式AI新創公司投資潮創紀錄的一年，據CB Insights報告數據，該領域在110筆交易中募資超過26億美元。生成式AI是目前科技業最火熱的話題，更是搶走NFT和元宇宙的關注度，生成式AI能夠在幾秒鐘內生成各種可閱讀文章，同時回應社群評論，使文章更具備說服力，這對各種產業皆造成影響，除了文字生成圖像外，甚至連音檔、影片、3D模型等都能生成。下列回顧幾間獲得了鉅額投資的公司：

Anthorpic

Anthropic由曾擔任人工智慧研究實驗室OpenAI LLC的副總裁Dario Amodei和Daniela Amodei領導，隨著人工智慧模型的發展超出我們所能解釋其邏輯和結果的能力，如何更好地理解在各個行業中廣泛使用的人工智慧模型就是Anthropic主要研究的問題，Anthropic在2022年4月獲得由FTX首席執行官Sam Bankman-Fried領投的5.8億美元B輪募資，更在1月底推出前東家ChatGPT最強競品，新的聊天機器人「Claude」，與ChatGPT採用的人類回饋強化學習（RLHF）不同，Claude採用的原發人工智慧方法，基於模型而非人工回饋來進行訓練的，又被成為「AI回饋強化學習（RLAIF）」，經過授權的內部測試結果顯示Claude更能明確地拒絕不當請求、給出的文句銜接更自然，且遇到超出能力範圍的問題時會主動坦白，相比ChatGPT則是一本正經地胡說八道，總結效果Claude能稱作ChatGPT強而有力的競爭對手，在不同功能上各有千秋。

Inflection AI

2022年初成立的Inflection AI由LinkedIn聯合創始人Reid Hoffman和世界領先的人工智慧實驗室之一DeepMind創始成員Mustafa Suleyman領導，致力於使用人工智慧生成幾乎能與人類水準相當的語言，在2022年5月便籌集2.25億美元的A輪募資。

Cohere

Cohere提供以開發人員為中心的平臺，成立於2019年，藉由人工智慧方式打造自然語言處理技術，讓聊天機器人可以理解人類口語或文字背後含意，在2022年2月獲得由Tiger Global Management領投的1.25億美元B輪募資。

Jasper

自2021年推出Jasper以來，已擁有超過70,000名付費用戶，從個人到大型企業，Jasper使用人工智慧平臺替Blog、社群媒體等生成內容，許多生成式AI新創公司都在做類似的技術，Jasper與眾不同之處是人工智慧藝術生成系統Jasper Art，與DALL-E 2等系統一樣，Jasper Art將提示轉化為圖像，讓用戶可以調整作圖方式、藝術風格和情感等。隨著人們對AI圖像和文本生成的熱情高漲，Jasper在2022年10月獲得1.25億美元的A輪募資並一躍為獨角獸。

二、投資輪次分布

生成式AI才剛剛起跑，據CB Insights統計，45個不同類別的250家生成式AI新創公司中，33%尚未進行任何外部募資；51%是處在A輪及A輪前的階段。這種技術被稱作是媲美iPhone的重大變革，企業家都在此領域搶占一席之地，1月微軟宣布與ChatGPT的開發公司OpenAI建立合作關係並投資100億美元，從而開出生成式AI戰爭中最響的一槍，這筆在該領域史無前例的交易使OpenAI的估值飆升，並促使投資者爭先恐後支持下一家大型AI新創。如Character主打讓用戶可和扮演不同角色的AI進行對話，包括著名虛擬人物Tony Stark和Walter White，該公司目標是募集2.5億美元使估值超越10億，據The Informatio的資訊顯示，Character以未公開估值募集種子輪，並得到Gmail創始人和前GitHub首席執行長的支持；另外一家則是前述提到由前OpenAI員工創立的Anthropic，目前正進行3億美元的募資，估值將達到50億美元，先前曾得到加密貨幣大亨Sam Bankman-Fried的支持。

三、生成式AI中的佼佼者

截至2022年，生程式AI領域已經有6家公司達到獨角獸地位，包括：

OpenAI－開發快速走紅的ChatGPT，馬斯克聲稱雙方理念不合退出後，隔年正式成立營利公司，希望加強募資能力，並與微軟等公司締結合作關係。
Hugging Face－本質上，Hugging Face正在建構機器學習的GitHub，在2022年5月以20億的估值獲得1億美元的C輪募資，並宣布與微軟合作推出Hugging Face Endpoints on Azure，可在微軟的雲端平臺上設置及運行數千個機器學習模型。
Lightricks－成立於2013年的以色列獨角獸，主要開發影像和圖像編輯應用程式，以其自拍編輯程式Facetune聞名。
Jasper－Jasper是在2022年第4季才加入獨角獸俱樂部的新人，估值達15億美元，據研究資料顯示該公司以未公開的金額收購了有助於糾正拼寫和語法的工具Outwrite。
Glean－由Sequoia Capital領投的1億美元C輪募資使Glean站穩獨角獸地位，該公司開發搜尋引擎的工作助理，幫助員工透過公司的任一工具迅速查詢所需的數據。
Stability AI－打著“AI by the people，for the people”，生產免費和開源的軟體工具，可用於創作藝術、音樂或幾乎所有曾經屬於人類領域的事物，Stability AI開發的DreamStudio較針對一般用戶，目前已吸引超過150萬人註冊，生成超過1.7億張圖像，最著名的Stable Diffusion為文本生成圖像的產品，然而該系統透過網路抓取圖像和藝術品來訓練的模式在近期惹不少爭議，被控訴其為侵犯版權，這些訴訟也可能威脅到生成式AI藝術的未來。

基於當前人工智慧的投資趨勢，從投資為企業提供工具的傳統AI公司轉向投資開發新AI應用程式的新創公司，前述列舉的高估值新創公司若能取得成功延續熱潮，人工智慧領域的新創公司估值很可能繼續攀升，也能大膽預期下一個價值1,000億美元的新創公司將是生成式AI的公司。

四、生成式AI的資金聚集處

據CB Insights報告，文本生成領域中，提供包括摘要、故事生長及營銷內容自動化的公司所獲得的資金位居第一，自2021年以來在48筆交易中募集了8.52億美元的資金，與此同時，視覺媒體生成領域的公司，從靜態圖像到口語同步影像再到虛擬化身所獲得的資金緊接在後，在58筆交易中獲得8.22億美元的資金，另外，包含開發使人與電腦溝通流暢的人機介面在內的生成介面領域在20筆交易中獲得5.86億美元；語音生成領域在26筆交易中獲得2.12億美元；代碼生成領域則在20筆交易中獲得1.4億美元。

生成式AI能產生尚未存在的全新數據，無論在研究或測試都產生無限可能，作為最具顛覆性和發展最快的技術之一，後半段帶大家快速瀏覽各領域中的代表公司。

(一) 文本 (Text)

現代人每天大部分時間花費在搜尋新聞、閱讀及撰寫文章上，文本生成模型無論是在開發還是使用層面無疑都是生成式AI走得最遠的領域之一，從模型角度來看，著名的OpenAI GPT-3帶有1,750億個參數的模型，訓練內容來自網路，而當全世界都在等待傳說中帶有1兆個參數的GPT-4時，以ChatGPT形式推出的GPT-3.5就先出籠了，其使用不同的訓練方式所產生的模型也較強大且擬真。

文本生成領域中受到青睞的新創包括：

營銷和銷售：如生成Blog文章、為社交媒體和廣告創建標題及自動生成內容等，代表公司有每年經常性收入超過5,000萬美元的Jasper、營銷及銷售助理Copy.ai和排名第一的銷售電子郵件助理Lavender。
閱讀和寫作：著重於幫助用戶更快速閱讀及撰寫電子郵件和文章，包括進行個人研究，如Notion AI從會議待辦到簡報大綱都能幫你完成、結合AI和寫作編輯器的Lex、利用AI協助提升寫作及閱讀水準的文本生成器Bearly和Orchard。
特定用途的文本生成：凡是需要額外結構和知識的文件，包括合約、產品開發等，如幫助律師起草契約的Spellbook和輔助編輯產品需求文件的WritemyPRD。
特定用途的搜尋、分類等：針對產品、用戶支持度等總結及生成應答，使手動轉為自動，Cohere能提供自動化回覆及識別用戶潛在問題、替Uber和AngleList等公司提供即時且準確的數據分析、市調的Viable還有透過AI提升搜尋效能的Hebbia。

(二) 代碼 (Code)

大多的大型語言模型（LLM）能生成文本也能生成代碼，但也有某些是專門為生成代碼而訓練的，能顯著改善開發人員的效率、準確性和工作流程，包括OpenAI的Codex、Salesforce的開源模型Codegen和Deepmind內部的AlphaCode。

代碼生成領域中受到青睞的新創包括：

AI輔助編程：代碼生成領域的著名產品非GitHub Copilot莫屬，對於開發者來說它最多可以幫你編寫約40%的代碼，其他幫助開發人員的產品還有自動補齊後續程式碼且支援23種程式語言的TabNine、同樣支援多種程式語言的Minitlify。
SQL生成、數據分析：雖然SQL是包含在代碼的其中一項，但是SQL生成能大大提升企業用戶對該企業中數據所提出的問題進行數據分析，還能供不懂SQL的用戶使用，代表的如AI數據助手AirSQL能幫助理解公司數據並將自然語言問題轉為SQL、Seek建立專門回覆數據問題的對話視窗並儲存這些問題以便下次回覆。
應用程式建構：更進一步，將是生成能滿足用戶需求的軟體、應用程式，雖然不適合用於複雜的編寫，但對於內部程式或現有產品拼接則非常可行，像是Maya Labs和Debuild。

(三) 圖像 (Image)

圖像生成模型在2022年可說是出現爆炸性成長，輸入一段簡單的文字敘述或是幾個單字，即便不符常理AI也能依其生成圖像，如2022年推出了DALL-E 2、Stable Diffusion和Midjourney，經過圖片及圖片文字敘述的神經網路訓練而成，借助深度學習，它不僅能理解個別物體，還能夠理解二者間的關聯，賦予人類以更有創意的方式表達自己的能力以及理解人工智慧系統如何看待我們的世界。

圖像生成領域中受到青睞的新創包括：

消費者：圖像往往比文本更具消費吸引力，AI Avatars算是2022年後半段在社群媒體大爆炸的一個話題，其中有曾在應用軟體商店每天產生超過200萬美元收入的Lensa，以用戶自行上傳照片來創建AI頭像，後續更優秀的個案還有Bitmoji；另外，值得注意的還有藉由AI創造的「數位網紅」，例如在Instagram上擁有260萬粉絲的Lil Miquela。
營銷及銷售：圖像在網站展示、演講和廣告中敘述故事扮演關鍵角色，而為了這些用途而製作圖像的產品也已經出現，像是Canva具有文本轉圖像的功能，可創建圖像用在海報和廣告設計中、由微軟發佈的AI生成圖文內容工具Microsoft Designer、僅需提供產品照片就可以設計品牌廣告的AI工具Flair和減少電商照片拍攝流程生成擬真模特展示產品的BOTIKA。
設計相關：除了圖像設計，UI設計也能交給AI，其功能也適用於角色的3D設計、室內和建築設計等，這些技術也已經廣泛運用在房地產、遊戲和媒體等行業，如輔助設計UI的Uizard、輔助設計建築系統的平臺Hypar和生成3D設計模型的Mirage。

(四) 語音 (Audio)

既然有了訓練文本生成，接下來就是音頻模型了，在語音方面微軟打造名為VALL-E的語音模型，標榜僅需3秒鐘的聲音資料，就可以建立模擬聲音本人說話語調，甚至可以加入不同情緒時的說話方式，以及在不同環境下的發生效果；在音樂方面則有Riffusion等公司致力於製作音樂模型，特別的是Riffusion不是利用聲音本身，而是聲音訊號的頻譜圖來產生音樂。

語音生成領域中受到青睞的新創包括：

媒體與廣告：能夠生成特定的聲音象徵著媒體界的大突破，可以用於遊戲、電影和電視，例如用特定演員的聲音來配音不同語言的台詞，甚至能為影片創造新角色，能夠創造屬於自己的AI音頻的Resemble.ai可用於電影和電視的音頻生成，且已經被用在Netflex的紀錄片中、能將文本轉語音的Wellsaid Labs以及專注於用不同語言替影片配音的Papercup。
客服中心：客服中心通常依賴低延遲的即時語音，透過音頻生成，客戶的請求可以在不同地區得到相應的語言和口音的答覆，可想像是一個充滿機器人的客服中心。大部分音頻生成公司都有這項功能，其中有立志讓語音體起來人性化且自然的Rime。
旁白：音頻生成也可用於有聲讀物的旁白、智慧音箱等設備。
音樂：另一個普遍的用途就是生成音樂，除了可以直接使用的音樂模型外，還有以此功能建構的應用程式，Boomy讓用戶生成音樂並上傳到串流平臺產生收益，至今已經生成超過1,000萬首歌曲、SOUNDRAW可以根據用戶選擇的心情、風格和時長來生成歌曲，還有透過AI幫音樂創作者分離人聲、修改節拍、改變音調等的Moises。
音頻轉錄：技術上，音頻轉錄不算是生成式AI，但在許多情況下，必須從音頻中獲取資訊得先轉換為文本，而大型語言模型在這方面非常有用，代表的有OpenAI的Whisper以及Deepgram。

(五) 影像 (Video)

影像算是生成式AI的終極代表，畢竟在最後可能會需要同時處理生成圖像、音頻和文本，至今還沒有真正像圖像或文本生成模型那樣通用的影像生成模型，但許多公司都在朝此目標前進，包括Meta的Make-A-Video，雖然尚未公開但展示了從文本或圖像生成簡單影像的能力、同樣尚未公開的Google的Imageen則是根據文本創建24fps的影像，最後還有尚未推出的文本轉影像模型的編輯產品，由Runway開發。

影像生成領域中受到青睞的新創包括：

銷售、培訓和客服：使用AI生成由Avatar說出特定音頻的影片，能簡化銷售、培訓的作業，包括Synthesia和Rephrase都是AI人物影像創建的平臺，用在營銷和培訓等，還有拍攝臉部圖像並轉換為影像的D-id
知識提取：許多影片中包含知識和專業的見解，相對於文本這些內容較難解析和搜尋，雖然不完全是影像生成，仍有致力於此用途的公司值得一提，包括從視訊電話中提取數據，幫助銷售人員高效工作的Gong和總結視訊會議並確定代辦事項的Fathom。

目前除了簡單的Avatar說話的影片之外，還不能完全做到創建一個用於正式用途的短影音，但不難想像未來在TikTok或Instagram Reels上能看到很多由AI生成的短影音廣告。

(六) 多模態 (Multi-model)

最後，特別談論多模態生成，雖然影像生成已經算是多模態，因為需要將音頻、圖像和文本拼接在一起，但仍有其他值得一提的領域。

多模態生成領域中受到青睞的新創包括：

圖文影像：至今多數圖像生成模型本身都無法在產出圖像的同時將文字嵌入，但像是在設計和營銷情況下，會需要將文本內容添加在圖像上，且須考慮到圖像風格和內容才能知道其放置的位置，影像也需要類似的技術，另一個情況則是看圖說故事，大多數的故事和講稿都需要在前後文中包含圖片，像是AI驅動的說故事平臺Tome，可以透過簡短的文字提示生成文本和圖片；另外還有聊天介面，ChatGPT僅以文字進行回應，Ex-human則會使用圖片和迷因進行回覆。
執行動作：生成圖像、文本或其他內容之外，如果AI能根據我們的需求代表我們採取行動那就更好了，像是「取消我的機票、更改我的航班、提醒我做…」，諸如此類的簡單任務，至今已經可以透過Siri/Alexa等實現不同程度的要求，鋼鐵人中的JARVIS就是個完美的例子，很多公司都在這個領域想辦法開發更有用的智慧助手，其中較有趣的代表為Adept，致力於為「行動Action」建立模型，建構Action Transformer，用戶只要輸入請求，剩下的全交給ACT-1來操作。

五、結語

在經歷令人沮喪的一年後，科技業投資者迫不及待想抓住這個熱門的趨勢，生成式AI可以根據簡短提示生成文本、圖像、語音甚至是其他媒體，短短幾年間，生成式AI新創公司蓬勃發展，企業也緊咬這顆甜蘋果，老牌玩家搶著利用這股熱潮，如中國巨頭「百度」計畫將搜尋引擎整合類似ChatGPT的人工智慧聊天機器人、圖像交易平臺Shutterstock正在將生成式AI嵌入其平臺中，供客戶創建圖片。這類型的AI有望重塑一切，不僅激發企業家們的想法，也激發投資者和我們的熱切關注，生成式AI並非這1、2年才出現，而是發展已久的技術，如今該技術的應用領域也從過去的特定用途，走向更廣、更通用的領域，雖然在生成式AI遍地開花的同時，仍有不少問題要解決，如版權爭議、創作產權等，但不能否認這些擔憂並沒有降低人們對於未來興奮的情緒和幻想，生成式AI的快速發展正改變大家對技術的思考方式，不僅開闢充滿未知創意的未來，也使許多日常工作變得輕鬆快速。

黃子娟（台灣經濟研究院研究六所/助理研究員）

參考資料

【新興領域/2023.03焦點】從文本生成到圖像創作再到語音影像，生成式AI的狂熱潮

相關熱門文章推薦

名家觀點

立即訂閱