【軟體自由電子報第6期】推動 AI 浪潮的開源活水

自從 2022 年末，OpenAI 的 ChatGPT 的橫空出世，「AI」這個關鍵字便成為新聞媒體和社群平台上最熱門的話題；微軟將搜尋引擎 Bing 和 ChatGPT 相結合、要跟 Google 打對台的商戰新聞，更為這股浪潮推波助瀾。

開源模式帶來了百花齊放的 AI 時代

不過，當眾人將目光聚焦在科技巨頭的商戰、或是又有哪間新創公司推出 AI 應用時，可別忘了，自從深度學習時代以來，AI 就有很深厚的開源傳統。雖然科技巨頭將 ChatGPT 的出世稱為「AI 的 iPhone時刻」，但是看看現在開源軟體的迅速普及、開源社群的蓬勃朝氣，Stanford AI Lab 副教授 Chris Ré 指出：「這是 AI 的 Linux 時刻啊！」

正如同 Linux 在工程及伺服器領域佔有領導地位，Chris Ré 認為，開源模式讓更廣泛的人群參與貢獻，也消除了障礙、讓更多人能夠使用技術；而寬鬆的授權，甚至能讓人運用開源產品來創業。簡單的說，開源模式改變了世界；而開源 AI 有機會達成與 Linux 同樣、甚至更好的成果。

令人驚豔的開源成就

Chris Ré 在文中細數了過去一年中，開源 AI 所取得的驚人成就（但因為篇幅關係，我們每項僅舉出一個例子）：

平台：有「機器學習領域的 GitHub」之稱的 Hugging Face，讓 AI 模型前所未有地開源！
社群：為了解放機器學習的研究，非營利組織 LAION 集結眾人之力，提供了開源的數據集、工具和機器學習模型；包括 OpenCLIP、Stable Diffusion 等重要的模型，都來自於 LAION 的貢獻。
演算法：除了開源工具包以外，AI 演算法的開發，也一直受益於將成果發佈到 Arxiv 的文化。許多不隸屬於大公司的研究者，正以個人身份貢獻著成果。

編按：Arxiv 是一個分享學術論文預印本(preprints) 的網站，維基百科指出，它是預印本模式的早期採用者和推廣者，而 Arxiv 在推廣預印本的成功，也被認為是促成後來科學出版界的開放進用(open access)運動的原因之一。

資料集 (dataset)：比起 AI/ML 高深的核心技術，對多數人來說，資料比起程式碼更能夠傳達想法。社群努力推出了 Pile、C4、LAION-5B 等大規模資料集(massive datasets)，而 Hugging Face 的 Datasets library 和 hub 這樣的資料集集散地，也讓社群成員更便於存取。
工具：為了讓任何人都能輕鬆參與 AI，社群持續地改善工具，包括 PyTorch (Meta)，Keras (Google)，Transformers (Hugging Face)，MegatronLM (Nvidia)，DeepSpeed (MSFT) 等。

透過開放力量，降低 AI 的潛在風險

AI/ML 已逐漸被運用在社會各個領域，包括醫療和科學研究、訴訟輔助、警務預測…等等，但另一方面，AI 依舊有著潛在的問題。

其中一個問題是「資料黑箱」：電子前鋒基金會（EFF）指出，機器學習最終依賴於訓練資料來「學習」如何做出正確的預測，但若是輸入的資料原本就有偏差，AI 自然會得出帶有偏見的結果。文中以犯罪預測 AI 工具為例：當司法系統本身對工薪階級或有色人種社區帶有偏見時，其提供給 AI 的訓練資料，會使 AI 給予這些社區不符比例的犯罪率預測。

EFF 認為，AI 未來可能在醫療和執法等領域做出攸關生命的決定，然而 AI 的運作原理和資料集卻被隱藏在黑箱裡，這是不合理的。EFF 指出，開放資料是解決 AI 黑箱問題的一個關鍵因素，不僅能對 AI 進行監督和評估，同時也能讓更多人貢獻於 AI 的發展和治理。

另一個潛在的問題是，由於 AI 訓練和維運的成本非常高昂，跟小公司或新創相比，科技巨頭握有的運算基礎建設，讓他們具備極大的優勢；更有甚者，Debian 的開發者 Mo Zhou 在 OSI 的訪談中提到，在硬體上，不只是資金的問題，訓練神經網絡時至關重要的 GPU，其驅動程式和韌體絕大多數是非自由的，無法符合 Debian 社群對於基礎設施的規範，導致 Debian 無法將深度學習的應用集成於自身系統中。以此推論，未來當 AI 成為水、電這樣的民生基礎建設時，科技巨頭豈非掌握了絕大多數人們的生存命脈？其實不用這麼悲觀，充滿生命力的開源社群，總是能夠找到出路，新創公司 Hugging Face 做出了很好的示範。

新創公司：為社群培力，而非與社群競爭

前面提到，Hugging Face 有「機器學習領域的 GitHub」之稱，作為一個 “hub”，它讓社群能夠共同開發模型、資料集，並有 demo 的空間。

Hugging Face 的共同創辦人兼 CEO：Clément Delangue，在 2021 年的一篇訪談中，他認為作為一間新創公司，所能做出的最大貢獻並非推出最厲害的 ML 模型，而是為社群培力(empower)、提高社群的生產力。Delangue 說，在 AI/ML 這個快速發展的領域，外頭恐怕有超過 100 間的實驗室、組織或大學在做同樣的題目，就算你新創公司比他們厲害，但他們數量太多了，當你只能做一次迭代的時候，外頭也做出了 100 次迭代；起初你可能擁有最先進的產品，但幾天後可能就被超過了，從此不再領先。

「我們採取了一種非常不同的方法，」Delangue 說：「不是試圖與開源領域和科學領域競爭，而是想辦法為它培力。像 Elastic、MongoDB 這樣做開源基礎設施和資料庫的公司，帶給我們的啟發是：作為一家新創公司，若可以為社群賦權，創造出的價值比構建專有工具多一千倍，對吧？」

「而且你不必獲取所創造價值的 100%，對吧？你可以創造巨大的價值，而只將其中的 1% 來變現，這就足以讓公司持續發展。甚至可以像 MongoDB 那樣成為一家大型上市公司。這兩家公司都擁有類似的開源核心，同時又可以壯大組織、並實現永續發展。」

(Photo from Pixabay)