Wikidatacon 2023

維基數據社群(Wikidata)的國際活動來了!維基數據雙年會 2023 將在 今年 10/28-29 舉行,本次大會由德國維基媒體協會與台灣維基媒體協會共同籌辦,其中的實體會議,將於台北大學召開。機會難得,請各位朋友報名要快喔!

軟體自由電子報也趁著這次機會,訪問了 Wikidata 台灣社群的共同召集人王文岳、以及社群老朋友陳瑞霖,來為我們談談:Wikidata 作為網路世界「資料庫的資料庫」,到底有怎麼樣的特色吧!

Wikidata 是什麼?跟我們比較常聽到的維基百科有什麼不同?

文岳:Wikidata 是一個鏈結開放資料(Linked Open Data,LOD)的資料庫,兼具結構化、鏈結資料(Linked Data)和開放資料(Open Data)的特性。Wikidata 跟我們較常聽到的 Wikipedia 維基百科之間是姊妹計畫的關係,它也為整個維基媒體計畫,在收錄單一筆條目的跨語言連結上提供協助;像是「籃球」這個條目,可能有中文、英文、法文、德文,甚至有撒奇萊雅語、賽德克語等不同的版本,那要用什麼方式可以較好的將這些條目串聯、集中起來,這時候就是依靠 Wikidata 的「item」去收錄各語言版本的維基百科,甚至維基文庫、維基新聞等不同的姊妹計畫,都是靠其串聯的。

瑞霖:跟維基百科以「文章」型式儲存的資料比起來,Wikidata 更結構化、更有利於程式來做再利用,目標是用結構化資料處理人類所有的知識。以下是簡單的比較表:

Wikidata Wikipedia
知名度低 全球十大網站之一
結構化資料 文章型式
跨語言 多個單一語言的條目
機器可讀 人類可讀
BOT匯入編輯為大宗 一些BOT,一些手工藝
單一站儲存 分散式多個站儲存

我們知道 Wikidata 這個專案,是維基媒體基金會在 2012 年成立的,那麼 Wikidata 臺灣社群又是何時成立的?

瑞霖:最早是 2013 年的時候,維基德國分會負責 Wikidata 的 Lydia,來到台灣在COSCUP 時介紹 Wikidata,除此之外大都是學界比較關注,例如中研院的莊庭瑞老師,維基百科這邊的人大都只是處理跨語言連結。社群是 2019 年才正式開始集結、編輯與舉辦聚會。

文岳:現有的 Wikidata 臺灣社群的緣起,其實可以追溯到 2018 年李梅樹紀念館維基館藏開放專案,在該專案中透過 Wikidata 搭配 Wikimedia Commons 兩個平台進行李梅樹畫作作品的媒體檔案開放,以及後設資料(metadata)的註錄與開放;可以說是在臺灣第一次有系統性的 Wikidata 專案,而後續也衍伸有以 Wikidata 進行劉清港(李梅樹胞兄)的主題文獻後設資料註錄工作坊。到了 2019 年,原李梅樹紀念館社群與其他社群成員共同組成 Wikidata 臺灣社群,並在 2 月與 OpenStreetMap 臺灣社群開始了第一次聯合月聚會,直到現在。

Wikidata 臺灣社群的成員組成大概是什麼樣子的呢?平常如何互動?

文岳:目前 Wikidata 臺灣社群的成員多數來自於當時李梅樹紀念館社群、OpenStreetMap 社群、原維基百科/維基媒體社群以及其他開源社群的夥伴。平常互動的方式多數是參加每月定期的月聚會,以及目前每年都會舉辦的幾個大型活動,如:3 月的 Open Data Day Taiwan 、7/8月的 COSCUP 社群議程軌以及 10 月的 Wikidata 跨領域論壇。當然我們也有線上互動,多數是透過 Telegram 或是 Messenger 來聯繫。

瑞霖:我會定位 Wikidata 台灣社群是黏著劑,儘管人數少,對各個計畫如中文維基百科、維基共享資源、開放街圖都有瞭解,能補足上述計畫未做到的事情,如提出相關的編輯指南,甚至直接動手修改。

Wikidata 是一個自由、開放的知識庫,它如何跟其他開放資料如何互動?”CC0” 授權在知識庫的經營上,有什麼特別之處?

文岳:除了與其他資料庫做識別碼(identifier)對照的功能外,Wikidata 其中一個主要功能,就是為其他開放資料庫的資料集提供一個鏈結開放資料(LOD)的版本,像是PubMed或是小行星資料庫就曾經批次將資料匯入,在 Wikidata 中建立 LOD 的版本,再連結回其原本的資料庫,去增加原有資料庫的近用性。

而 CC0 則是這類型資料庫常見的授權方式,畢竟以鏈結開放資料庫所收錄的資料類型,都是以事實性資料為主;同時,由於 Wikidata 主要就是用於機讀應用,若使用其他授權可能使得資料庫應用或是其他再應用出現一些問題或是授權上的阻礙。

有沒有企業或是政府應用 Wikidata 資料的案例?

瑞霖:儘管不像當初維基百科橫空出世、搜尋結果總排在前面,Wikidata 也是比較默默地存在於網路世界的各個角落。像是 Google 搜尋的知識圖譜,就有部分資料來自 Wikidata。

再來是最近我找到的例子,Wired 報導:語音助理如 Alexa 與 Siri 有用到 Wikidata 的資料。其實還蠻合理的,因為 Wikidata 已經是語言獨立的結構化資料,比起維基百科的內容,Wikidata 對程式來說更加友善。

您對未來 Wikidata 臺灣社群有什麼展望呢?

瑞霖:希望多點人手吧!光是日常工作,對社群來說就是不小的挑戰,特別在資料維護方面,像是村里和學校的資料,常須更新或核對;此外,將政府公開資料等第三方資料批次匯入之後,也需要再花心力去修訂。我們也希望建立一些使用案例,例如資料視覺化。

我們另外也有一堆計畫堆在那裡,例如:舉辦主題工作坊;將 Wikidata 條目連結到不同的第三方資料庫;古蹟也建有標籤規範,但欠缺人力來執行編輯。更多是語言類的,像是加入台灣的國家語言,如台灣台語、台灣客家話,台灣原住民族諸語等,還需要加倍努力吸引懂這些語言的人來參與 Wikidata。

臺灣社群和德國社群將合作籌備 WikidataCon,並於十月份在台灣舉辦,您對這次的活動有什麼期許呢?舉辦國際活動能夠成為社群成長的助力嗎?

瑞霖:十月底舉行的 WikidataCon 算是某種程度 Wikidata Taiwan 的成果展,呈現已經做到的專案狀況以及未來展望。我想也是很好的對外宣傳機會,讓國外社群以及對國內的相關團體,如圖書館界、維基,以及政府單位等,看見 Wikidata Taiwan 的貢獻。

無論如何,我們還在水深火熱當中呢(笑),10/28-29來參與吧,不能到現場也可以線上進 GatherTown 觀看轉播與現場參與者同樂!

文岳:這次的 WikidataCon 我期許他不只是一場「國際會議然後場地在臺灣」,而是臺灣的元素應該要融入在這次的研討會中,包含對於多元社群、文化以及語言的關注,這個部分也是現在臺灣社群主要關注的面向,我們把他變成了希望整個 WikidataCon 關注的面向。而視覺跟一些設計的元素,我們也納入了臺灣傳統圖騰,希望讓整個活動更加有臺灣味;當然如果你有來現場,現場的食物更是如此!

因此總歸一句,如果有興趣走走看看,即便你跟 Wikidata 一點都不熟,只要對於 Open Data 有興趣,WikidataCon 都十分歡迎你!

參考資料

(圖片來源:Wikimedia Commons