Photo Credit: ROBIN WORRALL on UnsplashPhoto Credit: ROBIN WORRALL on Unsplash

數位時代/文:曾令懷
「根據內部消息,一名某航空公司的員工肺炎快篩呈現陽性⋯⋯」最近全球新冠肺炎疫情越演越烈,如果在網路上突如滑到這樣的資訊,我們第一時間不知道是否選擇相信;若要溯源消息的正確性,還需要層層爬梳,非常費力。「其實這就是缺乏數據的完整性:使用者不敢相信數據的真偽,數據生產者不知道數據被使用在什麼地方。」主張數據 Numbers 共同創辦人 Sophia 提到。
談起 Numbers 創立緣由,以及為何會開始注重數據完整性議題,便不得不提及共同創辦人楊琬晴(Tammy Yang)先前的創業經歷,物理與資料科學背景的 Tammy,2015 年與台大電機系 ICS 電腦視覺實驗室的夥伴共同創辦 AI 新創 DT42 灼灼科技,並推出深度學習平台 Epeuva,讓 IoT 業者不需要擔心 AI 技術,讓電腦自動蒐集與辨識資料,而這一次的創業經驗使她意識到追溯資料來源的重要性。
「想要以資料為燃料去養出聰明的 AI,最根本的問題是『資料』怎麼來、怎麼用?是不是每一筆資料都有尊重使用者權益,在資料的真實性、完整性沒辦法被保證的時候,你根本不知道自己是透過什麼在訓練 AI。」Tammy 提出自己先前的疑惑,也道出了創辦提供數據溯源服務的 Numbers 最根本的原因。
(Numbers 團隊。來源:來源:Numbers )
(Numbers 團隊。來源:來源:Numbers

從數據生產源頭做改變,「找回大家對數據的信心」!

我們去生鮮市場的時候,為了吃得安全,會特別注意架上的食材是否有標示相關的食安標章,那對於資訊呢?
以農產品來舉例是相當容易理解的,一般大眾需要一個機制來「信任」廠家供應的食物是安全的,而主張數據想解決的,是大眾對數據資料的「信任」,建立資料的「可回溯性」與「完整性」。
想要解釋為何「數據缺乏完整性」愈趨重要,Numbers 的商務開發經理 Sophia 以 2019 年 9 月震驚全球的亞馬遜大火為例。
當時亞馬遜野火浩劫的新聞已延燒數天,卻被爆出在網路上最被廣為流傳的照片竟是假的,這張未被證實過的照片在一個月內於各大社群平台不斷發酵,貼文累計超過 6 千次不等的分享,當時,台灣事實查核中心的總編輯便提出所謂「照片反搜」的概念,但無奈時至今日,數據溯源、數據完整性等概念還未在台灣有所發酵。
「我們那時候發便意識到,使用者吸收大量的資料,假新聞、假數據,但卻沒有辦法在第一時間就知道這個影像是不是真正真實的;除此之外,人們每天拍的照片在社群網絡上面傳播,不知道數據流向,有人上傳了自己的行車記錄器被媒體轉發,你甚至很難得知自己的資料有沒有被複製、重置或者誤用。」 Sophia 提到,目前市場上的痛點是如何辨識數據真實性、以及真實性可否被驗證等問題,「像是新聞業者收到市民提供的資料,但不知道他是否是真的。」
有鑑於此,Numbers 希望從源頭就可以保證數據的完整性,並找回大家對數據的信心。他們預計於 2020 年 4 月推出可以即時紀錄數據、追蹤數據來源以及驗證數據真實性的 APP:真相快門(Capture)。
「我們以分散式儲存系統以及區塊鏈、AI 等技術,保存數據的完整性,」Sophia 說,「分散式儲存系統確保數據被記錄的真實性,區塊鏈則是讓數據可以被溯源,而 AI 功能負責驗證數據是否經過竄改。」只要是使用真相快門產生的影像,都會出現 NDIA 驗證標章,以做為認證。
除此之外,真相快門也能紀錄按下快門時的環境數據,同時,也紀錄拍攝的手機、相機等硬體型號,如果是翻拍的或是複製的,便會特別標示出來。目前有幾家國際主流媒體、戰地記者、獨立攝影師與證據保存相關非營利組織正使用 Numbers 推出的服務。
(數據足跡追蹤系統。來源:Numbers )
(數據足跡追蹤系統。來源:Numbers

除了可以驗證,數據還要可被追蹤!

使用真相快門時,被放上區塊鏈的並不是影像或數據本身,「而是一段 hash(雜湊值,一種設計可用於快速查找資訊的目錄函數),他就好像這個數據的地址一樣,而透過這個地址,就可以找到原數據。」Sophia 說,這使 Numbers 由真相快門產生的數位內容,會在內容產生時獲得「NDIA(Numbers Data Integrity Assurance)」標章,就像有機食品的認證標章,讓內容閱讀者可以在接收內容的同時獲得資料完整性的保證,同時,也可以保護資料創作者的智慧財產權及隱私。
「因為我們就是數據的產製者,」Sophia 說,數據的完整性除了溯源以外,我們也需要知道自己數據的去向。「我們現在沒辦法追蹤自己的資訊被用到哪裡去、也收不回來;那些數據管理平台提出使用數據要求時,都硬要使用者要按下『同意』,才能使用這個平台的服務。」Tammy 表示,儘管數據使用者會徵詢同意權,使用範圍卻很難被界定。
相對於社群平台,有些完全被禁止使用的數據,卻可能對社會大有助益,「像個人的醫療數據是的保存是很嚴謹的,不能外流,但醫療資料可能可以幫助藥物開發,對社會有助益。」Tammy 說,目前的數據使用非常極端,不是完全限制,就是在生產者不知情的情況下,被任意使用。Numbers 希望藉由這項服務的推廣,讓更多人理解數據完整性的重要。
(使用真相快門紀錄。來源:Numbers )
(使用真相快門紀錄。來源:Numbers

帶回海外使用需求經驗 盼台灣產業一起打造健康數據生態圈

Numbers 過去主要與歐美的業者合作,今年才開始與台灣的廠商接洽,目前主要產品「真相快門」的商業模式分為 B2B 與 B2C 兩種,2B 端主要與媒體產業合作,提供 Capture SDK,收取 License fee,以專案形式協助導入分散式數據儲存系統(Decentralized storage)與後臺資料驗證功能,並收取後兩者之維護年費;而 B2C 初始階段將為免費服務,用戶每月可免費註冊 100 張照片,進階付費使用者將提供更多的分散式儲存空間及驗證服務。
「目前的客戶多是以專案的方式合作,未來希望可以訂定出標準的年費收費方式;至於一般民眾,則是提供定量的影像數據保存空間,若需要更多服務,則會額外收費。」Sophia 說,除此之外,她也提到,與國外戰地記者合作,可搜集到更多團隊原本不知道的知識,透過他們比較廣泛且多元的記者採訪狀態,如:從戰地到亞馬遜雨林,這對於團隊快速成長、收斂產品及服務的幫助很大。
至於歐美與台灣兩邊生態的差異,Sophia 表示:「歐美的情況是需要自己舉證,所以對這一塊的需求會比較強烈;台灣的狀況是由公家機關完成,對於公家單位比較信任。」因此在尋找台灣的合作廠商時,除了有大量需求的媒體業以外,Numbers 也考慮與需要舉證的保險業合作。
儘管歐美與台灣的生態有所差異,但國外的經驗讓 Numbers 獲益匪淺,「他們的記者拍攝的題材較廣泛,從戰地到雅馬遜森林等等,對於理解使用需求是非常大的幫助;再來是技術上,他們優一些使用規範與流程,所以在銜接上較容易。」Tammy 分享。
針對假資訊的種種痛點,Numbers 跨出了第一步,希望可以持數據完整性與可溯源、可驗證,「但未來我們的終極目標,是我們可以掌握個人數據的運用。」Sophia 補充說道。

創業快問快答

Q:就目前市場狀況,您認為貴公司服務的競爭優勢為何?
假資訊氾濫是近五年來的熱門議題,大部分的解決方案都是從下游(即已被產製出的假資訊)往上追查,就我們所知,目前所有對抗假資訊的解決方案仍然都是以人工追查資訊來源,或比對資料庫來確認,不但耗時,也需要很多人力維護並做資料建置。我們希望能從上游 (即資料被產製的同時)就確保它的完整性被保存,讓資料在持續往下游散播時能夠輕易被溯源。
目前國內外尚未有完整、成熟的解決方案,早期進入市場及擁有堅強的技術團隊是我們的競爭優勢。
Q:長遠來看,公司想成為一家何種類型的公司?下一步的目標是什麼?你們如何完成?
「開放、透明、自律自治」是 Numbers 對數據世界的願景,如上題所述,假資訊是我們第一階段想解決的問題,我們最終的目標是希望能夠找回大眾對網路資訊的信任,並透過數據溯源的機制與認證,建立完整且公平的數據經濟生態鏈。 下一步的目標將是推出「NDIA(Numbers Data Integrity Assurance)」標章,並將「資料溯源」的概念推向大眾,讓大眾除了培養自身的媒體識讀能力外,也有好的工具與能夠信賴的標章可以選擇。
Q:創業至今,做得最好的 3 件事為何? 1. 對內採取透明且共治的文化,滾動修正制度來保持效率 2. 對外只要可以就盡可能幫忙投資人或商業夥伴,建立互助互信的關係 3. 聆聽市場的聲音,但堅持產品理念
全文轉載自數位時代,原文標題:如何擊破假新聞?Numbers 推出「真相快門」以區塊鏈技術確保數據完整性
「社企流網站集資計畫」需要你的支持,為社會創造更多可能! →馬上支持

想要讓家鄉變得更好,卻不知道從何開始嗎?來看《社區自造家:第一次做社區營造就上手》專題,以移居者、返鄉者及師生團隊 3 種角色切入,帶你一探社造心法,齊心創造永續共好的生活環境! >>>看專題

文章標籤