《本文節錄自本書 1.2 節、5.3 節、4.4 節》
目前資料正以爆發性的速度持續增長當中。根據IDC(國際數據資訊)的推測,2020年全球生成、取得與複製的資料總量為64 ZB,而且未來至少 5年內,都將持續以每年23% 的速度增加。主要原因包括網路的普及、智慧型手機等個人裝置普及、運用使用者資料的 Web 服務增加,以及感測器與通訊成本降低。
〈影片資料與基因資料的快速增長〉
這些資料包括由個人、企業與研究活動所產生的資料,類型則包含文字、語音、影像、影片、感測器與 GPS 活動紀錄等。其中資料量增加最顯著的領域,則是「影片資料」與「基因資料」。
以影片資料來說,HD(高畫質)網路攝影機在本書執筆時,售價還不到 1,000 日圓。智慧型手機搭載的攝影機,性能已經可以媲美、甚至是超越傳統數位單眼相機等高性能相機,每天都有許多人不斷地在拍照。至於基因資料,目前讀取人類基因體的機器——基因體定序儀(genome sequencer),完成單次讀取的價格也正在急速下降。舉例來說,2001 年執行人類基因體計畫(Human Genome Project)時,一共歷經了十多年,耗資 27 億美元,才終於完成人類基因體的最終定序;但現在只要不到 1 小時就可以完成,價格還低於 100 美元。
〈以大量的訓練資料為基礎〉
不論是磁碟還是快閃記憶體,累積資料的儲存費用都越來越便宜了。而且如前所述,雲端的出現也讓我們能夠省去不必要的初期投資,輕鬆、安全地累積大量資料。加上自從人們發現資料本身即可創造價值之後,就陸續出現了許多可以免費儲存資料的服務。這些轉變都使我們得以利用大量且多樣化的資料來訓練機器學習的模型,再驗證訓練完的模型。
但深度學習能達到目前的發展,還是多虧了 ImageNet 收集數百萬張影像,並為其中一百萬張加上標籤。ImageNet 同樣是抱持著「大量資料比技術更能推動研究發展」的信念建立而成。目前機器學習的開發/研究中有一種「成功模式」:只要先將模型調整為「增加訓練資料,即可提升準確率」的狀態,再持續增加訓練資料,便能解決問題。