序
「老公,我覺得好冷」、「用AA品牌化妝品,可以讓你美美地勝過姊妹淘」。你看懂這些文字背後的意義嗎?
大數據時代,社群媒體的興起,已經成為民眾生活中不可或缺的一個平台。舉凡個人的生活點滴,對於事物及政策的評價,為自我意識發聲等,政府機構、企業、甚至到新聞媒體的營銷,都希望藉由社群媒體這個平台「發聲」。每個人都是自己的新聞台,都是自己的「主人」,社群平台每天產生大量的文字訊息,每天光是流向社群網站Facebook與Twitter的資料量,就多達25億則發文、27億按讚數。大數據海嘯席捲而來,這些文章文字散布在各個地方,每天光速成長,數據既多,也雜亂,如何從「亂而無章」的文字信息中萃取出有價值的寶藏,是在這大量訊息的時代的重要課題。
隨著資料儲存技術的演進,Open Source工具的發達(如R語言),筆者分享利用文字探勘的技術,來實現語意分析。如晉‧陳壽《三國志‧魏志‧高貴鄉公傳》:「高貴鄉公卒」裴松之注引《漢晉春秋》:「司馬昭之心,路人所知也。」透過文字探勘的技術,找出文章語句中的司馬昭之心,是本書想要帶給讀者的價值。
本書由淺入深,以見樹又見林的方式撰寫:第一章先闡述語意分析及輿情分析的概念,讓讀者對於「語意」有初步的認識。第二章則是如何利用工具達成語意分析,講述的是工具軟體可實現性的介紹。最後一章,筆者利用了文字探勘的技術,包含文字特徵、相關、聚類、脈絡主題及情感分析的技術,以深入淺出的手法,搭配實際的案例(如:輿情掌控及危機處理、行銷與創新、商品及通路選擇、收視率預測等),讓這些技術有別於理論,而是可以落地應用,對於個人、政府及企業產生實際價值。
「老公,我覺得好冷」—透過語意分析,得知想要表達的是「需要溫暖」。「用AA品牌化妝品,可以讓你美美地勝過姊妹淘」—代表的是驕傲出眾。試想,將大量文字透過文字探勘技術的萃取,進而了解消費者的觀點(Insight)、文字背後的涵義、民眾對政策走向的觀感、事件發生的脈絡及關連性,還可以看到別人看不到的「隱意」,以及預先知道危機的產生。這種利用文字探勘產生深知及預知的能力,若是結合社會學及心理學的分析與觀察,對於消費者行為及事件的洞察,會產生意想不到的加乘效果。
你準備好了跟我一起進行這尋寶的旅程了嗎?讓我們一起遨遊,讓您「猜」透文字的奧秘,享受字字珠璣,點字成金的旅程。
臺北醫學大學 管理學院 院長
臺北醫學大學 大數據研究中心 主任
謝邦昌
IEG創新學院(深圳)
謝邦彥