職稱 : 教育研究所助理教授
學歷 : 國立成功大學統計博士
專長 : 巨量資料探勘、網路社群資料分析、統計方法
分享話語: 比起大自然的力量,人的力量微不足道; 尊重自然,還山河於天地。
Leo-System 主題模式運作方式
By Leo Lin 林億雄
1. 首先,使用Leo-SQuirreL派出網路爬蟲蜘蛛機器人前往目標網站收集資料。
2. 透過大批文件進行訓練學習,使用Leo-Say斷字系統進行關鍵字分解。(圖一)
3. 使用主題模式(Topic Models)進行文件與主題分類。(圖二)
4. 不斷地,運用人工智慧與演算法讓機器學習目標網站的習慣性用語等。
5. 使用主題模式(Topic Models)進行生成文件類目標網站。(圖三)
> r_stats[120:125]
[[1]][1] "akadwar: RT @travel: Infinity pool, Santorini, Greece https://t.co/vOalswHXgw
[[2]][1] "LivvvHoff: RT @travel: hotel airplane, traffic, Greece https://t.co/vOalswHXgw"
[[3]][1] "sarah_chamberln: RT @travel: Bastei Bridge, Germany https://t.co/DXT4hiMh8y"
[[4]][1] "Raditya_AriW: RT @travel: Infinity pool, Santorini, Greece https://t.co/vOalswHXgw"
[[5]][1] "Raditya_AriW: RT @travel: #BucketList https://t.co/3H3BdOOEZO"
[[6]][1] "Raditya_AriW: RT @travel: Doksum iron bridge, Bhutan https://t.co/SRNIPJLJhB"
圖一: Leo-SQuirreL派出網路爬蟲蜘蛛機器人前往目標網站收集資料,及中文斷詞分析
> Terms = terms(my_TM[["VEM"]], 5);
|
圖二: 使用主題模式(Topic Models)進行文件與主題分類
圖三:文字雲圖的關鍵字可用於生成新文件