Dd3757e61498f1c84d2ab1a3dfb48610
林億雄
Mail_replay
Qrcode
簡介:

職稱 : 教育研究所助理教授
學歷 : 國立成功大學統計博士
專長 : 巨量資料探勘、網路社群資料分析、統計方法

分享話語: 比起大自然的力量,人的力量微不足道; 尊重自然,還山河於天地。

Wait_for_sign_up 相簿專區
影音專區: 頻道統計圖表
SWF專區:
簡報專區:
作業專區:




主題模式文字探勘


Leo-System  主題模式運作方式

                                                                                                                    By Leo Lin 林億雄

1.          首先,使用Leo-SQuirreL派出網路爬蟲蜘蛛機器人前往目標網站收集資料。

2.          透過大批文件進行訓練學習,使用Leo-Say斷字系統進行關鍵字分解。(圖一)

3.          使用主題模式(Topic Models)進行文件與主題分類。(圖二)

4.          不斷地,運用人工智慧與演算法讓機器學習目標網站的習慣性用語等。

5.          使用主題模式(Topic Models)進行生成文件類目標網站。(圖三)

 

> r_stats[120:125]
[[1]][1] "akadwar: RT @travel: Infinity pool, Santorini, Greece https://t.co/vOalswHXgw
[[2]][1] "LivvvHoff: RT @travel: hotel airplane, traffic, Greece https://t.co/vOalswHXgw"
[[3]][1] "sarah_chamberln: RT @travel: Bastei Bridge, Germany https://t.co/DXT4hiMh8y"
[[4]][1] "Raditya_AriW: RT @travel: Infinity pool, Santorini, Greece https://t.co/vOalswHXgw"
[[5]][1] "Raditya_AriW: RT @travel: #BucketList https://t.co/3H3BdOOEZO"
[[6]][1] "Raditya_AriW: RT @travel: Doksum iron bridge, Bhutan https://t.co/SRNIPJLJhB"

圖一: Leo-SQuirreL派出網路爬蟲蜘蛛機器人前往目標網站收集資料,及中文斷詞分析

 

> Terms = terms(my_TM[["VEM"]], 5);

> Terms;

     Topic 1              Topic 2              Topic 3         

[1,] "travel"             "traffic"         "weather"    

[2,] "place"              "bus"              "spring"        

[3,] "france"             "airplane"        "wind" 

[4,] "itali"              "food"             "flower"      

[5,] "santorini"          "hotel"            "internet"

> gammaDF
    document    Topic1   Topic 2    Topic 3 
     120      0.3365209  0.3312331  0.3322460
     121      0.3365209  0.3312331  0.3322460
     122      0.3274779  0.3446406  0.3278815
     123      0.3365209  0.3312331  0.3322460
     124      0.3294296  0.3307402  0.3398302
     125      0.3384540  0.3357818  0.3257642

編號120號的文件可視為討論Topic1:0.3365Topic2:0.3312、Topic2:0.3322  

> toptopics
   document topic
      120     1  編號120號的文件,可以歸類為topic1:旅行地點相關討論文件  
      121     1   
      122    2  編號122號的文件,可以歸類為topic2:交通與飯店等討論文件   
      123     1   
      124    3  編號124號的文件,可以歸類為topic3:氣候網路與其他討論文件  
      125     1   

圖二: 使用主題模式(Topic Models)進行文件與主題分類

 

                                   圖三:文字雲圖的關鍵字可用於生成新文件