發表文章

目前顯示的是 5月, 2015的文章

text mining -ptt 笨版

圖片
原文來自於: http://rstudio-pubs-static.s3.amazonaws.com/12422_b2b48bb2da7942acaca5ace45bd8c60c.html ==================================================================== 用R進行中文 text Mining 作者: 陳嘉葳 國立高雄大學資管所 Kaohsiung useR! Meetup Taiwan R User Group 本文使用的分析方法,目前僅能在Windows上測試成功。 簡介 現今網路上有大量文字資料,例如 ptt, facebook, 或 mobile01等討論網站上都有大量文字留言, 由於這些資料繁多雜亂, 我們可藉由文字探勘技術萃取出有用的訊息, 讓人們有效率掌握這些網路文字所提供的訊息。而R語言是一款非常適合資料分析的工具,有一系列文字探勘的套件可供使用,本文將簡單介紹中文文字探勘套件的 使用方法。 安裝需要工具 我的環境: Windows 7 + R 版本 2.15.3 + RStudio 0.98.484 安裝以下套件 install.packages ( "rJava" ) install.packages ( "Rwordseg" , repos = "http://R-Forge.R-project.org" ) install.packages ( "tm" ) install.packages ( "tmcn" , repos = "http://R-Forge.R-project.org" , type = "source" ) install.packages ( "wordcloud" ) install.packages ( "XML" ) install.packages ( "RCurl" ) Windows上安裝rJava的注意事項: 將jvm.dll加到環境變數PATH之中 注意java的版本(32-...