Skip to content

jounjieli/ML_Sentiment_analysis

Repository files navigation

情感分析

語料

語料1為譚松波教授整理的中文情感挖掘語料-ChnSentiCorp

說明:譚松波收集整理了一個較大規模的酒店評論語料語料規模為10000篇語料從攜程網上自動採集,並經過整理而成。

語料2為手機購買評論正負情感語料

說明:共正負各5000筆。

語料3為水果購買評論正負情感語料

說明:共正負各1000筆。

語料4為洗髮精購買評論正負情感語料

說明:共正負各1000筆。

訓練詞向量(train_word2vec)

使用word2vec訓練其他語料,維度為300維,CBOW mode、window_size=10、min_count=5。

語料:

DoubanConversaionCorpuswiki

預處理情感資料(preprocessing)

使用ChnSentiCorp正負各3000筆資料,合併句子、移除重複句子、簡轉繁(opencc)、分詞(jieba)、刪除長度大於30個詞的句子、打亂順序(Shuffle)、負正各取3000筆合併。

sentiment_2_daat:格式為負評3000筆,正評3000筆共6000筆,以'\n'隔開,每筆資料格式為長度小於等於30的字,以' '隔開。

sentiment_2_daat轉成list後依word2vec模型轉換成vec,存成shape=(6000,30,300)的矩陣,作為feature。另外創建shape=(6000)的矩陣,前3000筆為0、後3000筆為1,作為label。

訓練情感分析模型(sentiment_analysis)

4層LSTM、1層affine(linear)、1層affine(linear) relu、輸出層softmax、使用MSEloss(沒有用Cross_entropy)、hidden_number=100,batch=400,epoch=200。

1552925592447

1552926193561

1552926217695

1552926271948

About

NLP正負評論情感分析

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published