語料1為譚松波教授整理的中文情感挖掘語料-ChnSentiCorp
說明:譚松波收集整理了一個較大規模的酒店評論語料語料規模為10000篇語料從攜程網上自動採集,並經過整理而成。
語料2為手機購買評論正負情感語料
說明:共正負各5000筆。
語料3為水果購買評論正負情感語料
說明:共正負各1000筆。
語料4為洗髮精購買評論正負情感語料
說明:共正負各1000筆。
使用word2vec訓練其他語料,維度為300維,CBOW mode、window_size=10、min_count=5。
語料:
使用ChnSentiCorp正負各3000筆資料,合併句子、移除重複句子、簡轉繁(opencc)、分詞(jieba)、刪除長度大於30個詞的句子、打亂順序(Shuffle)、負正各取3000筆合併。
sentiment_2_daat:格式為負評3000筆,正評3000筆共6000筆,以'\n'隔開,每筆資料格式為長度小於等於30的字,以' '隔開。
sentiment_2_daat轉成list後依word2vec模型轉換成vec,存成shape=(6000,30,300)的矩陣,作為feature。另外創建shape=(6000)的矩陣,前3000筆為0、後3000筆為1,作為label。
4層LSTM、1層affine(linear)、1層affine(linear) relu、輸出層softmax、使用MSEloss(沒有用Cross_entropy)、hidden_number=100,batch=400,epoch=200。