情感分析

語料

語料1為譚松波教授整理的中文情感挖掘語料-ChnSentiCorp

說明：譚松波收集整理了一個較大規模的酒店評論語料語料規模為10000篇語料從攜程網上自動採集，並經過整理而成。

語料2為手機購買評論正負情感語料

說明：共正負各5000筆。

語料3為水果購買評論正負情感語料

說明：共正負各1000筆。

語料4為洗髮精購買評論正負情感語料

說明：共正負各1000筆。

訓練詞向量(train_word2vec)

使用word2vec訓練其他語料，維度為300維，CBOW mode、window_size=10、min_count=5。

語料:

DoubanConversaionCorpus、wiki

預處理情感資料(preprocessing)

使用ChnSentiCorp正負各3000筆資料，合併句子、移除重複句子、簡轉繁(opencc)、分詞(jieba)、刪除長度大於30個詞的句子、打亂順序(Shuffle)、負正各取3000筆合併。

sentiment_2_daat:格式為負評3000筆,正評3000筆共6000筆，以'\n'隔開，每筆資料格式為長度小於等於30的字,以' '隔開。

sentiment_2_daat轉成list後依word2vec模型轉換成vec，存成shape=(6000,30,300)的矩陣，作為feature。另外創建shape=(6000)的矩陣，前3000筆為0、後3000筆為1，作為label。

訓練情感分析模型(sentiment_analysis)

4層LSTM、1層affine(linear)、1層affine(linear) relu、輸出層softmax、使用MSEloss(沒有用Cross_entropy)、hidden_number=100，batch=400，epoch=200。

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
ML_utils		ML_utils
jieba_dict		jieba_dict
.gitattributes		.gitattributes
.gitignore		.gitignore
1552925592447.png		1552925592447.png
1552926193561.png		1552926193561.png
1552926217695.png		1552926217695.png
1552926271948.png		1552926271948.png
README.md		README.md
preprocessing.ipynb		preprocessing.ipynb
preprocessing.py		preprocessing.py
sentiment_analysis.ipynb		sentiment_analysis.ipynb
sentiment_analysis.py		sentiment_analysis.py
train_word2vec.py		train_word2vec.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

情感分析

語料

訓練詞向量(train_word2vec)

預處理情感資料(preprocessing)

訓練情感分析模型(sentiment_analysis)

About

Releases

Packages

Languages

jounjieli/ML_Sentiment_analysis

Folders and files

Latest commit

History

Repository files navigation

情感分析

語料

訓練詞向量(train_word2vec)

預處理情感資料(preprocessing)

訓練情感分析模型(sentiment_analysis)

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages