Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

用金庸15部小说训练 #99

Open
yangjianxin1 opened this issue Nov 13, 2019 · 12 comments
Open

用金庸15部小说训练 #99

yangjianxin1 opened this issue Nov 13, 2019 · 12 comments

Comments

@yangjianxin1
Copy link

使用金庸15部小说训练了30个epoch,生成了几个sample

运行的命令如下:
python train_single.py --raw_data_path preprocessor/train_jinyong.json --epochs 30
--output_dir model_path/ --raw --device 0,2 --batch_size 6

就效果来说,差强人意,看了一下train_single.py的代码,貌似我忘记添加中文分词了,是不是应该加上---tokenizer_path cache/vocab_seg.txt --segment参数,效果会更好?

或者说训练时,设置参数,有没有其他需要注意的地方,非常感谢

SAMPLE 1 :
天窗中射进来的日光已渐黯淡,时近黄昏,不但郭靖胸口舒畅得多,连黄蓉也大感神清气爽。
小龙女问道:“过儿,你伤势怎样?”杨过道:“不知道。”小龙女道:“伤势不重,又怎会痊愈?只怕更增风寒。”杨过叹了口气,道:“不知什么时候,咱们日子倘若不在,那就再也不在世了。”小龙女道:“这个我就不能永远,那就更好。”隔了一会,问道:“那你为什么会气闷?”
杨过凄然道:“咱俩就只会想到外面去瞧瞧,虽然路上风景好,但花光多些,想来到了一点端倪,总是烦恼。”小龙女道:“那时还只盼他老是想来,因此没再能见到你。”杨过道:“不,我就是想到你身边的花花。”小龙女道:“那时候他老是想出来了,要你多休息一会,再过一会,我就在这石堆中睡一会。”
杨过道:“你不知道为什么又来苦了?我想这一生一世,到外面来发愁,只怕有什么用?只有像你这样,才会厌烦。”小龙女道:“你要是盼望我陪着你,我一个人也在这里陪你。”
杨过听到这里,胸口热血上涌,大感困倦,道:“咱们就在这儿一块儿玩罢。”小龙女道:“你不用心思念我,我就是想不出去啦。”杨过道:“你在这儿陪伴我一会,我陪着你说话。”小龙女道:“好。”

杨过见她眼中泪水盈眶,胸襟豁达,忍不住便要掉下泪来,心想:“她虽然痴情,却是个天真无邪的傻女子。那么我一个傻傻瓜,

SAMPLE 2 :
天窗中射进来的日光已渐黯淡,时近黄昏,不但郭靖胸口舒畅得多,连黄蓉也大感神清气爽。
那日在大校场上,一行人抬到台上,黄蓉拿到烛台旁去拜祭,叫道:“爹,我来见你。”郭靖道:“你一直记着我,要等我烧了你来生回去。”黄蓉道:“不,我只好跟你一起去。你一个人这么好,别叫我黄岛主给你烧了。”郭靖道:“我不叫一声?你怕。黄岛主去了十多年,你千万别跟我说。”黄蓉道:“我要打架,你一辈子却不知道。大哥,你一定也给我烧了。我不叫一声爹爹,你永远不能跟我说。”郭靖道:“我也不叫。我不叫。”黄蓉道:“你去哪里?我要去哪里?”
郭靖听她这般说,不由得痴了,想起她常叫“蓉儿”,又不想要紧了,说道:“我陪你去。”黄蓉道:“你去哪里?”郭靖道:“我不去。”黄蓉道:“你要跟我说,只要你永远陪着我,我永远听你的话。”郭靖道:“我要永远陪着你,永远陪着你。”黄蓉叹道:“我不听你的话。”心下感动,握住她的双手,柔声道:“我不去。”
郭靖听黄蓉说到“你不说”两字,心中大动,又道:“大哥哥,多谢你一次。”说了这句话,突然眼眶儿红了,伸出了小手,道:“我跟你说这个话。”郭靖一愕,道:“大哥,到底你是谁?”黄蓉摇头道:“你不听话,我说不是。我不知道。”郭靖道:“我说过要跟着你。”黄蓉大喜,但想此时两人相见,相见

@Morizeyao
Copy link
Owner

小说的话我觉得不需要分词吧,训练到最后loss多少?生成的话可以调节temperature,topp,topk,repetition_penalty参数,尝试不同的参数得到的不同效果

@yangjianxin1
Copy link
Author

@Morizeyao 最后loss是1.0到1.2左右,我再尝试一下调参数

@Morizeyao
Copy link
Owner

这个loss挺好的,可以调一下生成参数看看

@yangjianxin1
Copy link
Author

@Morizeyao 好的,非常感谢,我调一下

@Barnett8023
Copy link

您好 小說整体的json文件是怎么生成的 ?

@uuleaf
Copy link

uuleaf commented Feb 23, 2020

老师用多大的显卡训练的

@Charon922
Copy link

您好 小說整体的json文件是怎么生成的 ?

@luyi404
Copy link

luyi404 commented Jul 27, 2020

请问你的json文件的格式是怎么样的

@xuxiaoyaoo
Copy link

多本小说训练是一次训练一本吗,还是放一起?放一起太大了,训练不动。。。,要加什么参数吗分开训练

@Lyccl
Copy link

Lyccl commented Jul 28, 2021

我也想问json文件的格式是怎样的

@xuxiaoyaoo
Copy link

xuxiaoyaoo commented Jul 28, 2021 via email

@Dinxin
Copy link

Dinxin commented Aug 11, 2022

请问一下,金庸15部小说的语料,是从哪里获取的呢?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

9 participants