国内一位开发者在 GitHub 上开源的《文言文(古文)- 现代文平行语料》,基本涵盖了大部分经典古籍著作。
原始爬取的数据是篇章级对齐,经过脚本分句以及人工校对,形成共计约 96 万句对,source 下为文言文,target 下为现代文,文件内容按行对齐。
为此项目打分吧
[总分: 0 平均分: 0]
国内一位开发者在 GitHub 上开源的《文言文(古文)- 现代文平行语料》,基本涵盖了大部分经典古籍著作。
原始爬取的数据是篇章级对齐,经过脚本分句以及人工校对,形成共计约 96 万句对,source 下为文言文,target 下为现代文,文件内容按行对齐。