最全中华古诗词数据库:chinese-poetry项目介绍
最全中华古诗词数据库:chinese-poetry项目介绍
技术背景
古诗是中华民族乃至全世界的瑰宝,但大多数人并没有拥有古典文集书籍,这些庞大的文集与大众有一定距离。为了更好地传承古诗文化,同时方便开发者构建诗词类应用程序,chinese-poetry这个开源数据库应运而生。该项目致力于提供最全的中华古典文集数据库,让更多人能够接触和使用这些珍贵的文化资源。
实现步骤
数据采集
由于古诗数据庞大,且目标网站有限制,采集过程经常中断,耗时超过一个星期。2017 年新加入全宋词,并记录了全宋词的爬取过程及数据分析。不过,古诗采集没有详细记录整个过程。
数据分发
此数据库通过 JSON 格式分发,开发者可以很方便地获取数据并开始自己的项目。
核心代码
文档中未提及核心代码,但由于数据以 JSON 格式分发,在使用 Python 语言处理时,示例代码如下:
1 |
|
最佳实践
数据分析
可以对诗词数据进行高频词分析、统计不同朝代诗人的作品数量等,如生成宋词受欢迎的词牌名、宋词高频词、唐诗高频词等分析图和排行榜。
应用开发
利用该数据库可以开发多种诗词类应用,例如:
- 基于浏览器的诗词网站,如中文诗歌主页,包含唐诗三百首、宋词三百首等文集。
- 离线全唐诗 Android 应用。
- 基于深度学习的诗词生成应用,如基于 ERNIE - GEN(Transformer) 的深度学习诗词生成,可自行修改逻辑来生成多种诗词风格。
常见问题
数据加入问题
理论上古诗歌体非宗教类都欢迎加入数据库,但部分有争议性的数据需要社区投票讨论决定是否加入。关于诗句的纠错在创建 PR 时请标明出处。更多规范请参考贡献规范文档。
赞助问题
如果想赞助项目,可以通过 「爱发电赞助」 「Patreon 周期性赞助」 的形式持续帮助项目优化完善;也可以通过「支付宝」或者「微信赞赏码」进行一次性赞助(备注留下邮箱)。
建议反馈
如有建议或吐槽,可联系邮箱 gaojunqi@outlook.com。
最全中华古诗词数据库:chinese-poetry项目介绍
https://119291.xyz/posts/chinese-poetry-project-introduction/