最全中华古诗词数据库:chinese-poetry项目介绍

最全中华古诗词数据库:chinese-poetry项目介绍

技术背景

古诗是中华民族乃至全世界的瑰宝,但大多数人并没有拥有古典文集书籍,这些庞大的文集与大众有一定距离。为了更好地传承古诗文化,同时方便开发者构建诗词类应用程序,chinese-poetry这个开源数据库应运而生。该项目致力于提供最全的中华古典文集数据库,让更多人能够接触和使用这些珍贵的文化资源。

实现步骤

数据采集

由于古诗数据庞大,且目标网站有限制,采集过程经常中断,耗时超过一个星期。2017 年新加入全宋词,并记录了全宋词的爬取过程及数据分析。不过,古诗采集没有详细记录整个过程。

数据分发

此数据库通过 JSON 格式分发,开发者可以很方便地获取数据并开始自己的项目。

核心代码

文档中未提及核心代码,但由于数据以 JSON 格式分发,在使用 Python 语言处理时,示例代码如下:

1
2
3
4
5
6
7
8
import json

# 假设 json 文件名为 poetry.json
with open('poetry.json', 'r', encoding='utf-8') as f:
data = json.load(f)

# 打印第一条数据
print(data[0])
PYTHON

最佳实践

数据分析

可以对诗词数据进行高频词分析、统计不同朝代诗人的作品数量等,如生成宋词受欢迎的词牌名、宋词高频词、唐诗高频词等分析图和排行榜。

应用开发

利用该数据库可以开发多种诗词类应用,例如:

  • 基于浏览器的诗词网站,如中文诗歌主页,包含唐诗三百首、宋词三百首等文集。
  • 离线全唐诗 Android 应用。
  • 基于深度学习的诗词生成应用,如基于 ERNIE - GEN(Transformer) 的深度学习诗词生成,可自行修改逻辑来生成多种诗词风格。

常见问题

数据加入问题

理论上古诗歌体非宗教类都欢迎加入数据库,但部分有争议性的数据需要社区投票讨论决定是否加入。关于诗句的纠错在创建 PR 时请标明出处。更多规范请参考贡献规范文档。

赞助问题

如果想赞助项目,可以通过 「爱发电赞助」 「Patreon 周期性赞助」 的形式持续帮助项目优化完善;也可以通过「支付宝」或者「微信赞赏码」进行一次性赞助(备注留下邮箱)。

建议反馈

如有建议或吐槽,可联系邮箱 gaojunqi@outlook.com


最全中华古诗词数据库:chinese-poetry项目介绍
https://119291.xyz/posts/chinese-poetry-project-introduction/
作者
ww
发布于
2025年5月21日
许可协议