唐诗生成器

article/2025/9/9 8:23:50

使用唐诗语料库,经过去噪预处理、分词、生成搭配、生成主题等过程,生成唐诗。

csdn下载地址:http://download.csdn.net/detail/lijiancheng0614/9840952
github上repository地址:https://github.com/lijiancheng0614/poem_generator

环境

  • Python 2.7

  • Flask

  • jieba

运行方法

如果是第一次运行,则需要安装相关的库及生成初始数据:

pip install flask
pip install jieba
python preprocess.py
python get_collocations.py
python get_topic.py
python get_start_words.py

以后只需要输入以下代码即可运行网站:

python index.py

实现

预处理

观察到给定的唐诗语料库存在以下噪声:

  • 诗句中出现类似<img height=32 width=32 border=0 src=/bzk/QLXQ.bmp >的HTML标签。

  • 出现空格、“.”等字符。

  • 诗句中出现注释,用“(”、“)”标出来。

  • 诗句不完整,出现方框字符。

对于前三种情况的噪声,直接去掉即可。对于最后一种噪声,直接把这行诗句忽略考虑。(此外,对于第三种噪声,“(”、“)”不在同一行时未处理。)

由于暂时只需要用到唐诗标题和诗句,故只提取这两部分内容。

相关代码实现在preprocess.py

输入:

  • .\data\唐诗语料库.txt

输出:

  • .\data\poem.txt

分词

对于中文分词,这里采用在工业界上较广泛应用的“结巴”中文分词组件1。该分词组件主要采用以下算法:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG);采用动态规划查找最大概率路径,找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

由于唐诗中的每一个字基本都是有用的,故停用词(Stop Words)主要为标点符号,这里直接使用默认的停用词。

生成搭配

搭配包括横向搭配和纵向搭配。横向搭配指每句诗中每个词与下一个词的搭配关系,纵向搭配指每两句诗中,第一句诗中的词与下一句诗中对应相等长度的词的搭配关系。

分词之后把唐诗(不含标题)按句子切割,对句子总数为偶数的唐诗,遍历每两句诗,第一句诗中的词与第二句诗中对应相等长度的词形成一个纵向搭配。对每一句诗,每两个词形成一个横向搭配。

易知,使用似然比、频率、t检验等搭配发现方法都能得到较好结果,这里为了方便,直接使用频率来发现搭配。

相关代码实现在get_collocations.py

输入:

  • .\data\poem.txt

输出:

  • 横向搭配.\data\collocations_h
  • 纵向搭配.\data\collocations_v

生成主题

对每首诗,提取TF-IDF2特征并构建矩阵3,然后使用非负矩阵分解(Non-negative matrix factorization, NMF)45提取唐诗主题类别。考虑到唐诗分类数量有限,这里只生成10个类,每个类用频率最高的20个词来表示。

相关代码实现在get_topic.py

输入:

  • .\data\poem.txt

输出:

  • 主题.\data\topics.txt
  • .\data\words
  • 每个主题-词对应的得分.\data\topic_words

生成起始词

对每首诗,分词后取第一句诗的第一个词作为起始词。统计所有起始词,并输出出现超过两次的词。

相关代码实现在get_start_words.py

输入:

  • .\data\poem.txt

输出:

  • 起始词.\data\start_words.txt

生成唐诗

由于前期并没有平仄处理,也没有对唐诗语料库作过多的要求,因此,生成的唐诗可能对仗不太工整。

输入的参数除了上述生成的部分文件(如搭配、主题等)外,还需要指定诗句数量、诗句长度、主题和起始词(若不指定则随机产生)。

对于给定诗句长度 l , 起始词start_word和主题 topic_id ,设 a[i] 为第 i 个词的id,我们可以把产生第一句诗抽象成一个子问题:

maxs.t.i=2ncollocations_h_score[a[i1]][a[i]]+λi=1ntopic_word[topic_id][a[i]]i=1nlen(word[a[i]])=la[1]=start_word

其中 collocations_h_score[a[i1]][a[i]] 表示第 i1 个词与第 i 个词的横向搭配分数,λ为平衡参数。若以上问题的最优解为 a[i] ,那么所生成的较为合理的第一句诗即 word[1],word[2],,word[n]

显然,对于该问题,可以把目标函数中的乘积部分用 log 来使其变成求和。于是该问题可以用动态规划来求解:

f[i][j] 表示长度为 i ,最后一个单词id为j的最大目标函数值,则

f[i][j]=max{f[ilen(word[j])][k]+log_collocations_h_score[k][j]}+λtopic_word[j]

其中 (k,j) 为一个横向搭配。

初始时 f[len(start_word_id)][start_word_id]=λtopic_word[start_word_id]

最后最优值为 f[l][j],j ,路径可通过与f f 同大小的矩阵prepre来记录前一个单词的id。

而产生下一句诗,则需要考虑纵向搭配。同理我们也可以把产生下一句诗抽象成一个子问题:

\begin{array}{cl} \max & \prod_{i = 2}^n collocations\_h\_score[a[i - 1]][a[i]] \\ & + \lambda_1 \prod_{i = 1}^n collocations\_v\_score[pre\_a[i]][a[i]] \\ & + \lambda_2 \sum_{i = 1}^n topic\_word[topic\_id][a[i]] \\ \text{s.t.} & len(word[a[i]]) = len(word[pre\_a[i]]), i = 1, \cdots, n \end{array}

maxs.t.i=2ncollocations_h_score[a[i1]][a[i]]+λ1i=1ncollocations_v_score[pre_a[i]][a[i]]+λ2i=1ntopic_word[topic_id][a[i]]len(word[a[i]])=len(word[pre_a[i]]),i=1,,n

其中 pre_a[i] 表示上一句诗的第 i 个词的id,collocations_v_score[pre_a[i]][a[i]]表示上一句诗第 i 个词与这一句诗第i个词的纵向搭配分数, λ1,λ2 均为平衡参数。同理也用动态规划来求解:

f[i][j] 表示第 i 个词,最后一个单词id为j的最大目标函数值,则

f[i][j]=max{f[i1][k]+log_collocations_h_score[k][j]+λ1log_collocations_v_score[pre_a[i]][j]}+λ2topic_word[j]

其中 (k,j) 为一个横向搭配, (pre_a[i],j) 为一个纵向搭配。

初始时 f[0][j]=max{λ1log_collocations_v_score[pre_a[i]][j]}+λ2topic_word[j]

求最优值与最优解方法同上。

相关代码实现在generate_poem.py

输入:

  • .\data\collocations_v
  • .\data\collocations_h
  • .\data\words.txt
  • .\data\topic_words
  • .\data\start_words.txt

输出:

  • 屏幕中输出随机生成的唐诗。

实现网站

为了更好的用户体验,可以把随机和成的唐诗写成一个网站“古诗生成器”。若是用户没有输入,则随机生成唐诗;若是用户输入第一句诗或更多句诗,则生成剩下的诗。

具体的实现使用Flask框架,由于只是demo,只使用了bootstrap作为样式,并未过多设计,具体效果如下图所示。

随机生成唐诗
给定第一句生成唐诗

总结与展望

总的来说,这个系统生成的唐诗还只是基本符合搭配和主题尽可能相关的要求,平仄、主旨等唐诗的属性还有待改进。今后可以考虑生成更精确、更有意义的唐诗,如文献6提供了一种解决方案。期待以后能做出更好的效果!

参考


  1. “结巴”中文分词. https://github.com/fxsjy/jieba ↩
  2. TF-IDF. 维基百科. 最后修订于2015年9月27日. https://zh.wikipedia.org/wiki/TF-IDF ↩
  3. sklearn.feature_extraction.text.TfidfTransformer. scikit-learn developers. http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html ↩
  4. Non-negative matrix factorization. Wikipedia. 最后修订于2015年12月1日. https://en.wikipedia.org/wiki/Non-negative_matrix_factorization ↩
  5. sklearn.decomposition.NMF. scikit-learn developers. http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.NMF.html ↩
  6. He J, Zhou M, Jiang L. Generating chinese classical poems with statistical machine translation models[C]//Twenty-Sixth AAAI Conference on Artificial Intelligence. 2012. ↩

http://chatgpt.dhexx.cn/article/dEyIeWwY.shtml

相关文章

JQuery中的val()函数

JQuery中的val()函数相当于Javascript中的value属性&#xff0c;可以用来设置和获取元素的值。 下面用一个简单的邮箱登陆界面来举个例子&#xff1a; 在默认情况下邮箱的地址输入框和密码输入框都有相应的提示。 要求&#xff1a;当鼠标聚焦在邮箱地址输入框时&#xff0c;提…

【Python】sklearn中的cross_val_score()函数参数

sklearn 中的cross_val_score函数可以用来进行交叉验证&#xff0c;因此十分常用&#xff0c;这里介绍这个函数的参数含义。 sklearn.cross_validation.cross_val_score(estimator, X, yNone, scoringNone, cvNone, n_jobs1, verbose0, fit_paramsNone, pre_dispatch‘2*n_job…

sklearn交叉验证函数cross_val_score用法及参数解释

文章目录 一 、使用示例二、参数含义三、常见的scoring取值1.分类、回归和聚类scoring参数选择2.f1_micro和f1_macro区别3.负均方误差和均方误差 一 、使用示例 import numpy as np from sklearn.model_selection import train_test_split from sklearn import svm from sklea…

java val_Java中是否有val()函数?

慕尼黑的夜晚无繁华 很少有实际用例能够评估String作为Java代码的一个片段是必要的或可取的。也就是说&#xff0c;询问如何做到这一点实际上是XY问题&#xff1a;你实际上有一个不同的问题&#xff0c;可以用不同的方法来解决。先问问自己&#xff0c;这是怎么回事String你想要…

c语言val函数用法,函数VAL()什么意思怎么用啊?/

满意答案 Dickyshe 2013.03.22 采纳率&#xff1a;50% 等级&#xff1a;12 已帮助&#xff1a;12551人 将一个数据行变量转换成数字长整型变量如 text1.text "10" text2.text "11" text3.text text1.texttext2.text 按道理应该得到10&#xff0b;11(…

mysql中val是什么意思_val是什么函数

val是将由数字符号组成的字符型数据转换成相应的数值型数据的函数&#xff0c;其语法是“Val(S,V,Code)”&#xff0c;若字符串内出现非数字字符&#xff0c;那么只转换非数字字符前面的部分&#xff1b;若字符串的首字符不是数字符号&#xff0c;则返回数值零&#xff0c;但忽…

抽象方法的访问修饰符

抽象方法不能使用private修饰符&#xff0c;也不宜使用默认修饰符&#xff08;default&#xff09; &#xff08;1&#xff09;如果使用private修饰符 public abstract class SuperClass {/** The abstract method test in type SuperClass can only set a visibility modifi…

Java之访问修饰符

1.访问修饰符 java提供四种访问修饰符&#xff0c;用于控制方法和属性&#xff08;成员变量&#xff09;的访问权限 四种分别是 公开级别&#xff1a;public&#xff0c;对外公开 受保护级别&#xff1a;protected&#xff0c;对子类和同一个包的类公开 默认级别&#xff…

Java-访问修饰符

目录 一、private(私有权限) 二、default(默认权限) 三、protected(受保护权限) ​四、public(公共权限) 五、总结 示意图 private(default)protectedpublic本类YesYesYesYes同包的类NoYesYesYes不同包的父子关系NoNoYesYes不同包的非父子关系NoNoNoYes 注意点&#xf…

C# 的访问修饰符

访问修饰符的作用域分为三种&#xff1a; 类的访问修饰符方法的访问修饰符属性的访问修饰符 访问修饰符主要分为&#xff1a; public (公共的)protected (保护的)internal (内部的)private (私有的) 一&#xff0c;类的访问修饰符 默认的是 internal 二&#xff0c;方法的…

c# 访问修饰符

C# 中提供了 6 种访问修饰符&#xff1a;public、private、protected、internal、protected internal、private protected。   访问修饰符 在所有的类型和类型成员中都具有可访问性级别&#xff0c;用于控制是否可以从程序集或其他程序集中对其他代码的访问控制。 访问修饰符…

访问控制修饰符

定义理解 对类、变量、方法、接口的访问范围限制。一.类修饰符 1.直接声明 class 类名{ }&#xff0c;即不加修饰符的时候 这种情况下&#xff0c;只可访问同一包中的类&#xff0c;不可访问不同包中的类。2.public&#xff0c;公共类的修饰符 这种情况下&#xff0c;既可访…

Java访问修饰符全面详细介绍

Java中有四种权限修饰符&#xff0c;其在同一项目中所对应的访问权限如下&#xff1a; 注意:默认不写即是default&#xff0c;而不是自己还特意加上default关键字。 Java语言有4种访问权限修饰符&#xff0c;下面按照权限从小到大的顺序对4种访问权限分别介绍&#xff1a; 1、…

Java基础:Java中四种访问修饰符

一、背景。 这篇文章主要介绍了Java中四种访问修饰符详细教程,本文通过图文并茂的形式给大家介绍的非常详细&#xff0c;对大家的学习或工作具有一定的参考借鉴价值&#xff0c;需要的朋友可以参考下。放假在家里休息&#xff0c;闲来无事&#xff0c;想巩固巩固自己的基础知识…

C#的5种访问修饰符

C#的5种访问修饰符 1、public 公共的 public 允许一个类将其成员变量和成员函数暴露给其他的函数和对象。任何公有成员都可以被外部的类访问。 class Person {public string name;public int age;public void SayHello(){Console.WriteLine("大家好&#xff0c;我叫{0}&a…

C#访问修饰符

C#中的访问修饰符有以下六种&#xff1a; public&#xff1a;同一程序集和和引用该程序集的所有代码都可访问。public成员可访问级别由该类型本身的级别决定。private&#xff1a;只有同一类中的成员可以访问protected&#xff1a;同一类和派生类中的代码可以访问internal&…

java的四个访问修饰符_Java中的四种访问修饰符

Java中修饰符分为两种&#xff1a;访问修饰符和非访问修饰符。修饰符中&#xff0c;有一些修饰符可以既可以修饰类&#xff0c;也可以修饰方法&#xff0c;但是有一些修饰符只能修饰符方法。 今天这篇文章先介绍一下四种访问修饰符。 1、private修饰符 private表示私有的。既然…

四种访问修饰符详解

有四种访问修饰符规定了定义的属性和方法能访问的区域 private关键字 用private关键字修饰的属性和方法只能在该类的大括号内访问&#xff0c;出了这个类就不能被访问了。当一个子类继承一个父类的属性和方法时&#xff0c;若父类的属性或方法被private修饰&#xff0c;那么子…

Java中的访问修饰符

JAVA中的访问修饰符&#xff0c;主要用于设置类、属性、方法的访问级别&#xff0c;有以下四种&#xff1a; 在编写代码的时候&#xff0c;如果没有特殊的考虑&#xff0c;建议这样使用权限&#xff1a; 成员变量使用private&#xff0c;隐藏细节构造方法使用public&#xff0…