Chinaunix首页 | 论坛 | 博客

-

  • 博客访问: 4155382
  • 博文数量: 172
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1923
  • 用 户 组: 普通用户
  • 注册时间: 2018-12-20 14:57
文章分类
文章存档

2021年(19)

2020年(81)

2019年(68)

2018年(4)

我的朋友

分类: 敏捷开发

2019-01-30 10:28:07

集算器不仅有大数据计算,还有诗和远方。最近看到不少写诗机器人的新闻,于是尝试用集算器简单地实现一个。这个实现真的很简单,简单到只有10几行代码,请看实现步骤:

 

1下载字典和诗词

从网上找一个用于分词的字典文件,里面记录着每个中文词汇的词性。我从GitHub上找了一个,稍微处理之后保存到集文件dict.btx

下载宋词三百首的txt文件,去掉空格和换行,以及其它文字以外的字符,得到一个长字符串。

2训练

对上一步得到的长字符串进行分词,结果保存到集文件作为模板,实现代码如下:

 

A

B

C

1

=file("dict.btx").import@bi().keys(WORD).index()

   

2

=create(WORD,LEN,T)

   

3

宋词三百首宴山亭赵佶北行见杏花裁剪冰绡,轻叠数……

   

4

=len(A3)

>i=1

 

5

for (i<=A4)

>word3=A2.find(mid(A3,i,3) ), word2=A2.find(   mid(A3,i,2) ), word1=A2.find( mid(A3,i,1) )

 

6

 

if (word3!=null)

>A2.insert(0, word3.(WORD),3,word3.(T)), i=i+3

7

 

else if (word2!=null)

>A2.insert(0, word2.(WORD),2,word2.(T)), i=i+2

8

 

else if (word1!=null)

>A2.insert(0, word1.(WORD),1,word1.(T)), i=i+1

9

 

else

>i=i+1

10

=file("宋词模型.txt").export@t(A2)

   

A1读取字典文件,并且建立索引;

A2定义模板记录的数据结构,三个字段表示:词、长度、词性;

A5A9是循环处理,对A3进行分词,这里最长只处理三个字组成的词;

A10把结果保存;

这一步得到一个模板,内容是《宋词三百首》里所有文字的分词,以及这些分词的词性。

3创作

创作的原理是找一首宋词作为目标,得到它的每个分词,根据分词的长度和词性,从上一步的模板里随机找一个词进行替换。这里选择的是《水调歌头·明月几时有》,来看代码:

 

A

B

C

1

=file("宋词模型.txt").import@t()

   

2

=file("dict.btx").import@bi().keys(WORD).index()

   

3

明月几时有,把酒问青天。不知天上宫阙,今夕是何年。我欲乘风归去。惟恐琼楼玉宇,高处不胜寒,起舞弄清影,何似在人间。

   

4

=len(A3)

>str="", i=1, words=null

 

5

for (i<=A4)

>word3=A2.find(mid(A3,i,3)   ),word2=A2.find( mid(A3,i,2) ), word1=A2.find( mid(A3,i,1) )

 

6

 

if (word3!=null)

>words=A1.select(LEN==3&&   T==word3.(T) ), i=i+3, str=str+words(1+rand(words.len())).(WORD)

7

 

else if (word2!=null)

>words=A1.select(LEN==2&&   T==word2.(T) ), i=i+2, str=str+words(1+rand(words.len())).(WORD)

8

 

else if (word1!=null)

>words=A1.select(LEN==1&&   T==word1.(T) ), i=i+1, str=str+words(1+rand(words.len())).(WORD)

9

 

else

>str=str+mid(A3,i,1), i=i+1

10

>output(str)

   

运行结果如下,这些“作品”虽然存在语法错误,但还是有模有样的,总比我自己写的要好很多。

晚秋无奈送,伫立鹧鸪天。已成西下黄叶,春寒疏何处。我又花下离别。酒醒阳关萧萧,如许悲欢霜,初见年少影,谁曾在斜阳。

春寒何在喧,不解烟雨任。梳洗江上西风,明月怜此地。谁先水声惹起。相思洛阳晓色,几许不成魂,不应相迎竞,他未为梢头。

而今几度寄,相认问青天。催发江上蓬壶,黄昏发何处。别未御街可惜。轻吹江南那堪,先断闲来闲,相逢拘束影,任又在旧事。

昨夜无处应,不知阑珊处。映带楼上王孙,如今来有时。任更点点飘香。垂涎池塘秋千,到处望断天,酒醒衰草影,我尤把天涯。

选择一首发到朋友圈,居然得到不少点赞。

 

实现原理是同词性替换,根据这个还可以实现写唐诗的功能。如果对模板文件进一步调整,根据韵律和平仄优化词性,效果会更好。这就是属于人工智能的人工劳动了,需要专业知识和辛苦付出,不是一下可以达成的。

感兴趣的同学可以下载附件。

 

阅读(2362) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~