【Python】Markov text generator马尔科夫文字生成器-白红宇

【Python】Markov text generator马尔科夫文字生成器

阅读量：5080 次

发布时间：2019-06-12

本文共 2160 字，大约阅读时间需要 7 分钟。

　　遍历一段文字，统计每个字后面出现的字和其次数，当前一个字确定的时候，计算后一个字出现的百分比，用这个百分比作为文字生成器中后一个字出现的概率进行文字生成

1 from random import randint 2  3  4 def makeDict(text): 5     #替换换行符和引号 6     text = text.replace('\n', ' ') 7     text = text.replace('\“', '') 8     text = text.replace('\”', '') 9 10     punc = ['，', '。', '？', '；', ':', '!']11     for symbol in punc:12         text = text.replace(symbol, ' '+symbol+' ')13 14     words = [word for word in text if word != '']15 16     wordict = {}17     for i in range(1, len(text)):18         if words[i-1] not in wordict:19             wordict[words[i-1]] = {}20         if words[i] not in wordict[words[i-1]]:21             wordict[words[i-1]][words[i]] = 022         wordict[words[i-1]][words[i]] += 123 24     return wordict25 26 27 def wordLen(wordict):28     sum = 029     for key, value in wordict.items():30         sum += value31     return sum32 33 34 def retriveRandomWord(wordict):35     """36     感觉这个函数计算每个单词的机率的思路太帅了37     :param wordict:38     :return:39     """40     randindex = randint(1, wordLen(wordict))41     for key, value in wordict.items():42         randindex -= value43         if randindex <= 0:44             return key45 46 with open('test.txt','r') as f:47     t = f.read()48 text = str(t)49 wordict = makeDict(text)50 51 length = 20052 chain = ''53 currentword = '想'54 for i in range(0, length):55     chain += currentword56     currentword = retriveRandomWord(wordict[currentword])57 58 with open("res.txt",'w') as file:59     file.write(chain)60 print(chain)

这是利用《百年孤独》第一章的文字作为来源，生成的结果

——————————————————————————————————————————————————————————————————————

想发明把记得连同意地自训练他完全村子，

来乌苏娜和茄子和魔衣衫褴楼的事长月里的大镜来了，，

他完全　　　三枚殖民宜今还了恼人烟的概念头的诚实际上校站在梅尔加德斯教他另做了耐心得意地向他大葫，，

这些男人以后但实际上校站在雨季的一个小时刻使送给政府，想证实了暑，霍·阿·布恩蒂亚还了，，。。

帐篷门口，， “科学家都盖在宅子和各部把这种理论他告诫说：他的回来

————————————————————————————————————————————————————————————————————————

想发出的时候起他带者两块磁铁他所谓。，，

在街道的最新开辟的想起父亲手里忙得喘不走到吃午饭的唯一的仪器涉过山岭。。

说：他知道中间里的反 “只大镜　乌苏娜失败之后等待在村边搭起来踱去了一个月份

《指指瘦得厌烦了耐心， “科学家的仪，沿着遍布恩蒂亚紧张的居民地努力，

霍·布恩蒂亚都有力的马上人的唯一座农舍走出来将会有力向观众出的吉卜赛人苍的回了自言自然停辍今后 “

参考资料：《Python网络数据采集》P106

转载于:https://www.cnblogs.com/fcyworld/p/6280244.html

你可能感兴趣的文章