物以类聚人以群分,通过GensimLda文本聚类构建人工智能个性化推荐系统(Python3.10)

技术分享 3年前 (2023-01-10) 0 999+

众所周知，个性化推荐系统能够根据用户的兴趣、偏好等信息向用户推荐相关内容，使得用户更感兴趣，从而提升用户体验，提高用户粘度，之前我们曾经使用协同过滤算法构建过个性化推荐系统，但基于显式反馈的算法就会有一定的局限性，本次我们使用无监督的Lda文本聚类方式来构建文本的个性化推荐系统。

推荐算法:协同过滤/Lda聚类

我们知道，协同过滤算法是一种基于用户的历史行为来推荐物品的算法。协同过滤算法利用用户之间的相似性来推荐物品，如果两个用户对某些物品的评分相似，则协同过滤算法会将这两个用户视为相似的，并向其中一个用户推荐另一个用户喜欢的物品。

说白了，它基于用户的显式反馈，什么是显式反馈？举个例子，本如本篇文章，用户看了之后，可能会点赞，也可能会疯狂点踩，或者写一些关于文本的评论，当然评论内容可能是负面、正面或者中性，所有这些用户给出的行为，都是显式反馈，但如果用户没有反馈出这些行为，就只是看了看，协同过滤算法的效果就会变差。

LDA聚类是一种文本聚类算法，它通过对文本进行主题建模来聚类文本。LDA聚类算法在聚类文本时，不考虑用户的历史行为，而是根据文本的内容和主题来聚类。

说得通俗一点，协同过滤是一种主动推荐，系统根据用户历史行为来进行内容推荐，而LDA聚类则是一种被动推荐，在用户还没有产生用户行为时，就已经开始推荐动作。

LDA聚类的主要目的是将文本分为几类，使得每类文本的主题尽可能相似。

LDA聚类算法的工作流程大致如下：

1.对文本进行预处理，去除停用词等。

2.使用LDA模型对文本进行主题建模，得到文本的主题分布。

3.将文本按照主题分布相似性进行聚类。

4.将聚类结果作为类标签，对文本进行分类。

大体上，LDA聚类算法是一种自动将文本分类的算法，它通过对文本进行主题建模，将文本按照主题相似性进行聚类，最终实现文本的分类。

Python3.10实现

实际应用层面，我们需要做的是让主题模型能够识别在文本里的主题，并且挖掘文本信息中隐式信息，并且在主题聚合、从非结构化文本中提取信息。

首先安装分词以及聚类模型库：

pip3 install jieba   pip3 install gensim

随后进行分词操作，这里以笔者的几篇文章为例子：

import jieba   import pandas as pd   import numpy as np   title1="乾坤大挪移,如何将同步阻塞(sync)三方库包转换为异步非阻塞(async)模式？Python3.10实现。"   title2="Generator(生成器),入门初基,Coroutine(原生协程),登峰造极,Python3.10并发异步编程async底层实现"   title3="周而复始,往复循环,递归、尾递归算法与无限极层级结构的探究和使用(Golang1.18)"   title4="彩虹女神跃长空,Go语言进阶之Go语言高性能Web框架Iris项目实战-JWT和中间件(Middleware)的使用EP07"   content = [title1,title2, title3,title4]         #分词   content_S = []   all_words = []   for line in content:       current_segment = [w for w in jieba.cut(line) if len(w)>1]       for x in current_segment:           all_words.append(x)       if len(current_segment) > 1 and current_segment != 'rt':           content_S.append(current_segment)   #分词结果转为DataFrame   df_content = pd.DataFrame({'content_S':content_S})      print(all_words)

可以看到，这里通过四篇文章标题构建分词列表，最后打印分词结果：

['乾坤', '挪移', '如何', '同步', '阻塞', 'sync', '三方', '库包', '转换', '异步', '阻塞', 'async', '模式', 'Python3.10', '实现', 'Generator', '生成器', '入门', '初基', 'Coroutine', '原生', '协程', '登峰造极', 'Python3.10', '并发', '异步', '编程', 'async', '底层', '实现', '周而复始', '往复', '循环', '递归', '递归', '算法', '无限极', '层级', '结构', '探究', '使用', 'Golang1.18', '彩虹', '女神', '长空', 'Go', '语言', '进阶', 'Go', '语言', '高性能', 'Web', '框架', 'Iris', '项目', '实战', 'JWT', '中间件', 'Middleware', '使用', 'EP07']

接着就可以针对这些词进行聚类操作，我们可以先让ChatGPT帮我们进行聚类看看结果：

可以看到，ChatGPT已经帮我们将分词结果进行聚类操作，分为两大类：Python和Golang。

严谨起见，我们可以针对分词结果进行过滤操作，过滤内容是停用词，停用词是在文本分析、自然语言处理等应用中，用来过滤掉不需要的词的。通常来说，停用词是指在英文中的介词、代词、连接词等常用词，在中文中的助词、介词、连词等常用词：

———   》），   ）÷（１－   ”，   ）、   ＝（   :   →   ℃    &   *   一一   ~~~~   ’   .    『   .一   ./   --    』   ＝″   【   ［＊］   ｝＞   ［⑤］］   ［①Ｄ］   ｃ］   ｎｇ昉   ＊   //   ［   ］   ［②ｅ］   ［②ｇ］   ＝｛   }   ，也    ‘   Ａ   ［①⑥］   ［②Ｂ］    ［①ａ］   ［④ａ］   ［①③］   ［③ｈ］   ③］   １．    －－    ［②ｂ］   ’‘    ×××    ［①⑧］   ０：２    ＝［   ［⑤ｂ］   ［②ｃ］    ［④ｂ］   ［②③］   ［③ａ］   ［④ｃ］   ［①⑤］   ［①⑦］   ［①ｇ］   ∈［    ［①⑨］   ［①④］   ［①ｃ］   ［②ｆ］   ［②⑧］   ［②①］   ［①Ｃ］   ［③ｃ］   ［③ｇ］   ［②⑤］   ［②②］   一.   ［①ｈ］   .数   ［］   ［①Ｂ］   数/   ［①ｉ］   ［③ｅ］   ［①①］   ［④ｄ］   ［④ｅ］   ［③ｂ］   ［⑤ａ］   ［①Ａ］   ［②⑧］   ［②⑦］   ［①ｄ］   ［②ｊ］   〕〔   ］［   ://   ′∈   ［②④   ［⑤ｅ］   １２％   ｂ］   ...   ...................   …………………………………………………③   ＺＸＦＩＴＬ   ［③Ｆ］   」   ［①ｏ］   ］∧′＝［    ∪φ∈   ′｜   ｛－   ②ｃ   ｝   ［③①］   Ｒ．Ｌ．   ［①Ｅ］   Ψ   －［＊］－   ↑   .日    ［②ｄ］   ［②   ［②⑦］   ［②②］   ［③ｅ］   ［①ｉ］   ［①Ｂ］   ［①ｈ］   ［①ｄ］   ［①ｇ］   ［①②］   ［②ａ］   ｆ］   ［⑩］   ａ］   ［①ｅ］   ［②ｈ］   ［②⑥］   ［③ｄ］   ［②⑩］   ｅ］   〉   】   元／吨   ［②⑩］   ２．３％   ５：０     ［①］   ::   ［②］   ［③］   ［④］   ［⑤］   ［⑥］   ［⑦］   ［⑧］   ［⑨］    ……   ——   ?   、   。   “   ”   《   》   ！   ，   ：   ；   ？   ．   ,   ．   '   ?    ·   ———   ──   ?    —   <   >   （   ）   〔   〕   [   ]   (   )   -   +   ～   ×   ／   /   ①   ②   ③   ④   ⑤   ⑥   ⑦   ⑧   ⑨   ⑩   Ⅲ   В   "   ;   #   @   γ   μ   φ   φ．   ×    Δ   ■   ▲   sub   exp    sup   sub   Lex    ＃   ％   ＆   ＇   ＋   ＋ξ   ＋＋   －   －β   ＜   ＜±   ＜Δ   ＜λ   ＜φ   ＜＜   =   ＝   ＝☆   ＝－   ＞   ＞λ   ＿   ～±   ～＋   ［⑤ｆ］   ［⑤ｄ］   ［②ｉ］   ≈    ［②Ｇ］   ［①ｆ］   ＬＩ   ㈧    ［－   ......   〉   ［③⑩］   第二   一番   一直   一个   一些   许多   种   有的是   也就是说   末##末   啊   阿   哎   哎呀   哎哟   唉   俺   俺们   按   按照   吧   吧哒   把   罢了   被   本   本着   比   比方   比如   鄙人   彼   彼此   边   别   别的   别说   并   并且   不比   不成   不单   不但   不独   不管   不光   不过   不仅   不拘   不论   不怕   不然   不如   不特   不惟   不问   不只   朝   朝着   趁   趁着   乘   冲   除   除此之外   除非   除了   此   此间   此外   从   从而   打   待   但   但是   当   当着   到   得   的   的话   等   等等   地   第   叮咚   对   对于   多   多少   而   而况   而且   而是   而外   而言   而已   尔后   反过来   反过来说   反之   非但   非徒   否则   嘎   嘎登   该   赶   个   各   各个   各位   各种   各自   给   根据   跟   故   故此   固然   关于   管   归   果然   果真   过   哈   哈哈   呵   和   何   何处   何况   何时   嘿   哼   哼唷   呼哧   乎   哗   还是   还有   换句话说   换言之   或   或是   或者   极了   及   及其   及至   即   即便   即或   即令   即若   即使   几   几时   己   既   既然   既是   继而   加之   假如   假若   假使   鉴于   将   较   较之   叫   接着   结果   借   紧接着   进而   尽   尽管   经   经过   就   就是   就是说   据   具体地说   具体说来   开始   开外   靠   咳   可   可见   可是   可以   况且   啦   来   来着   离   例如   哩   连   连同   两者   了   临   另   另外   另一方面   论   嘛   吗   慢说   漫说   冒   么   每   每当   们   莫若   某   某个   某些   拿   哪   哪边   哪儿   哪个   哪里   哪年   哪怕   哪天   哪些   哪样   那   那边   那儿   那个   那会儿   那里   那么   那么些   那么样   那时   那些   那样   乃   乃至   呢   能   你   你们   您   宁   宁可   宁肯   宁愿   哦   呕   啪达   旁人   呸   凭   凭借   其   其次   其二   其他   其它   其一   其余   其中   起   起见   起见   岂但   恰恰相反   前后   前者   且   然而   然后   然则   让   人家   任   任何   任凭   如   如此   如果   如何   如其   如若   如上所述   若   若非   若是   啥   上下   尚且   设若   设使   甚而   甚么   甚至   省得   时候   什么   什么样   使得   是   是的   首先   谁   谁知   顺   顺着   似的   虽   虽然   虽说   虽则   随   随着   所   所以   他   他们   他人   它   它们   她   她们   倘   倘或   倘然   倘若   倘使   腾   替   通过   同   同时   哇   万一   往   望   为   为何   为了   为什么   为着   喂   嗡嗡   我   我们   呜   呜呼   乌乎   无论   无宁   毋宁   嘻   吓   相对而言   像   向   向着   嘘   呀   焉   沿   沿着   要   要不   要不然   要不是   要么   要是   也   也罢   也好   一   一般   一旦   一方面   一来   一切   一样   一则   依   依照   矣   以   以便   以及   以免   以至   以至于   以致   抑或   因   因此   因而   因为   哟   用   由   由此可见   由于   有   有的   有关   有些   又   于   于是   于是乎   与   与此同时   与否   与其   越是   云云   哉   再说   再者   在   在下   咱   咱们   则   怎   怎么   怎么办   怎么样   怎样   咋   照   照着   者   这   这边   这儿   这个   这会儿   这就是说   这里   这么   这么点儿   这么些   这么样   这时   这些   这样   正如   吱   之   之类   之所以   之一   只是   只限   只要   只有   至   至于   诸位   着   着呢   自   自从   自个儿   自各儿   自己   自家   自身   综上所述   总的来看   总的来说   总的说来   总而言之   总之   纵   纵令   纵然   纵使   遵照   作为   兮   呃   呗   咚   咦   喏   啐   喔唷   嗬   嗯   嗳

这里使用哈工大的停用词列表。

首先加载停用词列表，然后进行过滤操作：

#去除停用词   def drop_stopwords(contents,stopwords):       contents_clean = []       all_words = []       for line in contents:           line_clean = []           for word in line:               if word in stopwords:                   continue               line_clean.append(word)               all_words.append(word)           contents_clean.append(line_clean)       return contents_clean,all_words      #停用词加载   stopwords = pd.read_table('stop_words.txt',names = ['stopword'],quoting = 3)   contents = df_content.content_S.values.tolist()      contents_clean,all_words = drop_stopwords(contents,stopwords)

接着交给Gensim进行聚类操作：

  from gensim import corpora,models,similarities   import gensim  dictionary = corpora.Dictionary(contents_clean)   corpus = [dictionary.doc2bow(sentence) for sentence in contents_clean]   lda = gensim.models.ldamodel.LdaModel(corpus=corpus,id2word=dictionary,num_topics=2,random_state=3)      #print(lda.print_topics(num_topics=2, num_words=4))      for e, values in enumerate(lda.inference(corpus)[0]):       print(content[e])       for ee, value in enumerate(values):           print('t分类%d推断值%.2f' % (ee, value))

这里使用LdaModel模型进行训练，分类设置(num_topics)为2种，随机种子(random_state)为3，在训练机器学习模型时，很多模型的训练过程都会涉及到随机数的生成，例如随机梯度下降法（SGD）就是一种随机梯度下降的优化算法。在训练过程中，如果不设置random_state参数，则每次训练结果可能都不同。而设置random_state参数后，每次训练结果都会相同，这就方便了我们在调参时对比模型的效果。如果想要让每次训练的结果都随机，可以将random_state参数设置为None。

程序返回：

[['乾坤', '挪移', '同步', '阻塞', 'sync', '三方', '库包', '转换', '异步', '阻塞', 'async', '模式', 'Python3.10', '实现'], ['Generator', '生成器', '入门', '初基', 'Coroutine', '原生', '协程', '登峰造极', 'Python3.10', '并发', '异步', '编程', 'async', '底层', '实现'], ['周而复始', '往复', '循环', '递归', '递归', '算法', '无限极', '层级', '结构', '探究', '使用', 'Golang1.18'], ['彩虹', '女神', '长空', 'Go', '语言', '进阶', 'Go', '语言', '高性能', 'Web', '框架', 'Iris', '项目', '实战', 'JWT', '中间件', 'Middleware', '使用', 'EP07']]   乾坤大挪移,如何将同步阻塞(sync)三方库包转换为异步非阻塞(async)模式？Python3.10实现。           分类0推断值0.57           分类1推断值14.43   Generator(生成器),入门初基,Coroutine(原生协程),登峰造极,Python3.10并发异步编程async底层实现           分类0推断值0.58           分类1推断值15.42   周而复始,往复循环,递归、尾递归算法与无限极层级结构的探究和使用(Golang1.18)           分类0推断值12.38           分类1推断值0.62   彩虹女神跃长空,Go语言进阶之Go语言高性能Web框架Iris项目实战-JWT和中间件(Middleware)的使用EP07           分类0推断值19.19           分类1推断值0.81

可以看到，结果和ChatGPT聚类结果一致，前两篇为一种分类，后两篇为另外一种分类。

随后可以将聚类结果保存为模型文件：

lda.save('mymodel.model')

以后有新的文章发布，直接对新的文章进行分类推测即可：

from gensim.models import  ldamodel   import pandas as pd   import jieba   from gensim import corpora      doc0="巧如范金,精比琢玉,一分钟高效打造精美详实的Go语言技术简历(Golang1.18)"   # 加载模型   lda = ldamodel.LdaModel.load('mymodel.model')      content = [doc0]      #分词   content_S = []   for line in content:       current_segment = [w for w in jieba.cut(line) if len(w)>1]       if len(current_segment) > 1 and current_segment != 'rt':           content_S.append(current_segment)   #分词结果转为DataFrame   df_content = pd.DataFrame({'content_S':content_S})         #去除停用词   def drop_stopwords(contents,stopwords):       contents_clean = []       all_words = []       for line in contents:           line_clean = []           for word in line:               if word in stopwords:                   continue               line_clean.append(word)               all_words.append(word)           contents_clean.append(line_clean)       return contents_clean,all_words      #停用词加载   stopwords = pd.read_table('stop_words.txt',names = ['stopword'],quoting = 3)   contents = df_content.content_S.values.tolist()      contents_clean,all_words = drop_stopwords(contents,stopwords)         dictionary = corpora.Dictionary(contents_clean)      word = [w for w in jieba.cut(doc0)]      bow = dictionary.doc2bow(word)   print(lda.get_document_topics(bow))

程序返回：

➜  nlp_chinese /opt/homebrew/bin/python3.10 "/Users/liuyue/wodfan/work/nlp_chinese/new_text.py"   Building prefix dict from the default dictionary ...   Loading model from cache /var/folders/5x/gpftd0654bv7zvzyv39449rc0000gp/T/jieba.cache   Loading model cost 0.264 seconds.   Prefix dict has been built successfully.   [(0, 0.038379338), (1, 0.9616206)]

这里显示文章推断结果为分类2，也就是Golang类型的文章。

完整调用逻辑：

import jieba   import pandas as pd   import numpy as np   from gensim.models import  ldamodel   from gensim import corpora,models,similarities   import gensim         class LdaRec:          def __init__(self,cotent:list) -> None:                      self.content = content           self.contents_clean = []           self.lda = None          def test_text(self,content:str):              self.lda = ldamodel.LdaModel.load('mymodel.model')           self.content = [content]              #分词           content_S = []           for line in self.content:               current_segment = [w for w in jieba.cut(line) if len(w)>1]               if len(current_segment) > 1 and current_segment != 'rt':                   content_S.append(current_segment)           #分词结果转为DataFrame           df_content = pd.DataFrame({'content_S':content_S})              contents = df_content.content_S.values.tolist()              dictionary = corpora.Dictionary(contents)              word = [w for w in jieba.cut(content)]              bow = dictionary.doc2bow(word)           print(self.lda.get_document_topics(bow))             # 训练       def train(self,num_topics=2,random_state=3):              dictionary = corpora.Dictionary(self.contents_clean)           corpus = [dictionary.doc2bow(sentence) for sentence in self.contents_clean]           self.lda = gensim.models.ldamodel.LdaModel(corpus=corpus,id2word=dictionary,num_topics=num_topics,random_state=random_state)              for e, values in enumerate(self.lda.inference(corpus)[0]):               print(self.content[e])               for ee, value in enumerate(values):                   print('t分类%d推断值%.2f' % (ee, value))             # 过滤停用词       def drop_stopwords(self,contents,stopwords):           contents_clean = []           for line in contents:               line_clean = []               for word in line:                   if word in stopwords:                       continue                   line_clean.append(word)               contents_clean.append(line_clean)           return contents_clean          def cut_word(self) -> list:           #分词           content_S = []           for line in self.content:               current_segment = [w for w in jieba.cut(line) if len(w)>1]               if len(current_segment) > 1 and current_segment != 'rt':                   content_S.append(current_segment)              #分词结果转为DataFrame           df_content = pd.DataFrame({'content_S':content_S})              # 停用词列表           stopwords = pd.read_table('stop_words.txt',names = ['stopword'],quoting = 3)              contents = df_content.content_S.values.tolist()           stopwords = stopwords.stopword.values.tolist()              self.contents_clean = self.drop_stopwords(contents,stopwords)         if __name__ == '__main__':              title1="乾坤大挪移,如何将同步阻塞(sync)三方库包转换为异步非阻塞(async)模式？Python3.10实现。"       title2="Generator(生成器),入门初基,Coroutine(原生协程),登峰造极,Python3.10并发异步编程async底层实现"       title3="周而复始,往复循环,递归、尾递归算法与无限极层级结构的探究和使用(Golang1.18)"       title4="彩虹女神跃长空,Go语言进阶之Go语言高性能Web框架Iris项目实战-JWT和中间件(Middleware)的使用EP07"       content = [title1,title2, title3,title4]          lr = LdaRec(content)          lr.cut_word()          lr.train()          lr.lda.save('mymodel.model')          lr.test_text("巧如范金,精比琢玉,一分钟高效打造精美详实的Go语言技术简历(Golang1.18)")

至此，基于聚类的推荐系统构建完毕，每一篇文章只需要通过既有分类模型进行训练，推断分类之后，给用户推送同一分类下的文章即可，截止本文发布，该分类模型已经在本站进行落地实践：

结语

金无足赤，LDA聚类算法也不是万能的，LDA聚类算法有许多超参数，包括主题个数、学习率、迭代次数等，这些参数的设置对结果有很大影响，但是很难确定最优参数，同时聚类算法的时间复杂度是O(n^2)级别的，在处理大规模文本数据时，计算速度较慢，反之，在样本数据较少的情况下，模型的泛化能力较差。最后，奉上项目地址，与君共觞：https://github.com/zcxey2911/Lda-Gensim-Recommended-System-Python310

发表评论