Doc2Vec,Word2Vec文本相似度初体验。

全栈程序员-用户IM • 2022年4月2日下午10:35 • 未分类

Doc2Vec,Word2Vec文本相似度初体验。

大家好，又见面了，我是你们的朋友全栈君。

参考资料：
https://radimrehurek.com/gensim/models/word2vec.html

接上篇：

import jieba
all_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)
print(all_list)
every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))
import traceback
def filtered_punctuations(token_list):
    try:
        punctuations = [' ', '\n', '\t', ',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%','：',
                        '/','\xa0','。','；','、']
        token_list_without_punctuations = [word for word in token_list
                                                         if word not in punctuations]
        #print "[INFO]: filtered_punctuations is finished!"
        return token_list_without_punctuations

    except Exception as e:
        print (traceback.print_exc())

from gensim.models import Doc2Vec,Word2Vec
import gensim
def list_crea(everyone):
    list_word = []
    for k in everyone:
        fenci= filtered_punctuations(k)
        list_word.append(fenci)

    return list_word

aa_word = list_crea(every_one)

print(type(aa_word))  
#aa_word 是 个 嵌套的list   [[1,2,3], [4,5,6], [7,8,9]]
model = Word2Vec(aa_word, min_count=1)    # 训练模型，参考英文官网，在上面

say_vector = model['java']  # get vector for word

model.similarity('计算', '计算机')

Doc2Vec,Word2Vec文本相似度初体验。

转载于:https://blog.51cto.com/13000661/2121671

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/107496.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

serverTimeZone_the server disconnected before

serverTimeZone_the server disconnected beforejdbc连接MySQL时出现Theservertimezonevalue‘?й???’isunrecognized。。。错误：https://blog.csdn.net/YaphetS__YJ/article/details/77774874博文提到：jdbc-mysql6.0以上的版本必须配置serverTimezone参数。我的版本在此之上，构建URL时没配置所以报错解决…

全栈程序员-用户IM
2022年8月30日
微商相册服务器维护,微商相册

微商相册服务器维护,微商相册Applealmond发表了文章•2020-04-2510:53•来自相关话题小程序这个依附于微信十亿流量的大平台，有着独天得厚的流量优势。且创作成本也比较低，因此近几年来搭建小程序的人越来越多。许多个人也在跃跃欲试，想要跻身小程序的领域又怕没有回报？那么接下来就和小编一起来了解一下小程序的更多内容。实例下图是微商相册小程序，许多在朋友圈活跃的微商如今都转战到了这里。微商相册内部可以和发…

全栈程序员-用户IM
2022年5月17日
MacBook安装Windows_macbookpro安装双系统

MacBook安装Windows_macbookpro安装双系统MacBook安装Redis官方下载地址:https://redis.io/download官方提供安装的相关命令了#下载redis包wgethttp://download.redis.io/releases/redis-4.0.10.tar.gz#解压tar-zxvfredis-4.0.10.tar.gz#进入目录cdredis-4.0.10#编译make#启动redis服务src/redis-server#启动redis客户端连接src/redis-cli

全栈程序员-用户IM
2022年10月23日
比特币挖矿培训来到印度30个城市[通俗易懂]

比特币挖矿培训来到印度30个城市[通俗易懂]点击上方“蓝色字”可关注我们！暴走时评：为了促进印度达利特阶层的商业企业发展，2005年印度成立了行业协会DICCI。Mahabfic则是在马哈拉施特拉邦宣传区块链、金融科技、ICO和加密货币投资的平台。最近两个机构合作在印度30个城市展开比特币挖矿培训，包括区块链技术、挖矿、创业、初创企业等课程内容。旨在为这些地区年轻人自主就业提供帮助，为这些地区创造新的经济增长点。作者：KevinHelms

全栈程序员-用户IM
2022年5月28日
打开python 报R6034 错误

打开python 报R6034 错误我只在Python3和python2同时在anaconda3下安装出现的问题，后来移除python2也不起作用，找到了这个方法，解决的问题。6034指的是：”AnapplicationhasmadeanattempttoloadtheCruntimelibraryincorrectly.Pleasecontacttheapplication’ssuppor…

全栈程序员-用户IM
2022年10月24日
OSI七层_osi七层模型通俗解释

OSI七层_osi七层模型通俗解释OSI七层

全栈程序员-用户IM
2022年4月20日

发表回复

关注全栈程序员社区公众号