Doc2Vec,Word2Vec文本相似度 初体验。

Doc2Vec,Word2Vec文本相似度 初体验。

大家好,又见面了,我是你们的朋友全栈君。

参考资料 :
https://radimrehurek.com/gensim/models/word2vec.html

接上篇 :

import jieba
all_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)
print(all_list)
every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))
import traceback
def filtered_punctuations(token_list):
    try:
        punctuations = [' ', '\n', '\t', ',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%',':',
                        '/','\xa0','。',';','、']
        token_list_without_punctuations = [word for word in token_list
                                                         if word not in punctuations]
        #print "[INFO]: filtered_punctuations is finished!"
        return token_list_without_punctuations

    except Exception as e:
        print (traceback.print_exc())

from gensim.models import Doc2Vec,Word2Vec
import gensim
def list_crea(everyone):
    list_word = []
    for k in everyone:
        fenci= filtered_punctuations(k)
        list_word.append(fenci)

    return list_word

aa_word = list_crea(every_one)

print(type(aa_word))  
#aa_word 是 个 嵌套的list   [[1,2,3], [4,5,6], [7,8,9]]
model = Word2Vec(aa_word, min_count=1)    # 训练模型,参考英文官网,在上面

say_vector = model['java']  # get vector for word

model.similarity('计算', '计算机') 

Doc2Vec,Word2Vec文本相似度  初体验。

转载于:https://blog.51cto.com/13000661/2121671

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/107496.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • serverTimeZone_the server disconnected before

    serverTimeZone_the server disconnected beforejdbc连接MySQL时出现Theservertimezonevalue‘?й???’isunrecognized。。。错误:https://blog.csdn.net/YaphetS__YJ/article/details/77774874博文提到:jdbc-mysql6.0以上的版本必须配置serverTimezone参数。我的版本在此之上,构建URL时没配置所以报错解决…

  • 微商相册服务器维护,微商相册

    微商相册服务器维护,微商相册Applealmond发表了文章•2020-04-2510:53•来自相关话题小程序这个依附于微信十亿流量的大平台,有着独天得厚的流量优势。且创作成本也比较低,因此近几年来搭建小程序的人越来越多。许多个人也在跃跃欲试,想要跻身小程序的领域又怕没有回报?那么接下来就和小编一起来了解一下小程序的更多内容。实例下图是微商相册小程序,许多在朋友圈活跃的微商如今都转战到了这里。微商相册内部可以和发…

  • MacBook安装Windows_macbookpro安装双系统

    MacBook安装Windows_macbookpro安装双系统MacBook安装Redis官方下载地址:https://redis.io/download官方提供安装的相关命令了#下载redis包wgethttp://download.redis.io/releases/redis-4.0.10.tar.gz#解压tar-zxvfredis-4.0.10.tar.gz#进入目录cdredis-4.0.10#编译make#启动redis服务src/redis-server#启动redis客户端连接src/redis-cli

    2022年10月23日
  • 比特币挖矿培训来到印度30个城市[通俗易懂]

    比特币挖矿培训来到印度30个城市[通俗易懂]点击上方“蓝色字”可关注我们!暴走时评:为了促进印度达利特阶层的商业企业发展,2005年印度成立了行业协会DICCI。Mahabfic则是在马哈拉施特拉邦宣传区块链、金融科技、ICO和加密货币投资的平台。最近两个机构合作在印度30个城市展开比特币挖矿培训,包括区块链技术、挖矿、创业、初创企业等课程内容。旨在为这些地区年轻人自主就业提供帮助,为这些地区创造新的经济增长点。作者:KevinHelms

  • 打开python 报R6034 错误

    打开python 报R6034 错误我只在Python3和python2同时在anaconda3下安装出现的问题,后来移除python2也不起作用,找到了这个方法,解决的问题。6034指的是:”AnapplicationhasmadeanattempttoloadtheCruntimelibraryincorrectly.Pleasecontacttheapplication’ssuppor…

    2022年10月24日
  • OSI七层_osi七层模型通俗解释

    OSI七层_osi七层模型通俗解释OSI七层

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号