Doc2Vec,Word2Vec文本相似度 初体验。

Doc2Vec,Word2Vec文本相似度 初体验。

大家好,又见面了,我是你们的朋友全栈君。

参考资料 :
https://radimrehurek.com/gensim/models/word2vec.html

接上篇 :

import jieba
all_list = jieba.cut(xl['工作内容'][0:6],cut_all=True)
print(all_list)
every_one = xl['工作内容'].apply(lambda x:jieba.cut(x))
import traceback
def filtered_punctuations(token_list):
    try:
        punctuations = [' ', '\n', '\t', ',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%',':',
                        '/','\xa0','。',';','、']
        token_list_without_punctuations = [word for word in token_list
                                                         if word not in punctuations]
        #print "[INFO]: filtered_punctuations is finished!"
        return token_list_without_punctuations

    except Exception as e:
        print (traceback.print_exc())

from gensim.models import Doc2Vec,Word2Vec
import gensim
def list_crea(everyone):
    list_word = []
    for k in everyone:
        fenci= filtered_punctuations(k)
        list_word.append(fenci)

    return list_word

aa_word = list_crea(every_one)

print(type(aa_word))  
#aa_word 是 个 嵌套的list   [[1,2,3], [4,5,6], [7,8,9]]
model = Word2Vec(aa_word, min_count=1)    # 训练模型,参考英文官网,在上面

say_vector = model['java']  # get vector for word

model.similarity('计算', '计算机') 

Doc2Vec,Word2Vec文本相似度 初体验。

转载于:https://blog.51cto.com/13000661/2121671

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/107496.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • Git下载安装手把手教程[通俗易懂]

    Git下载安装手把手教程[通俗易懂]Git(读音为/gɪt/)是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。下面我们来详细介绍下,在windows10系统下载和安装git的教程,文章结尾有福利哦!Git安装手把手安装教程:第一步:下载Git打开Git官网下载地址https://git-scm.com/downloads因为我使用Windows系统上的浏览器访问的,Git官网自动之别到了我使用的操作系统.

  • 恢复微信撤回的图片(不容root,极其简单)

    恢复微信撤回的图片(不容root,极其简单)女友最近用微信发的一些照片总是让我看一下就给撤回,作为程序员的我,当然不甘示弱,怎可以在我熟悉的领域胡作非为呢?于是上网搜了一下恢复微信撤销图片的方法,网上给出的方法各种各样,需要各种软件,还需要root,不仅晦涩难懂而且极其麻烦,一看都不适合给小白使用,作为程序员的我当然也不愿意这样,于是我就自己琢磨。首先,你要相信这样一个道理,你能看到的东西,一定会存在你手机的某个角落,如图片,声音,视频,

  • Android SDK常用命令

    Android SDK常用命令1.注意事项执行sourcebuild/envsetup.sh后可以使用很多android集成的shell命令。2.代码中定义打开build/envsetup.sh文件,可以看到:functionhmm(){cat<<EOFInvoke”.build/envsetup.sh”fromyourshelltoaddthefollowingfunctionstoyourenvironment:-lunch:lunch<product_

  • String转换Long两种方式

    Long.ValueOf(“String”)与Long.parseLong(“String”)的区别Long.ValueOf(“String”)返回Long包装类型Long.parseLong(“String”)返回long基本数据类型

  • pip 安装.whl文件「建议收藏」

    pip 安装.whl文件「建议收藏」参见网址https://www.lfd.uci.edu/~gohlke/pythonlibs/,基本上包含了常用的pythonlib各个版本。下载本机机器上的python使用的对应版本的lib,切到下载位置,使用命令(以安装matplotlib为例):pip install ./matplotlib-2.2.3-cp36-cp36m-win32.whl 即可很快完成安装…

  • 利用PowerShell复制SQLServer账户的所有权限

    利用PowerShell复制SQLServer账户的所有权限

    2021年11月28日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号