快速使用 BERT 生成词向量:bert-as-service

快速使用 BERT 生成词向量:bert-as-serviceBERT模型是一种NLP预训练技术,本文不介绍BERT的原理,主要关注如何快速上手使用BERT模型生成词向量用于下游任务。Google已经公开了TensorFlow版本的预训练模型和代码,可以用于生成词向量,但是还有更简单的方法:直接调用封装好的库bert-as-service。使用bert-as-service生成词向量bert-as-service是腾讯…

大家好,又见面了,我是你们的朋友全栈君。

BERT 模型是一种 NLP 预训练技术,本文不介绍 BERT 的原理,主要关注如何快速上手使用 BERT 模型生成词向量用于下游任务。

Google 已经公开了 TensorFlow 版本的预训练模型和代码,可以用于生成词向量,但是还有更简单的方法:直接调用封装好的库 bert-as-service 。

在这里插入图片描述

使用 bert-as-service 生成词向量

bert-as-service 是腾讯 AI Lab 开源的一个 BERT 服务,它让用户可以以调用服务的方式使用 BERT 模型而不需要关注 BERT 的实现细节。bert-as-service 分为客户端和服务端,用户可以从 python 代码中调用服务,也可以通过 http 的方式访问。

安装

使用 pip 命令进行安装,客户端与服务端可以安装在不同的机器上:

pip install bert-serving-server # 服务端

pip install bert-serving-client # 客户端,与服务端互相独立

其中,服务端的运行环境为 Python >= 3.5Tensorflow >= 1.10

客户端可以运行于 Python 2 或 Python 3

下载预训练模型

根据 NLP 任务的类型和规模不同,Google 提供了多种预训练模型供选择:

也可以使用中文效果更好的哈工大版 BERT:

以上列出了几个常用的预训练模型,可以到 这里 查看更多。

解压下载到的 .zip 文件以后,会有 6 个文件:

  1. TensorFlow 模型文件(bert_model.ckpt) 包含预训练模型的权重,模型文件有三个
  2. 字典文件(vocab.txt) 记录词条与 id 的映射关系
  3. 配置文件(bert_config.json ) 记录模型的超参数

启动 BERT 服务

使用 bert-serving-start 命令启动服务:

bert-serving-start -model_dir /tmp/english_L-12_H-768_A-12/ -num_worker=2

其中,-model_dir 是预训练模型的路径,-num_worker 是线程数,表示同时可以处理多少个并发请求

如果启动成功,服务器端会显示:

在这里插入图片描述

在客户端获取句向量

可以简单的使用以下代码获取语料的向量表示:

from bert_serving.client import BertClient
bc = BertClient()
doc_vecs = bc.encode(['First do it', 'then do it right', 'then do it better'])

doc_vecs 是一个 numpy.ndarray ,它的每一行是一个固定长度的句子向量,长度由输入句子的最大长度决定。如果要指定长度,可以在启动服务使用 max_seq_len 参数,过长的句子会被从右端截断。

BERT 的另一个特性是可以获取一对句子的向量,句子之间使用 ||| 作为分隔,例如:

bc.encode(['First do it ||| then do it right'])

获取词向量

启动服务时将参数 pooling_strategy 设置为 None :

bert-serving-start -pooling_strategy NONE -model_dir /tmp/english_L-12_H-768_A-12/

这时的返回是语料中每个 token 对应 embedding 的矩阵

bc = BertClient()
vec = bc.encode(['hey you', 'whats up?'])

vec  # [2, 25, 768]
vec[0]  # [1, 25, 768], sentence embeddings for `hey you`
vec[0][0]  # [1, 1, 768], word embedding for `[CLS]`
vec[0][1]  # [1, 1, 768], word embedding for `hey`
vec[0][2]  # [1, 1, 768], word embedding for `you`
vec[0][3]  # [1, 1, 768], word embedding for `[SEP]`
vec[0][4]  # [1, 1, 768], word embedding for padding symbol
vec[0][25]  # error, out of index!

远程调用 BERT 服务

可以从一台机器上调用另一台机器的 BERT 服务:

# on another CPU machine
from bert_serving.client import BertClient
bc = BertClient(ip='xx.xx.xx.xx')  # ip address of the GPU machine
bc.encode(['First do it', 'then do it right', 'then do it better'])

这个例子中,只需要在客户端 pip install -U bert-serving-client

其他

配置要求

BERT 模型对内存有比较高的要求,如果启动时一直卡在 load graph from model_dir 可以将 num_worker 设置为 1 或者加大机器内存。

处理中文是否要提前分词

在计算中文向量时,可以直接输入整个句子不需要提前分词。因为 Chinese-BERT 中,语料是以字为单位处理的,因此对于中文语料来说输出的是字向量。

举个例子,当用户输入:

bc.encode(['hey you', 'whats up?', '你好么?', '我 还 可以'])

实际上,BERT 模型的输入是:

tokens: [CLS] hey you [SEP]
input_ids: 101 13153 8357 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
input_mask: 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

tokens: [CLS] what ##s up ? [SEP]
input_ids: 101 9100 8118 8644 136 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
input_mask: 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

tokens: [CLS] 你 好 么 ? [SEP]
input_ids: 101 872 1962 720 8043 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
input_mask: 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

tokens: [CLS] 我 还 可 以 [SEP]
input_ids: 101 2769 6820 1377 809 102 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
input_mask: 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

在英语中词条化后的 ##something 是什么

当某个词在不在词典中时,使用最长子序列的方法进行词条化,例如:

input = "unaffable"
tokenizer_output = ["un", "##aff", "##able"]

参考资料

  1. https://github.com/google-research/bert
  2. https://github.com/hanxiao/bert-as-service

知识共享许可协议
本作品采用知识共享署名-非商业性使用 3.0 未本地化版本许可协议进行许可。欢迎转载,演绎,但是必须保留本文的链接,不得用于商业目的。如您有任何疑问或者授权方面的协商,请与我联系

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/137750.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • 发卡网源码(企业和个人发卡网源码二合一)及代理系统附搭建教程

    发卡网源码(企业和个人发卡网源码二合一)及代理系统附搭建教程  最近,有网友问到,自己在上传发卡网源码的时候,总是各种出错。比如404、或者数据库错误等等。  如果通过自己上传源码,安装的时候还是出现各种错误。  附源码及演示:fakaysw.top  那么,我建议可以使用企业级发卡网源码的一键部署功能。  这个功能对于新手来说,非常好用,十分省心。  第一种方式是,找到宝塔面板的“软件商店”-“发卡网源码一键部署”  看一下列表中有没有你想要安装的程序,如果没有找到,看下面的第二种方式  第二种方式,找到“软件商店”,在搜索框搜索“发卡网一键

  • UTF-8编码规则_库德巴码编码规则

    UTF-8编码规则_库德巴码编码规则UTF-8是Unicode的一种实现方式,也就是它的字节结构有特殊要求,所以我们说一个汉字的范围是0X4E00到0x9FA5,是指unicode值,至于放在utf-8的编码里去就是由三个字节来组织

  • Laravel设置软删除及其恢复系列操作

    Laravel设置软删除及其恢复系列操作

  • MYSQL分布式集群使用-主从复制

    MYSQL分布式集群使用-主从复制

  • 高德地图js api教程_高德地图sdk使用教程

    高德地图js api教程_高德地图sdk使用教程前言:由于项目需求需要在项目中实现手机端(基于网页)考勤打卡功能,最初考虑使用H5自身定位功能,但尝试过后,效果很不稳定。然后尝试使用百度地图JsAPI,百度家的稳定倒是很稳定,没想到的是定位位置和实际位置居然相差几十公里,一开始是以为自己配置有问题,浪费了我大半天时间去找原因,最后发现他本身提供的API就是偏差很大距离的,他自己家的倒是定位很准,对外开放的API简直惨不忍睹。百度API浏……

    2022年10月10日
  • 几款常用UML建模工具解析[通俗易懂]

    本节向大家介绍几款常用UML建模工具,UML是个好东西,但是过分的依赖于UML也不是一件好事,因为有时候它会把简单的东西复杂化。请看下面详细介绍。常用UML建模工具UML不算是个新名词,但是实际中还是用得很少(可能是因为都是做小项目的原因吧,大项目就用得多了).UML是个好东西,但是过分的依赖于UML也不是一件好事,因为有时候它会把简单的东西复杂化.即使是代码的优良结构和可重用性也不能

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号