俄语输入法键盘_汉字输入法

全栈程序员-用户IM • 2022年8月1日上午9:36 • 未分类

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元售后保障童叟无欺

隐马尔科夫模型

隐马尔可夫模型 (Hidden Markov Model) 是一种统计模型，用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数，然后利用这些参数来作进一步的分析。

俄语输入法键盘_汉字输入法

拼音输入法中可观察的参数就是拼音，隐含的参数就是对应的汉字。

俄语输入法键盘_汉字输入法

那么我们要解决的就是隐马尔可夫的第二个问题：由观察序列求最优的隐藏序列

只需要HMM的三个要素（π，A，B）

参考别人github代码：

https://github.com/LiuRoy/Pinyin_Demo

代码解析如下：

1、模型生成

代码见train/main.py文件，里面的initstarting，initemission，init_transition分别对应于生成隐马尔科夫模型中的初始概率矩阵，发射概率矩阵，转移概率矩阵，并把生成的结果写入sqlite文件中。

训练用到的数据集是结巴分词里的词库，因为没有训练长句子，最后运行的结果也证明只能适用于短句输入。

2、初始概率矩阵（π）

统计初始化概率矩阵，就是找出所有出现在词首的汉字，并统计它们出现在词首的次数，最后根据上述数据算出这些汉字出现在词首的概率，没统计的汉字就认为出现在词首的概率是0，不写入数据库。有一点注意的是为了防止概率计算的时候因为越算越小导致计算机无法比较，所有的概率都进行了自然对数运算。统计的结果如下：

俄语输入法键盘_汉字输入法

3、转移概率矩阵（A）

此处用到的是最简单的一阶隐马尔科夫模型，即认为在一个句子里，每个汉字的出现只和它前面的的一个汉字有关，虽然简单粗暴，但已经可以满足大部分情况。统计的过程就是找出字典中每个汉字后面出现的汉字集合，并统计概率。因为这个概率矩阵非常的大，逐条数据写入数据库过慢，后续可以优化为批量写入，提高训练效率。结果如下：

俄语输入法键盘_汉字输入法