【专利解密】还看不懂医生手写的处方？阿里新技术来帮忙

【嘉德点评】阿里发明的医疗病历的识别方法，借助于人工智能算法BiLSTM-CFR进行模型训练，不管对于手写病历还是电子病历，都具有较好的识别效果，从而有效提升了医院的自动化程度，同时也可以避免因为手写病历难以辨认而发生错误。

集微网消息，目前，许多病历已被转换为电子病历(EMR)，传统纸质病历中的信息也可以通过光学字符识别(OCR)等图像字符识别技术来提取。

传统病历分析是基于医生的经验来人工理解和分析病历中的信息，在一些简单的情况下，病历的初步分析可以使用人工智能(AI)技术、自动化智能操作或由医生提供的输入来进行，这也是部分大医院正在实行的医疗自动化技术。

而在这其中，医疗病历的识别和分类也被作为实现医疗流程自动化的重要一环，但是一些病历中可能包括有手写错误、打字错误或者一些新出现的术语，这对于传统的OCR处理技术来说是难以识别以及处理的，也正是因为这样，民间也一直流传着医生手写病历形如“鬼画符”的比喻。

为此，阿里在2019年4月25日申请了一项名为“电子病历中实体的识别”的发明专利（申请号：201980003795.2），申请人为阿里巴巴集团控股有限公司。

根据该专利目前公开的资料，让我们一起来看看这项医疗病历的自动识别技术吧。

如上图，为该专利中发明的用于识别和分类术语的训练处理100的示例的框图，这种框架可以用于创建实体识别的训练以及识别电子病历。首先，训练文本从训练数据中被提取出来，训练数据包括电子病历，训练文本就是电子病历中的医疗诊断文本。

其次，需要对这些文本进行划分，文本的划分是为了将一些医学上的术语进行归类，这样当算法自动对文本进行归类时，就可以利用到不同词类之间的特征，从而可以让机器模拟人对于病历进行分析。当然，这个过程需要执行词语向量训练，在OCR领域，常用的训练方法有cw2vec算法以及BiLSTM-CFR训练模型。

倘若熟悉人工智能算法的话，必然对于LSTM算法不陌生，这是一种特殊的RNN网络，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题，同时对于语句理解这样的文字解释工作具有良好的效果。因此，借助于这些算法，可以对词语注释信息以及训练词语向量进行学习，并将学习到的模型存储起来，用于下次进行医疗病历的自动识别。

上图展示了用于识别和分类术语的预测文本提取程序200，该程序在执行完上述的识别和分类术语训练后再开展，同时可以对于过程100进行改进。这种预测序首先需要提取文本，这些文本也来自于电子病历或者实体病历中。

与过程100不同的是，过程200中新增了新词语词汇的学习，也就是对于已经出现在训练数据中的词语，词语向量可以被直接使用，但是倘若出现了未曾出现过的新词语词汇，则新词语可以从新词语词汇208以及笔划向量210中计算，通过将新词语分解为笔划顺序，通过滑动窗口来获得新词语的笔划以及新的词语向量。

有了这样的机制保障，就可以确保系统不仅可以识别已经记录过的病历，同时对于新的病历而言，也可以做到自动的进行文字识别，从而将医生晦涩难懂的字体，自动转换成为易于理解的电子信息。

以上就是阿里发明的医疗病历的识别，该方法借助于人工智能算法BiLSTM-CFR进行模型的训练，从而可以对于病历中的文字进行识别，不管对于手写病历还是电子病历，都具有较好的识别效果。这样的技术不仅可以提高医院的自动化程度，而且也可以避免因为手写病历难以辨认而发生错误。

（校对/holly）