基于神经网络的中文分词方法研究与实现
Research and Implementation of Chinese Word Segmentation Based on Neural Networks
Abstract
在中文中,词是最小的语义单元,多个中文自然语言处理任务都是以词为输入,在词的基础上进行的。在字母文字中,如英语,通过空白符将词语分开,然而,中文是象形文字,标点符号仅对短语和句子进行分割,但并未分割词语。因此,中文分词是中文自然语言处理的基础任务之一,也是第一个需要攻克的难点。 近年来,神经网络凭借其出色的非线性映射能力、自学习能力,以及可避免特征工程的优势,成为了研究热点,并广泛应用于各个领域。本文由中文分词的定义引入,介绍了其意义、应用,分类介绍了几种常见的分词算法,并重点关注基于神经网络的分词方法。其中,包括基于传统的前馈神经网络的中文分词法和基于循环神经网络的中文分词法。在基于前馈神... In Chinese, words are the smallest semantic unit, several Chinese natural language processing tasks are based on words. In alphabetical scripts, like English, words are separated by spaces. However, Chinese is ideographic scripts, punctuation is only used to split phrases and sentences, but not for words. Therefore, Chinese word segmentation is one of the basic task of Chinese natural language pro...