基于分布式语义表示的微博文本规范化研究
Research on Normalization of Microblog Text Based on Distributed Semantic Representation
Abstract
随着互联网的发展,微博成为人们生活中不可或缺的部分。对微博文本的研究已然成为自然语言处理领域的热点。但同时,微博文本中也存在很多不规范的词语和表达,这些不规范的存在使得传统自然语言处理技术对微博的处理效果不理想,影响着对微博的后续研究处理任务。因此对微博文本进行规范化很有必要。 通过研究,我们发现已有的文本规范化技术虽取得了一定的成果,但也不完善:第一,对中文文本规范化的研究较少。中文的分词给非规范词的发现带来了挑战。第二,缺乏关于文本规范化的标注语料,有监督的方法受到限制。第三,中文文本规范化不全面,缺乏对“旧词新用”现象的关注。第四,已有的规范化工作缺乏对语义信息的充分利用。针对以上研究... With the development of the Internet, microblog has become an indispensable part of people's lives. Research for microblog text has become a hot topic in the field of natural language processing(NLP).But there are many the informal style words(ISW) in the microblog text. These informalities challenge the traditional natural language processing technology for microblog and impact on the follow-up N...