中文信息处理技术,是指使用计算机作为工具,对中国的语言文字进行研究和处理的技术,是由语言学、计算机科学、认知科学、数学等多种学科形成的交叉学科。它是利用计算机对汉语信息(包括书面和口头)进行自动化处理的技术。随着计算机技术的进步和计算语言学的发展,中文信息处理技术的发展大致可划分为字处理平台、词处理平台和句处理平台三个阶段。
在字处理平台阶段,主要研究包括汉字编码输入、汉字识别(手写体联机识别与印刷体脱机识别)、汉字系统及文书处理软件等,主要产品有五笔字形、汉王、中文、中文 之星、金山 等。在词处理平台阶段,最受关注的是面向因特网、不限文本的中文信息检索技术,包括通用搜索引擎、文本自动过滤、文本自动分类以及个性化服务软件等;语音识别也是其重要应用领域。在句处理平台阶段,主要应用有两个方面:一是机器翻译,目前翻译质量还不令人满意,需要同人工智能联系起来;二是汉语文语转换,即不诉诸句法分析技术就能获得句子的韵律结构。