达观数据中文和英文语言差异和计算机处理的

关于作者陈运文:达观数据创始人,复旦大学计算机博士,科技部“万人计划”专家,国际计算机学会(ACM)、电子电器工程师学会(IEEE)、中国计算机学会(CCF)、中国人工智能学会(CAAI)高级会员;第九届上海青年科技英才。在人工智能领域拥有丰富研究成果,是复旦大学、上海财经大学聘任的校外研究生导师,在IEEETransactions、SIGKDD等国际顶级学术期刊和会议上发表数十篇高水平科研成果论文,译有人工智能经典著作《智能Web算法》(第2版),并参与撰写《数据实践之美》等论著;曾多次摘取ACMKDDCUP、CIKM、EMIHackathon等世界最顶尖的大数据竞赛的冠亚军荣誉。人类经过漫长的历史发展,在世界各地形成了很多不同的语言分支,其中汉藏语系和印欧语系是使用人数最多的两支。英语是印欧语系的代表,而汉语则是汉藏语系的代表。中英文语言的差异十分鲜明,英语以表音(字音)构成,汉语以表义(字形)构成,印欧和汉藏两大语系有很大的区别。尽管全世界语言多达种,但大部数人类使用的语言集中在图中的前15种(覆盖全球90%以上人群)。其中英语为母语和第二语的人数最多,近14亿人,是事实上的世界通用语。其次是汉语,约占世界人口的23%。英语和汉语相加的人数占世界总人数的近一半,因此处理中英文两种语言非常关键。人工智能时代,让计算机自动化进行文字语义理解非常重要,广泛应用于社会的方方面面,而语言本身的复杂性又给计算机技术带来了很大的挑战,攻克文本语义对实现AI全面应用有至关重要的意义。相应的自然语言处理(NaturalLanguageProcessing,NLP)技术因而被称为是“人工智能皇冠上的明珠”。中国和美国作为AI应用的两个世界大国,在各自语言的自动化处理方面有一些独特之处。接下来笔者对中文和英文语言特点的角度出发,结合自己的从业经验来归纳下两种语言下NLP的异同点。(达观数据陈运文)一、中英文分词方式不同分词是中英文NLP差异最广为人知的一点。我们都知道英文的单词之间天然存在空格来分隔,因此在进行英文文本处理时,可以非常容易的通过空格来切分单词。例如英文句子:DataGrandisaChinese

转载请注明:http://www.abuoumao.com/hytd/5911.html

网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

当前时间: 冀ICP备19029570号-7