干货中文分词技术详解 2022年3月15日 作者:李rumor 虽然现在大家都用字粒度的BERT隐式地进行词法分析,但分词依旧是很多系统中重要的一环,BERT之前的经典浅层模型大都以词向量作为输入。今天就再把分词拿出来聊聊,如果有一天大家做了面试官,不妨把这些细节拿出来问一哈。 NLP的底层任务由易到难大致可以分为词法分析、句…… 阅读全文
中文分词技术及在搜索的实践 2022年3月15日 文本、语言作为记录和传播信息的重要载体,对它高效的理解一直是人们关注的问题。自现代电子计算机出现后,计算机在很多事情上做得比人还好,计算机与语言处理的相遇就出现了自然语言处理(Natural Language Process, NLP)技术。NLP通俗的理解就是利用计算机对文本进行分析、加工。 中文语言处理则是针对…… 阅读全文
深度长文中文分词的十年回顾 2022年3月14日 _本文作者:上海交通大学赵海、蔡登,清华大学黄昌宁,香港城市大学揭春雨 _ 转载请联系原作者 本文回顾了 中文分词 在2007-2017十年间的技术进展,尤其是自 深度学习渗透到自然语言处理 以来的主要工作。我们的基本结论是,中文分词的监督机器学习方法在从非神经网络方法到神经网络方法的迁移中尚…… 阅读全文