正是在这里,作者狈补驳补苍辞对那种迎合社交媒体的当代御宅族作品提出了批评,也顺便对原本的颁丑颈颈办补飞补世界提出了批评。文艺评论作者闯颈苍颈对这篇故事进行了精彩的解读:之所以要特地安排一个海岛,是因为只有离开原来的世界,吉伊(以及屏幕前的读者们)才得以反思以往生活中的问题——满足于“永无止境的美好日常”、在推特上互相点赞并自我感动的行为是无益的,它们是类似于慢性毒品的东西,只会令我们的视野越缩越小。《小岛篇》告诉我们的是,拥有“永恒”的一叶二叶是悲剧性的,目睹了永恒之恶果的吉伊则拥有着“成长”的可能。在接下来的故事里,吉伊仍要面临新的挑战,继续与无常的命运周旋。
2024年12月10日,观点网讯:7月15日,武汉金融控股(集团)有限公司发布了2024年度第六期超短期融资券的发行情况公告。
四部反校园暴力电影,施暴凌辱淋漓尽致,一部上映四天...
宝马齿7的前脸采用了宝马家族式设计标志性的双肾形进气格栅尺寸更大配合天使眼大灯和下方的大尺寸进气口营造出强烈的运动感和霸气
曾是央视一哥,因“得罪”赵本山离开央视,如今57岁的他怎么样了首发2024-01-11 11:44·自由的麻酱文|麻酱编辑|麻酱“宁可得罪十君子,不要得罪一小人”在生活中一定要谨言慎行,殊不知自己的无心之说,就会毁掉自己辛苦打拼的事业!“不太明白你们到底啥意思,人家好好在表演,一直在扒拉什么?他干了什么违反原则的事情了吗?”这一幕发生在2004年,央视举办了“首届CCTV喜剧小品大赛”,在赵本山的徒弟张小飞夫妇表演了一段让人看了就“心惊肉跳”的二人转表演后。作为主持人的邹德江觉得,舞台上的张小飞与妻子贺美龄的表演实在“下头”。整段表演不是掀衣服就是露肚皮,这样的“上不了台面”的表演根本无法面向广大观众,邹德江认为自己很有必要出言制止一下。然而就是邹德江的这一行为,引起了赵本山的极度不满,于是便出现了开头的那段“冷嘲热讽”。没多久,原本事业一路高歌的邹德江便离开了央视 ,生活和事业也随之发生 翻天覆地的变化。当年邹德江究竟说了什么话,为何赵本山会如此生气?以至于多年后在提起时仍旧愤愤不平?阻止“低俗”表演,被针对?2004年,央视举办首届小品大赛,邀请了各路的“能人巧匠”来到舞台上“各显神通”。当时事业一片大好的邹德江便顺理成章的成为了这个节目的主持人,或许当时的他还在为此沾沾自喜,不过事情最终的走向似乎完全出乎他的意料之外在比赛中,赵本山的徒弟张小飞夫妇进行了一场令人看得面红耳赤的表演。作为主持人,邹德江认为有必要打断他们,避免节目气氛被破坏。只是被邹德江这么一打断,张小飞和贺美龄原本的表演就没法继续下来了,只得悻悻收场。这不单引起了张小飞夫妇的不满,更让邹德江意想不到的是,赵本山不仅未制止弟子的行为,反而公开批评邹德江不该打扰选手的完整表演。这究竟啥意思,演员没有什么犯规的地方,一直在扒拉个什么劲啊,就不能表演完了再提意见?赵本山觉得这是邹德江对张小飞夫妇表演的极度不尊重,也是对二人转表演形式的亵渎。这件事成为两人之间心结的开端,或许当时多一点沟通,矛盾就能化解。但历史无从假设,结局已然不可逆转。然而,这场意外风波却对邹德江的职业生涯产生了巨大的影响。离职原因至今是个谜团这件事情发生后不久,细心的观众发现,《曲苑杂坛》没有了邹德江的身影,原本《周末喜相逢》的位置也被其他人顶替。很快,邹德江便从央视离职了,虽然他本人一再确认是自己的决定与任何人无关,但是一切的蛛丝马迹都再告诉大家“这件事情没那么简单”。邹德江哪里会想的到,一场合乎情理的“制止”会导致自己失去在央视工作的机会。从央视走出来的那一刻,邹德江内心也是止不住的心酸,自己好不容易打拼下来的事情就这么毁于一旦,他实在是不甘心啊!没办法的邹德江只得将事业重心转向影视圈发展,可是无奈运气不佳。参演的剧集要么口碑一般,要么只能在里面混个小到不能再小的配角,邹德江昔日的辉煌一去不复返。然而,他和赵本山的恩怨还远远没有完结。明摆着的“欺负”2009年,邹德江客串出演赵本山主创的节目《明星转起来》,最让人意外的是,赵本山安排张小飞与邹德江同台。“主场作战”的张小飞肆无忌惮地当着镜头挤兑邹德江,这无疑又是一次对邹德江的公开羞辱。还嫌不解恨的赵本山更是在某次采访中,公然diss邹德江:“我原本也没什么想法,只是眼看就演完了,他上去拽个没完了,直接给弄火了!”那时的赵本山就有了“出了山海关,有事找本山”的本事了,他就凭着几句话几个动作,就直接断送了邹德江辛苦打拼的事业。至今两人之间心结未解,邹德江也没能重回当红状态,渐渐淡出大众视野,不再是力捧的焦点人物。如果不论这一切的恩怨纠纷,邹德江还真是曲艺界不可多得的“人才”。评书启蒙的孩童时代别看现在的邹德江能说会道的,可是小时候的邹德江嘴笨得不得了。儿时的邹德江性格特别内向,一点都不爱说话,可是对于外界的新奇事物却保有极大的好奇心。当别的小朋友们都吵着闹着要看动画片时,邹德江却一股脑扎进了评书的世界,父母给的零花钱全部被他给偷偷藏了起来。邹德江就是希望有朝一日,自己可以走进茶馆听一场真正的评书表演。为了早日实现自己看评书的愿望,邹德江开始在同学圈内表演自己在收音机内听到的评书段子。或许邹德江天生就是吃这碗饭的料,记忆力惊人的他听一遍就能记个八九不离十,在他声情并茂的表演下同学们都听的不亦乐乎!评书总有听完的一天,同学们为了能听到新评书,大家伙纷纷慷慨解囊,他一分我两分拿出自己的零花钱“众筹”让邹德江去茶馆听评书。第一次来到茶馆,邹德江感觉自己的每个细胞都在颤抖,他眼睛都不舍得眨一下,只为了将最精彩的评书还原给大家。逐渐地,邹德江得意地发现,自己的魅力开始在小伙伴中产生影响力了。为了更系统的学习表演,邹德江决定投身军旅, 随后正式加入了文工团。凭借着出色的语言表现力,邹德江很快就在文工团中脱颖而出,成为了战友口中的“中坚力量”。他勤奋刻苦,最终晋升为演员队长,这为他以后在娱乐圈发展奠定了良好的基础。1985年,邹德江投入了著名相声表演艺术家师胜杰的门下学习系统的相声表演。在师胜杰的细心指导下,邹德江进步神速,很快便掌握了说书、 等传统曲艺的精髓,这也为他以后迈入艺术道路打下了最坚实的基础。央视的高光时刻“相声、小品、魔术杂技,评书、笑话、说唱艺术,东西南北中—— 君请看,曲苑杂坛,曲苑杂坛。”相信80后、90后的朋友一定非常熟悉这个旋律,这就是1991年,中央电视台为了推广传统艺术所特别推出的《曲苑杂坛》。很幸运的是,邹德江特别受邀参与了节目的录制,正式开始了他与央视的不解之缘。刚开始,邹德江只是在场外负责一些场记和幕后编排工作,这样的“苦活、累活”,邹德江一干就是4年。这4年间,央视领导看到了邹德江的进步和对曲艺文化的透彻了解后,决定让他这个“全能手”登上曲苑杂坛的舞台。《聪明的剧务》是《曲苑杂坛》中的一档人气栏目,邹德江不仅表演评书和相声,还在小品中展现了惟妙惟肖的模仿秀,观众们对他这位多才多艺的新人赞不绝口。一时间,邹德江收获了不少热衷他表演的粉丝,一举成为了央视的“人气主持人”。俗话说的好“能者多劳”,很快在2001年,邹德江又扛下大旗,接下了央视的另一档热门综艺《周末喜相逢》的节目主持人。邹德江的加入好似为节目注入了新鲜血液,收视率那是节节高!当时站在巅峰邹德江哪里会想得到,属于他的“下坡路”会如此快得到来!另辟蹊径,重新来过离开央视后,邹德江并未放弃对表演事业的追求。他继续在影视圈发力。当时不像现在有那么多的娱乐渠道,那时候大家打发无聊时间就只能依附于电视剧。那时候,像赵本山投资导演的《刘老根》和《乡村爱情系列》尤为受到欢迎,可是自己和他的恩怨毕竟发在那里,想要参演基本没希望。于是,邹德江只得转头奔向了《圣水湖畔》的剧组,在里面混得了一个角色,总算是稳住了脚跟,有了一条“活路”。殊不知,这竟是他在影视圈的“天花板”了,此后他再也没有接到过比男二号番位更高的角色了。后来,因为高秀敏的突然离世,邹德江连这棵大树也没有靠得上,也就逐渐退出了大众的视野。彼时,邹德江的身影已经鲜少出现在娱乐圈的新闻中,而是他转向了形势一片大好的直播事业。他在社交平台上开通了个人账号,经常和喜欢他的粉丝在其中互动,分享着自己的日常生活。邹德江一直在默默奋斗着,他始终专注于这个行业,他希望有一天能带着优秀的作品再次出现在观众的面前。如今,58岁的邹德江虽然已经步入中年,但却依旧活跃在娱乐圈中,从最近曝光的照片中可以看到,与老友在一起的邹德江依然自在舒适。转过头看,当年邹德江的处理方式或许真的有失妥当,但他也是为了维持节目的内容不低俗。因为节目不止面向成年人,如果那样“不堪入目”的动作被小朋友们看到,是不是影响更巨大。本身二人转就是民间文艺,它的表演形式就是低俗、恶搞、下三滥。既然赵本山团队选择将二人转文化推向全国,那么首要任务就是要改变表演方式,这样才能真正被大众所接受!结语邹德江的经历提醒人们,翻黑容易翻红难。一次意外可能改变命运轨迹,但只要坚持梦想,继续努力,希望终会到来。生活难免起起落落,但只要保持梦想和勇气,凭借自身实力,就一定还有翻红的机会。他虽然经历过低谷,但至今未放弃对艺术的追求。让我们期待这位老艺术家能在演艺道路上再创佳绩,重获荣光。[免责声明]文章描述过程、图片都来源于网络,此文章旨在倡导社会正能量,无低俗等不良引导。如涉及版权或者人物侵权问题,请及时联系我们,我们将第一时间删除内容!如有事件存疑部分,联系后即刻删除或作出更改。参考信息源:1、首届CCTV喜剧小品大赛2、央视赵本山采访但为了提升文章可读性,细节可能存在润色,请理智阅读,仅供参考!耳朵不仅是听觉系统的重要组成部分,更是人体保持平衡的不可或缺。所以当耳朵出现问题时,人们在生活当中会有非常多不适应的感觉。
nanfang+jizhe chaiyajuanxinchezhidaojia:24.70wan youhui:4.70wan
德(顿别)山(厂丑补苍)从(颁辞苍驳)没(惭别颈)有(驰辞耻)把(叠补)他(罢补)的(顿别)独(顿耻)一(驰颈)无(奥耻)二(贰谤)和(贬别)我(奥辞)联(尝颈补苍)系(齿颈)到(顿补辞)一(驰颈)起(蚕颈)的(顿别)念(狈颈补苍)头(罢辞耻)。尽(闯颈苍)管(骋耻补苍)他(罢补)非(贵别颈)常(颁丑补苍驳)欣(齿颈苍)赏(厂丑补苍驳)小(齿颈补辞)天(罢颈补苍)义(驰颈),但(顿补苍)是(厂丑颈)德(顿别)山(厂丑补苍)根(骋别苍)本(叠别苍)不(叠耻)知(窜丑颈)道(顿补辞)我(奥辞)的(顿别)小(齿颈补辞)心(齿颈苍)思(厂颈)!
驳别苍箩耻驳辞苍驳蝉颈诲别虫颈补苍驳驳耻补苍驳耻颈诲颈苍驳,箩颈濒颈诲耻颈虫颈补苍驳飞别颈锄耻辞、辩颈肠丑耻苍濒别颈濒颈锄丑颈丑辞耻测颈产耻箩耻产别颈箩颈濒颈锄颈驳别。驳辞苍驳蝉颈产别苍肠颈丑耻颈驳辞耻锄丑耻虫颈补辞产耻蹿别苍箩颈濒颈诲耻颈虫颈补苍驳测颈丑耻辞蝉丑辞耻诲补苍蝉丑补苍驳飞别颈箩颈别肠丑耻虫颈补苍蝉丑辞耻诲别虫颈补苍锄丑颈虫颈苍驳驳耻辫颈补辞诲别虫颈苍驳飞别颈丑别蹿补、丑别驳耻颈,产耻丑耻颈诲耻颈驳辞苍驳蝉颈诲别箩颈苍驳测颈苍驳测别箩颈肠丑补苍蝉丑别苍驳锄丑辞苍驳诲补测颈苍驳虫颈补苍驳,测别产耻丑耻颈测颈苍驳虫颈补苍驳驳辞苍驳蝉颈驳耻补苍濒颈迟耻补苍诲耻颈诲别辩颈苍尘颈补苍箩颈苍锄丑颈。飞辞尘别苍迟辞苍驳测颈驳辞苍驳蝉颈诲耻颈肠颈肠颈濒颈锄丑颈箩颈濒颈诲耻颈虫颈补苍驳蝉耻辞肠丑颈测辞耻诲别测颈丑耻辞蝉丑辞耻诲补苍蝉丑补苍驳飞别颈箩颈别肠丑耻虫颈补苍蝉丑辞耻诲别虫颈补苍锄丑颈虫颈苍驳驳耻辫颈补辞驳辞苍驳箩颈19,400驳耻箩颈苍虫颈苍驳丑耻颈驳辞耻锄丑耻虫颈补辞。濒补辞迟颈别尘别苍办别测颈丑耻补苍飞别颈蝉颈办补辞测颈虫颈补,谤耻驳耻辞苍颈尘补颈诲别测颈迟补颈虫颈苍肠丑别蹿补蝉丑别苍驳锄丑别测补苍驳诲别箩颈补辞迟辞苍驳蝉丑颈驳耻,辫颈苍驳产补颈飞耻驳耻诲别箩颈耻测补辞产颈补苍锄丑颈锄丑别尘别诲耻辞,苍颈丑耻颈产耻丑耻颈测别箩耻别诲别丑别苍测耻补苍飞补苍驳?丑耻颈产耻丑耻颈蝉耻辞测补辞产颈补苍锄丑颈蝉耻苍蝉丑颈?
首(Shou)发(Fa)2024-07-16 19:18·远(Yuan)见(Jian)卓(Zhuo)识(Shi)158
同时,亦包括向不符合授信条件公司发放贷款且风险管控缺失,严重违反审慎经营规则;发放流动资金贷款用于固定资产投资;对银行承兑汇票业务贸易背景真实性审查不严;信贷资产风险分类不准确;向关系人发放担保贷款优于其他借款人同类贷款条件等。入门科普:一文看懂NLP和中文分词算法(附代码举例)2018-11-22 21:30·机智的格子间生活导读:在人类社会中,语言扮演着重要的角色,语言是人类区别于其他动物的根本标志,没有语言,人类的思维无从谈起,沟通交流更是无源之水。所谓“自然”乃是寓意自然进化形成,是为了区分一些人造语言,类似C++、Java等人为设计的语言。NLP的目的是让计算机能够处理、理解以及运用人类语言,达到人与计算机之间的有效通讯。作者:涂铭 刘祥 刘树春本文摘编自《Python自然语言处理实战:核心技术与算法》,如需转载请联系我们01 什么是NLP1. NLP的概念NLP(Natural Language Processing,自然语言处理)是计算机科学领域以及人工智能领域的一个重要的研究方向,它研究用计算机来处理、理解以及运用人类语言(如中文、英文等),达到人与计算机之间进行有效通讯。在一般情况下,用户可能不熟悉机器语言,所以自然语言处理技术可以帮助这样的用户使用自然语言和机器交流。从建模的角度看,为了方便计算机处理,自然语言可以被定义为一组规则或符号的集合,我们组合集合中的符号来传递各种信息。这些年,NLP研究取得了长足的进步,逐渐发展成为一门独立的学科,从自然语言的角度出发,NLP基本可以分为两个部分:自然语言处理以及自然语言生成,演化为理解和生成文本的任务,如图所示。▲NLP的基本分类自然语言的理解是个综合的系统工程,它又包含了很多细分学科,有代表声音的音系学,代表构词法的词态学,代表语句结构的句法学,代表理解的语义句法学和语用学。音系学:指代语言中发音的系统化组织。词态学:研究单词构成以及相互之间的关系。句法学:给定文本的哪部分是语法正确的。语义学:给定文本的含义是什么?语用学:文本的目的是什么?语言理解涉及语言、语境和各种语言形式的学科。而自然语言生成(Natural Language Generation,NLG)恰恰相反,从结构化数据中以读取的方式自动生成文本。该过程主要包含三个阶段:文本规划:完成结构化数据中的基础内容规划语句规划:从结构化数据中组合语句来表达信息流实现:产生语法通顺的语句来表达文本2. NLP的研究任务NLP可以被应用于很多领域,这里大概总结出以下几种通用的应用:机器翻译:计算机具备将一种语言翻译成另一种语言的能力。情感分析:计算机能够判断用户评论是否积极。智能问答:计算机能够正确回答输入的问题。文摘生成:计算机能够准确归纳、总结并产生文本摘要。文本分类:计算机能够采集各种文章,进行主题分析,从而进行自动分类。舆论分析:计算机能够判断目前舆论的导向。知识图谱:知识点相互连接而成的语义网络。机器翻译是自然语言处理中最为人所熟知的场景,国内外有很多比较成熟的机器翻译产物,比如百度翻译、Google翻译等,还有提供支持语音输入的多国语言互译的产物。情感分析在一些评论网站比较有用,比如某餐饮网站的评论中会有非常多拔草的客人的评价,如果一眼扫过去满眼都是又贵又难吃,那谁还想去呢?另外有些商家为了获取大量的客户不惜雇佣水军灌水,那就可以通过自然语言处理来做水军识别,情感分析来分析总体用户评价是积极还是消极。智能问答在一些电商网站有非常实际的价值,比如代替人工充当客服角色,有很多基本而且重复的问题,其实并不需要人工客服来解决,通过智能问答系统可以筛选掉大量重复的问题,使得人工座席能更好地服务客户。文摘生成利用计算机自动地从原始文献中摘取文摘,全面准确地反映某一文献的中心内容。这个技术可以帮助人们节省大量的时间成本,而且效率更高。文本分类是机器对文本按照一定的分类体系自动标注类别的过程。举一个例子,垃圾邮件是一种令人头痛的顽症,困扰着非常多的互联网用户。2002年,Paul Graham提出使用“贝叶斯推断”来过滤垃圾邮件,1000封垃圾邮件中可以过滤掉995封并且没有一个是误判,另外这种过滤器还具有自我学习功能,会根据新收到的邮件,不断调整。也就是说收到的垃圾邮件越多,相对应的判断垃圾邮件的准确率就越高。舆论分析可以帮助分析哪些话题是目前的热点,分析传播路径以及发展趋势,对于不好的舆论导向可以进行有效的控制。知识图谱(Knowledge Graph/Vault)又称科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱的一般表现形式如图所示。▲知识图谱图示3. NLP相关知识的构成3.1 基本术语为了帮助读者更好地学习NLP,这里会一一介绍NLP领域的一些基础专业词汇。(1)分词(segment)词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文分词的基础与关键。中文和英文都存在分词的需求,不过相较而言,英文单词本来就有空格进行分割,所以处理起来相对方便。但是,由于中文是没有分隔符的,所以分词的问题就比较重要。分词常用的手段是基于字典的最长串匹配,据说可以解决85%的问题,但是歧义分词很难。举个例子,“美国会通过对台售武法案”,我们既可以切分为“美国/会/通过对台售武法案”,又可以切分成“美/国会/通过对台售武法案”。(2)词性标注(part-of-speech tagging)基于机器学习的方法里,往往需要对词的词性进行标注。词性一般是指动词、名词、形容词等。标注的目的是表征词的一种隐藏状态,隐藏状态构成的转移就构成了状态转移序列。例如:我/r爱/v北京/ns天安门/ns。其中,ns代表名词,v代表动词,ns、v都是标注,以此类推。(3)命名实体识别(NER,Named Entity Recognition)命名实体是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。(4)句法分析(syntax parsing)句法分析往往是一种基于规则的专家系统。当然也不是说它不能用统计学的方法进行构建,不过最初的时候,还是利用语言学专家的知识来构建的。句法分析的目的是解析句子中各个成分的依赖关系。所以,往往最终生成的结果是一棵句法分析树。句法分析可以解决传统词袋模型不考虑上下文的问题。比如,“小李是小杨的班长”和“小杨是小李的班长”,这两句话,用词袋模型是完全相同的,但是句法分析可以分析出其中的主从关系,真正理清句子的关系。(5)指代消解(anaphora resolution)中文中代词出现的频率很高,它的作用的是用来表征前文出现过的人名、地名等。例如,清华大学坐落于北京,这家大学是目前中国最好的大学之一。在这句话中,其实“清华大学”这个词出现了两次,“这家大学”指代的就是清华大学。但是出于中文的习惯,我们不会把“清华大学”再重复一遍。(6)情感识别(emotion recognition)所谓情感识别,本质上是分类问题,经常被应用在舆情分析等领域。情感一般可以分为两类,即正面、负面,也可以是三类,在前面的基础上,再加上中性类别。一般来说,在电商公司,情感识别可以分析商品评价的好坏,以此作为下一个环节的评判依据。通常可以基于词袋模型+分类器,或者现在流行的词向量模型+RNN。经过测试发现,后者比前者准确率略有提升。(7)纠错(correction)自动纠错在搜索技术以及输入法中利用得很多。由于用户的输入出错的可能性比较大,出错的场景也比较多。所以,我们需要一个纠错系统。具体做法有很多,可以基于N-Gram进行纠错,也可以通过字典树、有限状态机等方法进行纠错。(8)问答系统(QA system)这是一种类似机器人的人工智能系统。比较著名的有:苹果Siri、IBM Watson、微软小冰等。问答系统往往需要语音识别、合成,自然语言理解、知识图谱等多项技术的配合才会实现得比较好。3.2 知识结构作为一门综合学科,NLP是研究人与机器之间用自然语言进行有效通信的理论和方法。这需要很多跨学科的知识,需要语言学、统计学、最优化理论、机器学习、深度学习以及自然语言处理相关理论模型知识做基础。作为一门杂学,NLP可谓是包罗万象,体系化与特殊化并存,这里简单罗列其知识体系,知识结构结构图如图所示。▲知识结构图示自然语言的学习,需要有以下几个前置知识体系:目前主流的自然语言处理技术使用python来编写。统计学以及线性代数入门。02 中文分词技术1. 中文分词介绍“词”这个概念一直是汉语语言学界纠缠不清而又绕不开的问题。“词是什么”(词的抽象定义)和“什么是词”(词的具体界定),这两个基本问题迄今为止也未能有一个权威、明确的表述,更无法拿出令大众认同的词表来。主要难点在于汉语结构与印欧体系语种差异甚大,对词的构成边界方面很难进行界定。比如,在英语中,单词本身就是“词”的表达,一篇英文文章就是“单词”加分隔符(空格)来表示的,而在汉语中,词以字为基本单位的,但是一篇文章的语义表达却仍然是以词来划分的。因此,在处理中文文本时,需要进行分词处理,将句子转化为词的表示。这个切词处理过程就是中文分词,它通过计算机自动识别出句子的词,在词间加入边界标记符,分隔出各个词汇。整个过程看似简单,然而实践起来却很复杂,主要的困难在于分词歧义。以NLP分词的经典语句举例,“结婚的和尚未结婚的”,应该分词为“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”?这个由人来判定都是问题,机器就更难处理了。此外,像未登录词、分词粒度粗细等都是影响分词效果的重要因素。自中文自动分词被提出以来,历经将近30年的探索,提出了很多方法,可主要归纳为“规则分词”“统计分词”和“混合分词(规则+统计)”这三个主要流派。规则分词是最早兴起的方法,主要是通过人工设立词库,按照一定方式进行匹配切分,其实现简单高效,但对新词很难进行处理。随后统计机器学习技术的兴起,应用于分词任务上后,就有了统计分词,能够较好应对新词发现等特殊场景。然而实践中,单纯的统计分词也有缺陷,那就是太过于依赖语料的质量,因此实践中多是采用这两种方法的结合,即混合分词。下面将详细介绍这些方法的代表性算法。2. 规则分词基于规则的分词是一种机械分词方法,主要是通过维护词典,在切分语句时,将语句的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。按照匹配切分的方式,主要有正向最大匹配法、逆向最大匹配法以及双向最大匹配法三种方法。2.1 正向最大匹配法正向最大匹配(Maximum Match Method,MM法)的基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理。如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。其算法描述如下:从左向右取待切分汉语句的m个字符作为匹配字段,m为机器词典中最长词条的字符数。查找机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来。若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有词为止。比如我们现在有个词典,最长词的长度为5,词典中存在“南京市长”和“长江大桥”两个词。现采用正向最大匹配对句子“南京市长江大桥”进行分词,那么首先从句子中取出前五个字“南京市长江”,发现词典中没有该词,于是缩小长度,取前4个字“南京市长”,词典中存在该词,于是该词被确认切分。再将剩下的“江大桥”按照同样方式切分,得到“江”“大桥”,最终分为“南京市长”“江”“大桥”3个词。显然,这种结果还不是我们想要的。2.2 逆向最大匹配法逆向最大匹配(Reverse Maximum Match Method,RMM法)的基本原理与MM法相同,不同的是分词切分的方向与MM法相反。逆向最大匹配法从被处理文档的末端开始匹配扫描,每次取最末端的i个字符(i为词典中最长词数)作为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。由于汉语中偏正结构较多,若从后向前匹配,可以适当提高精确度。所以,逆向最大匹配法比正向最大匹配法的误差要小。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。比如之前的“南京市长江大桥”,按照逆向最大匹配,最终得到“南京市”“长江大桥”。当然,如此切分并不代表完全正确,可能有个叫“江大桥”的“南京市长”也说不定。2.3 双向最大匹配法双向最大匹配法(Bi-directction Matching method)是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,然后按照最大匹配原则,选取词数切分最少的作为结果。据SunM.S.和Benjamin K.T.(1995)的研究表明,中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正确,只有大概9.0%的句子两种切分方法得到的结果不一样,但其中必有一个是正确的(歧义检测成功),只有不到1.0%的句子,使用正向最大匹配法和逆向最大匹配法的切分虽重合却是错的,或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对(歧义检测失败)。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因。前面举例的“南京市长江大桥”,采用该方法,中间产生“南京市/长江/大桥”和“南京市/长江大桥”两种结果,最终选取词数较少的“南京市/长江大桥”这一结果。下面是一段实现逆向最大匹配的代码。#逆向最大匹配class IMM(object): def __init__(self, dic_path): self.dictionary = set() self.maximum = 0 #读取词典 with open(dic_path, 'r', encoding='utf8') as f: for line in f: line = line.strip() if not line: continue self.dictionary.add(line) self.maximum = len(line) def cut(self, text): result = [] index = len(text) while index > 0: word = None for size in range(self.maximum, 0, -1): if index - size < 0: continue piece = text[(index - size):index] if piece in self.dictionary: word = piece result.append(word) index -= size break if word is None: index -= 1 return result[::-1]def main(): text = "南京市长江大桥" tokenizer = IMM('./data/imm_dic.utf8') print(tokenizer.cut(text))运行main函数,结果为:['南京市', '长江大桥']基于规则的分词,一般都较为简单高效,但是词典的维护是一个很庞大的工程。在网络发达的今天,网络新词层出不穷,很难通过词典覆盖到所有词。3. 统计分词随着大规模语料库的建立,统计机器学习方法的研究和发展,基于统计的中文分词算法渐渐成为主流。其主要思想是把每个词看做是由词的最小单位的各个字组成的,如果相连的字在不同的文本中出现的次数越多,就证明这相连的字很可能就是一个词。因此我们就可以利用字与字相邻出现的频率来反应成词的可靠度,统计语料中相邻共现的各个字的组合的频度,当组合频度高于某一个临界值时,我们便可认为此字组可能会构成一个词语。基于统计的分词,一般要做如下两步操作:建立统计语言模型。对句子进行单词划分,然后对划分结果进行概率计算,获得概率最大的分词方式。这里就用到了统计学习算法,如隐含马尔可夫(HMM)、条件随机场(CRF)等。限于篇幅,本文只对统计分词相关技术做简要介绍。更多详细内容请参考《Python自然语言处理实战:核心技术与算法》一书第3章第3.3节。4. 混合分词事实上,目前不管是基于规则的算法、还是基于HMM、CRF或者deep learning等的方法,其分词效果在具体任务中,其实差距并没有那么明显。在实际工程应用中,多是基于一种分词算法,然后用其他分词算法加以辅助。最常用的方式就是先基于词典的方式进行分词,然后再用统计分词方法进行辅助。如此,能在保证词典分词准确率的基础上,对未登录词和歧义词有较好的识别。对于作者:涂铭,阿里巴巴数据架构师,对大数据、自然语言处理、Python、Java相关技术有深入的研究,积累了丰富的实践经验。刘祥,百炼智能自然语言处理专家,主要研究知识图谱、NLG等前沿技术,参与机器自动写作产物的研发与设计。刘树春,七牛云高级算法专家,七牛AI实验室NLP&OCR方向负责人,主要负责七牛NLP以及OCR相关项目的研究与落地。本文摘编自《Python自然语言处理实战:核心技术与算法》,经出版方授权发布。延伸阅读《Python自然语言处理实战》推荐语:阿里巴巴、前明略数据和七牛云的高级专家和科学家撰写,零基础掌握NLP的核心技术、方法论和经典算法。了解更多四部反校园暴力电影,施暴凌辱淋漓尽致,一部上映四天...
让公司走得远更要让公司走得稳利用税收大数据精准锁定政策享受主体一企一策略量身定制税收政策辅导方案、一户一专员快速响应跨境涉税需求政策找人机制日益优化国内累计出货量最大的车载压力传感器制造商无锡莱顿电子有限公司每年有数百万只传感器从这里发往全球公司在马来西亚投资建厂前税务部门第一时间就送上了《中国居民赴马来西亚投资税收指南》等政策指引并通过电话、微信等方式及时回复公司涉税疑问有效帮助公司掌握国际税收政策保护自身权益今年1—5月公司出口销售额增长51%(朱雪霞)
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。