第一次被口两分钟正常吗?-有来医生
其实,向荣是酒醉心明,还有后面半句没敢说出来。
2024年12月10日,目前,苹果、微软、谷歌和亚马逊都是“1万亿美元市值俱乐部”的成员。截至收盘,苹果的市值为2.77万亿美元,微软为2.45万亿美元,而谷歌母公司础濒辫丑补产别迟的市值为1.71万亿美元,亚马逊为1.42万亿美元。
第一次被口两分钟正常吗?-有来医生
入门科普:一文看懂NLP和中文分词算法(附代码举例)2018-11-22 21:30·机智的格子间生活导读:在人类社会中语言扮演着重要的角色语言是人类区别于其他动物的根本标志没有语言人类的思维无从谈起沟通交流更是无源之水所谓自然乃是寓意自然进化形成是为了区分一些人造语言类似C++、Java等人为设计的语言NLP的目的是让计算机能够处理、理解以及运用人类语言达到人与计算机之间的有效通讯作者:涂铭 刘祥 刘树春本文摘编自《Python自然语言处理实战:核心技术与算法》如需转载请联系我们01 什么是NLP1. NLP的概念NLP(Natural Language Processing自然语言处理)是计算机科学领域以及人工智能领域的一个重要的研究方向它研究用计算机来处理、理解以及运用人类语言(如中文、英文等)达到人与计算机之间进行有效通讯在一般情况下用户可能不熟悉机器语言所以自然语言处理技术可以帮助这样的用户使用自然语言和机器交流从建模的角度看为了方便计算机处理自然语言可以被定义为一组规则或符号的集合我们组合集合中的符号来传递各种信息这些年NLP研究取得了长足的进步逐渐发展成为一门独立的学科从自然语言的角度出发NLP基本可以分为两个部分:自然语言处理以及自然语言生成演化为理解和生成文本的任务如图所示▲NLP的基本分类自然语言的理解是个综合的系统工程它又包含了很多细分学科有代表声音的音系学代表构词法的词态学,代表语句结构的句法学代表理解的语义句法学和语用学音系学:指代语言中发音的系统化组织词态学:研究单词构成以及相互之间的关系句法学:给定文本的哪部分是语法正确的语义学:给定文本的含义是什么语用学:文本的目的是什么语言理解涉及语言、语境和各种语言形式的学科而自然语言生成(Natural Language GenerationNLG)恰恰相反从结构化数据中以读取的方式自动生成文本该过程主要包含三个阶段:文本规划:完成结构化数据中的基础内容规划语句规划:从结构化数据中组合语句来表达信息流实现:产生语法通顺的语句来表达文本2. NLP的研究任务NLP可以被应用于很多领域这里大概总结出以下几种通用的应用:机器翻译:计算机具备将一种语言翻译成另一种语言的能力情感分析:计算机能够判断用户评论是否积极智能问答:计算机能够正确回答输入的问题文摘生成:计算机能够准确归纳、总结并产生文本摘要文本分类:计算机能够采集各种文章进行主题分析从而进行自动分类舆论分析:计算机能够判断目前舆论的导向知识图谱:知识点相互连接而成的语义网络机器翻译是自然语言处理中最为人所熟知的场景国内外有很多比较成熟的机器翻译产物比如百度翻译、Google翻译等还有提供支持语音输入的多国语言互译的产物情感分析在一些评论网站比较有用比如某餐饮网站的评论中会有非常多拔草的客人的评价如果一眼扫过去满眼都是又贵又难吃那谁还想去呢另外有些商家为了获取大量的客户不惜雇佣水军灌水那就可以通过自然语言处理来做水军识别情感分析来分析总体用户评价是积极还是消极智能问答在一些电商网站有非常实际的价值比如代替人工充当客服角色有很多基本而且重复的问题其实并不需要人工客服来解决通过智能问答系统可以筛选掉大量重复的问题使得人工座席能更好地服务客户文摘生成利用计算机自动地从原始文献中摘取文摘全面准确地反映某一文献的中心内容这个技术可以帮助人们节省大量的时间成本而且效率更高文本分类是机器对文本按照一定的分类体系自动标注类别的过程举一个例子垃圾邮件是一种令人头痛的顽症困扰着非常多的互联网用户2002年Paul Graham提出使用贝叶斯推断来过滤垃圾邮件1000封垃圾邮件中可以过滤掉995封并且没有一个是误判另外这种过滤器还具有自我学习功能会根据新收到的邮件不断调整也就是说收到的垃圾邮件越多相对应的判断垃圾邮件的准确率就越高舆论分析可以帮助分析哪些话题是目前的热点分析传播路径以及发展趋势对于不好的舆论导向可以进行有效的控制知识图谱(Knowledge Graph/Vault)又称科学知识图谱在图书情报界称为知识域可视化或知识领域映射地图是显示知识发展进程与结构关系的一系列各种不同的图形用可视化技术描述知识资源及其载体挖掘、分析、构建、绘制和显示知识及它们之间的相互联系知识图谱的一般表现形式如图所示▲知识图谱图示3. NLP相关知识的构成3.1 基本术语为了帮助读者更好地学习NLP这里会一一介绍NLP领域的一些基础专业词汇(1)分词(segment)词是最小的能够独立活动的有意义的语言成分英文单词之间是以空格作为自然分界符的而汉语是以字为基本的书写单位词语之间没有明显的区分标记因此中文词语分析是中文分词的基础与关键中文和英文都存在分词的需求不过相较而言英文单词本来就有空格进行分割所以处理起来相对方便但是由于中文是没有分隔符的所以分词的问题就比较重要分词常用的手段是基于字典的最长串匹配据说可以解决85%的问题但是歧义分词很难举个例子美国会通过对台售武法案我们既可以切分为美国/会/通过对台售武法案又可以切分成美/国会/通过对台售武法案(2)词性标注(part-of-speech tagging)基于机器学习的方法里往往需要对词的词性进行标注词性一般是指动词、名词、形容词等标注的目的是表征词的一种隐藏状态隐藏状态构成的转移就构成了状态转移序列例如:我/r爱/v北京/ns天安门/ns其中ns代表名词v代表动词ns、v都是标注以此类推(3)命名实体识别(NERNamed Entity Recognition)命名实体是指从文本中识别具有特定类别的实体(通常是名词)例如人名、地名、机构名、专有名词等(4)句法分析(syntax parsing)句法分析往往是一种基于规则的专家系统当然也不是说它不能用统计学的方法进行构建不过最初的时候还是利用语言学专家的知识来构建的句法分析的目的是解析句子中各个成分的依赖关系所以往往最终生成的结果是一棵句法分析树句法分析可以解决传统词袋模型不考虑上下文的问题比如小李是小杨的班长和小杨是小李的班长这两句话用词袋模型是完全相同的但是句法分析可以分析出其中的主从关系真正理清句子的关系(5)指代消解(anaphora resolution)中文中代词出现的频率很高它的作用的是用来表征前文出现过的人名、地名等例如清华大学坐落于北京这家大学是目前中国最好的大学之一在这句话中其实清华大学这个词出现了两次这家大学指代的就是清华大学但是出于中文的习惯我们不会把清华大学再重复一遍(6)情感识别(emotion recognition)所谓情感识别本质上是分类问题经常被应用在舆情分析等领域情感一般可以分为两类即正面、负面也可以是三类在前面的基础上再加上中性类别一般来说在电商公司情感识别可以分析商品评价的好坏以此作为下一个环节的评判依据通常可以基于词袋模型+分类器或者现在流行的词向量模型+RNN经过测试发现后者比前者准确率略有提升(7)纠错(correction)自动纠错在搜索技术以及输入法中利用得很多由于用户的输入出错的可能性比较大出错的场景也比较多所以我们需要一个纠错系统具体做法有很多可以基于N-Gram进行纠错也可以通过字典树、有限状态机等方法进行纠错(8)问答系统(QA system)这是一种类似机器人的人工智能系统比较著名的有:苹果Siri、IBM Watson、微软小冰等问答系统往往需要语音识别、合成自然语言理解、知识图谱等多项技术的配合才会实现得比较好3.2 知识结构作为一门综合学科NLP是研究人与机器之间用自然语言进行有效通信的理论和方法这需要很多跨学科的知识需要语言学、统计学、最优化理论、机器学习、深度学习以及自然语言处理相关理论模型知识做基础作为一门杂学NLP可谓是包罗万象体系化与特殊化并存这里简单罗列其知识体系知识结构结构图如图所示▲知识结构图示自然语言的学习需要有以下几个前置知识体系:目前主流的自然语言处理技术使用python来编写统计学以及线性代数入门02 中文分词技术1. 中文分词介绍词这个概念一直是汉语语言学界纠缠不清而又绕不开的问题词是什么(词的抽象定义)和什么是词(词的具体界定)这两个基本问题迄今为止也未能有一个权威、明确的表述更无法拿出令大众认同的词表来主要难点在于汉语结构与印欧体系语种差异甚大对词的构成边界方面很难进行界定比如在英语中单词本身就是词的表达一篇英文文章就是单词加分隔符(空格)来表示的而在汉语中词以字为基本单位的但是一篇文章的语义表达却仍然是以词来划分的因此在处理中文文本时需要进行分词处理将句子转化为词的表示这个切词处理过程就是中文分词它通过计算机自动识别出句子的词在词间加入边界标记符分隔出各个词汇整个过程看似简单然而实践起来却很复杂主要的困难在于分词歧义以NLP分词的经典语句举例结婚的和尚未结婚的应该分词为结婚/的/和/尚未/结婚/的还是结婚/的/和尚/未/结婚/的这个由人来判定都是问题机器就更难处理了此外像未登录词、分词粒度粗细等都是影响分词效果的重要因素自中文自动分词被提出以来历经将近30年的探索提出了很多方法可主要归纳为规则分词统计分词和混合分词(规则+统计)这三个主要流派规则分词是最早兴起的方法主要是通过人工设立词库按照一定方式进行匹配切分其实现简单高效但对新词很难进行处理随后统计机器学习技术的兴起应用于分词任务上后就有了统计分词能够较好应对新词发现等特殊场景然而实践中单纯的统计分词也有缺陷那就是太过于依赖语料的质量因此实践中多是采用这两种方法的结合即混合分词下面将详细介绍这些方法的代表性算法2. 规则分词基于规则的分词是一种机械分词方法主要是通过维护词典在切分语句时将语句的每个字符串与词表中的词进行逐一匹配找到则切分否则不予切分按照匹配切分的方式主要有正向最大匹配法、逆向最大匹配法以及双向最大匹配法三种方法2.1 正向最大匹配法正向最大匹配(Maximum Match MethodMM法)的基本思想为:假定分词词典中的最长词有i个汉字字符则用被处理文档的当前字串中的前i个字作为匹配字段查找字典若字典中存在这样的一个i字词则匹配成功匹配字段被作为一个词切分出来如果词典中找不到这样的一个i字词则匹配失败将匹配字段中的最后一个字去掉对剩下的字串重新进行匹配处理如此进行下去直到匹配成功即切分出一个词或剩余字串的长度为零为止这样就完成了一轮匹配然后取下一个i字字串进行匹配处理直到文档被扫描完为止其算法描述如下:从左向右取待切分汉语句的m个字符作为匹配字段m为机器词典中最长词条的字符数查找机器词典并进行匹配若匹配成功则将这个匹配字段作为一个词切分出来若匹配不成功则将这个匹配字段的最后一个字去掉剩下的字符串作为新的匹配字段进行再次匹配重复以上过程直到切分出所有词为止比如我们现在有个词典最长词的长度为5词典中存在南京市长和长江大桥两个词现采用正向最大匹配对句子南京市长江大桥进行分词那么首先从句子中取出前五个字南京市长江发现词典中没有该词于是缩小长度取前4个字南京市长词典中存在该词于是该词被确认切分再将剩下的江大桥按照同样方式切分得到江大桥最终分为南京市长江大桥3个词显然这种结果还不是我们想要的2.2 逆向最大匹配法逆向最大匹配(Reverse Maximum Match MethodRMM法)的基本原理与MM法相同不同的是分词切分的方向与MM法相反逆向最大匹配法从被处理文档的末端开始匹配扫描每次取最末端的i个字符(i为词典中最长词数)作为匹配字段若匹配失败则去掉匹配字段最前面的一个字继续匹配相应地它使用的分词词典是逆序词典其中的每个词条都将按逆序方式存放在实际处理时先将文档进行倒排处理生成逆序文档然后根据逆序词典对逆序文档用正向最大匹配法处理即可由于汉语中偏正结构较多若从后向前匹配可以适当提高精确度所以逆向最大匹配法比正向最大匹配法的误差要小统计结果表明单纯使用正向最大匹配的错误率为1/169单纯使用逆向最大匹配的错误率为1/245比如之前的南京市长江大桥按照逆向最大匹配最终得到南京市长江大桥当然如此切分并不代表完全正确可能有个叫江大桥的南京市长也说不定2.3 双向最大匹配法双向最大匹配法(Bi-directction Matching method)是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较然后按照最大匹配原则选取词数切分最少的作为结果据SunM.S.和Benjamin K.T.(1995)的研究表明中文中90.0%左右的句子正向最大匹配法和逆向最大匹配法完全重合且正确只有大概9.0%的句子两种切分方法得到的结果不一样但其中必有一个是正确的(歧义检测成功)只有不到1.0%的句子使用正向最大匹配法和逆向最大匹配法的切分虽重合却是错的或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对(歧义检测失败)这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因前面举例的南京市长江大桥采用该方法中间产生南京市/长江/大桥和南京市/长江大桥两种结果最终选取词数较少的南京市/长江大桥这一结果下面是一段实现逆向最大匹配的代码#逆向最大匹配class IMM(object): def __init__(self, dic_path): self.dictionary = set() self.maximum = 0 #读取词典 with open(dic_path, 'r', encoding='utf8') as f: for line in f: line = line.strip() if not line: continue self.dictionary.add(line) self.maximum = len(line) def cut(self, text): result = [] index = len(text) while index > 0: word = None for size in range(self.maximum, 0, -1): if index - size < 0: continue piece = text[(index - size):index] if piece in self.dictionary: word = piece result.append(word) index -= size break if word is None: index -= 1 return result[::-1]def main(): text = "南京市长江大桥" tokenizer = IMM('./data/imm_dic.utf8') print(tokenizer.cut(text))运行main函数结果为:['南京市', '长江大桥']基于规则的分词一般都较为简单高效但是词典的维护是一个很庞大的工程在网络发达的今天网络新词层出不穷很难通过词典覆盖到所有词3. 统计分词随着大规模语料库的建立统计机器学习方法的研究和发展基于统计的中文分词算法渐渐成为主流其主要思想是把每个词看做是由词的最小单位的各个字组成的如果相连的字在不同的文本中出现的次数越多就证明这相连的字很可能就是一个词因此我们就可以利用字与字相邻出现的频率来反应成词的可靠度统计语料中相邻共现的各个字的组合的频度当组合频度高于某一个临界值时我们便可认为此字组可能会构成一个词语基于统计的分词一般要做如下两步操作:建立统计语言模型对句子进行单词划分然后对划分结果进行概率计算获得概率最大的分词方式这里就用到了统计学习算法如隐含马尔可夫(HMM)、条件随机场(CRF)等限于篇幅本文只对统计分词相关技术做简要介绍更多详细内容请参考《Python自然语言处理实战:核心技术与算法》一书第3章第3.3节4. 混合分词事实上目前不管是基于规则的算法、还是基于HMM、CRF或者deep learning等的方法其分词效果在具体任务中其实差距并没有那么明显在实际工程应用中多是基于一种分词算法然后用其他分词算法加以辅助最常用的方式就是先基于词典的方式进行分词然后再用统计分词方法进行辅助如此能在保证词典分词准确率的基础上对未登录词和歧义词有较好的识别对于作者:涂铭阿里巴巴数据架构师对大数据、自然语言处理、Python、Java相关技术有深入的研究积累了丰富的实践经验刘祥百炼智能自然语言处理专家主要研究知识图谱、NLG等前沿技术参与机器自动写作产物的研发与设计刘树春七牛云高级算法专家七牛AI实验室NLP&OCR方向负责人主要负责七牛NLP以及OCR相关项目的研究与落地本文摘编自《Python自然语言处理实战:核心技术与算法》经出版方授权发布延伸阅读《Python自然语言处理实战》推荐语:阿里巴巴、前明略数据和七牛云的高级专家和科学家撰写零基础掌握NLP的核心技术、方法论和经典算法了解更多
截至收盘,沪指报3224.24点,跌0.10%;深成指报11800.55点,涨0.13%;创指报2545.55点,涨0.24%。按照会议的要求,要以系统观念统筹谋划人口问题,以改革创新推动人口高质量发展,把人口高质量发展同人民高品质生活紧密结合起来,促进人的全面发展和全体人民共同富裕。