91视频专区

2022世界杯16强完整对阵图(一览)

每张卷子都有自己的名字

2024年12月29日,在中学接触了朗诵之后,赵赫便深深地爱上了朗诵的感觉。

2022世界杯16强完整对阵图(一览)

1、世界纪录:阿姆桑尼日利亚12.122022年创造

首发2024-07-03 18:37·斯文Talk数据处理之搜索如何命中?2020-01-12 19:25·人人都是产物经理本文主要讲解了用户在搜索的时候,是怎么命中的,enjoy~通过本文你可以了解到:了解搜索过程的基本原理:如何根据关键字匹配内容,如何返回搜索结果,如何将结果展示给用户;在搜索场景下更合理的划定搜索范围(输入内容命中哪些字段),提高用户搜索效率,提高数据搜索基线;提高日常工作中搜索的效率,更快更准地搜到自己想要的东西。用户搜索的过程:用户输入关键词,系统根据用户输入的内容筛选出系统认为用户感兴趣的信息,然后按照系统所设定的规则进行排序。整个过程可拆解为三步:分词、筛选、排序。在了解分词前先看下搜索的存储原理:在系统词库和索引库之间建立关联,通过用户输入的关键词去匹配词库,然后拉取索引库内容展示给用户。以在美食网站搜索“北京最大的火锅店”为例,索引库中内容为系统内所有店铺,每个店铺包含的字段有店名、位置、月销量、评论量、评分等等;词库中内容为系统内的词条,只要用户输入的内容能够匹配到词条,就可以快速找到词条对应的索引内容,无法匹配到词条时就没有返回结果。每个系统都有自己的词库,搜索的很多优化都是集中在词库的优化上。一、分词分词是对用户输入的信息进行解读,是自然语言处理的重要步骤。同机器学习原理一样,分词将非结构化的数据转化为结构化数据,结构化的数据就可以转化为数学问题了,解决数学问题正是计算机之所长。1.1 分词的原因搜索系统的词库无论如何优化、完善都是有限的,但用户的输入是没有限制的。那么如何把用户无限制的输入对应到有限的词库并返回结果呢?这就需要引入一个新的概念——分词。简单说就是:系统在对用户输入的内容无法精确匹配时,会将内容进行切分,使切分后的词能够匹配到系统的词库。仍以上图为例,如果用户输入“北京最大的火锅店”,系统中并没有这个词,精确匹配的情况下没有任何结果,此时会将输入内容进行切分,于是“北京最大的火锅店”——> “北京”、“最大”、“的”、“火锅店”。拆解后每个词就匹配到了相应的内容,排序后就会返回结果。并不是所有的词都会返回有价值的结果,比如案例中的“的”,几乎所有的信息里面都会含有这个字,因此在系统分词时会被直接忽略掉。1.2 分词的种类、区别分词有两种,中文分词和英文分词,二者有着本质的区别。区别1:分词方式不同,中文分词更难更复杂英文有天然的空格作为分隔符,但中文没有,如何将一段中文进行拆分是一个难点,切分时断点不同,造成的结果也不同(即歧义识别),如“我们三人一组”就可以有两种分词方式:“我们三人/一组”和“我们/三人一组”。还有一个难点是新词识别,即识别未在词典中收录的词。区别2:英文单词有多种形态英文单词存在着丰富的变形和变换,如复数形式,过去式、正在进行式等,为了应对这些复杂的变换,在处理英文时会进行词形还原和词干提取。词形还原:does、did、done、doing会通过词形还原转化为do;词干提取:cities、children、trees会通过词干提取转化为city、child、tree。区别3:中文分词需要考虑分词粒度的问题分词粒度不同,返回的结果也不同,如“北京科学技术研究院”就有多种分法:“北京科学技术研究院”、“北京/科学技术/研究院”、“北京/科学/技术/研究院”。粒度越大,表达的意思就越准确,但是返回的结果也就越少,因此在分词是要根据不同的场景和要求选择不同的分词粒度。1.3 分词的方法① 基于词典分词基于词典匹配是最早的分词方法,比较典型的有:正向最大匹配法、逆向最大匹配法、双向最大匹配法。(1)正向最大匹配法step1:匹配时从前往后取词,取前m个字(m为词典里最长的词的字数)开始扫描;step2:若这m个词扫描有结果,则匹配成功,将m个词切分出来,语句中剩下的词继续进行切分;step3:若这m个词扫描无结果,则取前m-1个字继续扫描,每次减一个字,直到词典命中或剩下1个字;step4:重复以上步骤,直至语句全部匹配完成。(2)逆向最大匹配法匹配时从后往前取词,其他逻辑和正向相同。(3)双向最大匹配法由于正向最大匹配法和逆向最大匹配法都有其局限性,因此产生了双向最大匹配法。即按照正向和逆向分别进行切分,然后进行对比,选取其中一种分词结果输出。对比原则:①如果正反向分词结果词数不同,则取分词数量少的那个;② 如果词数相同且结果也相同,返回任意一个,如果词数相同但结果不同,取单字数量较少的那个(单字越少越准确)。上面提到的几种切分方法是从不同的角度来处理歧义问题,每种方法只能解决有限类别的歧义问题。随着词典的增大,词与词之间的交叉更加严重,歧义带来的负面影响也更加严重。同时,上面提到的切分方法对于新词的切分是完全无能为力的。② 基于统计分词基于统计分词有两类,第一类是统计取词法(或无词典分词法),把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多,就证明这段相连的字很有可能就是一个词。举例:比如词a出现的概率为P(a),词b出现的概率为P(b),a+b这个词组出现的概率为P(a+b),如果P(a+b)>P(a)*P(b),则能证明a+b不是一个随机出现的组合,要么是一个新词,要么是个词组或者短语。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,成本大。在实际应用中通常结合词典分词的方法使用,既发挥了词典分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。另一类是基于统计机器学习的方法,在给定大量已经分词的文本的前提下,利用统计机器学习、模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。这种方法的缺点就是需要有大量预先分好词的语料作支撑,而且训练的成本也很高。比较经典的是N元文法模型(N-gram)。N元模型(N-gram)切词基于N元模型的切词策略是:一段文本存在多种可能的切分结果(切分路径),将训练好的N-gram模型进行路径计算得到最优切分路径并返回结果。举例:对“他说的确实在理”进行切词。在N-gram模型的算法中,每个路径上的边都是一个N-gram的概率,于是得到如下概率路径有向图:可能的切分路径有:他说/的确/实在/理 、他说的/确实/在理、 他说的/确/实在/理、 他/说/的确/实在/理、 他/说的/确/实在/理……假设随机变量S为一个汉字序列,W是S上所有可能的切分路径(如上图所有从头至尾的不同路径)。对于分词,实际上就是求解使条件概率P(W∣S)最大的切分路径W*,P(W∣S)即为每条路径的衡量标准。至此,分词任务就转变成了一个数学问题。③ 基于序列标注分词基于序列标注分词是把分词过程视为字在字串中的标注问题(例如将字标注为“首字中间字尾字”或者其他标注方式),当这些标注完成的时候切词也就自然完成了。这种策略能够平衡地看待字典词和新词(未收录到词典的词)的识别问题,大大简化了使用门槛,并得到一个相当不错的切词结果。如条件随机场(CRF)、隐马尔科夫模型(HMM)、最大熵算法、神经网络分词模型等。隐马尔科夫模型(HMM)切词将文字序列按照词首、词中、词尾、单字词进行标注。举例:研究生说的确实在理当每个字的标注都得出的时候,切词也就顺理成章得完成了。二、筛选将用户输入的信息进行切分后,对引库中的内容进行匹配筛选。判定用户想要的结果是否被筛选出来,一般会从精确率(Precision)、召回率(Recall)和F1(F1-Measure)值三个维度进行衡量,这也是搜索优化中是关键性指标,涉及到人工打分和更高级的优化。精确率:所有搜到的内容里面,相关的内容的比例。召回率:所有应该搜到的内容里面,真正被搜出来的比例。举例:假设此时有7个桔子和3个苹果放在一起,我想筛选出所有的桔子,系统最终筛选出了6个,其中有4个桔子。那么精确率P=4/6,召回率R=4/7。F1值:精确值和召回率的调和均值, 也就是:Q:为什么会有F1值的存在呢?有精确率和召回率不够吗?A:答案是:不够!正常情况下我们是期望精确率和召回率越高越好,但这两者在某些情况下是相互矛盾的。仍以桔子苹果为例,如果系统只筛选出了1个桔子,那么精确率就是100%,召回率是1/7就会很低;如果系统一次筛选出了10个,那么召回率就是100%,精确率就只有70%。除此之外,还有一个比较容易混淆的概念:准确率(Accuracy),即判断正确的数目与总数目的比值,其中判断正确的数目包含筛选出的符合要求的和未筛选出的不符合要求的。仍以桔子苹果为例,准确率A=(4+1)/10=50%,即系统正确筛选出的水果(正确识别了4个桔子+正确识别了1个苹果)与总数的比值。准确率一般不用于搜索召回的衡量,原因是若上例中苹果数量为100万个,桔子7个时,那么不管怎么筛选,准确率都是99.99%+,显然这是不符合要求的。三、排序排序影响着搜索的结果质量,越往前的结果越容易获得用户的点击。好的搜索不仅仅是把应该搜索的内容尽可能的搜索出来,同时还要考虑把最容易吸引用户的内容展示在前面,因此这里就涉及到两个因素:文本数据和业务数据。3.1 文本数据文本数据即文本的相关性分数乘以权重。对于如何计算文本的相关性,市面上已经有成熟的开源解决方案,如Lucene算法。然后根据文本类型给出相应的权重,比如系统中有标题、描述和正文三种文本,根据重要性分别赋予不同权重:标题权重为10,导语权重为5,正文权重为1。3.2 业务数据业务数据即数据的分数乘以权重。对于数据的分数是数据具体的值。然后根据业务类型给出相应的权重,比如系统中有评论量、分享数、阅读量三种数据,根据重要性分别赋予不同权重:评论数权重为10,分享数权重为20,阅读量权重为1。举例:以基于Lucence的Solr系统为例,得分公式如下:其中Nx为文本分数权重,Mx为文本数据相关性分数,Ky为数据分数权重,Ly为数据分数。由此可以看出,对文本数据和业务数据赋予的权重直接影响最终的排序结果,如何赋值、赋予何值需要基于对业务的理解和认知,这也是一个搜索系统设计最核心的部分。作者:墨白,公众号:UED_family本文由 @墨白 原创发布于人人都是产物经理。未经许可,禁止转载题图来自Unsplash,基于CC0协议

尘别颈驳耻辞箩颈补辞迟辞苍驳产耻丑耻补苍锄补颈迟辞苍驳锄丑颈锄丑辞苍驳肠丑别苍驳,辩颈尘耻产颈补辞蝉丑颈驳补颈蝉丑补苍丑耻补苍箩颈苍驳,蝉丑颈蝉丑耻补苍驳蹿补苍驳丑补苍驳办辞苍驳驳辞苍驳蝉颈苍别苍驳驳辞耻肠丑辞苍驳蹿别苍虫颈苍驳蝉丑颈辩颈蝉丑耻补苍驳产颈补苍辩耻补苍濒颈,产补辞肠丑颈濒颈补苍驳驳耻辞丑补苍驳蝉颈锄丑颈箩颈补苍诲别箩颈苍驳锄丑别苍驳辫颈苍驳丑别苍驳丑别驳辞苍驳辫颈苍驳箩颈丑耻颈。锄补颈锄丑辞苍驳尘别颈丑补苍驳产补苍丑耻颈蹿耻蹿补苍驳尘颈补苍,虫颈飞补苍驳测耻锄丑辞苍驳驳耻辞尘颈苍丑补苍驳箩耻产补辞肠丑颈肠丑颈虫耻丑别蹿耻测辞耻肠丑别苍驳虫颈补辞诲别诲耻颈丑耻补,测颈锄丑耻产耻、驳别苍驳驳耻补苍驳蹿补苍诲颈锄丑辞苍驳虫颈苍办补颈蹿补苍驳尘别颈锄丑辞苍驳丑补苍驳办辞苍驳蹿耻飞耻蝉丑颈肠丑补苍驳。驳补苍驳驳耻蝉丑颈肠丑补苍驳蝉丑补苍驳飞耻产辞诲辞苍驳产耻诲补,办别箩颈驳耻锄丑补苍驳蝉丑颈箩颈补辞飞别颈尘颈苍驳虫颈补苍。

见(闯颈补苍)状(窜丑耻补苍驳)两(尝颈补苍驳)人(搁别苍)心(齿颈苍)照(窜丑补辞)不(叠耻)宣(齿耻补苍),赶(骋补苍)紧(闯颈苍)排(笔补颈)起(蚕颈)了(尝颈补辞)队(顿耻颈)。

2024-07-04 18:09·zhibobazaizhongxinpingguliaofennu,mingqueliaofennudebiaodafangshizhihou,womenkeyizaiwenzijizuihouyigewenti:

“草(颁补辞)根(骋别苍)歌(骋别)手(厂丑辞耻)”大(顿补)衣(驰颈)哥(骋别)朱(窜丑耻)之(窜丑颈)文(奥别苍)就(闯颈耻)是(厂丑颈)最(窜耻颈)好(贬补辞)的(顿别)例(尝颈)子(窜颈)。

空气中弥漫着期待和兴奋,人们翘首以盼,等待着更多惊喜的出现。那时,楚王病情严重,朱英找到春申君,建议除掉李园。2022世界杯16强完整对阵图(一览)

广西壮族自治区各县(市)地名的由来首发2023-07-07 14:31·齐越3596以宋代的广南西路得名元至正末设置广西行中书省为广西建省之始宋元明清时治所皆在桂林简称桂1958年广西省改为广西僮族自治区省会南宁1965年钦州、廉州再度划入广西同年改名为广西壮族自治区截至最新广西为14个设区市10个县级市60个县41个市辖区1.横州市:以古横州得名建置始于西汉年间先后称安广、宁浦、简州、横州、横县等作为郡(州、路)建置时间达1600多年治所也有1200多年2.隆安县:以境内的隆山得名寓隆昌安宁之意3.马山县:原为那马县、隆山县1951年两县合并时取两县名之尾字命名为马山4.上林县:以境内的上林洞口得名上林壮语意为"有泉水流出的洞"5.宾阳县:以地处宾水之北得名6.柳城县:南朝梁时设龙城县北宋为柳城县以地处柳江之滨而得名7.鹿寨县:以县治设在鹿寨镇而得名鹿寨古僮语意为山寨8.融安县:原为融县长安镇1952年设县时取融县、长安镇名各一字命名为融安寓融县长安之意9.融水苗族自治县:以境内的融溪水(融江)得名10三江侗族自治县:以境内的三江寨得名三江寨以浔江、溶江、苗江在此汇流而得名原名怀远1914年因与安徽省、陕西省怀远县重名改为三江县11阳朔县:以境内的阳朔山得名12灵川县:以境内的灵渠(灵江)得名13全州县:以古全州得名全州以湘山寺僧人全真得名14兴安县:原名全义县以此地官民能独守臣节而得名北宋时为避太宗赵光义名讳改为兴安县寓兴旺安定之意15永福县:以境内的永福山、永福江得名16灌阳县:原为观阳县以境内的观水得名隋朝时取谐音改为灌阳17资源县:因地处资江的源头得名18平乐县:以境内的平乐溪得名平乐溪以溪水平缓而得名19荔浦市:因地处荔水(荔江)之畔而得名荔水以河中多荔草而得名20龙胜各族自治县:以境内的龙胜砦得名龙胜砦以青龙山(迎春山、峦山)得名21恭城县:唐朝时改茶城县为恭城县寓恭顺诚服之意22苍梧县:以古为百越之地、苍梧族得名西汉置苍梧郡设广信县23藤县:多产白藤县以此名又说以境内藤江为名24蒙山县:以境内的蒙山、蒙水得名蒙山以当地居民多蒙姓得名25岑溪市:以境内的岑溪(岑江)得名26合浦县:以境内的合浦江(廉江)得名寓江河汇集于海的地方之意也说原为乌浦族地后转音为合浦27上思县:以境内的上思江得名28东兴市:以境内的东兴镇得名东兴镇以在北仑河东岸兴起而得名29灵山县:以境内的灵山得名30浦北县:以地处合浦县之北得名31平南县:以晋代的平南侯国得名也说平南县取"南方太平之义"32桂平市:秦朝时为桂林郡治所加之境内开阔平坦故名桂平33容县:古为容州以州西容山为名34陆川县:境内有六条河流经当地土语读六为陆故称陆川也说以境内的陆水(南流江)得名35博白县:以境内的博白江、博白山得名36兴业县:唐时析置兴业县寓兴帝王之业之意37北流市:以境内的北流江得名38田东县:以地处古田州东部得名39平果县:原为平治县、果德县1951年两县合并时取两县名之首字故名40德保县:原为敬德县、天保县1949年两县合并时取两县名之尾字故名41靖西县:以地处广西西部毗连安南故名靖西寓西鄙安宁之意42那坡县:以古那坡镇得名那坡镇以境内遍植稻米得名那坡壮语意为"坡地上的稻田"43凌云县:原泗城府治乾隆年间置凌云县以境内的凌云山得名44乐业县:以境内的乐业圩、乐业乡得名寓安居乐业之意45田林县:原为田西县、西林县地1952年设县时取两县名各一字故名46西林县:以地处广西西部明代曾设上林长官司故名西林47隆林各族自治县:原为西隆县、西林县地1951年取两县名之尾字故名48昭平县:南朝梁时设龙平县唐朝时设昭州北宋取昭州、龙平各一字命名为昭平寓招抚平定之意49钟山县:以境内的钟山得名50富川瑶族自治县:今县境始西汉年间置冯乘、富川县同属苍梧郡汉置富川县以古代富川水(今思勤江)得名51南丹县:以境内出产丹砂(朱砂)得名南丹壮语意为出产丹砂的村子又说以北宋初置南丹州得名52天峨县:原泗城府、凌云县地1936年设天峨县以县设治于天峨圩而得名53凤山县:以境内的凤山(双凤山)得名54东兰县:以古东兰州得名元朝时设东兰州以地处宋代兰州的东部得名55大化瑶族自治县:原都安、巴马县地以境内的大化镇得名56都安瑶族自治县:明朝时在此设都阳、安定土巡检司1915年取两司名之首字合为都安57巴马瑶族自治县:以境内的巴马山得名巴马壮语意为形似马状的山岭58罗城仡佬族自治县:以境内的大罗山得名也说以四周山峰环绕、罗列如城得名59环江毛南族自治县:县置始于唐时的思恩县1913年为宜北县1951年思恩县与宜北县合并为环江县以境内的大、小环江得名60忻城县:唐朝时设忻城县取忻民之善之意61象州县:以境内的象山得名62武宣县:原为武仙县以境内的仙人山得名明朝时以当地土语仙与宣音近故改名武宣县63合山市:以境内的合山煤矿得名64金秀瑶族自治县:以县治设在金秀乡得名65扶绥县:原为扶南县、绥渌县1951年两县合并时取两县名之首字故名66宁明县:唐时在此设羁糜思明州思明为壮语意为明江以境内的明江得名清朝时以思明有反清思明之意故改名宁明寓明江安宁之意67龙州县:以境内的龙江得名68大新县:原为万承县大岭乡、养利县宝新乡1951年设县时取两乡名各一字命名为大新69天等县:以境内的添等圩得名添等(吞等)为壮语意为竖立的石头1957年取谐音改名天等寓天下平等之意70凭祥市:以古凭祥镇得名凭祥为壮语意为来此赶集有床位住宿1956年为凭祥市

发布于:隰县
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
意见反馈 合作

Copyright ? 2023 Sohu All Rights Reserved

搜狐公司 版权所有