神医灵泉:贵女弃妃叶蓁墨容湛全文免费阅读冲神医灵泉...
2018热到发烫的宝宝名字,梓涵、一诺、浩宇、欣怡等成爆款2019-01-31 20:50·红星新闻姓名不仅仅是一个人的称呼,伴随一生的代号,更是中华文化的源远流长。每一个新生儿来到人世间,如何取名,是能让父母长辈“头疼”的大事,更是带着父母长辈的祝愿和期望。在2018年进行户籍登记的新生儿姓名中,“梓涵”“一诺”“浩宇”“欣怡”等名字成为爆款。1月30日,公安部户政管理研究中心依托目前全世界最大、覆盖全国近14亿人口的人口信息系统,采用大数据技术,对2018年公安机关登记的全国姓氏和新生儿姓名用字情况进行了统计分析。↑视觉中国资料图2018全国姓名报告出炉“百家姓”中“王、李、张、刘、陈”最多《百家姓》常用作学龄前儿童的启蒙教育“范本”,“赵钱孙李周吴郑王”朗朗上口,而在现实中,哪些姓氏人口数量最多?据统计,目前全国在用姓氏共计6150个。传统意义上的“百家姓”,占全国户籍人口总量的近85%,“王”“李”“张”“刘”“陈”占据头五把“交椅”。全国共有23个姓氏户籍人口数量超过一千万。王姓、李姓户籍人口数量均超过1亿。“王”姓户籍人口数量仅比“李”姓多61万人,“王”姓和“李”姓第一大姓之争仍将延续。排名第101位的“赖”姓与排名第100位的“汤”姓仅差4.3万人,未来跻身“百家姓”大有希望。而最近30年,越来越多的人在姓名中同时使用父姓和母姓,1990年底,这一数据为11.8万,2018年底,增长为110万。同时使用父姓和母姓时,姓氏组合主要集中为常见的“张、王、李、杨、刘、陈、周”姓等,人数排名前20的主要有“张杨”“李杨”“刘杨”“王杨”“张李”等。2018年新生儿取名梓、涵、雨、轩、宇最多姓名用字,往往承载着父母对子女的美好期望,也具有鲜明的时代特色。2018年,公安机关登记的新生儿名字中,使用频率最高的50个字为“梓”“宇”“子”“涵”“泽”“雨”“佳”“浩”“欣”“轩”等。在2018年进行户籍登记的新生儿姓名中,使用频率最高的20个名字由高到低依次为:“梓涵”“一诺”“浩宇”“欣怡”“浩然”“诗涵”“宇轩”“依诺”“子涵”“欣妍”“雨桐”“宇航”“梓萱”“宇泽”“可馨”“佳怡”“子萱”“梓豪”“子墨”“子轩”。2018年进行户籍登记的男性新生儿姓名,使用频率最高的10个名字由高到低依次为:“浩宇”“浩然”“宇轩”“宇航”“宇泽”“梓豪”“子轩”“浩轩”“宇辰”“子豪”。2018年进行户籍登记的女性新生儿姓名,使用频率最高的10个名字由高到低依次为:“梓涵”“一诺”“欣怡”“诗涵”“依诺”“欣妍”“雨桐”“梓萱”“可馨”“佳怡”。2018年新生儿姓名用字数量中,三个字的姓名占据主流,比重达到92.9%;其次为两个字的姓名,占比为4.6%;四个字的姓名占比为1.7%。同一年级每班都有学生名带“宇”同一班“欣悦”“欣玥”分不清有网友戏言,现在的孩子取名“轩”“宇”“梓”“怡”,就像出生于50年代被取名“建国”“卫国”,80年代取名“伟”“强”“勇”等,有着时代的印记和特色。红星新闻记者随机从成都市高新区一小学四年级的学生名单中做筛选发现,每个班都有带“宇”的名字,在男生名字中特别常见,而女生名字最多的是“欣”。例如,该小学4年级1班,分别有同学叫“宇浩”“振宇”“宇程”;2班,分别有两位同学叫“宇航”“宇涵”;3班,三个同学分别叫“宇航”“柯宇”“宇昊;4班,有4个同学分别叫“冠宇”“泽宇”“宇轩”“宇川”。5班,只有一名同学叫“星宇”。而女生姓名中,使用频率较高的“欣”也十分常见。1班有三个同学名字带“欣”,分别是“佳欣”“欣奕”“可欣”;2班最多,有“欣怡”“可欣”“欣玥”“欣悦”“欣雨”“欣然”;3班,有“雨欣”“欣淼”“欣琳”;5班,有“欣怡”。郫都区一中学教师刘小晶印象中,现在家长们对孩子取名十分重视,生僻字增多,名字独特,印象中“轩”“宇”和“欣”“茜”“静”属于高频词汇。而生僻字增多,其实也有烦恼,不少孩子用了很长时间也写不好自己的名字。取名方式哪家强?翻字典、查诗词、取名软件齐上阵如此多的“高频”词汇,让孩子们的名字无意间“撞车”,那么,当时家长们是如何抠破脑袋给孩子取名仍然“踩雷”的呢?大学毕业后就到泸州工作的市民蓝先生解释说,给儿子取名“梓恒”,其实并没有想太多,自己远离家乡工作,取的是“桑梓永恒”之意,希望儿子“记住故土”。在问卷调查中,不少网友表示,在孩子取名时都十分慎重,老一辈喜欢根据“易经天格地格”,年轻人则喜欢从古诗词中寻找灵感,市民胡先生就给女儿取名“淳熙”,就是翻的四书五经。当然,也有“偷懒”的方式,网络上有不少“取名网站”,只需要输入出生年月时辰,就可以自动生成姓名,据介绍是结合了“周易、生肖、音形义”综合起名。红星新闻记者随意输入了姓氏和出生年月,分别生成了9个男女孩姓名,女孩子是“钟雅雯,钟宛静,钟妙嫣,杜静妍,杜蓓妍,杜露媛,彭熙雯,彭怡霏,彭思宇”,男孩的名字则为“肖钧贵,肖江远,肖宇泽,王泽霖,王泽林,王源骏,余俊辰,余振勤,余星辰”。红星新闻记者 于遵素 图片来源见制图编辑 唐欢
2024年12月16日,太吓人了
神医灵泉:贵女弃妃叶蓁墨容湛全文免费阅读冲神医灵泉...
搜索产物指南:必须知道的几件事2019-11-30 11:56·人人都是产物经理搜索产物有很多其中有哪些需要注意的问题在技术之外我们还需要知道什么搜索本身是一个比较技术的事情小白产物想要学习搜索的产物知识就会发现各大论坛上的搜索相关内容都是技术为主即使买上几本搜索相关的书籍也大部分讲的是搜索引擎的原理无从下手去学习入门就更难了那对于一个搜索小白来说到底应该怎么样去设计一个搜索引擎呢搜索路径:输入搜索词-抓取数据-分析用户搜索意图-识别意图并召回内容-结果集排序一、抓取数据搜索引擎:在全网中抓取尽可能全的数据供搜索引擎查询垂类搜索引擎:这些数据95%以上都是平台自建的所以不需要去其他平台抓取数据如:淘宝、美团都是平台自己维护的数据平台需要做的事情就是尽量让数据准确、真实如果一个卖衣服的商品录入的信息全是卖鞋的即使引擎再好也无法识别这件衣服二、分析用户搜索意图:分词、词语处理、词语识别1. 分词:单字分词、短语分词1)单字分词就是用户输入词分成单个字每个单字匹配上搜索域就可以被搜索这种分词简单易开发适合spu和品类较少的平台但这种分词方式有一个弊病那就是搜索结果不准就比如我想搜索小金锁的面膜那搜索域中匹配上小、金、锁三个字就可以被召回真实案例就是搜索结果出现金色小米手机人脸解锁的手机尴尬至极2)短语分词这种分词方式需要准备一个基于自己平台的分词词库(如果没有找一个开源词库)分词引擎基于这个分词库来分词并进行搜索比如你想搜索小金锁分词库中包含金锁、小金锁那你搜索的词就会被分成小、金锁、小金锁那搜索域中是金色小米手机人脸解锁的sku就不会被搜索出来因为金锁、小金锁这两个词并没有匹配上部分垂类需要自建自己平台的分词库比如电商类的平台就可以从品类名称、地域名称、品牌名称、店铺名称去搭建一个基础库提供一个思路大家自己去思考下一步应该怎么搞2. 词语处理类用户搜索词千奇百怪避免不了同一个搜索结果每个人搜索的词不相同但为了保证无论用户输入什么搜索词都可以变成想要的结果这个时候就需要同义词、近义词、错别字、屏蔽词来干预1)同义词因为结果集取并集所以用户无论搜索同义词中的哪个词得到的结果都是相同的同义词库搭建的时尽量保证词库的真实、准确如果匹配分词库时有专业的业务部分最好和业务部分确认好后再配置如:剃须刀、刮胡刀书、图书上海九院、上海第九人民医院拖鞋、鞋拖2)近义词近义词是两种词的定义接近但又不是同一个东西的时候一般配置近义词如:生抽、老抽猕猴桃、奇异果有的人认为不是一种东西有的人又非说是一种东西(人的认知边界此处不接受杠)所以近义词可以完美解决这种情况排序的时候优先展示搜索词的结果集配置的近义词在搜索词结果展示完后展示;当然也可以穿插展示具体情况具体设计3)错别字错别字需要做的是定义主词和错别字词错别字在没有进入搜索引擎的前一步就完成的替换错别字情况在搜索引擎中最常见如:雅诗兰黛、雅思兰黛、雅诗兰戴、雅诗蓝黛这种情况简单点就走同义词但对应的搜索词和搜索域的相似度会有一定程度的影响所以错别字还是最有解决方案4)屏蔽词屏蔽掉一些无关或者无意义的词如各种奇奇怪怪的标点符号、各种反d反d的词语等行业内有很多标准词库在技术论坛上查找不过多介绍3. 词语识别类主要还是标记一些词为特殊词可以在用户搜索该类词的时候给出一些特殊样式的惊喜就比如搜索雅诗兰黛不仅仅展示雅诗兰黛商品也可以展示雅诗兰黛店铺、雅诗兰黛活动入口等等给用户的惊喜也是很大的三、识别意图并召回内容1. 搜索域:搜索域就是搜索词匹配相似度的文本初级的搜索产物可能会觉得所有的信息都放进搜索域中就行了其实大错特错这样导致的结果就是非常不准确这个时候搜索产物一定要克制尽量把重要的字段放在搜索域中就比如:商品标题、品类、标签、sku名称、sku规格等2. 相似度:搜索词和搜索域匹配度也叫相似度(偏技术可略过)1)分词方式如用户搜索:你说的确实在理你说、的、确实、在理=1*2+2*1+3*2+4*2=18你说、的确、实、在理=1*2+2*1+3*1+4*2=15你说、的确、实在、理=1*2+2*1+3*2+4*1=14机器无法判定那种分词方式是对但是数字可以判断大小所以搜索词先判定了第一种分词方式(真正的分词比这个还要复杂用分词数量和分词位置比较好理解下几篇文字会详细讲下如何分词)2)匹配方式or和andor和and无非就是用户搜索词和搜索域匹配的结果集是要部分匹配还是完全匹配用哪种模式还是比较看行业的电商、020建议用and较好社区、视频等内容类建议用or较好3)文本相似度=余弦相似度余弦相似度就是通过一个向量空间中两个向量夹角的余弦值作为衡量两个个体之间差异的大小把1设为相同0设为不同那么相似度的值就是在0~1之间余弦相似度的特点是余弦值接近1夹角趋于0表明两个向量越相似看下图:比如:{你说 的 确实 在理}、{你说 的 在理}对应的向量分别是{1111}、{1101}套入到的公式中相似度约等于80.4%PS:但相似度是不准确的你真好看和你真难看相似度75%但其实他们一点也不相似所以机器学习、语义识别、神经语言等还是需要逐渐搞起来的(小厂谨慎搞)四、结果集排序1. 业务因子排序基于行业特性定义一些业务因子来综合打分行程排序基于多维度的分数来定义对应的结果集一般可以加一些ctr、单uv价值、单pv价值、退款因子、转发互动因子等等要知道搜索结果不仅要准确还要足够受欢迎2. 人工干预排序对于特定的词或者类型给予一些人工干预保证搜索结果的准确性3. 个性化排序基于用户标签在搜索结果集中加权值比如技术宅搜索苹果大概率是想要iphone手机那吃货当然更希望是水果喽搜索底层路径基本就这四大节点底层动作围绕着四个节点有很多标准的行业解决方案欢迎大家一起聊聊本文由 @Hankys 原创发布于人人都是产物经理未经许可禁止转载题图来自 Unsplash基于 CC0 协议
这是伟大的孔子自述其人生思想境界进阶过程。1、有没有打脸比亚迪官方,毕竟它恬不知耻的宣称百公里2.9升哦!!!