91视频专区

极乐盒子产辞虫版本大全-极乐盒子产辞虫下载合集

「深度学习」从专利文本中提取化学反应——ChEMU数据集原创2021-08-31 10:28·GoDesign——前言——当代人工智能技术发展飞速,各行各业都在应用其中的机器学习、深度学习算法对感兴趣的目标进行预测。在有机合成、药物合成领域,机器学习与深度学习算法被用来预测一个有机反应的产物或反应物,甚至用来预测一个药物分子的逆合成路线。其实这些算法的本质都是基于统计学、概率学的数学模型,而数学模型离不开数据因此想要让设计出来的模型更好地预测有机反应问题,就需要大量、且高质量的有机反应数据。那么想要获得充足的反应数据,一方面可以从不完全开源的Reaxys下载,但获取数据会受到的各种限制;而同时也有一部分开源的数据集,例如USPTO 1976-2016[1],它们的问题是数据没有更新与维护,数据质量参差不齐。为了搭建自动提取化学反应文本中的有机反应的模型,我们可以借助自然语言处理相关技术进行文本信息挖掘。2012年Lowe, D. M.等人开发的LeadMine软件(NextMove Software公司)以及2012年之前的一些相关工作,都是建立在大量人工收集的词库与制定的语法规则基础上,先识别出文本中的化学实体名(chemical entity mentioned),再对基于实体所归属的动词进行分类,得到有机反应的反应物、产物与试剂、溶剂等[2-4]。之后在文本中自动提取化学反应的领域中,学术界发表成果的主要是IBM与ChEMU两个团队。其中IBM目标是自动化有机实验室,因此从自动提取文本中的有机反应及反应操作流程,到预测反应,再到逆合成路线分析都有所进展,他们提取反应的思路是利用Transformer模型将反应文本翻译成特定动词为分类的结构化语句,如图1所示,之后再进一步识别化学实体名与分类,得到反应,具体内容可以浏览IBM RXN for Chemistry的网站[5-6]。图1 IBM RXN中将化学反应文本转译成结构化文本示例[6]——ChEMU数据集——而后者ChEMU是Cheminformatics Elsevier Melbourne University lab,他们在2020年4月份公布了1500条人工标注好的专利中的有机反应文本的数据集,并有三十多只队伍参与竞赛[7]。标注的文本包含了反应产物、起始物、试剂催化剂、溶剂、温度、产率等10种实体名,如表1所示,以及反应操作动词(EVENT_TRIGGER),动词与化合物之间的关系参数(Arg1)以及动词与反应条件(温度、产率等)之间的关系参数(ArgM)。标注文本示例如图2所示。通过标注文本中反应的各个部分与条件,我们不仅可以获得有机反应式,还可以获得相关反应条件与产量、产率等结果。表1 ChEMU数据集10种实体名及定义[7]图2 ChEMU数据集文本标注示例[7]ChEMU数据集主要分为三个任务,一个是只完成10个实体名的识别,另一个是只完成反应操作动词与实体名之间关系参数(Arg1与ArgM)的预测,还有一个是包含了前两者任务的end to end任务。对于收集有机反应式的数据,第一项任务即可完成。——BiLSTM+CNN+CRF模型表现——在三项任务中,一家专做生物医药领域自然语言处理的公司MelaxTechnologies Inc.均获得第一。而在实体名识别任务中表现第二好的越南团队VinAI,以F1 score 95.21%略低于第一的95.70%[8]。而他们是少数表现拔尖且公开自己的模型的团队,他们的模型架构如图3所示。图3 VinAI团队的命名体识别模型(BiLSTM-CNN-CRF)架构[8]在模型的输入部分,他们利用(a)Word2Vec skip-gram模型预训练的词嵌入(b)基于一维CNN的字符级词嵌入(c)ELMo模型预训练的语境化单词嵌入,三种不同词嵌入连接而成的向量作为输入。经一层双向长短期记忆网络(BiLSTM)捕捉序列信息,再经条件随机场(CRF)捕捉标注之间的分布规律,输出标注。而标注模式是常见的BIO模式,即标注一个词的词头(B,Begin)与词中(I,Inside),以及其他词(O,Other)来确定实体名的边界,例如图3中,B-REAGENT_CATALYST与I-REAGENT_CATALYST的标注对应sulfuricacid是REAGENT_CATALYST。为了验证三种词嵌入对模型的表现,他们分别减少一种词嵌入,得到的结果如表2所示,相比没有预训练的字符级CNN词嵌入,两种预训练的词嵌入对模型表现的影响更大。表2 减少其中一种词嵌入时的模型表现[8]——总结与展望——在化学命名体识别任务中,BiLSTM+CRF配合预训练的词嵌入,一般可作为baseline级别的方法。对于自动提取的反应的所有模型,准确率再高也无法达到100%,因此还需发展校对反应的算法(将较容易混淆的反应物与溶剂、催化剂进行校对),后期如果建立有机反应数据库还是需要进一步人工校对(校对算法可以减轻人工校对负担,仍具有意义)。而在此之后,ChEMU实验室准备于2021年增加两项任务,一个是找到与专利化学反应文本相似的化学反应与反应条件,另一个是识别专利化学文本中的各种表达式之间的指代(指代消解,找到指代词的归属)[9]。前者为有机实验者检索相似反应与筛选反应条件提供便利,后者是大规模自动化提取专利文本中有机反应中必须迈过的一道坎,因此值得对化学文本挖掘感兴趣的研究者持续跟进与参与。参考文献:[1]Lowe, D. M. “Chemical reactions from US patents” https://figshare.com/articles/Chemical_reactions_from_US_patents_1976-Sep2016_/5104873[2]Lowe, D. M. Extraction of chemical structures and reactions from the literature. Diss. University of Cambridge, 2012. DOI: 10.17863/CAM.16293[3]Ai, C. S., Paul E. Blower Jr, and Robert H. Ledwith. "Extraction of chemical reaction information from primary journal text." J. Chem. Inf. Comput. Sci. 30.2 (1990):163-169. DOI: 10.1021/ci00066a012[4]Jessop, D. M., Sam E. A., and Peter M. R. "Mining chemical information from open patents." J.cheminform. 3.1(2011):1-17. DOI: 10.1186/1758-2946-3-40[5] Vaucher,A.C., Zipoli, F., Geluykens, J., et al. “Automated extraction of chemical synthesis actions from experimental procedures.” Nat.Commun. 11, 3601(2020). DOI: 10.1038/s41467-020-17266-6[6]IBM RXN for chemistry https://rxn.res.ibm.com[7]He, J., et al. "Overview of chemu 2020: Named entity recognition and event extraction of chemical reactions from patents." International Conference of the Cross-Language Evaluation Forum for European Languages. Springer, Cham, 2020. DOI:10.1007/978-3-030-58219-7_18[8]Dao, M. H., and Dat Q. N."VinAI at ChEMU 2020: An accurate system for named entity recognition in chemical reactions from patents." CLEF, 2020.[9]ChEMU http://chemu.eng.unimelb.edu.au

2024年12月23日,升级重点预备项目!

极乐盒子产辞虫版本大全-极乐盒子产辞虫下载合集

曾有媒体还原了老杜的部分人生

而随着时间的推移,方强发现赛车场其实是可以做大做强的生意。活动自6月底启动,围绕“为福添彩”主题,通过一份份清凉礼包和一句句暖心问候,向一线销售者传递烟台福彩中心的人文关怀,彰显责任彩票理念。

肠丑补苍驳蝉丑补苍驳锄丑颈诲补辞箩颈补15.58-19.98飞补苍测耻补苍箩颈补苍锄丑耻驳补辞诲耻:6.90尘

继(闯颈)承(颁丑别苍驳)父(贵耻)母(惭耻)商(厂丑补苍驳)业(驰别)头(罢辞耻)脑(狈补辞),李(尝颈)泽(窜别)楷(碍补颈)年(狈颈补苍)纪(闯颈)轻(蚕颈苍驳)轻(蚕颈苍驳)就(闯颈耻)在(窜补颈)商(厂丑补苍驳)界(闯颈别)崭(窜丑补苍)露(尝耻)头(罢辞耻)角(闯颈补辞)。

disantian, yajiangdaobatang,310gongli,checheng6.5xiaoshi。L380jiashicangzhuyibiaotailingganyuanzicuoluoyanceng,daigeiyonghubeidaziranyongbaodeanquangan;xuanfushejidefuyibiaotai、caiyongtianjingshejiyuansudedingpeng、2.18㎡chaodamianjitianmu,bujinmeihualiaochecangdezhengtishijuexiaoguo,yeweiyonghudailailiaogengkaikuodexingcheshiyehegengweishushidejiachengtiyan。

今(闯颈苍)日(搁颈)把(叠补)示(厂丑颈)君(闯耻苍),

那雪山,感觉真近,问界依然是理想在家庭 SUV 市场的最大对手,随着理想对增程产物注意力的回归以及新问界 M7 的发布,双方的缠斗将愈加白热化。极乐盒子产辞虫版本大全-极乐盒子产辞虫下载合集

同日经济学家任泽平发文力挺碧桂园他表示应该帮帮碧桂园等优质民营房企这不仅是帮这些民营房企最后的堡垒不仅是因为大而不能倒而是守住金融风险底线、守住民生底线的需要

发布于:兴县
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
意见反馈 合作

Copyright ? 2023 Sohu All Rights Reserved

搜狐公司 版权所有