經(jīng)過長時間的發(fā)展,大量的材料學(xué)術(shù)文獻(xiàn)積累了豐富的科學(xué)成果,以文本形式散布在文獻(xiàn)中的科學(xué)知識一般仍由研究人員手動收集和分析,這通常十分耗時且難以保證信息的完整度。如果將文獻(xiàn)中的材料科學(xué)信息表示為結(jié)構(gòu)化的知識,再結(jié)合知識關(guān)聯(lián)、融合、推理等方法,構(gòu)建材料知識圖譜,可以使研究人員準(zhǔn)確而又高效地獲取信息,并對過往研究進(jìn)行脈絡(luò)梳理,對有潛力的材料進(jìn)行剖析。北京大學(xué)深圳研究生院新材料學(xué)院潘鋒教授課題組近年來致力于構(gòu)建材料知識圖譜以及解決其關(guān)鍵科學(xué)問題和技術(shù)難題,發(fā)展了一套高精度且高效的同名消歧以及信息搜索框架,在材料科學(xué)領(lǐng)域建立了主體(作者)與客體(材料)之間的對應(yīng)關(guān)系,結(jié)合機(jī)器學(xué)習(xí)和依賴匹配算法,構(gòu)建了名為MatKG的材料知識圖譜,并對鋰離子電池正極材料LiFePO4進(jìn)行自動化分析,生成其發(fā)展里程碑,追蹤其研究趨勢,相關(guān)成果已發(fā)表于《先進(jìn)能源材料》(Advanced Energy Materials, DOI:10.1002/aenm.202003580)。
在此基礎(chǔ)上,潘鋒課題組進(jìn)一步深入研究材料知識圖譜的構(gòu)建技術(shù)和應(yīng)用潛力,實現(xiàn)了對隱藏在文本中的潛在材料關(guān)聯(lián)的挖掘,進(jìn)一步實現(xiàn)了材料的推理預(yù)測。近日,他們在《先進(jìn)功能材料》(Advanced Functional Materials, DOI:10.1002/adfm.202201437)發(fā)表題為“Automating Materials Exploration with a Semantic Knowledge Graph for Li-ion Battery Cathodes”的研究論文。該研究提出了一種可實現(xiàn)材料科學(xué)知識嵌入的語義表示框架,通過多源信息融合提高材料實體的表示質(zhì)量以對材料科學(xué)文獻(xiàn)中的鋰離子電池正極材料實體進(jìn)行精準(zhǔn)挖掘并構(gòu)建正極材料知識圖譜,預(yù)測高性能鋰電池材料。該工作在幾乎不需要領(lǐng)域知識的情況下,實現(xiàn)了復(fù)雜材料系統(tǒng)的基于文本挖掘的高效知識融合和推理與預(yù)測,將助力實現(xiàn)數(shù)據(jù)驅(qū)動的材料研究新范式。
材料科學(xué)文本中包含大量非結(jié)構(gòu)化、高度異構(gòu)形式的材料科學(xué)信息,并且材料子領(lǐng)域擁有特定的領(lǐng)域知識,不同子領(lǐng)域之間差異明顯,這都對材料科學(xué)知識的精準(zhǔn)挖掘造成了極大的挑戰(zhàn)。由于數(shù)據(jù)驅(qū)動的材料研發(fā)新范式的應(yīng)用價值,構(gòu)建整合材料特性和應(yīng)用信息的數(shù)據(jù)管理平臺成為了目前迫切的需求,而基于文本挖掘的材料知識圖譜構(gòu)建及材料推理預(yù)測正是解決這一需求的重要手段。
課題組發(fā)展了一套名為DATWEM的材料信息語義表示框架,以針對性生成特定子領(lǐng)域的材料實體表示,解決了復(fù)雜材料系統(tǒng)中的材料實體挖掘問題。該框架結(jié)合BiLSTM和雙重注意力機(jī)制,通過多源信息融合提高詞嵌入的質(zhì)量,以對材料科學(xué)文獻(xiàn)中的特定領(lǐng)域材料實體進(jìn)行精準(zhǔn)挖掘。他們將該框架應(yīng)用于鋰離子電池正極材料領(lǐng)域知識圖譜的構(gòu)建:首先對材料科學(xué)文本信息進(jìn)行向量化;接下來使用兩個獨立的詞嵌入模塊對兩種不同語料庫(無機(jī)材料語料庫和正極材料語料庫)分別進(jìn)行編碼,兩種語料庫編碼后的詞嵌入和關(guān)鍵詞模塊的詞嵌入隨后會被輸入DATWEM框架經(jīng)過雙層注意力模塊實現(xiàn)多源信息融合,增強(qiáng)材料實體的表示質(zhì)量;最后量化材料實體之間的相似度以構(gòu)建鋰離子電池正極材料知識圖譜。
材料知識圖譜的構(gòu)建流程
課題組在該知識圖譜的基礎(chǔ)上進(jìn)行潛在正極材料的推理預(yù)測,通過無監(jiān)督聚類對不同材料之間的語義相似性進(jìn)行可視化,保留與四種代表性正極材料(LiCoO2、LiFePO4、LiMn2O4、Li2MnO3)相關(guān)的較大聚類簇。在對已包含在語料庫中的正極材料進(jìn)行過濾后,他們發(fā)現(xiàn)了一種潛在的正極材料——Li2TiMn3O8,該材料與典型正極材料LiCoO2通過層狀結(jié)構(gòu)這一明顯共同特征形成直接連接路徑,通過包含適合用于正極材料的可變價元素這一潛在共同特征形成間接連接路徑,從而根據(jù)直接及間接路徑實現(xiàn)了該潛在材料的發(fā)現(xiàn)。
材料知識圖譜用于鋰電池正極材料的發(fā)現(xiàn)
北京大學(xué)深圳研究生院新材料學(xué)院碩士畢業(yè)生聶志偉為該論文的第一作者,潘鋒、新材料學(xué)院李舜寧副研究員以及深圳市內(nèi)容中心網(wǎng)絡(luò)與區(qū)塊鏈重點實驗室雷凱研究員為共同通訊作者。該研究得到廣東省軟科學(xué)研究計劃項目、化學(xué)與精細(xì)化工廣東省實驗室、深圳市科技計劃、國家自然科學(xué)基金以及廣東省重點領(lǐng)域研發(fā)計劃的支持。
聲明:化學(xué)加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認(rèn)同其觀點或證實其描述。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益,請作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn