隨著化學(xué)大數(shù)據(jù)和人工智能模型跨越式的發(fā)展,數(shù)據(jù)驅(qū)動的合成反應(yīng)精準(zhǔn)預(yù)測近年來引起了廣泛關(guān)注。由于合成反應(yīng)構(gòu)效關(guān)系高維且復(fù)雜的特性,催化劑、反應(yīng)物、甚至溶劑細(xì)微的結(jié)構(gòu)變化都可能引起反應(yīng)活性和選擇性的顯著改變。因此,開發(fā)一種高效、可靠的AI預(yù)測模型對于合成反應(yīng)的智能設(shè)計(jì)至關(guān)重要。
近日,浙江大學(xué)化學(xué)系洪鑫課題組基于有機(jī)化學(xué)中的立體與電子效應(yīng),設(shè)計(jì)了化學(xué)信息增強(qiáng)的分子圖模型(sterics- and electronics-embedded molecular graph, SEMG),并開發(fā)了體現(xiàn)反應(yīng)組分協(xié)同效應(yīng)的MIGNN框架,為反應(yīng)活性和選擇性預(yù)測提供一個(gè)全新的通用架構(gòu)SEMG-MIGNN。 該策略實(shí)現(xiàn)了活性和選擇性的精準(zhǔn)預(yù)測,尤其展示了出色的外推能力,為數(shù)據(jù)驅(qū)動的合成反應(yīng)預(yù)測和智能設(shè)計(jì)提供了新技術(shù)。相關(guān)研究發(fā)表在Nature Communications上(網(wǎng)址: https://www.nature.com/articles/s41467-023-39283-x)。
在此項(xiàng)工作中,針對立體位阻和電子信息設(shè)計(jì)了相應(yīng)的編碼技術(shù),從而優(yōu)化了模型對化學(xué)信息的捕捉能力(圖1)。位阻信息的編碼基于課題組之前開發(fā)的球面投影技術(shù)(Synlett202132, 1837),將原子周圍的范德華表面表達(dá)為一個(gè)可視化的二維編碼圖。電子信息的編碼則通過原子周圍的電子密度采樣,以一個(gè)三維張量的形式進(jìn)行編碼。針對分子圖的每個(gè)原子節(jié)點(diǎn)進(jìn)行化學(xué)信息的編碼和嵌入,最終得到化學(xué)信息增強(qiáng)的分子圖SEMG。此外,為了在建模中體現(xiàn)反應(yīng)組分對于構(gòu)效關(guān)系的協(xié)同影響,該工作提出了一個(gè)新型的模型架構(gòu)——分子交互圖神經(jīng)網(wǎng)絡(luò)(Molecular Interaction Graph Neural Network, MIGNN)。此架構(gòu)通過注意力機(jī)制提升模型對于局部結(jié)構(gòu)的捕捉能力,并運(yùn)用矩陣算法讓分子信息充分交互,從而提升模型對于多因素協(xié)同控制的學(xué)習(xí)能力。
圖1. SEMG-MIGNN的架構(gòu)概覽
SEMG-MIGNN被應(yīng)用于Pd催化Buchwald-Hartwig偶聯(lián)反應(yīng)的產(chǎn)率預(yù)測以及手性磷酸催化的亞胺加成反應(yīng)的對映選擇性預(yù)測(圖2)中。隨機(jī)劃分的預(yù)測結(jié)果表明,SEMG-MIGNN策略在產(chǎn)率和對映選擇性的預(yù)測上均展示出了良好的準(zhǔn)確性。此外,SEMG-MIGNN模型對于訓(xùn)練集中未出現(xiàn)的底物和催化劑表現(xiàn)出了優(yōu)秀的外推預(yù)測能力,在大多數(shù)任務(wù)中超過了常見的反應(yīng)建模手段。
圖2. SEMG-MIGNN模型的對映選擇性預(yù)測表現(xiàn).
SEMG-MIGNN模型在高預(yù)測精度的同時(shí),提供了追溯立體效應(yīng)及電子效應(yīng)影響的評估能力(圖3)。在Pd催化的Buchwald-Hartwig反應(yīng)中,位阻信息編碼的消除對產(chǎn)率預(yù)測影響較小,而電子信息編碼的消除則影響較大。這表明電子效應(yīng)對該反應(yīng)產(chǎn)率起主導(dǎo)作用。而對于亞胺的不對稱加成反應(yīng)則恰恰相反,位阻信息對立體選擇性的影響尤其顯著,這也與之前該反應(yīng)的機(jī)理模型Goodman Model一致。上述結(jié)果充分體現(xiàn)了化學(xué)信息的針對性嵌入對于模型化學(xué)可解釋性的提升。
圖5. SEMG-MIGNN 模型的化學(xué)可解釋性
綜上所述,本研究基于立體位阻和電子效應(yīng)的編碼嵌入,發(fā)展了化學(xué)信息增強(qiáng)的SEMG分子圖,并通過強(qiáng)化分子之間的信息交互,設(shè)計(jì)了MIGNN架構(gòu)。SEMG-MIGNN策略表現(xiàn)了反應(yīng)活性和選擇性的精準(zhǔn)預(yù)測能力,且在外推預(yù)測任務(wù)中展示了優(yōu)秀的表現(xiàn)。同時(shí),由于立體和電子信息的明晰表達(dá),該模型的化學(xué)可解釋性得到了提升,能夠區(qū)分立體位阻及電子效應(yīng)對于構(gòu)效關(guān)系的定量貢獻(xiàn)。該工作為數(shù)據(jù)驅(qū)動的合成反應(yīng)建模預(yù)測和智能設(shè)計(jì)提供了有力的技術(shù)支持。
洪鑫研究員簡介
洪鑫,2010 年本科畢業(yè)于中國科學(xué)技術(shù)大學(xué)(導(dǎo)師:傅堯教授), 2014 年博士畢業(yè)于加州大學(xué)洛杉磯分校(導(dǎo)師:K. N. Houk 教授)。 2014-2016 年分別于加州大學(xué)洛杉磯分校(導(dǎo)師:K. N. Houk 教授)與 斯坦福大學(xué)(導(dǎo)師:Jens K. N?rskov 教授)從事博士后研究工作。2016年加入浙江大學(xué)化學(xué)系,任百人計(jì)劃研究員,2022 年晉升為長聘制副教授。作為課題組負(fù)責(zé)人長期從事合成反應(yīng)機(jī)制與構(gòu)效關(guān)系方向的研究工作。以基元過程的分子形變和結(jié)合作用為核心,建立了基元轉(zhuǎn)化的機(jī)理模型,明確了相關(guān)反應(yīng)活性和選擇性的控制因素,并將機(jī)制認(rèn)識與數(shù)據(jù)建模相融合,在合成反應(yīng)的數(shù)據(jù)庫、編碼技術(shù)和預(yù)測應(yīng)用上開展了一系列工作,為相關(guān)反應(yīng)的理性設(shè)計(jì)提供了智能方案。自獨(dú)立工作以來以通訊和共同通訊作者身份于 Nature Chemistry, Nature Catalysis, Nature Synthesis, JACS, ACIE 等國際高水平期刊發(fā)表論文 100 余篇。曾獲 Thieme Chemistry Journals Award (2022)、國家優(yōu)秀青年基金項(xiàng)目(2021)、首屆浙江省青年科技英才獎(jiǎng)(2021)、 中國化學(xué)會青年化學(xué)獎(jiǎng)(2020)與物理有機(jī)化學(xué)新人獎(jiǎng)(2021)?,F(xiàn)任中國化學(xué)會物理有機(jī)化學(xué)專業(yè)委員會委員、《Chemistry-An Asian Journal》、《National Science Open》與《Chemical Synthesis》青年編委。
Reaction performance prediction with an extrapolative and interpretable graph model based on chemical knowledge
Shu-Wen Li, Li-Cheng Xu, Cheng Zhang, Shuo-Qing Zhang & Xin Hong
Nat. Commun., 2023,14, 3569, DOI:https://doi.org/10.1038/s41467-023-39283-x
聲明:化學(xué)加刊發(fā)或者轉(zhuǎn)載此文只是出于傳遞、分享更多信息之目的,并不意味認(rèn)同其觀點(diǎn)或證實(shí)其描述。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益,請作者持權(quán)屬證明與本網(wǎng)聯(lián)系,我們將及時(shí)更正、刪除,謝謝。 電話:18676881059,郵箱:gongjian@huaxuejia.cn