化學反應的貝葉斯優化

0 comment

 

化學反應的貝葉斯優化

01

摘要:

 

隨著機器學習技術對化學研究的影響越來越大,可訪問性問題仍然存在,特別是以編碼為中心的解決方案的流行。BIOVIA Pipeline Pilot作為一個包容性的工具脫穎而出,使可能缺乏編碼專業知識的科學家能夠利用先進的機器學習方法。

02

引言:

 

在發現和過程化學中,一個共同的挑戰是通過最少的實驗找到最佳的反應條件,包括催化劑和配體的選擇。當反應空間很大,并且由于成本或時間限制,可以進行的實驗數量有限時,這個問題尤其嚴重。

 

如果系統的知識和初始實驗離全局最優值很遠,傳統的優化方法可能是耗時和昂貴的。貝葉斯優化(BO)形式的機器學習被證明特別適合化學反應優化的挑戰,因為它適用于小數據集,可以探索非常大的反應空間。

 

在化學應用中已經報道了一些用于貝葉斯優化的開源python包,然而,許多只有具有編碼專業知識的科學家才能使用。假設我是一名實驗室科學家,希望使用存儲在電子實驗室筆記本(ELN)中的實驗數據進行貝葉斯優化。我該怎么做呢?

 

一種解決方案是使用BIOVIA Pipeline Pilot8從BIOVIA Notebook9 ELN中提取和處理數據,運行貝葉斯優化代碼,然后使用下一輪建議實驗更新ELN條目。通過利用Pipeline Pilot的功能,我們可以構建一個利用現有組件來執行大部分數據提取和操作的協議。

化學反應的貝葉斯優化

03

初始貝葉斯優化:

 

對于本例,我們將使用Doyle及其同事報告的EDBO+ Python包4和從Syngenta最近發表的一篇文章中獲得的數據集,該數據集探索了Ullmann型C-N耦合的貝葉斯優化,旨在最大化反應產量Python包是通過Pipeline Pilot中的Jupyter Notebook組件訪問的。

 

將初始8個實驗的實驗數據輸入到Notebook ELN的實驗中,并對EDBO+包中實現的分類特征使用one-hot編碼。

化學反應的貝葉斯優化

04

該協議包括以下幾個步驟:

 

1.根據反應組分的每種組合生成一個實驗范圍。在這個例子中有138240個實驗。

2.在與實驗范圍合并之前,從相應的Notebook實驗中提取并清洗實驗數據。

3.運行貝葉斯優化建議下一組優化反應產率的實驗。

4.用下一個要運行的實驗更新Notebook條目。

通過將新的實驗數據輸入ELN并重新運行協議,可以重復多次貝葉斯優化循環,直到發現產生最高收率的反應。

05

?增加了DFT特征的復雜性:

 

通過用DFT衍生的分子描述符編碼一些分類特征,可以將額外的復雜性層構建到Pipeline Pilot中的貝葉斯優化協議中。使用SMILES字符串作為輸入,我們可以使用Pipeline Pilot生成3D坐標,執行一致性搜索,并使用BIOVIA Pipeline Pilot Solvation Chemistry collection或BIOVIA Pipeline Pilot Materials Studio collection中的現有組件運行DFT計算。構建和運行這些協議不需要編碼專業知識。

 

然后,DFT特征可以用于更新的貝葉斯優化協議(圖3)。此外,該協議可以配置為通過Pipeline Pilot Web Port運行,這樣實驗科學家只需要選擇文件位置、模型輸入和目標列。在每個Bayesian優化循環之后會生成一個簡單的報告儀表板,以便科學家可以查看每次迭代的進度,以達到最佳的反應條件(圖4)。

化學反應的貝葉斯優化

化學反應的貝葉斯優化

06

結論:

 

一系列機器學習技術正被應用于化學反應,目的是增加實驗發現和過程開發。大多數開源代碼是用Python開發的,需要精通編碼。BIOVIA Pipeline Pilot可用于普及這些先進的機器學習方法,為沒有編碼專業知識的科學家提供在工作中部署最新技術的能力。

 

 

北京泰科博思科技有限公司是BIOVIA Pipeline Pilot官方指定代理商,有關軟件詳情或者技術支持請咨詢北京泰科。

 

電話:010-64951848

郵箱:sales@tech-box.com.cn

北京泰科為廣大學習分子模擬科研人員提供了交流討論平臺,泰科建立了BIOVIA Pipeline Pilot交流群,群里有專業老師解答問題,如有興趣一起交流,歡迎來電/郵申請入群,作者期待您的參與!

 

北京泰科涉及行業

材料研發

基于BIOVIA Materials Studio材料設計平臺,提供涉及電池、航空航天、國防軍工、建筑、涂料涂層等多領域材料研發軟件及綜合解決方案。

藥物研發

針對藥物設計、藥物研發等提供基于Discovery Studio、COSMOLOGIC等軟件的ADME、構象比對、溶劑篩選、結晶、成鹽、共晶篩選、穩定性、溶解度pKa、分配系數等性質的模擬預測軟件及方案。

化工設計

面向精細化工、新能源、石油化工等領域提供精餾萃取催化劑設計、熱力學性質(溶解度、粘度等)、提純表面處理吸附等性質模擬軟件平臺及解決方案。

數據挖掘

基于Pipeline Pilot提供數據搜集、數據清洗、特征工程、機器學習、流程設計等多種數據挖掘綜合解決方案。

一體化實驗室

? 實驗室信息管理

? 電子實驗記錄本/SOP執行

? 試劑耗材管理

? 儀器管理

? 數據管理

部分產品

量化材料類

??Crystal:?固體化學和物理性質計算軟件

? Diamond:?晶體結構數據可視化分析

??Endeavour:強大的求解晶體結構的軟件

? Molpro: 高精度量化軟件

? Molcas: 多參考態量軟件

? Turbomole: 快速穩定量化軟件

??TeraChem:GPU上運行的量化計算軟件

? Spartan: 分子計算建模軟件

數據分析類

? GelComparll:?凝膠電泳圖譜分析軟件

? SimaPro: 生命周期評估軟件

? Unscrambler: 完整多變量數據分析和實驗設計軟件??

? CSDS: 劍橋晶體結構數據庫

? lCDD: 國際衍射數據中心數據庫

? ICSD: 無機晶體結構數據庫

? Pearson’s CD: 晶體數據庫

公司簡介

北京泰科博思科技有限公司(Beijing Tech-Box S&T Co. Ltd.)成立于2007年,是國內領先的分子模擬及虛擬仿真綜合解決方案提供商。

 

北京泰科博思科技有限公司與國際領先的模擬軟件廠商、開發團隊深入合作,為高校、科研院所和企業在材料、化工、藥物、生命科學、環境、人工智能及數據挖掘、虛擬仿真教學等領域提供專業的整體解決方案。用戶根據需要在我們的平臺上高效的進行各種模擬實驗,指導實際的生產設計。

北京泰科博思科技有限公司擁有一支一流的技術服務團隊和資深的專家咨詢團隊,以客戶真正需求出發,服務客戶,為客戶創造價值。我們秉承“職業、敬業、擔當、拼搏、合作”的企業精神,致力于用國際領先的軟件產品和專業全面的技術支持服務,成為客戶可信賴的合作伙伴。

2024年第1期應用實例賞析-02

 

?

閱讀 4

評論

發表評論