【據(jù)美國能源部勞倫斯伯克利國家實驗室網(wǎng)站2019年7月3日報道】眾所周知,機(jī)器學(xué)習(xí)算法訓(xùn)練的電腦可以進(jìn)行大師級的國際象棋對弈,但它是否可以拿來做科學(xué)發(fā)現(xiàn)嗎?美國能源部勞倫斯伯克利國家實驗室的研究人員通過驗證證實,沒有經(jīng)過材料科研訓(xùn)練的算法可以僅通過瀏覽數(shù)百萬篇論文的文字即可發(fā)現(xiàn)材料學(xué)中的新知識。
由勞倫斯伯克利實驗室能源存儲及分布式資源研究部的科學(xué)家Anubhav Jain領(lǐng)導(dǎo)的團(tuán)隊收集了330萬份已發(fā)表的材料科學(xué)專業(yè)論文的摘要,并將其輸入一個名為Word2vec的算法中。通過分析單詞之間的關(guān)系,該算法能夠提前若干年預(yù)測發(fā)現(xiàn)新的熱電材料,并能夠提出建議將尚未被人們熟知的材料作為熱電材料的候選。
Jain表示,在沒有告知任何有關(guān)材料科學(xué)專業(yè)知識的前提下,該算法就學(xué)會了元素周期表和金屬晶體結(jié)構(gòu)等相關(guān)概念。這顯示出了該技術(shù)擁有的潛力。研究人員認(rèn)為,這項技術(shù)所帶來的最有前景的應(yīng)用是,人們可以使用這種算法在材料研究中嘗試填補尚未解決的缺陷或空白,這是科研工作理應(yīng)做到但到目前為止尚未開展研究的東西。”
這項研究成果發(fā)表在7月3日刊發(fā)的《自然》雜志上,論文題目為《無指導(dǎo)詞匯捕獲算法嵌入材料科學(xué)文獻(xiàn)中獲取未知知識》,該研究的主要作者為勞倫斯伯克利實驗室博士后研究員Vahe Tshitoyan,現(xiàn)為谷歌公司工作。伯克利實驗室的科學(xué)家Anubhav Jain,Kristin Persson和Gerbrand Ceder也共同領(lǐng)導(dǎo)參與了這項研究。
聯(lián)合作者之一、加州大學(xué)伯克利分校材料科學(xué)與工程系教授Ceder表示,這項研究表明,通過對科學(xué)文獻(xiàn)的文本挖掘可以發(fā)現(xiàn)隱藏的新知識,純文本學(xué)習(xí)和提取可以建立基本的科學(xué)知識。
勞倫斯伯克利實驗室的研究人員發(fā)現(xiàn),通過挖掘材料科學(xué)文獻(xiàn)的摘要,可能會發(fā)現(xiàn)新型熱電材料。
此項研究的主要作者Tshitoyan表示,開展這項研究的主要動機(jī)是因為目前的科研工作者難以有效率的、大面積的閱讀和理解如此數(shù)量龐大的文獻(xiàn)資料。幾乎每個研究領(lǐng)域都有超過百年研究歷史的文獻(xiàn)資料,同時每周又會產(chǎn)生數(shù)十項新的研究成果,但大部分研究人員只會閱讀和獲取其中的一小部分。機(jī)器學(xué)習(xí)是否可以做一些事情,在不需要科研人員輔助指導(dǎo)的情況下,匯集這些信息并挖掘其中有用的知識。
“王-女王+男人=?”
為了完成這項研究,該團(tuán)隊檢索了1922年至2018年間在1000多種專業(yè)期刊上發(fā)表的相關(guān)論文,并收集了約330萬篇摘要。Word2vec算法在這些摘要中共采集了約50萬個不同的單詞,并將每個單詞轉(zhuǎn)換為200維向量,或200個數(shù)字陣列。
Jain表示,這項工作中最重要不是每個數(shù)字,而是通過數(shù)字發(fā)掘單詞之間的相互關(guān)聯(lián)性。他領(lǐng)導(dǎo)一個小組,致力于利用混合理論、計算和數(shù)據(jù)挖掘等方式,發(fā)現(xiàn)和設(shè)計能源應(yīng)用方面的新材料。“例如,可以使用數(shù)學(xué)中標(biāo)準(zhǔn)向量的計算規(guī)則進(jìn)行向量減法運算。很多研究工作已經(jīng)證明,如果利用非科學(xué)文獻(xiàn)資源訓(xùn)練一種算法,并以“王減女王”這種關(guān)系產(chǎn)生向量,你會得到一類與“男人減去女人”相同的運算結(jié)果。算法會在你沒有告訴任何事情的情況下自動找出這種關(guān)系。”
與之類似,當(dāng)你利用材料科學(xué)文獻(xiàn)訓(xùn)練算法時,它能夠理解一些專業(yè)術(shù)語和概念,比如簡單的根據(jù)單詞在摘要中的位置理解什么是金屬晶體結(jié)構(gòu)以及與之相關(guān)的知識。舉個例子,就像算法可以解決“王-女王+男人”這種向量運算一樣,它也可以解決“鐵磁體-NiFe+IrMn”的問題,其答案將會是“反鐵磁體”。
當(dāng)每個化學(xué)元素代表的向量以二維坐標(biāo)的形式在二維坐標(biāo)圖中標(biāo)出時,Word2vec甚至能夠?qū)W習(xí)元素周期表中各元素之間的關(guān)系。
算法研究成功可能讓科研成果提前幾年被預(yù)測發(fā)現(xiàn)
因此,如果Word2vec算法如此智能,它能預(yù)測出新型熱電材料嗎?良好的熱電材料可以有效地將熱量轉(zhuǎn)換為電能,并且可以由安全、豐富且易于生產(chǎn)的材料制成。
該算法根據(jù)科技文獻(xiàn)中單詞向量與“熱電”一詞的相似性和相關(guān)聯(lián)性,針對每種不同化合物進(jìn)行了排序。隨后,勞倫斯伯克利實驗室研究人員利用了該算法建議的首選熱電候補化合物,進(jìn)行計算來驗證算法的預(yù)測。
在算法給出的排名前10位的預(yù)測中,研究人員發(fā)現(xiàn)這10種材料計算得出的功率因數(shù)均略高于目前已知熱電材料的平均值;其中排名前三位候選材料功率因數(shù)比已知的熱電材料高95%。
接下來,他們測試了算法是否可以根據(jù)過去的文獻(xiàn)結(jié)果預(yù)測得到目前發(fā)現(xiàn)的熱電材料,研究人員只給算法學(xué)習(xí)了2000年文獻(xiàn)的摘要。同樣,在排位最高的預(yù)測中,目前已知的研究數(shù)據(jù)和結(jié)果大量的出現(xiàn)——比此前剛剛隨機(jī)選中的材料數(shù)量的四倍。在使用截至2008年之前的文獻(xiàn)資料數(shù)據(jù)訓(xùn)練算法得到排名前五的預(yù)測中,目前由3種材料已經(jīng)被發(fā)現(xiàn),其余的2種材料則包含稀有或有毒元素。
這一測試結(jié)果時令人驚訝。Jain表示,研究團(tuán)隊并沒有想到這種算法能夠如此預(yù)測未來。“我原本以為這個算法可能描述了人們以前做過的事情,但無法提出與之不同的聯(lián)系。但當(dāng)我不僅看到預(yù)測而且看到預(yù)測背后的推理時,我感到非常驚訝,例如半赫斯勒結(jié)構(gòu),這是一種非常有前景的電熱晶體結(jié)構(gòu)。”
他補充說:“這項研究表明,如果我們能更早的使用這種算法,可以想象,一些新材料可以提前多年被人們發(fā)現(xiàn)。”隨著研究的深入,研究人員正在整理并發(fā)布利用該算法預(yù)測的排名前50的熱電材料。如果科研人員想要探索更好的拓?fù)浣^緣體材料,研究團(tuán)隊還將后續(xù)發(fā)布用戶針對自己的研究領(lǐng)域所需的嵌入單詞模型。
接下來,Jain表示,該團(tuán)隊正在開發(fā)一個更智能、更強大的搜索引擎,允許研究人員以更效的方式檢索文獻(xiàn)摘要。
這項研究工作由豐田研究所資助。其他從事本項研究的合著者分別是伯克利實驗室研究人員John Dagdelen,Leigh Weston,Alexander Dunn和Ziqin Rong,以及加州大學(xué)伯克利分校研究員Olga Kononova。