翹首以盼8個月的 AlphaFold2 的論文與源碼發布后一周,今天 DeepMind 再度公布關于 AlphaFold2 的重磅信息:用 AlphaFold2 完全預測了人、大腸桿菌、果蠅、斑馬魚等21種生物的全蛋白質組內35萬個蛋白質結構!這項工作發表在了本周出版的Nature上。
Holy Moly! 又一枚震撼彈!
https://alphafold.ebi.ac.uk/
今天(2021.7.22),DeepMind與歐洲分子生物學實驗室(EMBL)聯合宣布:DeepMind與EMBL合作,用AlphFold2 預測了人類蛋白質組內的全部20000個蛋白質結構,并將其免費開放給學術界。

歐洲分子生物學實驗室(EMBL)是歐洲生命科學研究的旗艦(flagship)實驗室。
業內各方對這項工作評價甚高。
DeepMind創始人兼CEO Demis Hassabis說,“一直以來,DeepMind的目標都是將人工智能作為工具,以加速科學發現,進而增進我們對周遭世界的了解。我們用AlphaFold獲得了一幅迄今最全、最準的人類蛋白質組的圖像。我們相信這是目前為止人工智能對促進科學進步做出的最重要的貢獻,極好地展示了人工智能將如何造福社會。”

Demis Hassabis在上周發布的推特說,more very soon!才隔一周,大新聞就來了。
AlphaFold已經在加速科學發現
通過氨基酸序列計算預測蛋白質構象——而非通過長時間的艱苦、費力而昂貴的實驗手段來確定蛋白質的構象,已經幫助科學家在數月內實現了此前須耗時數年的目標。

Protein structures representing the data obtained via AlphaFold. Source image: AlphaFold. Design credit: Karen Arnott/EMBL-EBI
EMBL主任Edith Heard說,“這個利用 AlphaFold 建立的數據庫是開放科學(open science)良性循環的完美例證。用來訓練 AlphaFold 模型的數據來自學術界建立的公共數據庫,因而 AlphaFold 的預測結果向公眾開放也是符合邏輯的。公開、自由地分享 AlphaFold 的計算結果,將有力地促進各處的研究者從結構中獲得新的洞見和發現。我相信,AlphaFold是生命科學的一次革命,如同幾十年前的基因組學。我為EMBL能協助DeepMind開源這個重要的數據資源而深感驕傲。”
AlphaFold 已經被一些合作伙伴使用,如被忽視疾病藥物倡議(Drugs for Neglected Diseases Initiative, DNDi),該倡議推動了對那些不成比例地影響世界上較貧困地區的疾病的研究;又如,酶創新中心(Centre for Enzyme, CEI)正利用 AlphaFold 幫助設計催化效率更高的酶,以回收造成最嚴重污染的一次性塑料。對于那些依賴實驗來測定蛋白質結構的科學家來說,AlphaFold 的預測加速了他們的研究。例如,科羅拉多大學博爾德分校的一個研究小組正在用 AlphaFold 來研究抗生素耐藥性,而加州大學舊金山分校的一個小組則使用 AlphaFold 來增進其對 SARS COV-2的認識。

https://www.wired.co.uk/article/deepmind-alphafold-protein-diseases
AlphaFold蛋白質結構數據庫
AlphaFold蛋白質結構數據庫(the AlphaFold Protein Structure Database)的建立基于國際科學界的諸多貢獻,以及 AlphaFold 的復雜算法創新和 EMBL-EBI 在共享世界生物數據方面的數十年經驗。DeepMind和EMBL的歐洲生物信息研究所(EMBL-EBI)共同提供了AlphaFold 預測結果的訪問服務,以便他人可將之作為一種工具來啟動和加速研究,并開辟全新的科學發現途徑。
EMBL副主任、EMBL-EBI主任Ewan Birney說,“這是自人類基因組(the Human Genome)以來最重要的數據庫。將AlphaFold的預測結果對國際科學界開放,打開了許多條嶄新的研究方向,包括以前被忽視的疾病、生物工程的新型酶等,拓展我們對世界認知的邊界。”

National Human Genome Research Institute
除了人類蛋白質組,該數據庫囊括多達 350000 個結構,包括20種具有重要生物學研究意義的模式生物,如大腸桿菌、果蠅、小鼠、斑馬魚、瘧原蟲、肺結核菌等。對這些生物的研究催生了無數的論文和科研成果。這么多蛋白質結構將使得從神經生物學到藥學的廣闊領域的研究者都能加速他們的科研工作。
AlphaFold的未來
該數據庫和系統將定期更新,DeepMind與EMBL將繼續投資于AlphaFold的未來改進,在未來數月,我們計劃將蛋白質結構預測的覆蓋范圍擴大到幾乎所有已知的測序蛋白質,超過1億個結構,涵蓋UniProt參考數據庫的大部分。
1億個結構!
科學家大佬們怎么說?
Paul Nurse,2001諾貝爾生理學醫學獎,Francis Crick研究所主任,EMBL科學顧問委員會主席
“計算方法正在改變科學研究,為有益于公共利益的發現和應用開辟新的可能性。了解蛋白質的功能對于提高我們對生命的認識至關重要,并將最終導致醫療保健、糧食可持續性、新技術等等方面的改進。DeepMind 與 EMBL 共同發布了AlphaFold蛋白質結構數據庫,這是生物學創新的一個重大飛躍,展示了跨學科合作對科學進步的影響。有了這些免費和公開的資源,科學界將能夠利用集體知識加速發現,開創人工智能生物的新紀元。”
Venki Ramakrishnan,2009諾貝爾化學獎,英國皇家科學會前主席
“蛋白質折疊問題是生物學50年來的重大挑戰,這項計算工作代表了對該問題研究的驚人進展。這出乎許多業內人士的預料。看到它將從根本上改變生物學研究,我們將感到振奮。”
Elizabeth Blackburn,2009年諾貝爾生理學醫學獎,加州大學舊金山分校榮休教授
“隨著這些由DeepMind首創的革命性蛋白質結構研究方法的普及,這將為科學界打開了解基因組序列的生物學意義的新窗口。”
Patrick Cramer,馬克思·普朗克生物物理化學所主任
“DeepMind和EMBL提供的絕佳資源將改變我們進行結構生物學的方式。這些預測展示了機器學習的力量,并服務于全世界的科學機構,這些機構提供了開放數據,使這一突破性成就得以實現。這是一個開創性的例證:21世紀如何開展科學研究。”
AlphaFold的合作方怎么說?
Ben Perry, 被忽視疾病藥物倡議(DNDi)的領導者
“我們需要為全世界數百萬面臨被忽視疾病風險的人極大地加速新藥發現。人工智能可以改變游戲規則:通過快速準確地預測蛋白質結構,AlphaFold開辟了新的研究視野,提高了研發的范圍和效率,促進了我們在疾病流行的國家的研究。看到強大的尖端人工智能能夠解決幾乎只集中在貧困人口中的疾病,令人鼓舞。”
John McGeehan,樸茨茅斯大學酶創新中心主任,結構生物學教授
“我們的任務是為塑料的循環利用開發創新酶的解決方案。這項技術正在以一種無人能預料到的方式加速我們的研究。DeepMind提供的開放訪問將改變整個社區,讓每個人都能做這些類型的實驗。我們花了數月和數年的時間,AlphaFold在一個周末就能完成。我覺得我們比昨天至少提前了一年。”

https://www.port.ac.uk/research/research-centres-and-groups/centre-for-enzyme-innovation
Marcelo Sousa,科羅拉多大學博爾德分校生物化學系教授
“AlphaFold的預測最終解決了困擾了我們10多年的實驗難題,加速了我們對抗生素耐藥性的研究。這些預測是如此精準,以至于開始時我認為我可能做錯了實驗設置。”
Alphabet / Deepmind怎么說?
Sundar Pichai,Google & Alphabet CEO
“AlphaFold數據庫顯示了人工智能深刻加速科學進步的潛力。DeepMind的機器學習系統不僅在一夜之間極大地擴展了我們對蛋白質結構和人類蛋白質組所積累的知識,而且它對生命組成部分的深刻見解為科學發現的未來帶來了非凡的希望。”

Pushmeet Kohli,DeepMind,AI for Science首席科學家
“我們的團隊一直在通過AlphaFold預測蛋白質的結構,進而破譯和解鎖蛋白質世界。我們正通過一個數據庫向每個人提供AlphaFold的預測,最大限度地利用這些由結構帶來的洞見來取得科學進步。這個數據庫和 AlphaFold 有可能開辟科學研究的新途徑,最終將促進我們對生物學和生命本身的理解。我們相信,這將對與健康和疾病、藥物設計過程和環境可持續性等問題的研究產生變革性影響,我們非常興奮地期待在未來數月和數年內開發出什么樣的應用。”

John Jumper, DeepMind,AlphaFold 首席科學家
“隨著數據庫的擴展,幾乎每一類蛋白質的結構都將可以獲得。AlphaFold數據庫很可能變革我們處理生物信息學的方式,即DNA和蛋白質的大規模研究,因為它將使我們能夠以近乎原子精度研究所有已知生物的蛋白質。我們樂觀地認為,AlphaFold的前景和機器學習的進步將推動蛋白質研究進入一個令人興奮的新階段,在這一階段,深度學習工具能夠與實驗方法一起定量理解生物學。”
Kathryn Tunyasuvunakool,DeepMind,研究科學家
“AlphaFold模型可以用來幫助實驗確定結構。對結構有一個足夠準確的初步預測,將使研究人員能夠重新訪問和解決以前無法建立模型的舊X-ray數據集和cryo-EM maps。這是計算方法與實驗方法相輔相成的絕佳例子。”
EMBL 怎么說?
Dame Janet Thornton,EMBL-EBI榮譽主任
“人工智能是AlphaFold預測的基礎,而預測則基于全世界科學家在過去50年中收集的數據。開放這些模型無疑將激發蛋白質結構的實驗和理論研究人員將此新知識應用到他們自己的研究領域并開拓新領域的興趣。這有助于我們對生命系統的認識,并為人類開啟一切機會。”
Sameer Velankar,EMBL-EBI首席科學家
“自人類基因組革命20年來,AlphaFold是生物學研究的重大突破。蛋白質的功能由其結構決定,AlphaFold蛋白質結構數據庫將提供數以百萬計的蛋白質結構,加速發現過程。前所未有的數據規模將掀起新一輪創新浪潮,幫助我們應對從健康到氣候變化的挑戰。”
Christoph Müller,EMBL,結構與計算生物學小組首席科學家
“這是巨大的進步。AlphaFold的結構預測將大大加快結構生物學研究,并將使蛋白質三維結構更成為生命科學研究的焦點。”
小王的一點私貨淺見
DeepMind 發布詳細的算法,公開源代碼,共享訓練數據,對學術界而言,可謂幾家歡喜幾家愁。無數實驗研究組和應用型計算研究組都將獲益,花幾十萬人民幣,或者實驗室單獨購買,或者學校平臺合資購買,配置一臺能跑動 AlphaFold2 的工作站,就將能自主地、大大加速自己的研究。
然而,對于開發方法的競爭者而言,打擊不可謂不大 —— 原因也簡單,跑死馬也追不上啊!
如果DeepMind不開源,那么各家還可以根據推測的算法自行開發,聲稱只是根據科學原理完成了相似的工作;但是,AlphaFold2 開源之后,任何一個有志于開發獨立方法的團隊都不可能不讀 AlphaFold2 的論文,不研習它的方法。這樣就無法回避知識產權問題 —— 這點對工業界的競爭者尤甚。
可是,憑借學術界的小團隊人員配備與經濟實力,除非 DeepMind 如對待AlphaGo一般停止對 AlphaFold 的更新訓練,否則,如何趕得上?須知道David Baker的研究組已經是首屈一指的航母般的巨型研究組了。一般小組三五七個人怎么追趕?
另一方面,我感慨、贊美DeepMind開源數據庫的胸襟和氣魄。
誠然如上文 EMBL主任 Edith Heard 所說,DeepMind 采用PDB等公共數據庫內的數據訓練了AlphaFold模型,而那些數據來自過去50年來全世界科學家點點滴滴的積累;由此觀之,DeepMind將預測模型免費開放給全世界符合邏輯,似乎理所應當。
但是依此邏輯,Springer, Elsevier, Wiley 等出版商就應該免費向學術界提供論文,不是嗎?
配置超算設備不花錢么?訓練模型不花錢么?雇傭頂級科學家和工程師不花錢么?DeepMind不用賺錢么?即使將這樣龐大的數據庫商業化,愿意付費者恐怕也應者如云吧?藥廠爭著就要用。把它當作 IPO 時討價的資本不香嗎?
所以,哪有那么多理所應當?科學國際主義萬歲!
這是變革的時代。DeepMind 讓大家認識到工業界也可以做出不遜于學界的前瞻性、探索性的基礎科研,而不是僅僅亦步亦趨地做工程性科研。所需要的是,雄厚資本的傾注,對短期商業化收支平衡表的無視,單純的科學探索之心,造福全人類的無私情懷,一群對的人,以及對科研員的尊重:待遇給夠、更專業的人領導專業的人。
以上。
2021.7.23 于深圳
參考資料
https://www.ebi.ac.uk/about/news/press-releases/alphafold-database-launch
北京時間10月9日下午5點45分許,2024年諾貝爾化學獎揭曉。美國科學家DavidBaker獲獎,以表彰其在計算蛋白質設計方面的貢獻;另一半則共同授予英國科學家DemisHassabis和JohnM......
科技日報北京9月27日電(記者張佳欣)25日發表在《自然》雜志的一項研究稱,西班牙基因組調控中心和英國威康桑格研究所的研究人員發現,基因突變對蛋白質穩定性的影響遵循著極其簡單的規律。這一發現對加速開發......
蛋白質是生命體內最重要的生物大分子之一,在生命活動過程中執行著多種關鍵功能。利用外源性獲取的蛋白質,可以在細胞及體內實現生物大分子的化學標記與功能調控,進而應用于生命機制的解析研究及疾病的靶向治療。然......
最近,印度理工學院(位于德里)化學工程系進行了一項研究,使用液相色譜-質譜聯用技術(LC–MS)來區分單克隆抗體(mAb)中的異變體(糖型),能夠對其進行表征,揭示了在完整水平上可辨識的峰。盡管商業軟......
運動有益健康,但人們并非總是想去鍛煉,這究竟受到什么影響?西班牙國家癌癥研究中心薩比奧研究團隊發現了與身體運動有關的3種蛋白質,這些蛋白質可能是激活運動欲望的“開關”。相關論文發表在最新一期《科學進展......
科技日報訊(記者張佳欣)據新一期《科學》雜志報道,美國加州大學圣迭戈分校科學家發現了生物界迄今最大的蛋白質,比此前已知的最大蛋白質——人類肌聯蛋白還要大約25%。研究人員表示,這是蛋白質界的“珠穆朗瑪......
瑞士洛桑聯邦理工學院開發了一種名為CARBonAra的新型人工智能(AI)驅動模型。該模型可以根據不同分子環境所施加限制的主鏈支架預測蛋白質序列,有望在蛋白質工程及包括醫學和生物技術在內的多個領域帶來......
使用CARBonAra進行序列預測(示意圖)。圖片來源:瑞士洛桑聯邦理工學院科技日報北京8月8日電(記者張佳欣)瑞士洛桑聯邦理工學院開發了一種名為CARBonAra的新型人工智能(AI)驅動模型。該模......
當您從事抗原生產酶促蛋白優化小分子藥物靶蛋白表達重組膜蛋白重組蛋白研發和生產是否有如下困擾常規技術手段太過繁雜,耗時耗力?蛋白表達水雖然高,但無法同時監測其構象穩定性信息?無法使用粗裂解液進行快速篩選......
1965年9月17日清晨,杜雨蒼從實驗室走了出來,即將宣布一項極重要的實驗結果。在此之前,他剛剛完成了最后一個關鍵步驟,成敗在此一舉。這位中國科學院生物化學研究所(以下簡稱生化所,中國科學院分子細胞科......