水雯箐課題組發表蛋白質組學非依賴型質譜采集方法綜述文章

發布時間2024-03-27文章來源 iHuman研究所作者責任編輯劉玥

近日,上??萍即髮WiHuman研究所、生命科學與技術學院水雯箐課題組在《分子與細胞蛋白質組學》(Molecular & Cellular Proteomics)發表了題為Acquisition and Analysis of DIA-Based Proteomic Data: A Comprehensive Survey in 2023” 的綜述論文,對近二十年數據非依賴型采集(data-independent acquisition, DIA)質譜方法做了詳細的總結回顧,并提出了對數據分析方法的新分類策略。

DIA于本世紀初開始被用于蛋白質組學研究,近十年隨著儀器和計算能力的提升得以飛速發展。由于兼具樣品信息覆蓋度深和定量重復性高等特點,DIA成為目前自下而上蛋白質組分析中較為常用的一種方法。對DIA質譜數據的采集方式和數據解析方式多種多樣,該綜述主要涉及多種類型DIA采集方案的特點和歸類、不同的DIA數據解析方案、不同數據分析軟件實現方式的特點和分類、數據解析中可選的譜圖庫的構建和優化、可用于測試新數據分析流程的標準數據集。

DIA采集方法的基本特征是在串聯質譜中二級質譜采集不依賴于一級質譜所得到的信號,因此任何DIA方法都需要預先設置采集的質量范圍。其中最簡單的方式是每次都將完整質量范圍的離子送入碎裂室和質量分析器(full-scan),但為了降低所采集譜圖的復雜程度,一般會將完整質量范圍劃分為十到上百個窗口再連續分析落入各個質量窗口的離子(windowed)。另外,將DIA和其它采集方法組合可進一步優化在特定場景中所得到的質譜數據的質量(mixed modes)。此三大類中,目前最常用的是使用多個窗口覆蓋完整質量范圍的方法,已有多種windowed方法可在數據采集方面得到更豐富的信息從而輔助數據解析(如將不同質量窗口相交疊的多種overlapping-window實現)(圖1)。

  

1:近二十年DIA采集方法的分類(A)和發展時間線(B)


DIA發展歷程中的另一個重要問題是數據解析。將一段質量范圍的離子同時碎裂并分析將會顯著增加每張質譜譜圖的復雜程度,其中最自然的方案是根據額外的色譜維度將連續且形狀相似的色譜峰歸并再匹配簡單譜圖(即譜圖重構)。如果在原始DIA數據上直接解析其所包含的肽段,則需要更穩定的打分系統和可靠的錯誤發現率評估(包括基于序列或譜圖庫的檢索,以及從頭序列分析)。另一方面,每個采集循環的設置保持一致也使得DIA數據可以在損失較少信息的前提下被轉換為信號矩陣的表示,矩陣中的特殊模式將會成為數據來源樣品的特定信息的證據(即序列無關的方法)(圖2)。在以肽段序列鑒定為目的DIA數據分析中,該綜述提出兩種對相關聯的譜圖信號進行聚合的方式:第一種以每個色譜時間步的單個質譜譜圖做初步匹配,再根據匹配結果選擇數個臨近譜圖中的信號組合;另一種則依次構建每個特定質量的信號的色譜峰再進行匹配、篩選和組合(圖2)。

 

2. 從DIA數據中獲得不同信息的方式(A)和兩種組合信號的方式(B)

 

論文對DIA方法近二十年的發展歷程,尤其對不同的采集方法設計和數據解析方式做了詳細綜述,所提出的新分類方式和對每種方法的特點總結將有助于新DIA方法的開發。

上??萍即髮WiHuman研究所博士后婁容琿為第一作者,婁容琿與生命學院常任副教授、iHuman研究所研究員水雯箐為共同通訊作者。上??萍即髮W為第一完成單位。

論文鏈接:https://doi.org/10.1016/j.mcpro.2024.100712