結(jié)直腸癌(colorectal cancer,CRC)又稱大腸癌,是結(jié)腸癌(colon cancer)與直腸癌(rectal cancer)的統(tǒng)稱,為全球第三大常見癌癥,也是導致癌癥相關(guān)死亡的第四大原因。根據(jù)2020年全球癌癥統(tǒng)計報告,大約31%的CRC發(fā)生在近端結(jié)腸,25%發(fā)生在遠端結(jié)腸,34%發(fā)生在直腸和直腸乙狀結(jié)腸交界處。原發(fā)性結(jié)腸癌與直腸癌的治療方法與臨床特征差異較大,例如:11.5%的直腸癌患者有肺轉(zhuǎn)移傾向,而在結(jié)腸癌患者中這一比例只有3.5%,然而這一現(xiàn)象背后的分子機制尚不清楚。
允英醫(yī)療與江蘇省腫瘤醫(yī)院合作,在癌癥基因組圖譜(the cancer genome atlas,TCGA)公共數(shù)據(jù)庫中篩選了393例大腸癌患者(結(jié)腸癌298例,直腸癌95例),提取其轉(zhuǎn)錄組測序數(shù)據(jù)并借助隨機森林(random forest,RF)與支持向量機(support vector machines,SVM)等機器學習算法進行分類,尋找結(jié)腸癌與直腸癌的分子特征(圖1)。
圖1 研究思路
在總共20502個基因中,隨機森林算法篩選出96個區(qū)分結(jié)腸癌與直腸癌的特征性分類基因集群,發(fā)現(xiàn)HOXB13、PRAC和BCLAF1是其中三個差異表達最大的基因。進一步,建立包含196個CRC樣本(151結(jié)腸癌,45直腸癌)的訓練集,對該96個基因進行基于SVM方法的模型構(gòu)建,并以剩余197個CRC樣本(147結(jié)腸癌,50直腸癌)作為驗證集,驗證模型的分類性能。最終,該模型在區(qū)分結(jié)腸癌和直腸癌樣本方面的準確度達到82.2%,AUC為0.91(圖2)。
圖2 結(jié)腸癌與直腸癌96個特征性分類基因群
綜上,本研究發(fā)現(xiàn)的96個特征性分類基因群可用作結(jié)腸癌與直腸癌的生物標志物,在此基礎(chǔ)上建立的SVM分類模型,能夠有效區(qū)分結(jié)腸癌與直腸癌樣本。這些生物標志物的發(fā)現(xiàn)和研究,有利于理解不同亞型大腸癌發(fā)病率的分子機制,以及探索結(jié)直腸癌早期篩查和治療中的潛力靶點。