化学学报 ›› 2010, Vol. 68 ›› Issue (11): 1137-1142. 上一篇 下一篇
研究论文
陈国华1,2,夏之宁*,1,陆瑶3
Chen Guohua1,2 Xia Zhining*,1 Lu Yao3
选取25条CPP和16条非CPP作为训练集样本, 以61条CPP和21条非CPP为预测集样本. 利用氨基酸的z-Scale对肽链进行编码, 分别使用原始72个自交叉协方差变量和它们的主成分矢量进行线性判别(LDA)和支持矢量机(SVM)分类研究. 当采用LDA方法时, 对于训练集的预测以及它们的留一法交互检验, 均获得比较优越的结果, 但对预测集的预测总的识别率的最优结果仅为57.3%. 分别利用主成分和原始变量集作为SVM的输入建立的非线性识别模型, 对训练集的总识别率分别为85.4%和100%, 留一法交互检验的总识别率分别为80.5%和75.6%, 对预测集的最优总识别正确率为74.4%. 识别结果表明SVM能够比较好的提取原始变量间的细微模式变化, 对CPP总的识别结果优于LDA.