一、运用weka軟体了解数据的不同分析方法
Weka 3.7軟體介面,應用包括Explorer、Experimenter、KnowledgeFlow、Simple CLI。但通常我們都是用Explorer來進行操作。Weka具有預處理(Preprocess),分類(Classify),集群(Cluster),關聯(Associate),選擇屬性(Select attributes),視覺化(Visualize)等功能。
在classify加入neural network神經網絡方法,即從weka的tools/package manager中的File/URL導入NeuralNetwork-1.1.zip壓縮包,然後測試該方法并修改參數,以下為實驗數據GalNAc_aac_aapc.csv的測試結果:
采用neural network方法進行數據分析
修改learningrate為0.2,hidderlayer為50,maxIteration為500,以下為訓練集和交叉驗證的結果:
neural network訓練集結果
neural network訓練集結果
neural network交叉驗證結果
采用multilayerperceptron方法進行數據分析
修改Learningrate為0.1,hidderlayer為5,以下為訓練集和交叉訓練的結果,
neural network訓練集結果
multilayerperceptron訓練集結果
multilayerperceptron交叉驗證結果
采用SMOreg方法進行數據分析
設kernel為puk,以下為訓練集和交叉驗證的結果,如圖所示:
SMOreg訓練集結果
SMOreg交叉驗證結果
二、在終端用SVM訓練原始數據
以下為五組未處理過的原數據作為訓練集全部丟入libsvm,在終端執行的結果。original sets accuracy為未處理過的原始數據根據默認參數預測的準確度,c、g和accuracy分別為經過libsvm方法處理后找出最佳懲罰係數、gamma係數和進行預測的準確度。
使用AAC+AAPC特徵屬性做SVM找最佳参数测试之結果
使用AAC+AAPC特徵屬性做五倍交叉驗证SVM測試之結果
先用最原始的SVM方法测试训练集建立模型,然后再用该模型对测试集进行测试,以下为全部特徵值做五倍交叉验证SVM测试集的测试结果:
使用AAC+AAPC特徵屬性做五倍交叉驗证SVM測試之結果
三、实验安裝環境簡介
3.1首先下載Libsvm、Gnuplot和Python;其次将libsvm解压(即相当于安装)在文件夾;然後再建個文件夾,文件夾的二进制文件包括svm-predict.exe,svm-scale.exe,svm-toy.exe,svm-train.exe,python.exe以及配置文件easy.py和grid.py,還有gnuplot文件。接著分別用文本文件打开grid.py很easy.py,改变一下配置环境,在else语句后面,你可以根据自己的环境改一下。如下:
3.2將測試所需的资料都丟入svm文件夾,在終端進行該文件夾位置即可進行操作。
3.3运用VC6.0编写程式实现自动化调用文件夹并进行测试。