數(shù)據(jù)挖掘論文錦集(15篇)
在學(xué)習(xí)和工作的日常里,大家都跟論文打過(guò)交道吧,論文可以推廣經(jīng)驗(yàn),交流認(rèn)識(shí)。那么問(wèn)題來(lái)了,到底應(yīng)如何寫(xiě)一篇優(yōu)秀的論文呢?下面是小編精心整理的數(shù)據(jù)挖掘論文,歡迎閱讀,希望大家能夠喜歡。
數(shù)據(jù)挖掘論文1
摘要:橡膠是一種重要的戰(zhàn)略物資, 其種植受到土地資源、地理環(huán)境、橡膠機(jī)械化的影響, 產(chǎn)量波動(dòng)很大。本文對(duì)農(nóng)墾橡膠產(chǎn)業(yè)種植、生產(chǎn)加工引入數(shù)據(jù)挖掘技術(shù)的必要性進(jìn)行了初步探究, 指出通過(guò)提取土壤圖像的特征, 用支持向量機(jī)的算法可以發(fā)現(xiàn)橡膠種植、生產(chǎn)加工的規(guī)律, 進(jìn)而制定精準(zhǔn)的橡膠產(chǎn)業(yè)相關(guān)策略, 以提高橡膠產(chǎn)量、節(jié)約成本、提高利潤(rùn)。
關(guān)鍵詞:橡膠種植; 數(shù)據(jù)挖掘; 特征提取; 支持向量機(jī).
基金:廣東農(nóng)工商職業(yè)技術(shù)學(xué)院校級(jí)課題“基于數(shù)據(jù)挖掘技術(shù)的橡膠產(chǎn)業(yè)的數(shù)字化研究” (xykt1601)橡膠是一種重要的戰(zhàn)略物資, 與石油、鋼鐵、煤炭并稱為四大工業(yè)原料。我國(guó)是全球最大的天然橡膠消費(fèi)國(guó)和進(jìn)口國(guó), 國(guó)內(nèi)天然橡膠長(zhǎng)期處于缺口狀態(tài), 需求的2/3依賴進(jìn)口來(lái)滿足[1]。天然橡膠產(chǎn)業(yè)屬于資源約束型、勞動(dòng)密集型產(chǎn)業(yè), 相對(duì)其他農(nóng)作物來(lái)說(shuō), 具有周期長(zhǎng)、收益長(zhǎng)等特點(diǎn)。農(nóng)墾橡膠業(yè)的產(chǎn)生、發(fā)展與壯大實(shí)際上是中國(guó)橡膠業(yè)發(fā)展的一個(gè)縮影, 一直是學(xué)術(shù)界研究的熱點(diǎn)。根據(jù)農(nóng)墾橡膠產(chǎn)業(yè)種植、生產(chǎn)加工的歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘, 發(fā)現(xiàn)其種植、生產(chǎn)加工的規(guī)律, 進(jìn)而制定精準(zhǔn)的橡膠產(chǎn)業(yè)相關(guān)策略, 以提高橡膠產(chǎn)量、節(jié)約成本、提高利潤(rùn)的數(shù)字化研究, 目前國(guó)內(nèi)還比較少。
1 引入數(shù)據(jù)挖掘技術(shù)的必要性
天然橡膠以其獨(dú)具的高彈性、高強(qiáng)度、高伸長(zhǎng)率、耐磨、耐撕裂、耐沖擊、耐酸堿、耐油、耐腐蝕、耐高低溫和絕緣性好、粘合性、密封性強(qiáng)等特點(diǎn), 始終處于不可替代的地位。我國(guó)天然橡膠需求量大, 近幾年一直處于供不應(yīng)求的狀態(tài)。造成這種局面的原因主要有以下兩點(diǎn):一、國(guó)內(nèi)輪胎工業(yè)迅猛發(fā)展;二、天然橡膠的種植條件苛刻。其種植條件苛刻主要體現(xiàn)在對(duì)種植地要求高, 如對(duì)土地的含碳、含氮、濕度等要求都很嚴(yán)格;容易受到寒害、蟲(chóng)害、臺(tái)風(fēng)的襲擊。橡膠的供應(yīng)不足阻礙了我國(guó)經(jīng)濟(jì) (特別是輪胎行業(yè)) 的發(fā)展;诖吮尘跋, 本文通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)橡膠樹(shù)生長(zhǎng)地的土壤進(jìn)行評(píng)價(jià)研究, 為尋找出最適合橡膠樹(shù)生長(zhǎng)的土壤和尋找橡膠樹(shù)種植地提供依據(jù), 一方面可以降低種植橡膠的成本, 另一方面可以讓新的橡膠農(nóng)更容易掌握種植橡膠技巧, 讓更多的人加入種植橡膠的隊(duì)伍中。
2 數(shù)字化流程圖
2.1 樣本采集
研究的橡膠林可以分為4種不同林齡膠林:幼林早期 (0~2齡) 、幼林晚期 (2~7齡) 、開(kāi)割數(shù) (7~16齡) 、老齡即將更新數(shù) (>16齡) 。取土壤樣本的時(shí)間要在晴天上午, 如果遇雨天, 則等2個(gè)晴天后再進(jìn)行取樣。每個(gè)林齡段中隨機(jī)設(shè)置n個(gè)樣地:每個(gè)樣地的面積a (m) ×b (m) , 分0~15cm、15~30cm、30~45cm、45~60cm4個(gè)層次拍攝土壤樣品, 每個(gè)層次拍攝m張。每張土壤樣品圖片的命名規(guī)則為“膠林-層次.jpg”。
2.2 特征提取
通過(guò)拍攝得到的土壤圖像, 由于圖像的維度過(guò)大, 不容易分析, 需要從中提取土樣圖像的特征, 提取反應(yīng)圖像本質(zhì)的一些關(guān)鍵指標(biāo), 以達(dá)到自動(dòng)進(jìn)行圖像識(shí)別的目的。
圖像的特征主要包括顏色特征、紋理特征、形狀特征等。本文主要運(yùn)用圖片的顏色特征和紋理特征建立圖片自動(dòng)識(shí)別模型。
2.2.1 顏色特征
圖片的顏色特征用顏色矩表示;陬伾靥崛D像特征的數(shù)學(xué)基礎(chǔ)在于圖像中任何的顏色分布均可以用它的矩來(lái)表示。顏色的矩包含各個(gè)顏色通道的一階矩、二階矩和三階矩, 對(duì)于一幅RGB顏色空間的'圖像, 具有R、G和B三個(gè)顏色通道, 共有9個(gè)分量。
2.2.2 紋理特征
圖片的紋理特征主要灰度共生矩陣?yán)锩嬷刑崛。因(yàn)榧y理是由灰度分布在空間位置上反復(fù)交替變化而形成的, 因而在圖像空間中相隔某距離的兩個(gè)像素間一定存在一定的灰度關(guān)系, 稱為是圖像中灰度的空間相關(guān)特性。
其中L表示圖像的灰度級(jí), i, j分別表示像素的灰度。d表示兩個(gè)像素間的空間位置關(guān)系。不同的d決定了兩個(gè)像素間的距離和方向。元素Pd (1, 0) 代表了圖像上位置關(guān)系為d的兩個(gè)像素灰度分別為1和0的情況出現(xiàn)的次數(shù)。
在建模中一般不直接用圖片的灰度共生矩陣建模, 往往要從灰度共生矩陣中提取它的特征參數(shù)用戶建模。灰度共生矩陣的特征參數(shù)有二階距、對(duì)比度、相關(guān)、熵。
3 模型構(gòu)建
特征提取完之后, 用支持向量機(jī)算法對(duì)圖像進(jìn)行圖片識(shí)別。根據(jù)識(shí)別出的結(jié)果就可以有針對(duì)性的對(duì)土壤做些有利于橡膠樹(shù)生長(zhǎng)的干預(yù)工作, 如:如果識(shí)別出土壤缺少氮元素, 可以給土壤適當(dāng)?shù)氖┬┑?如果識(shí)別出土壤的水分較少, 就要給土壤澆水, 給農(nóng)墾橡膠產(chǎn)業(yè)提供數(shù)學(xué)指導(dǎo)意義。
4 結(jié)論
本文分析了橡膠種植中引入數(shù)據(jù)挖掘技術(shù)的必要性, 對(duì)橡膠種植數(shù)字化研究做了初步闡述?梢越o橡膠業(yè)提供一定的參考意義。
參考文獻(xiàn)
[1]黃冠, 吳紅宇.廣東農(nóng)墾天然橡膠種植現(xiàn)狀及“走出去”戰(zhàn)略實(shí)踐.中國(guó)熱帶農(nóng)業(yè), 20xx, 3 (4) , 18-21.
[2]李煒.廣東農(nóng)墾“走出去”做強(qiáng)做大橡膠產(chǎn)業(yè).今日熱作, 20xx, 19 (1) , 52-53.
[3]Rapepun Wititsuwannakul, Piyaporn Pasitkul, et.al.Hevea latex lectin binding protein in C-serum as an anti-latex coagulating factor and its role in a proposed new model for latex coagulation, Phytochemistry 20xx, 69 (1) , 656–662.
[4]勒碧.數(shù)據(jù)挖掘算法及其生產(chǎn)優(yōu)化應(yīng)用中的研究.浙江大學(xué)碩士學(xué)位論文, 20xx.
數(shù)據(jù)挖掘論文2
[摘要] 本文立足于web數(shù)據(jù)挖掘技術(shù),從個(gè)性化網(wǎng)站的設(shè)計(jì)、crm中的應(yīng)用和推薦系統(tǒng)中的應(yīng)用三個(gè)角度,分析了電子商務(wù)中的web數(shù)據(jù)挖掘應(yīng)用。
[關(guān)鍵詞] 電子商務(wù) web 數(shù)據(jù)挖掘
電子商務(wù)改變了人們傳統(tǒng)的商務(wù)模式,同時(shí),也改變了商家與顧客之間的關(guān)系。客戶選擇余地的擴(kuò)大使得他們更加關(guān)注商品的價(jià)值,而不象以前首先考慮品牌和地理因素。因此對(duì)銷售商而言盡可能的了解客戶的愛(ài)好、價(jià)值取向,才能在競(jìng)爭(zhēng)中立于不敗之地。數(shù)據(jù)挖掘技術(shù)可以有效地幫助銷售商理解客戶行為,提高站點(diǎn)的效率。在電子商務(wù)網(wǎng)站的設(shè)計(jì)、客戶關(guān)系管理(crm)、網(wǎng)絡(luò)營(yíng)銷等方面得到廣泛的應(yīng)用。
一、數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站設(shè)計(jì)中的應(yīng)用
數(shù)據(jù)挖掘可以得出諸如:什么客戶喜歡這個(gè)站點(diǎn)、客戶通過(guò)什么訪問(wèn)路徑達(dá)成交易,以及客戶訪問(wèn)站點(diǎn)的頻率等信息,從而優(yōu)化網(wǎng)站的結(jié)構(gòu)提高網(wǎng)站的訪問(wèn)量,吸引更多的客戶。對(duì)于改進(jìn)網(wǎng)站設(shè)計(jì)、定制個(gè)性化頁(yè)面、判斷站點(diǎn)效率有著重要幫助。
利用web數(shù)據(jù)挖掘技術(shù),個(gè)性化電子商務(wù)系統(tǒng)的實(shí)現(xiàn)過(guò)程包括信息采集、信息分析和個(gè)性化服務(wù)三個(gè)主要步驟:
1.信息采集。收集客戶個(gè)人信息是提供個(gè)性化服務(wù)的基礎(chǔ)。收集個(gè)人信息主要有兩種方式。第一種方式是通過(guò)客戶注冊(cè)來(lái)獲得,這種方式可以得到客戶的性別、出生日期、最高學(xué)歷、家庭收入、婚姻狀況、職業(yè)等;第二種是通過(guò)客戶在網(wǎng)站上的行為來(lái)判斷個(gè)人的興趣愛(ài)好等特點(diǎn),從而獲得客戶個(gè)人信息。如果客戶經(jīng)常瀏覽某類產(chǎn)品或相關(guān)廣告,我們就可以知道客戶對(duì)這類產(chǎn)品感興趣。Www.133229.CoM
2.信息分析。一個(gè)成功和完善的個(gè)性化電子商務(wù)網(wǎng)站應(yīng)該能夠在對(duì)客戶透明的情況下,對(duì)客戶的資料、行為進(jìn)行分析,并盡量不影響客戶的頁(yè)面處理時(shí)間,對(duì)于耗時(shí)較多的分析、分類處理應(yīng)放在系統(tǒng)相對(duì)空閑和客戶退出網(wǎng)站等時(shí)間處理,減少客戶等待時(shí)間。信息分析過(guò)程如下:(1)將網(wǎng)站客戶群進(jìn)行分類,然后按照客戶群興趣特點(diǎn)進(jìn)行內(nèi)容設(shè)計(jì),并且將內(nèi)容相應(yīng)歸類;(2)定義客戶類別所對(duì)應(yīng)的內(nèi)容,即某類客戶最需要看到什么內(nèi)容;(3)分析客戶的行為和登錄資料,判別客戶所屬的類別;(4)客戶瀏覽網(wǎng)站不同頁(yè)面時(shí),以及提交購(gòu)買(mǎi)定單時(shí),修改相應(yīng)行為資料。
3.個(gè)性化服務(wù)。根據(jù)客戶類別顯示相應(yīng)的內(nèi)容給客戶,達(dá)到個(gè)性化服務(wù)的目的。為了使分類更具有可信性和穩(wěn)定性,對(duì)注冊(cè)時(shí)間較長(zhǎng),瀏覽及購(gòu)買(mǎi)行為相對(duì)穩(wěn)定的客戶優(yōu)先抽樣。
二、數(shù)據(jù)挖掘在crm中的應(yīng)用
1.客戶的獲取。在大多數(shù)的商業(yè)領(lǐng)域中,業(yè)務(wù)發(fā)展的主要指標(biāo)包括新客戶的獲取能力。企業(yè)的市場(chǎng)部門(mén)人員可以采用傳統(tǒng)的方法來(lái)發(fā)展新客戶,如開(kāi)展大規(guī)模廣告活動(dòng);也可以根據(jù)所了解的目標(biāo)客戶群,將他們分類,然后進(jìn)行直銷活動(dòng)。但是當(dāng)數(shù)據(jù)量增大時(shí),即使有豐富經(jīng)驗(yàn)的市場(chǎng)人員想要選擇出相關(guān)的人口調(diào)查屬性的篩選條件也會(huì)變得很困難,隨客戶數(shù)量不斷增長(zhǎng)和每位客戶的`細(xì)節(jié)因素增多,要得出這樣的行為模式的復(fù)雜度也同樣增大。而數(shù)據(jù)挖掘技術(shù)可以幫助完成潛在客戶的篩選工作。首先從一份潛在的客戶名單開(kāi)始,列出可能對(duì)企業(yè)的產(chǎn)品或服務(wù)感興趣的消費(fèi)者的信息,通過(guò)調(diào)查和處理對(duì)這些信息進(jìn)行數(shù)據(jù)擴(kuò)展,并和一些外部信息匹配,使之更適合數(shù)據(jù)挖掘分析。然后進(jìn)行市場(chǎng)試驗(yàn)活動(dòng),根據(jù)所需要預(yù)測(cè)的客戶行為在一定范圍內(nèi)對(duì)客戶進(jìn)行試驗(yàn),記錄下客戶的反饋,稱之為“反應(yīng)行為模式”。剔除無(wú)反應(yīng)行為和反應(yīng)行為類別中重復(fù)的數(shù)據(jù)后,在確定細(xì)節(jié)粒度的基礎(chǔ)上,利用數(shù)據(jù)挖掘技術(shù)構(gòu)建出n元反應(yīng)行為預(yù)測(cè)模型。根據(jù)這個(gè)模型,可以將潛在的客戶排序,以便找出那些對(duì)企業(yè)的產(chǎn)品或服務(wù)最感興趣的客戶。
2.客戶的保持。隨著行業(yè)中的競(jìng)爭(zhēng)愈來(lái)愈激烈和獲得一個(gè)新客戶的開(kāi)支愈來(lái)愈大,保持原有客戶的工作也愈來(lái)愈有價(jià)值。在crm的實(shí)施中,企業(yè)通過(guò)預(yù)測(cè),找出可能會(huì)流失的客戶,并分析出主要有哪些因素導(dǎo)致他們想要離開(kāi),在此基礎(chǔ)上,有針對(duì)性地挽留那些有離開(kāi)傾向的客戶。
利用數(shù)據(jù)挖掘技術(shù),可以通過(guò)挖掘大量的客戶信息來(lái)構(gòu)建預(yù)測(cè)模型,較準(zhǔn)確地找出易流失客戶群,并制定相應(yīng)的方案,最大程度地保持住老客戶。數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)技術(shù)能夠較好地應(yīng)用在這一方面。
3.客戶的細(xì)分。細(xì)分是指將一個(gè)大的消費(fèi)群體劃分為一個(gè)個(gè)細(xì)分群體的動(dòng)作,同屬一個(gè)細(xì)分群的消費(fèi)者彼此相似,而隸屬于不同細(xì)分群的消費(fèi)者被視為不同的。通過(guò)crm的實(shí)施,將產(chǎn)生細(xì)分的客戶群,企業(yè)根據(jù)客戶提出的要求和實(shí)際所做的不斷地改善產(chǎn)品和服務(wù),從而使企業(yè)不斷提高使該客戶群滿意的能力。
數(shù)據(jù)挖掘技術(shù)中的聚類分析技術(shù)能夠被運(yùn)用來(lái)從客戶信息數(shù)據(jù)庫(kù)中發(fā)現(xiàn)不同的客戶群,并且用購(gòu)買(mǎi)模式來(lái)刻畫(huà)不同客戶群的特征,達(dá)到細(xì)分客戶群的目的。根據(jù)客戶數(shù)據(jù)特點(diǎn),一般可采用聚類技術(shù)中的k平均算法來(lái)進(jìn)行劃分。其原理為將含原始客戶信息的數(shù)據(jù)庫(kù)劃分成k個(gè)聚簇,然后采用一定的算法使得同一簇中的對(duì)象是“相似的”,而不同簇中的是“相異的”。
三、推薦系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)
1.貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)技術(shù)利用訓(xùn)練集創(chuàng)建相應(yīng)的模型,模型用決策樹(shù)表示,節(jié)點(diǎn)和邊表示客戶信息。模型的建立可以離線進(jìn)行,一般需要數(shù)小時(shí)或數(shù)天,得到的模型非常小,對(duì)模型的使用非?欤@種方法適合客戶的興趣愛(ài)好變化比較慢的場(chǎng)合,推薦精度和最近鄰技術(shù)差不多。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則既可用來(lái)分析商品間的參考模式,也可以向客戶推薦商品,提高交叉銷售能力。關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可以離線進(jìn)行,隨著商品數(shù)目的增加,規(guī)則的數(shù)量呈指數(shù)增加,但通過(guò)決策者對(duì)支持度和置信度的選擇,感興趣模式以及算法的選取,也可以高效實(shí)現(xiàn)。推薦精度比最近鄰技術(shù)略差。
3.聚類分析。該技術(shù)將具有相似愛(ài)好、購(gòu)物興趣的客戶分配到相同的族中,聚類產(chǎn)生之后,根據(jù)該族中其他客戶對(duì)某商品的評(píng)價(jià)就可以得到系統(tǒng)對(duì)該商品的評(píng)價(jià),聚類過(guò)程可以離線進(jìn)行,聚類產(chǎn)生之后,性能比較好,但如果某客戶處于一個(gè)聚類的邊緣,則對(duì)該客戶的推薦精度比較低,推薦精度比最近鄰技術(shù)略差。
4.推薦系統(tǒng)要兼顧準(zhǔn)確性和實(shí)時(shí)性。一個(gè)好的系統(tǒng)可能是多種方法和技術(shù)的結(jié)合,取長(zhǎng)補(bǔ)短。譬如,可以把聚類分析作為最臨近算法的預(yù)處理,即通過(guò)聚類分析來(lái)減小候選集,最臨近算法就可以在一個(gè)較小的數(shù)據(jù)集合中進(jìn)行,從而提高了實(shí)時(shí)性。
參考文獻(xiàn):
[1]周彥暉:電子商務(wù)與web數(shù)據(jù)挖掘.計(jì)算機(jī)應(yīng)用.20xx(5)
[2]董逸生:web挖掘研究綜述.計(jì)算機(jī)科學(xué),20xx(11)
數(shù)據(jù)挖掘論文3
網(wǎng)絡(luò)經(jīng)濟(jì)的關(guān)鍵在于能夠?yàn)樯唐返墓⿷?yīng)商及其合作者之間提供一個(gè)交流的平臺(tái),但是即便是最權(quán)威的搜索引擎也只能夠搜索到三分之一的web網(wǎng)頁(yè),并且這些Web都是沒(méi)有結(jié)構(gòu)的、動(dòng)態(tài)的、復(fù)雜的形式出現(xiàn)。人們要從各種各樣的文本網(wǎng)站中尋找自己想要的信息進(jìn)而變得更加困難。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)就是用來(lái)解決這一問(wèn)題的好辦法,利用數(shù)據(jù)挖掘技術(shù)能夠有效發(fā)現(xiàn)在web網(wǎng)頁(yè)中隱藏著的對(duì)用戶有力的數(shù)據(jù)信息,在對(duì)數(shù)據(jù)的分析中總結(jié)出規(guī)律。如何實(shí)現(xiàn)用戶對(duì)于Web上的有效數(shù)據(jù)的深度挖掘,使其成為工商管理領(lǐng)域中的重要應(yīng)用,成為了當(dāng)代許多網(wǎng)絡(luò)工作者所關(guān)注的話題。
一、數(shù)據(jù)挖掘概述
(一)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(DataMining)指的是,在大量的、不規(guī)則的、隨機(jī)的、復(fù)雜的、有噪聲的實(shí)際應(yīng)用數(shù)據(jù)中,獲得一些信息和知識(shí),能夠?qū)τ脩羝矶\潛在作用的效果的過(guò)程。將數(shù)據(jù)挖掘用通俗的話來(lái)描述就是在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)潛在有用的知識(shí)發(fā)現(xiàn)(KDDKnowledgeDiscoveryinDatabase)。在這個(gè)定義中主要包含了以下幾方面的含義:首先數(shù)據(jù)源的特性是大量、隨機(jī)、不規(guī)則、噪聲;信息是客戶所感興趣的對(duì)象;選取的知識(shí)必須是在可接受、可理解、可運(yùn)用的范圍內(nèi)的,并不是全部符合要求的都可以,對(duì)于問(wèn)題要有一定的針對(duì)性。也就是說(shuō)對(duì)于所發(fā)現(xiàn)的知識(shí)的篩選是有一定的約束和限制條件的,同時(shí)也要符合用戶的理解和學(xué)習(xí)能力,最好還能夠用通俗的語(yǔ)言來(lái)表達(dá)最終的結(jié)果。
。ǘ¦eb數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘?qū)嶋H上是屬于數(shù)據(jù)挖掘的范疇的。概括的來(lái)說(shuō),Web數(shù)據(jù)挖掘的數(shù)據(jù)庫(kù)特定的就是Web服務(wù)器上的數(shù)據(jù)文件,從中發(fā)現(xiàn)用戶感興趣并有所應(yīng)用潛能的知識(shí)。Web數(shù)據(jù)挖掘主要針對(duì)的就是頁(yè)面內(nèi)容、頁(yè)面之間的結(jié)構(gòu)、用戶訪問(wèn)信息、電子商務(wù)等內(nèi)在信息,通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)獲得有價(jià)值的信息。Web數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫(kù)存在著很大的差異,傳統(tǒng)的數(shù)據(jù)庫(kù)都是在一定的數(shù)學(xué)模型范圍之內(nèi)的,通過(guò)模型來(lái)描述其中的數(shù)據(jù);但是web數(shù)據(jù)庫(kù)相對(duì)來(lái)講就要復(fù)雜許多,沒(méi)有通用的模型來(lái)描述數(shù)據(jù),每個(gè)網(wǎng)頁(yè)都有其獨(dú)特的數(shù)據(jù)描述方式,丙炔數(shù)據(jù)自身都是可變的、動(dòng)態(tài)的。因而,Web數(shù)據(jù)雖然具有一定的結(jié)構(gòu)性,不能用架構(gòu)化的形式來(lái)表達(dá),也可以稱其為半結(jié)構(gòu)化的數(shù)據(jù)。Web數(shù)據(jù)的最大特點(diǎn)就是半結(jié)構(gòu)化,加上Web數(shù)據(jù)的信息量極大,導(dǎo)致整一個(gè)數(shù)據(jù)庫(kù)成為一個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)。
二、網(wǎng)絡(luò)數(shù)據(jù)挖掘的類型
。ㄒ唬┚W(wǎng)絡(luò)內(nèi)容挖掘
網(wǎng)絡(luò)內(nèi)容挖掘的對(duì)象是網(wǎng)頁(yè)的內(nèi)容、數(shù)據(jù)、文檔,這通常也是網(wǎng)頁(yè)在急性搜索的時(shí)候需要考察的訪問(wèn)對(duì)象。由于網(wǎng)絡(luò)信息繁多,按照信息源的不同可以劃分為Gopher、FTP、Usenet等已經(jīng)隱藏到WWW形式之后的資源,我們稱之為WWW信息資源,存儲(chǔ)于數(shù)據(jù)庫(kù)管理信息系統(tǒng)中的數(shù)據(jù),以及不能直接訪問(wèn)的私人數(shù)據(jù)。按照網(wǎng)絡(luò)資源的形式又可以劃分為文本、圖像、音頻、視頻等數(shù)據(jù)。
。ǘ┚W(wǎng)絡(luò)結(jié)構(gòu)挖掘
網(wǎng)絡(luò)結(jié)構(gòu)挖掘的對(duì)象就是Web潛在的鏈接結(jié)構(gòu)模式。這種類型最早出現(xiàn)在引文分析,在建立web自身的鏈接結(jié)構(gòu)模型的時(shí)候借鑒了網(wǎng)頁(yè)鏈接和被鏈接數(shù)量以及對(duì)象。在網(wǎng)頁(yè)歸類的時(shí)候往往會(huì)采用這種模式,還能夠得到不同網(wǎng)頁(yè)間相似度及關(guān)聯(lián)度的相關(guān)數(shù)據(jù)。網(wǎng)絡(luò)結(jié)構(gòu)挖掘能夠幫助用戶在相關(guān)領(lǐng)域中找到最有分量的網(wǎng)站。
(三)網(wǎng)絡(luò)用法挖掘
網(wǎng)絡(luò)用法挖掘的目的在于掌握用戶的一系列網(wǎng)絡(luò)行為數(shù)據(jù)。網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)結(jié)構(gòu)挖掘針對(duì)的都是網(wǎng)上的原始數(shù)據(jù),而網(wǎng)絡(luò)用法挖掘針對(duì)的是用戶在上網(wǎng)過(guò)程中的人機(jī)交互的第二手?jǐn)?shù)據(jù),主要有用戶的網(wǎng)頁(yè)游覽記錄、代理服務(wù)器日志記錄、網(wǎng)頁(yè)維護(hù)信息、用戶簡(jiǎn)介、注冊(cè)信息、聊天記錄、交易信息等等。
三、網(wǎng)絡(luò)經(jīng)濟(jì)環(huán)境下數(shù)據(jù)挖掘在工商管理中的運(yùn)用步驟
。ㄒ唬┳R(shí)別網(wǎng)站訪問(wèn)者的特征信息
企業(yè)對(duì)電子商務(wù)網(wǎng)站的數(shù)據(jù)進(jìn)行挖掘的第一步,就是要明確訪問(wèn)者的特點(diǎn),找出訪問(wèn)者使用的條款特征。訪問(wèn)者特征主要有入口統(tǒng)計(jì)、心理狀態(tài)和技術(shù)手段等要素。人口統(tǒng)計(jì)并不是一成不變的,比如家庭地址、收入、購(gòu)買(mǎi)力等因素都會(huì)不斷改變。心理狀態(tài)指的是在心理調(diào)研中展現(xiàn)出的個(gè)性類型,比如對(duì)商品的選擇去世、價(jià)格優(yōu)惠心理、技術(shù)興趣等。隨著訪問(wèn)者數(shù)量的增加,相關(guān)數(shù)據(jù)也會(huì)不斷累積。條款的交互信息主要包括購(gòu)買(mǎi)歷史、廣告歷史和優(yōu)選信息。網(wǎng)站統(tǒng)計(jì)信息是指每次會(huì)話的相關(guān)要素。公司信息主要包括訪問(wèn)者對(duì)接的服務(wù)器所包含的一系列要素信息。
。ǘ┲贫繕(biāo)
開(kāi)展網(wǎng)上交易的最大優(yōu)勢(shì)在于企業(yè)對(duì)于訪問(wèn)者的反應(yīng)有著更好的前瞻性。當(dāng)廠商的目標(biāo)是明確且具象的時(shí)候,就能夠通過(guò)數(shù)據(jù)挖掘技術(shù)得到較好的效果。企業(yè)通?梢栽O(shè)定以下的目標(biāo):網(wǎng)頁(yè)訪問(wèn)者的增加量;類此網(wǎng)頁(yè)訪問(wèn)的瀏覽時(shí)間增加;每次結(jié)賬的平均利潤(rùn);退換貨的減少;品牌知名度效應(yīng);回頭客的數(shù)量等等。
。ㄈ﹩(wèn)題描述
開(kāi)展電子商務(wù)的企業(yè)最關(guān)鍵要面對(duì)的一個(gè)問(wèn)題就是如何進(jìn)行商品的傳播,要實(shí)現(xiàn)網(wǎng)頁(yè)的個(gè)性化又要將商品的信息完整的展現(xiàn)給顧客,就需要了解同一類訪問(wèn)者的共有特征、估計(jì)貨物丟失的數(shù)據(jù)并預(yù)測(cè)未來(lái)行為。所有這一切都涉及尋找并支持各種不同的隱含模式。
。ㄋ模╆P(guān)聯(lián)分析
對(duì)顧客大量的交易數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,能夠發(fā)現(xiàn)顧客購(gòu)買(mǎi)組合商品的趨勢(shì)。關(guān)聯(lián)分析指的是在一次瀏覽或者會(huì)話中所涉及到的商品,也叫做市場(chǎng)分析。若電子商務(wù)網(wǎng)站能夠?qū)⑦@些商品放在同一個(gè)網(wǎng)頁(yè)中,就能夠提高顧客同時(shí)購(gòu)買(mǎi)這些商品的概率。如果在關(guān)聯(lián)的.一組商品中有某一項(xiàng)商品正在進(jìn)行促銷,就能夠帶動(dòng)其他組合產(chǎn)品的銷量。關(guān)聯(lián)也能夠用在靜態(tài)的網(wǎng)站目錄網(wǎng)頁(yè)。在這種情況下,網(wǎng)站排序的主要依據(jù)是廠商選擇的且是網(wǎng)站所要查看的第一頁(yè)內(nèi)容,將其以及其相關(guān)的商品信息放在網(wǎng)頁(yè)的首頁(yè)。
。ㄎ澹┚垲
聚類指的是將具有相同特征的商品歸為一類,將特征平均,以形成一個(gè)“特征矢量”。聚類技術(shù)能夠確定一組數(shù)據(jù)有多少類,并用其中一個(gè)聚類來(lái)表示其余大多數(shù)數(shù)據(jù)。通常在企業(yè)分析訪問(wèn)者類型的時(shí)候使用聚類技術(shù)。
。Q策樹(shù)
決策樹(shù)描繪的是都想決定在做出的一系列過(guò)程中的問(wèn)題或數(shù)據(jù)點(diǎn)。比如做出購(gòu)買(mǎi)電視機(jī)這一決定就要經(jīng)歷對(duì)于電視機(jī)的需求、電視機(jī)的品牌、尺寸等等問(wèn)題,最終確定好買(mǎi)哪一臺(tái)電視機(jī)為止。決策樹(shù)能夠較一個(gè)決策過(guò)程進(jìn)行系統(tǒng)的排序,以便選出最優(yōu)的路徑來(lái)盡可能減少?zèng)Q策的步驟,提高決定的質(zhì)量和速度。許多企業(yè)將決策樹(shù)體系添加到自己的產(chǎn)品選擇系統(tǒng)中,能夠幫助訪問(wèn)者解決特定問(wèn)題。
。ㄆ撸┕烙(jì)和預(yù)測(cè)
估計(jì)是對(duì)未知量的判斷,預(yù)測(cè)是根據(jù)當(dāng)前的趨勢(shì)做出將來(lái)的判斷。估計(jì)和預(yù)測(cè)使用的算法類似。估計(jì)能夠?qū)蛻艨瞻椎捻?xiàng)目做到預(yù)判。如果網(wǎng)站想知道某個(gè)訪問(wèn)者的收入,就可以通過(guò)與收入密切相關(guān)的量估計(jì)得到,最后通過(guò)與其有相同特征的訪問(wèn)者的收入來(lái)衡量這個(gè)訪問(wèn)者的收入和信用值。預(yù)測(cè)是對(duì)未來(lái)事項(xiàng)的判斷。尤其是在某些個(gè)性化網(wǎng)頁(yè)中顯得尤為重要。企業(yè)通過(guò)數(shù)據(jù)的匯總增進(jìn)對(duì)客戶的了解。即使是對(duì)以往事件的分析中也可以得到有效的信息。預(yù)測(cè)能夠?qū)υL問(wèn)者的特征作出總結(jié)和匯總,以便企業(yè)能夠找出更有針對(duì)性的組合商品來(lái)滿足客戶的需求。Web數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫(kù)存在著很大的差異,最大特點(diǎn)就是半結(jié)構(gòu)化,加上Web數(shù)據(jù)的信息量極大,導(dǎo)致整一個(gè)數(shù)據(jù)庫(kù)成為一個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)。能夠幫助用戶在特性是大量、隨機(jī)、不規(guī)則、噪聲的信息中發(fā)現(xiàn)感興趣的對(duì)象。
數(shù)據(jù)挖掘論文4
摘要:隨著我國(guó)社會(huì)經(jīng)濟(jì)的不斷發(fā)展,人力資源管理也受到越來(lái)越多人們的重視,然而在如今激烈的市場(chǎng)競(jìng)爭(zhēng)下很多企業(yè)依然不重視人力資源管理,從而使得自身的整體工作效率不高。為此,筆者認(rèn)為為了提高礦建人力資源管理的質(zhì)量,應(yīng)采取數(shù)據(jù)挖掘技術(shù)來(lái)開(kāi)展工作,從而讓整個(gè)企業(yè)在激烈的市場(chǎng)競(jìng)爭(zhēng)中穩(wěn)定、長(zhǎng)久發(fā)展下去。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);企業(yè)人力資源管理;應(yīng)用
1、數(shù)據(jù)挖掘技術(shù)在企業(yè)人力資源管理中應(yīng)用的現(xiàn)狀
隨著我國(guó)人力資源管理體系的不斷發(fā)展,隱藏在管理工作中的問(wèn)題也被逐漸顯露出來(lái),雖然很多企業(yè)的高層管理者對(duì)人力資源管理這塊已經(jīng)高度重視,但是企業(yè)往往是希望通過(guò)運(yùn)用相關(guān)的系統(tǒng)來(lái)對(duì)人才進(jìn)行管理,基于我國(guó)社會(huì)整體經(jīng)濟(jì)實(shí)力的不斷發(fā)展以及互聯(lián)網(wǎng)信息時(shí)代的到來(lái),數(shù)據(jù)挖掘技術(shù)也受到越來(lái)越多的企業(yè)多關(guān)注,并紛紛采用該技術(shù)對(duì)自身人力資源進(jìn)行管理,同時(shí)也將人力資源管理系統(tǒng)作為整個(gè)信息化建設(shè)過(guò)程中的核心部位,就數(shù)據(jù)調(diào)查顯示,數(shù)據(jù)挖掘技術(shù)已經(jīng)被國(guó)外很多軟件開(kāi)放式引入自身的人力資源管理工作中,并使自身內(nèi)部逐步形成了一套完整的人力資源管理系統(tǒng)體系。除此之外,數(shù)據(jù)挖掘技術(shù)也被廣泛應(yīng)用在企業(yè)的基本人力資源檔案管理工作中,隨著信息技術(shù)時(shí)代的到來(lái),以往傳統(tǒng)的計(jì)算機(jī)管理模式對(duì)人力資源管理效率往往并不高,為此,數(shù)據(jù)挖掘技術(shù)對(duì)企業(yè)人力資管理工作是百利而無(wú)一害的。
2、數(shù)據(jù)挖掘技術(shù)在企業(yè)人力資源管理中的應(yīng)用
2、1人才的招聘
任何企業(yè)在發(fā)展過(guò)程中都是離不開(kāi)新鮮血液注入的,隨著目前我國(guó)市場(chǎng)經(jīng)濟(jì)競(jìng)爭(zhēng)趨勢(shì)的不斷增長(zhǎng),企業(yè)要想穩(wěn)固發(fā)展必須要引入人力資源管理,只有這樣才能提高企業(yè)經(jīng)濟(jì)效益以及社會(huì)收益。為此,企業(yè)應(yīng)對(duì)人才進(jìn)行招聘,這也是獲取人力資源的重要手段,通過(guò)采用數(shù)據(jù)挖掘技術(shù)來(lái)吸引社會(huì)中的各類人才,并采取有效的人才管理流程來(lái)對(duì)人才進(jìn)行篩選,最終選擇質(zhì)量最佳的人才資源。與此同時(shí),企業(yè)對(duì)人才招聘質(zhì)量的優(yōu)與良對(duì)自身內(nèi)部的員工、人類資源也會(huì)造成一定的影響,換句話來(lái)講,人才的招聘往往是企業(yè)人力資源管理工作開(kāi)展的前期階段,然而在實(shí)際人才招聘過(guò)程中很多企業(yè)總是找不到合適的人選,同時(shí)也有大量的優(yōu)質(zhì)人才也很難找的適合自身的工作,這也就加大了企業(yè)人才招聘的難度,也進(jìn)一步加大了招聘的`成本,為此,企業(yè)采取數(shù)據(jù)挖掘技術(shù)可以有效降低人才招聘的成本支出,從而使自身獲得更大的經(jīng)濟(jì)收益與社會(huì)利益。
2、2對(duì)人才的管理
隨著社會(huì)對(duì)人才需求量的不斷增加,企業(yè)對(duì)員工的數(shù)據(jù)記錄和管理方式也逐步優(yōu)化,然而在很多企業(yè)人力資源管理過(guò)程中仍然存在著諸多問(wèn)題,而這些問(wèn)題的存在對(duì)企業(yè)未來(lái)發(fā)展也產(chǎn)生阻礙作用。為了企業(yè)在未來(lái)發(fā)展道路上穩(wěn)固、長(zhǎng)久發(fā)展,應(yīng)采取數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)人才進(jìn)行管理,以往傳統(tǒng)的管理模式往往是對(duì)員工的基本信息以及日?己诉M(jìn)行管理,這種管理方式已經(jīng)不適應(yīng)現(xiàn)在時(shí)代發(fā)展的趨勢(shì),為此,礦建企業(yè)必要順應(yīng)當(dāng)下時(shí)代的發(fā)展趨勢(shì)來(lái)采取有效的措施來(lái)對(duì)人力資源進(jìn)行管理,現(xiàn)代化的管理模式主要強(qiáng)調(diào)的是對(duì)相關(guān)數(shù)據(jù)的分析和整理能力,通過(guò)對(duì)數(shù)據(jù)的分析來(lái)形成具有實(shí)際指導(dǎo)作用的總結(jié),從而為企業(yè)人力資源管理工作提供有價(jià)值的參考依據(jù)。例如,在實(shí)際人力資源管理過(guò)程中可以利用數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)企業(yè)內(nèi)部員工的薪資水平進(jìn)行分析,并對(duì)企業(yè)的成本控制提出有效的建議,也可以利用數(shù)據(jù)挖掘技術(shù)對(duì)企業(yè)中年紀(jì)較大的員工進(jìn)行分析,并對(duì)其進(jìn)行科學(xué)的評(píng)判,從而對(duì)其提出更有利的參考價(jià)值和依據(jù)。
2、3實(shí)現(xiàn)對(duì)企業(yè)人才的合理分配
隨著我國(guó)社會(huì)經(jīng)濟(jì)的不斷發(fā)展,人才的發(fā)展形勢(shì)也變得越來(lái)越“多元化”“個(gè)體化”。為此,筆者認(rèn)為為了進(jìn)一步提高礦建企業(yè)人力資源管理工作的質(zhì)量,應(yīng)采取數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)人才進(jìn)行合理分配,并結(jié)合內(nèi)部員工的實(shí)際特點(diǎn)以及具體類型進(jìn)行客觀性的評(píng)判,這對(duì)企業(yè)的人才資源管理以及未來(lái)發(fā)展無(wú)疑是百利無(wú)一害的。通過(guò)采取數(shù)據(jù)挖掘技術(shù)不僅可以實(shí)現(xiàn)對(duì)員工的共性以及特點(diǎn)進(jìn)行分析,使每一位員工的信息資源、崗位職責(zé)得到有效劃分,同時(shí)也進(jìn)一步實(shí)現(xiàn)對(duì)企業(yè)人才的合理分配。通過(guò)對(duì)數(shù)據(jù)信息的管理技術(shù)構(gòu)建實(shí)現(xiàn)對(duì)人員分組,從而使數(shù)據(jù)挖掘技術(shù)在企業(yè)人力資源管理中得到有效利用,使其發(fā)揮最大的作用與價(jià)值,同時(shí)也進(jìn)一步提高企業(yè)人力資源管理工作的效率和和質(zhì)量,最終推動(dòng)企業(yè)穩(wěn)固、長(zhǎng)久的發(fā)展。
3、結(jié)語(yǔ)
綜上所述,隨著社會(huì)經(jīng)濟(jì)的飛速發(fā)展,建設(shè)領(lǐng)域也得到逐步提高,然而在人力資源管理工作中依然存在著諸多問(wèn)題,這些問(wèn)題的存在也嚴(yán)重阻礙我國(guó)社會(huì)經(jīng)濟(jì)的穩(wěn)固發(fā)展。所以,只有充分采用數(shù)據(jù)挖掘技術(shù)來(lái)開(kāi)展人力資源管理工作,才能提高企業(yè)的人力資源管理水平。
參考文獻(xiàn):
。1]曾巍、數(shù)據(jù)挖掘在人力資源市場(chǎng)中的應(yīng)用與研究[D].吉林大學(xué),20xx
。2]賴華強(qiáng),王三銀,仲崇高、人力資源管理領(lǐng)域的數(shù)據(jù)挖掘應(yīng)用展望———以基于灰色關(guān)聯(lián)模型的離職管理實(shí)證分析為例[J].江蘇商論.20xx(08):42—47
。3]馬秦,張江、數(shù)據(jù)挖掘技術(shù)在企業(yè)人力資源管理中應(yīng)用的研究[J].中國(guó)新通信,20xx.20(15):232
。4]孫明標(biāo)、基于大數(shù)據(jù)挖掘技術(shù)下的企業(yè)人力資源管理研究[J].現(xiàn)代營(yíng)銷(下旬刊).20xx(01):166
數(shù)據(jù)挖掘論文5
計(jì)算機(jī)技術(shù)的不斷發(fā)展,信息技術(shù)不斷加強(qiáng),在社會(huì)新的發(fā)展趨勢(shì)下,以往的傳統(tǒng)管理模式落后于現(xiàn)代化發(fā)展的管理水平。為了創(chuàng)新檔案管理的模式,提高檔案管理的質(zhì)量,在現(xiàn)代檔案信息管理系統(tǒng)中引入數(shù)據(jù)挖掘技術(shù)。
1、信息挖掘技術(shù)
1.1數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘技術(shù)是一種基于統(tǒng)計(jì)學(xué)、人工智能等等技術(shù)基礎(chǔ)上,能夠自動(dòng)分析原有數(shù)據(jù),從而做出歸納整理,并對(duì)其潛在的模式進(jìn)行挖掘的決策支持過(guò)程,簡(jiǎn)單來(lái)說(shuō)就是從一系列復(fù)雜的數(shù)據(jù)中提取人們需要的潛在性信息。
1.2數(shù)據(jù)挖掘技術(shù)的方法
二十世紀(jì)末,計(jì)算機(jī)挖掘技術(shù)產(chǎn)生。其一般用到的方法有:
。1)孤立點(diǎn)分析。孤立點(diǎn)分析法主要用于對(duì)于特殊信息的挖掘。
。2)聚類分析。聚類分析方法是在指定的對(duì)象中,對(duì)其價(jià)值聯(lián)系進(jìn)行搜索。
。3)分類分析。分類分析就是找出具有一定特點(diǎn)的數(shù)據(jù),對(duì)需要解讀的數(shù)據(jù)進(jìn)行識(shí)別。
。4)關(guān)聯(lián)性分析。關(guān)聯(lián)性分析方法是對(duì)指定數(shù)據(jù)中出現(xiàn)頻繁的數(shù)據(jù)進(jìn)行挖掘。
。5)序列分析。與關(guān)聯(lián)性分析法一樣,由數(shù)據(jù)之間內(nèi)在的聯(lián)系得出潛在的關(guān)聯(lián)。
1.3計(jì)算機(jī)挖掘技術(shù)的形式分析
計(jì)算機(jī)挖掘技術(shù)在使用過(guò)程中,收集到的數(shù)據(jù)不同,數(shù)據(jù)收集的方法也就不同。在對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行形式分析的時(shí)候,主要用到:分類形式、粗糙集形式、相關(guān)規(guī)則形式。
2、計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理
系統(tǒng)中的應(yīng)用計(jì)算機(jī)挖掘技術(shù),能夠?qū)㈦[藏的信息挖掘出來(lái)并進(jìn)行總結(jié)和利用,運(yùn)用到檔案管理中來(lái),在充分發(fā)揮挖掘技術(shù)作用的同時(shí),極大的提高了檔案數(shù)據(jù)的利用價(jià)值。數(shù)據(jù)挖掘技術(shù)在檔案管理系統(tǒng)中,一般用到的方法為:
2.1收集法
該方法在對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,建立對(duì)已知數(shù)據(jù)詳細(xì)描述的概念模型。然后將每個(gè)測(cè)試的樣本與此模型進(jìn)行比較,若有一個(gè)模型在測(cè)試中被認(rèn)可,就可以以此模型對(duì)管理的對(duì)象分類。例如,檔案管理員就某事向客戶進(jìn)行問(wèn)卷調(diào)查并將答案輸入到數(shù)據(jù)庫(kù)中。在該數(shù)據(jù)庫(kù)中,對(duì)客戶的回答進(jìn)行具體屬性描述,當(dāng)有新的回答內(nèi)容輸入的時(shí)候,系統(tǒng)會(huì)自動(dòng)對(duì)該客戶需求分類,在減輕管理員工作壓力的同時(shí),提高了檔案管理的效率。
2.2保留法
該方法是防止老客戶檔案丟失并將客戶留住的過(guò)程。對(duì)于任何一個(gè)企業(yè)來(lái)說(shuō),發(fā)展一個(gè)新的客戶的成本要遠(yuǎn)遠(yuǎn)高于留住一個(gè)來(lái)客戶的成本。在客戶保留的`過(guò)程中,對(duì)客戶檔案流失原因的分析至關(guān)重要,因此,采用挖掘技術(shù)對(duì)其進(jìn)行分析是必要的。
2.3分類法
通過(guò)計(jì)算機(jī)挖掘技術(shù)對(duì)檔案進(jìn)行分類,按照不同的性質(zhì)進(jìn)行系統(tǒng)的劃分,將所有相似或相通的檔案進(jìn)行整理,在人們需要的時(shí)候,能夠快速的被提取出來(lái),提高了檢索的效率和分類的專業(yè)性。
3、檔案管理引入計(jì)算機(jī)挖掘技術(shù)的必要性
計(jì)算機(jī)挖掘技術(shù)的應(yīng)用,對(duì)檔案管理方式的不斷完善有著極其重要的意義,其重要性主要體現(xiàn)在:
3.1對(duì)檔案的保護(hù)更全面
一部分具有歷史意義的檔案,隨著保存的時(shí)間不斷增加,其年代感加強(qiáng),意義和價(jià)值增大。相應(yīng)的,利用的頻率會(huì)隨著利用的價(jià)值增加,也更容易被損壞從而導(dǎo)致檔案信息壽命折損,此外,管理不當(dāng)造成泄密,使檔案失去了原本的利用價(jià)值,這種存在于檔案管理和利用之間的矛盾,使得檔案管理面臨著巨大的難題。挖掘技術(shù)的運(yùn)用,緩解了這種矛盾,在檔案管理工作中具有重要的意義。
3.2提升檔案管理的質(zhì)量
在檔案信息管理系統(tǒng)中引入計(jì)算機(jī)挖掘技術(shù),使得檔案信息管理打破了傳統(tǒng)的模式,通過(guò)挖掘技術(shù),對(duì)管理的模式有了極大的創(chuàng)新,工作人員以往繁重的工作壓力得到釋放,時(shí)間和精力更加豐富,在對(duì)檔案管理的細(xì)節(jié)方面也就更加注意,同時(shí)也加快了對(duì)檔案的數(shù)據(jù)信息進(jìn)行處理的速度,提升檔案管理的整體質(zhì)量。
4、結(jié)語(yǔ)
綜上所述,計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)涉及的內(nèi)容很廣,對(duì)挖掘技術(shù)的運(yùn)用,使得各行各業(yè)的發(fā)展水平得到了很大的提高,推動(dòng)社會(huì)經(jīng)濟(jì)的發(fā)展,帶動(dòng)社會(huì)發(fā)展模式的創(chuàng)新。在檔案管理中使用計(jì)算機(jī)挖掘技術(shù),使得檔案信息保存的方法及安全性有了很大的提高。同時(shí),也需要檔案信息管理人員在進(jìn)行檔案信息管理的時(shí)候,能合理利用計(jì)算機(jī)信息挖掘技術(shù),在提高工作效率的同時(shí),促進(jìn)管理模式的不斷創(chuàng)新,以適應(yīng)時(shí)代發(fā)展的要求。
數(shù)據(jù)挖掘論文6
摘 要:數(shù)據(jù)挖掘技術(shù)在各行業(yè)都有廣泛運(yùn)用,是一種新興信息技術(shù)。而在線考試系統(tǒng)中存在著很多的數(shù)據(jù)信息,數(shù)據(jù)挖掘技在在線考試系統(tǒng)有著重要的意義,和良好的應(yīng)用前景,從而在眾多技術(shù)中脫穎而出。本文從對(duì)數(shù)據(jù)挖掘技術(shù)的初步了解,簡(jiǎn)述數(shù)據(jù)挖掘技術(shù)在在線考試系統(tǒng)中成績(jī)分析,以及配合成績(jī)分析,完善教學(xué)。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);在線考試;成績(jī)分析 ;完善教學(xué)
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,計(jì)算機(jī)輔助教育的不斷普及,在線考試是一種利用網(wǎng)絡(luò)技術(shù)的重要輔助教育手段,其改革有著重要的意義。數(shù)據(jù)挖掘技術(shù)作為一種新興的信息技術(shù),其包括了人工智能、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)等學(xué)科的內(nèi)容,是一門(mén)綜合性的技術(shù)。這種技術(shù)的主要特點(diǎn)是對(duì)數(shù)據(jù)庫(kù)中大量的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和分析,從中提取出能夠?qū)處熡凶饔玫年P(guān)鍵性數(shù)據(jù)。將其運(yùn)用于在線考試系統(tǒng)中,能夠很好的處理在線考試中涉及到的數(shù)據(jù),讓在線考試的實(shí)用性和高效性得到進(jìn)一步的增強(qiáng),幫助教師更加快速、完整的統(tǒng)計(jì)考試信息,完善教學(xué)。
1.初步了解數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是從大量數(shù)據(jù)中"挖掘"出對(duì)使用者有用的知識(shí),即從大量的、隨機(jī)的、有噪聲的、模糊的、不完全的實(shí)際應(yīng)用數(shù)據(jù)中,"挖掘"出隱含在其中但人們事先卻不知道的,而又是對(duì)人們潛在有用的信息與知識(shí)的整個(gè)過(guò)程。
目前主要的商業(yè)數(shù)據(jù)挖掘系統(tǒng)有SAS公司的Enterprise Miner,SPSS公司的Clementine,Sybas公司的Warehouse Studio,MinerSGI公司的Mineset,RuleQuest Research公司的See5,IBM公司的Intelligent,還有 CoverStory, Knowledge Discovery,Quest,EXPLORA, DBMiner,Workbench等。
2.數(shù)據(jù)挖掘在在線考試中的主要任務(wù)
2.1數(shù)據(jù)分類
數(shù)據(jù)挖掘技術(shù)通過(guò)對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析,把數(shù)據(jù)按照相似性歸納成若干類別,然后做出分類,并能夠?yàn)槊恳粋(gè)類別都做出一個(gè)準(zhǔn)確的描述,挖掘出分類的規(guī)則或建立一個(gè)分類模型。
2.2數(shù)據(jù)關(guān)聯(lián)分析
數(shù)據(jù)庫(kù)中的數(shù)據(jù)關(guān)聯(lián)是一項(xiàng)非常重要,并可以發(fā)現(xiàn)的知識(shí)。數(shù)據(jù)關(guān)聯(lián)就是兩組或兩組以上的數(shù)據(jù)之間有著某種規(guī)律性的聯(lián)系。數(shù)據(jù)關(guān)聯(lián)分析的作用就是找出數(shù)據(jù)庫(kù)中隱藏的聯(lián)系,從中得到一些對(duì)學(xué)校教學(xué)工作管理者有用的信息。就像是在購(gòu)物中,就可以通過(guò)顧客的購(gòu)買(mǎi)物品的聯(lián)系,從中得到顧客的購(gòu)買(mǎi)習(xí)慣。
2.3預(yù)測(cè)
預(yù)測(cè)是根據(jù)已經(jīng)得到的數(shù)據(jù),從而對(duì)未來(lái)的情況做出一個(gè)可能性的分析。數(shù)據(jù)挖掘技術(shù)能自動(dòng)在大型的數(shù)據(jù)庫(kù)中做出一個(gè)較為準(zhǔn)確的分析。就像是在市場(chǎng)投資中,可以通過(guò)各種商品促銷的數(shù)據(jù)來(lái)做出一個(gè)未來(lái)商品的促銷走勢(shì)。從而在投資中得到最大的`回報(bào)。
3.數(shù)據(jù)挖掘的方法
數(shù)據(jù)挖掘技術(shù)融合了多個(gè)學(xué)科、多個(gè)領(lǐng)域的知識(shí)與技術(shù),因此數(shù)據(jù)挖掘的方法也呈現(xiàn)出很多種類的形式。就目前的統(tǒng)計(jì)分析類的數(shù)據(jù)挖掘技術(shù)的角度來(lái)講,光統(tǒng)計(jì)分析技術(shù)中所用到的數(shù)據(jù)挖掘模型就回歸分析、邏輯回歸分析、有線性分析、非線性分析、單變量分析、多變量分析、最近鄰算法、最近序列分析、聚類分析和時(shí)間序列分析等多種方法。數(shù)據(jù)挖掘技術(shù)利用這些方法對(duì)那些異常形式的數(shù)據(jù)進(jìn)行檢查,然后通過(guò)各種數(shù)據(jù)模型和統(tǒng)計(jì)模型對(duì)這些數(shù)據(jù)來(lái)進(jìn)行解釋,并從這些數(shù)據(jù)中找出隱藏在其中的商業(yè)機(jī)會(huì)和市場(chǎng)規(guī)律。另外還有知識(shí)發(fā)現(xiàn)類數(shù)據(jù)挖掘技術(shù),這種和統(tǒng)計(jì)分析類的數(shù)據(jù)挖掘技術(shù)完全不同,其中包括了支持向量機(jī)、人工神經(jīng)元網(wǎng)絡(luò)、遺傳算法、決策樹(shù)、粗糙集、關(guān)聯(lián)順序和規(guī)則發(fā)現(xiàn)等多種方法。
4.數(shù)據(jù)挖掘在考試成績(jī)分析中的幾點(diǎn)應(yīng)用
4.1運(yùn)用關(guān)聯(lián)規(guī)則分析教師的年齡對(duì)學(xué)生考試成績(jī)的影響
數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析在教學(xué)分析中,是一種使用頻繁,行之有效的方法,它能挖掘出大量數(shù)據(jù)中項(xiàng)集之間之間有意義的關(guān)聯(lián)聯(lián)系,幫助知道教師的教學(xué)過(guò)程。例如在如今的一些高職院校中,就往往會(huì)把學(xué)生的英語(yǔ)四六級(jí)過(guò)級(jí)率,計(jì)算機(jī)等級(jí)等,以這些為依據(jù)來(lái)評(píng)價(jià)教師的教學(xué)效果。將數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則運(yùn)用于考試的成績(jī)分析當(dāng)中,就能夠挖掘出一些對(duì)學(xué)生過(guò)級(jí)率產(chǎn)生影響的因素,對(duì)教師的教學(xué)過(guò)程進(jìn)行重要的指導(dǎo),讓教師的教學(xué)效率更高,作用更強(qiáng)。
還可以通過(guò)關(guān)聯(lián)規(guī)則算法,先設(shè)定一個(gè)最小可信度和支持度,得到初步的關(guān)聯(lián)規(guī)則,根據(jù)相關(guān)規(guī)則,分析出教師的組成結(jié)構(gòu)和過(guò)級(jí)率的影響,從來(lái)進(jìn)行教師隊(duì)伍的結(jié)構(gòu)調(diào)整,讓教師隊(duì)伍更加合理。
4.2采用分類算法探討對(duì)考試成績(jī)有影響的因素
數(shù)據(jù)挖掘技術(shù)中的分類算法就是對(duì)一組對(duì)象或一個(gè)事件進(jìn)行歸類,然后通過(guò)這些數(shù)據(jù),可以進(jìn)行分類模型的建立和未來(lái)的預(yù)測(cè)。分類算法可以進(jìn)行考試中得到的數(shù)據(jù)進(jìn)行分類,然后通過(guò)學(xué)生的一些基本情況進(jìn)行探討一些對(duì)考試成績(jī)有影響的因素。分類算法可以用一下步驟實(shí)施:
4.2.1數(shù)據(jù)采集
這種方法首先要進(jìn)行數(shù)據(jù)采集,需要這幾方面的數(shù)據(jù),學(xué)生基本信息(姓名、性別、學(xué)號(hào)、籍貫、所屬院系、專業(yè)、班級(jí)等)、學(xué)生調(diào)查信息(比如學(xué)習(xí)前的知識(shí)掌握情況、學(xué)習(xí)興趣、課堂學(xué)習(xí)效果、課后復(fù)習(xí)時(shí)間量等)、成績(jī)(學(xué)生平常學(xué)習(xí)成績(jī),平?荚嚦煽(jī),各種大型考試成績(jī)等)、學(xué)生多次考試中出現(xiàn)的易錯(cuò)點(diǎn)(本次考試中出現(xiàn)的易錯(cuò)點(diǎn),以往考試中出現(xiàn)的易錯(cuò)點(diǎn))
4.2.2數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)集成。把數(shù)據(jù)采集過(guò)程中得到的多種信息,利用數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)庫(kù)技術(shù)生產(chǎn)相應(yīng)的學(xué)生考試成績(jī)分析基本數(shù)據(jù)庫(kù)。(2)數(shù)據(jù)清理。在學(xué)生成績(jī)分析數(shù)據(jù)庫(kù)中,肯定會(huì)出現(xiàn)一些情況缺失,對(duì)于這些空缺處,就需要使用數(shù)據(jù)清理技術(shù)來(lái)進(jìn)行這些數(shù)據(jù)庫(kù)中數(shù)據(jù)的填補(bǔ)遺漏。例如,可以采用忽略元組的方法來(lái)刪除那些沒(méi)有參加考試的學(xué)生考試數(shù)據(jù)已經(jīng)在學(xué)生填寫(xiě)的調(diào)查數(shù)據(jù)中村中的空缺項(xiàng)。(3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換主要功能是進(jìn)行進(jìn)行數(shù)據(jù)的離散化操作。在這個(gè)過(guò)程中可以根據(jù)實(shí)際需要進(jìn)行分類,比如把考試成績(jī)從0~59的分到較差的一類,將60到80分為中等類,81到100分為優(yōu)秀等。(4)數(shù)據(jù)消減。數(shù)據(jù)消減的功能就是把所需挖掘的數(shù)據(jù)庫(kù),在消減的過(guò)程又不能影響到最終的數(shù)據(jù)挖掘結(jié)果。比如在分析學(xué)生的基本學(xué)習(xí)情況的影響因素情況中,學(xué)生信息表中中出現(xiàn)的字段很多,可以選擇性的刪除班別、籍貫等引述,形成一份新的學(xué)生基本成績(jī)分析數(shù)據(jù)表。
4.2.3利用數(shù)據(jù)挖掘技術(shù),得出結(jié)論
通過(guò)數(shù)據(jù)挖掘技術(shù)在在線考試中的應(yīng)用,得出這些學(xué)生數(shù)據(jù)的相關(guān)分析,比如說(shuō)學(xué)生考試中的易錯(cuò)點(diǎn)在什么地方,學(xué)生考試成績(jī)的自身原因,學(xué)生考試成績(jī)的環(huán)境原因,教師隊(duì)伍的搭配情況等等,從中得出如何調(diào)整學(xué)校教學(xué)資源,教師的教學(xué)方案調(diào)整等等,從而完善學(xué)校對(duì)學(xué)生的教學(xué)。
5.結(jié)語(yǔ)
數(shù)據(jù)挖掘技術(shù)在社會(huì)各行各業(yè)中都有一定程度的使用,基于其在數(shù)據(jù)組織、分析能力、知識(shí)發(fā)現(xiàn)和信息深層次挖掘的能力,在使用中取得了顯著的成效,但數(shù)據(jù)挖掘技術(shù)中還存在著一些問(wèn)題,例如數(shù)據(jù)的挖掘算法、預(yù)處理、可視化問(wèn)題、模式識(shí)別和解釋等等。對(duì)于這些問(wèn)題,學(xué)校教學(xué)管理工作者要清醒的認(rèn)識(shí),在在線考試系統(tǒng)中對(duì)數(shù)據(jù)挖掘信息做出合理的使用,讓數(shù)字挖掘技術(shù)在在線考試系統(tǒng)中能夠更加有效的發(fā)揮其長(zhǎng)處,避免其在在線考試系統(tǒng)中的的缺陷。
參考文獻(xiàn):
[1]胡玉榮.基于粗糙集理論的數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績(jī)分析中的作用[J].荊門(mén)職業(yè)技術(shù)學(xué)院學(xué)報(bào),20xx,12(22):12.
[2][加]韓家煒,堪博(Kam ber M.) .數(shù)據(jù)挖掘:概念與技術(shù)(第2版)[M]范明,譯.北京:機(jī)械工業(yè)出版社,20xx.
[3]王潔.《在線考試系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)》[J].山西師范大學(xué)學(xué)報(bào),20xx(2).
[4] 王長(zhǎng)娥.數(shù)據(jù)挖掘技術(shù)在教育中的應(yīng)用[J].計(jì)算機(jī)與信息技術(shù),20xx(11)
數(shù)據(jù)挖掘論文7
1.軟件工程數(shù)據(jù)的挖掘測(cè)試技術(shù)
1.1代碼編寫(xiě)
通過(guò)對(duì)軟件數(shù)據(jù)進(jìn)行分類整理,在進(jìn)行缺陷軟件的排除工作以后,根據(jù)軟件開(kāi)發(fā)過(guò)程中的各種信息進(jìn)行全新的代碼編寫(xiě);诖a編寫(xiě)人員的編寫(xiě)經(jīng)驗(yàn),在一般情況,對(duì)結(jié)構(gòu)功能與任務(wù)類似的模塊進(jìn)行重新編寫(xiě),這些重新編寫(xiě)的模塊應(yīng)遵循特定的編寫(xiě)規(guī)則,這樣才能保證代碼編寫(xiě)的合理有效性。
1.2錯(cuò)誤重現(xiàn)
代碼編寫(xiě)完成以后開(kāi)發(fā)者會(huì)將這些代碼進(jìn)行版本的確認(rèn),然后將正確有效的代碼實(shí)際應(yīng)用到適當(dāng)版本的軟件中去。而對(duì)于存在缺陷的代碼,開(kāi)發(fā)者需要針對(duì)代碼產(chǎn)生缺陷的原因進(jìn)行分析,通過(guò)不但調(diào)整代碼內(nèi)的輸入數(shù)據(jù),直到代碼內(nèi)的數(shù)據(jù)與程序報(bào)告中的描述接近為止。存在缺陷的代碼往往會(huì)以缺陷報(bào)告的形式對(duì)開(kāi)發(fā)者予以說(shuō)明,由于缺陷報(bào)告的模糊性,常常會(huì)誤導(dǎo)開(kāi)發(fā)者,進(jìn)而造成程序設(shè)計(jì)混亂。
1.3理解行為
軟件開(kāi)發(fā)者在設(shè)計(jì)軟件的過(guò)程中需要明確自己設(shè)計(jì)軟件中每一個(gè)代碼的內(nèi)容,同時(shí)還需要理解其他開(kāi)發(fā)者編寫(xiě)的代碼,這樣才能有效地完善軟件開(kāi)發(fā)者的編寫(xiě)技術(shù)。同時(shí),軟件開(kāi)發(fā)者在進(jìn)行代碼編寫(xiě)的過(guò)程中,需要對(duì)程序行為進(jìn)行準(zhǔn)確的理解,以此保證軟件內(nèi)文檔和注釋的準(zhǔn)確性。
1.4設(shè)計(jì)推究
開(kāi)發(fā)者在準(zhǔn)備對(duì)軟件進(jìn)行完善設(shè)計(jì)的過(guò)程中,首先需要徹底了解軟件的總體設(shè)計(jì),對(duì)軟件內(nèi)部復(fù)雜的系統(tǒng)機(jī)構(gòu)進(jìn)行詳細(xì)研究與分析,充分把握軟件細(xì)節(jié),這有這樣才能真正實(shí)現(xiàn)軟件設(shè)計(jì)的合理性與準(zhǔn)確性。
2.軟件工程數(shù)據(jù)挖掘測(cè)試的有效措施
2.1進(jìn)行軟件工程理念和方法上的創(chuàng)新
應(yīng)通過(guò)實(shí)施需求分析,將數(shù)據(jù)挖據(jù)逐漸演變成形式化、規(guī)范化的需求工程,在軟件開(kāi)發(fā)理念上,加強(qiáng)對(duì)數(shù)據(jù)挖掘的重視,對(duì)軟件工程的架構(gòu)進(jìn)行演化性設(shè)計(jì)與創(chuàng)新,利用新技術(shù),在軟件開(kāi)發(fā)的過(guò)程中添加敏捷變成與間件技術(shù),由此,提高軟件編寫(xiě)水平。
2.2利用人工智能
隨著我國(guó)科學(xué)技術(shù)的不斷發(fā)展與創(chuàng)新,機(jī)器學(xué)習(xí)已經(jīng)逐漸被我國(guó)各個(gè)領(lǐng)域所廣泛應(yīng)用,在進(jìn)行軟件工程數(shù)據(jù)挖掘技術(shù)創(chuàng)新的.過(guò)程中,可以將機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘技術(shù)實(shí)際應(yīng)用于軟件工程中,以此為我國(guó)軟件研發(fā)提供更多的便捷。人工智能作為我國(guó)先進(jìn)生產(chǎn)力的重要表現(xiàn),在實(shí)際應(yīng)用于軟件工程數(shù)據(jù)的挖掘工作時(shí),應(yīng)該利用機(jī)器較強(qiáng)的學(xué)習(xí)能力與運(yùn)算能力,將數(shù)據(jù)統(tǒng)計(jì)及數(shù)據(jù)運(yùn)算通過(guò)一些較為成熟的方法進(jìn)行解決。在軟件工程數(shù)據(jù)挖掘的工作中,合理化的將人工智能實(shí)際應(yīng)用于數(shù)據(jù)挖掘,以此為數(shù)據(jù)挖掘提供更多的開(kāi)發(fā)測(cè)試技術(shù)。
2.3針對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行評(píng)價(jià)
通過(guò)分析我國(guó)傳統(tǒng)的軟件工程數(shù)據(jù)挖掘測(cè)試工作,在很多情況下,傳統(tǒng)的數(shù)據(jù)挖掘測(cè)試技術(shù)無(wú)法做到對(duì)發(fā)掘數(shù)據(jù)的全面評(píng)價(jià)與實(shí)際應(yīng)用研究,這一問(wèn)題致使相應(yīng)的軟件數(shù)據(jù)在被發(fā)掘出來(lái)以后無(wú)法得到有效地利用,進(jìn)而導(dǎo)致我國(guó)軟件開(kāi)發(fā)工作受到嚴(yán)重的抑制影響。針對(duì)這一問(wèn)題,數(shù)據(jù)開(kāi)發(fā)者應(yīng)該利用挖掘缺陷檢驗(yàn)報(bào)告,針對(duì)缺陷檢驗(yàn)的結(jié)果,制定相應(yīng)的挖掘結(jié)構(gòu)報(bào)告。同時(shí),需要結(jié)合軟件用戶的體驗(yàn)評(píng)價(jià),對(duì)挖掘出的數(shù)據(jù)進(jìn)行系統(tǒng)化的整理與分析,建立一整套嚴(yán)謹(jǐn)、客觀的服務(wù)體系,運(yùn)用CodeCity軟件,讓用戶在的體驗(yàn)過(guò)后可以對(duì)軟件進(jìn)行評(píng)價(jià)?紤]到軟件的服務(wù)對(duì)象是人,因此,在軟件開(kāi)發(fā)的過(guò)程中要將心理學(xué)與管理學(xué)應(yīng)用于數(shù)據(jù)挖掘,建立數(shù)據(jù)挖掘系統(tǒng)和數(shù)據(jù)挖掘評(píng)價(jià)系統(tǒng)。
3.結(jié)束語(yǔ)
綜上所述,由于軟件工程數(shù)據(jù)挖掘測(cè)試技術(shù)廣闊的應(yīng)用前景,我國(guó)相關(guān)部門(mén)已經(jīng)加大了對(duì)軟件技術(shù)的投資與開(kāi)發(fā)力度,當(dāng)下,國(guó)內(nèi)已經(jīng)實(shí)現(xiàn)了軟件工程的數(shù)據(jù)挖掘、人工智能、模式識(shí)別等多種領(lǐng)域上的發(fā)展。
數(shù)據(jù)挖掘論文8
摘要:隨著計(jì)算機(jī)信息網(wǎng)絡(luò)的快速發(fā)展,數(shù)據(jù)挖掘在軟件工程中的地位越來(lái)越突出。軟件工程數(shù)據(jù)挖掘是在冗余的數(shù)據(jù)中發(fā)現(xiàn)有用的數(shù)據(jù),從而得到更好地利用。社會(huì)的發(fā)展,科技的進(jìn)步使得社會(huì)進(jìn)入了網(wǎng)絡(luò)信息熱時(shí)代,隨之計(jì)算機(jī)軟件也不斷增加,人們獲取的信息大部分是人手動(dòng)操作軟件獲得的,這樣的信息量具有一定的局限性。因此,為了滿足當(dāng)今社會(huì)的需要,必須借助于軟件工程數(shù)據(jù)挖掘的手段。
關(guān)鍵詞:軟件工程;數(shù)據(jù)挖掘;研究現(xiàn)狀
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(20xx)26-0020-02
利用數(shù)據(jù)挖掘技術(shù)對(duì)大量冗余的數(shù)據(jù)進(jìn)行篩選從而得到少量精確的信息。冗余的數(shù)據(jù)是指既包含有用信息有包含無(wú)用信息,利用數(shù)據(jù)挖掘技術(shù)剔除掉多余的無(wú)用信息留下有用信息,這樣既可以提高手機(jī)數(shù)據(jù)的質(zhì)量又可以提高工作效率。所以,數(shù)據(jù)挖掘技術(shù)在當(dāng)前的軟件工程中起著越來(lái)越重要的作用。數(shù)據(jù)挖掘技術(shù)提取、篩選、分析和整理數(shù)據(jù)比人工操作軟件獲得的數(shù)據(jù)更精確更高效。同時(shí),使用這種技術(shù)為軟件開(kāi)發(fā)者提供了有利的條件,它可以給軟件開(kāi)發(fā)者提供一些對(duì)其開(kāi)發(fā)軟件有用的信息。軟件開(kāi)發(fā)者想要更有效率的開(kāi)發(fā)出更高質(zhì)量的軟件,就必須獲得更多的更有用的數(shù)據(jù),而想要收集和整理出有用數(shù)據(jù)就需要借助數(shù)據(jù)挖掘技術(shù)來(lái)實(shí)現(xiàn),進(jìn)而提高工作效率。
1 數(shù)據(jù)挖掘的基本概述
軟件工程數(shù)據(jù)主要是指開(kāi)發(fā)軟件過(guò)程中所涉及的各類數(shù)據(jù),如需求分析、可行性分析、設(shè)計(jì)等文檔,開(kāi)發(fā)商通信、軟件注釋、代碼、版本、測(cè)試用例和結(jié)果、使用說(shuō)明、用戶反饋等信息數(shù)據(jù),一般情況下其是軟件開(kāi)發(fā)者獲取軟件數(shù)據(jù)的唯一來(lái)源;而數(shù)據(jù)挖掘是指在海量數(shù)據(jù)中集中發(fā)現(xiàn)有用知識(shí)或信息的過(guò)程。
軟件工程數(shù)據(jù)挖掘的工作原理 主要包括數(shù)據(jù)預(yù)處理階段、挖掘階段以及評(píng)估階段三個(gè)方面。在挖掘階段主要是運(yùn)用分類、統(tǒng)計(jì)、關(guān)聯(lián)、聚類、異常檢測(cè)等一系列算法的過(guò)程。在評(píng)估階段數(shù)據(jù)挖掘的意義主要在于其結(jié)果應(yīng)易被用戶理解,其結(jié)果評(píng)估主要有兩個(gè)環(huán)節(jié)分別是模式過(guò)濾和模式表示。
數(shù)據(jù)挖掘在計(jì)算機(jī)軟件工程中的研究相當(dāng)多,它是分析數(shù)據(jù)的一種新穎方式。目前,隨著社會(huì)工作的復(fù)雜度,需要更加完善的軟件,因此對(duì)于軟件代碼的數(shù)量也在急劇增加進(jìn)而導(dǎo)致了數(shù)據(jù)量的快速增長(zhǎng)。而傳統(tǒng)的數(shù)據(jù)計(jì)算方式已經(jīng)不能滿足目前對(duì)于大量數(shù)據(jù)進(jìn)行分析的要求,所以,研究者希望能夠發(fā)掘出一種新的數(shù)據(jù)分析方式更高效的整理出有用的數(shù)據(jù)信息。軟件開(kāi)發(fā)中會(huì)積累大量的數(shù)據(jù),比如說(shuō)文本數(shù)據(jù),測(cè)試數(shù)據(jù),用戶信息數(shù)據(jù)以及用戶體驗(yàn)反饋數(shù)據(jù)等等,軟件開(kāi)發(fā)者為了開(kāi)發(fā)出更好的軟件就必須分析和整理這些數(shù)據(jù)。但是,目前軟件工程開(kāi)發(fā)的軟件越來(lái)越大,其數(shù)據(jù)越累越復(fù)雜對(duì)于數(shù)據(jù)的處理已經(jīng)超出了人工處理的能力的范疇,所以說(shuō)繼續(xù)使用傳統(tǒng)數(shù)據(jù)處理的方式來(lái)收集,整理和分析數(shù)據(jù)已經(jīng)不可能實(shí)現(xiàn)。因此,推動(dòng)了人們對(duì)于新的數(shù)據(jù)處理方式的研究,所以才提出了軟件工程數(shù)據(jù)挖掘技術(shù)。
2 軟件工程數(shù)據(jù)挖掘的應(yīng)用
隨著計(jì)算機(jī)軟件工程的發(fā)展,可以發(fā)現(xiàn)傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)具有很多的不足,存在一定的缺陷。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)的定位系統(tǒng)不完善,定位不精確,并沒(méi)有體現(xiàn)出數(shù)據(jù)挖掘技術(shù)的高性能,它不足以滿足當(dāng)代對(duì)于數(shù)據(jù)處理的要求,因此需要對(duì)傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)進(jìn)行改進(jìn)和完善,這是我們目前的首要任務(wù)之一。為了迎合現(xiàn)代化網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,需要發(fā)掘出新的數(shù)據(jù)處理模式,就是在這樣的背景條件下,誕生了軟件工程數(shù)據(jù)挖掘技術(shù)。相比于存在很多缺陷與不足的傳統(tǒng)軟件工程而言,軟件工程數(shù)據(jù)挖掘技術(shù)更加簡(jiǎn)單、方便、高效以及精確。軟件工程數(shù)據(jù)挖掘技術(shù)并不需要特定的技術(shù)平臺(tái),體現(xiàn)了其普適性。當(dāng)前,我國(guó)已經(jīng)開(kāi)始深入的研究軟件工程數(shù)據(jù)挖掘技術(shù),但是,仍然需要更深的開(kāi)發(fā)其性能以便更好地滿足社會(huì)的需求。
3 軟件工程數(shù)據(jù)挖掘面臨的挑戰(zhàn)
軟件工程數(shù)據(jù)相比于普通數(shù)據(jù)更加復(fù)雜,所以對(duì)于軟件工程數(shù)據(jù)進(jìn)行處理具有很大的挑戰(zhàn)性。處理軟件工程的大量數(shù)據(jù)具有:軟件工程數(shù)據(jù)復(fù)雜性,軟件工程的數(shù)據(jù)處理非傳統(tǒng)以及需要嚴(yán)格精確的軟件工程數(shù)據(jù)的分析結(jié)果等三方面的困難。
3.1 對(duì)數(shù)據(jù)復(fù)雜性的分析
軟件工程數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。軟件工程中所產(chǎn)生的缺陷報(bào)告以及各種版本信息構(gòu)成了結(jié)構(gòu)化數(shù)據(jù)信息;而軟件工程處理過(guò)程中所產(chǎn)生的代碼信息和文本文檔信息構(gòu)成了非結(jié)構(gòu)化數(shù)據(jù)信息。由于這兩類數(shù)據(jù)包含的具體內(nèi)容不同,所以需要分別處理這兩種數(shù)據(jù),需要使用不同的算法對(duì)他們進(jìn)行處理。雖然說(shuō)需要不同方式處理這兩種數(shù)據(jù)但是并不表示這兩種數(shù)據(jù)之間沒(méi)有任何聯(lián)系,事實(shí)上,它們之間存在著重要的對(duì)應(yīng)關(guān)系。例如:代碼中存在著缺陷報(bào)告,版本信息中存在著對(duì)應(yīng)的文檔信息,由于它們之間存在著這樣的對(duì)應(yīng)關(guān)系,所以使得人們不能很好地對(duì)其進(jìn)行整體分析,這就促使了人們開(kāi)發(fā)出一種新的算法,新的數(shù)據(jù)分析技術(shù)能夠同時(shí)將結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息這兩種對(duì)應(yīng)數(shù)據(jù)一起挖掘出來(lái)。
3.2 對(duì)數(shù)據(jù)處理非傳統(tǒng)的分析
分析和評(píng)估軟件工程數(shù)據(jù)挖掘出來(lái)的信息,這是數(shù)據(jù)挖掘過(guò)程的最后一步。客戶是軟件工程數(shù)據(jù)挖掘數(shù)據(jù)處理的最后宿體,軟件開(kāi)發(fā)者需要對(duì)最終挖掘出來(lái)的數(shù)據(jù)進(jìn)行轉(zhuǎn)變,格式轉(zhuǎn)變是為了滿足廣大客戶對(duì)于數(shù)據(jù)不同的要求。但是,由于需要對(duì)數(shù)據(jù)進(jìn)行格式轉(zhuǎn)變,相當(dāng)于增加了一定的工作量,那么軟件工程數(shù)據(jù)挖掘的效率則會(huì)被大大降低。對(duì)于客戶而言,他們需要的信息各種各樣并不單一,比如說(shuō)客戶可能會(huì)同時(shí)需要具體的例子和編程代碼等;或者說(shuō)需要具體例子和缺陷報(bào)告等;或者三者皆需要。由此可見(jiàn),我們?nèi)匀恍枰倪M(jìn)和完善軟件工程數(shù)據(jù)挖掘技術(shù)來(lái)提高其效率。怎樣才能做到讓客戶得到滿意的數(shù)據(jù)挖掘結(jié)果呢?那么就需要高效的數(shù)據(jù)挖掘技術(shù)將各類信息進(jìn)行歸納總結(jié),改變其格式。這樣的技術(shù),不僅僅可以滿足客戶需求而且還可以使軟件開(kāi)發(fā)者從中得到更大的利益。
3.3 對(duì)數(shù)據(jù)挖掘結(jié)果好壞的評(píng)價(jià)標(biāo)準(zhǔn)
對(duì)于傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)而言,它也有一套自己的對(duì)于數(shù)據(jù)結(jié)果處理好壞的分析標(biāo)準(zhǔn),而這個(gè)標(biāo)準(zhǔn)對(duì)于傳統(tǒng)數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)處理的分析較準(zhǔn)確。但是,在當(dāng)前的軟件工程所要處理的數(shù)據(jù)量很大,傳統(tǒng)的評(píng)價(jià)標(biāo)準(zhǔn)已經(jīng)不能滿足現(xiàn)在的數(shù)據(jù)分析要求;使用不同的數(shù)據(jù)結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)來(lái)評(píng)判不同的數(shù)據(jù)挖掘結(jié)果。然而不同的評(píng)價(jià)標(biāo)準(zhǔn)之間的聯(lián)系并不緊密,因此就需要開(kāi)發(fā)者針對(duì)不同的數(shù)據(jù)類型做出不同的評(píng)價(jià)分析標(biāo)準(zhǔn)以便滿足客戶需求。想要對(duì)數(shù)據(jù)分析結(jié)果是否準(zhǔn)確,數(shù)據(jù)挖掘的信息是否合理等等這些不同的問(wèn)題進(jìn)行更加深刻的.了解,就要求開(kāi)發(fā)者有獨(dú)特的見(jiàn)解,對(duì)于數(shù)據(jù)結(jié)果是否精確有一定的判斷能力?傊,獲取準(zhǔn)確的信息就是軟件工程數(shù)據(jù)挖掘的目的。所以,最后獲得的數(shù)據(jù)是否滿足要求就是評(píng)判軟件工程數(shù)據(jù)挖掘結(jié)果是否完美的標(biāo)準(zhǔn)。endprint
4 對(duì)軟件工程數(shù)據(jù)挖掘應(yīng)用進(jìn)行分析
4.1 對(duì)軟件數(shù)據(jù)挖掘技術(shù)進(jìn)行分析
在軟件開(kāi)發(fā)的過(guò)程中,數(shù)據(jù)挖掘技術(shù)包括兩個(gè)方面:(1)程序編寫(xiě);(2)程序成果。在這個(gè)過(guò)程中,程序結(jié)構(gòu)和程序功能技術(shù)的主要作用就是檢索出有效的信息。提升信息的有效性需要聯(lián)系到客戶的實(shí)際需要,同時(shí)也需要對(duì)程序編寫(xiě)過(guò)程進(jìn)行智能化培訓(xùn)。將調(diào)用、重載和多重繼承等關(guān)系家合起來(lái)進(jìn)行有效的記錄各種相關(guān)信息,重視靜態(tài)規(guī)則的同時(shí)利用遞歸測(cè)試的方式來(lái)分配工作,從而更有效的掌握關(guān)聯(lián)度之間的可信性。
4.2 做好軟件維護(hù)中的軟件工程數(shù)據(jù)挖掘工作
在軟件維護(hù)的過(guò)程中,軟件修復(fù)和軟件改善工作依賴于數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)在軟件缺陷以及軟件結(jié)構(gòu)等也起到了重要的作用。軟件修復(fù)即維護(hù)者通過(guò)依據(jù)缺陷分派進(jìn)行有效的評(píng)估并改善缺陷程序進(jìn)而確定修復(fù)級(jí)別或者維護(hù)者可以選擇缺陷修復(fù)方式,無(wú)論哪種方式最終目的都是進(jìn)行軟件修復(fù)來(lái)保證數(shù)據(jù)挖掘的高效性。缺陷分派即將缺陷轉(zhuǎn)化為文本類型,采取有效措施來(lái)進(jìn)行修復(fù)。但是,這樣的方式它的實(shí)際準(zhǔn)確率并不高,因而需要利用強(qiáng)化檢測(cè)來(lái)完善缺陷報(bào)告技術(shù)。
4.3 注重高性能數(shù)據(jù)挖掘技術(shù)開(kāi)發(fā)工作
數(shù)據(jù)挖掘技術(shù)體現(xiàn)在軟件開(kāi)發(fā)工作中的創(chuàng)新性不可或缺,在實(shí)際的工作過(guò)程中,目前的軟件工程數(shù)據(jù)挖掘更加重視兩個(gè)工作:(1)規(guī)則分析方式;(2)項(xiàng)目檢索工作?偠灾,想要高效快速地尋找病毒,并對(duì)其進(jìn)行全方位分析和評(píng)估得到準(zhǔn)確的病毒數(shù)據(jù)需要高性能數(shù)據(jù)挖掘技術(shù)。只有提升數(shù)據(jù)分析的可行性,提升軟件開(kāi)發(fā)安全性能,才能更好地實(shí)現(xiàn)軟件工程的良好發(fā)展。
5 總結(jié)
綜上所述,數(shù)據(jù)挖掘技術(shù)的應(yīng)用非常廣泛,比如說(shuō)分析代碼、軟件故障檢測(cè)以及軟件項(xiàng)目管理等三個(gè)方面應(yīng)用較多。值得關(guān)注的是,當(dāng)前對(duì)于數(shù)據(jù)挖掘技術(shù)的研究還不夠成熟。因此,研究者需要對(duì)軟件工程數(shù)據(jù)挖掘技術(shù)進(jìn)行深入的研究,從而能夠促進(jìn)軟件更好地開(kāi)發(fā)和管理。相信在不久的將來(lái),我們一定可以在數(shù)據(jù)挖掘方面取得非常好的優(yōu)化效果。
參考文獻(xiàn):
[1] 江義晟.軟件工程數(shù)據(jù)挖掘研究進(jìn)展[J].電子技術(shù)與軟件工程,20xx(22).
[2] 胡金萍.探析軟件工程數(shù)據(jù)挖掘研究進(jìn)展[J].電腦知識(shí)與技術(shù),20xx(34).
[3] 馬保平.關(guān)于對(duì)軟件工程中的數(shù)據(jù)挖掘技術(shù)的探討[J].電子技術(shù)與軟件工程,20xx(19).
[4] 徐琳,王寧.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用分析[J].數(shù)字通信世界,20xx(8).
數(shù)據(jù)挖掘論文9
摘要:中醫(yī)臨床理論多是由著名醫(yī)家的經(jīng)驗(yàn)升華形成的,反映了臨床上不同學(xué)術(shù)派系以及不同學(xué)科的優(yōu)勢(shì)特征,但這其中不免摻雜了個(gè)人主觀經(jīng)驗(yàn),因此本文就中醫(yī)臨床理論研究中醫(yī)病案為基礎(chǔ),對(duì)應(yīng)用病案數(shù)據(jù)挖掘結(jié)果來(lái)總結(jié)和重建中醫(yī)臨床理論的方式進(jìn)行了探討,認(rèn)為該方法可為完善中醫(yī)臨床理論提供客觀的數(shù)據(jù)支持,使中醫(yī)臨床理論的來(lái)源更具有科學(xué)性。
關(guān)鍵詞:病案;數(shù)據(jù)挖掘;中醫(yī)臨床理論;轉(zhuǎn)化醫(yī)學(xué);臨床
科研一體化中醫(yī)臨床理論決定著中醫(yī)臨床學(xué)科的發(fā)展水平,是中醫(yī)臨床發(fā)展的動(dòng)力。從古至今,中醫(yī)名醫(yī)名家輩出,他們的臨床經(jīng)驗(yàn)和學(xué)術(shù)思想不斷提煉升華,逐步形成了傳統(tǒng)的中醫(yī)臨床理論。新中國(guó)成立以來(lái),中醫(yī)不斷汲取最新的科技成果,進(jìn)行了大量臨床實(shí)踐,而中醫(yī)臨床理論發(fā)展緩慢,己經(jīng)成為制約當(dāng)代中醫(yī)學(xué)術(shù)發(fā)展的瓶頸,對(duì)如何開(kāi)拓中醫(yī)臨床理論的研究,可謂見(jiàn)仁見(jiàn)智,但各種新的臨床理論常常裹挾著“各家學(xué)說(shuō)”。在當(dāng)今大數(shù)據(jù)和信息技術(shù)發(fā)達(dá)的背景下,運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)中醫(yī)病案進(jìn)行大數(shù)據(jù)分析,客觀揭示當(dāng)前中醫(yī)臨床理論的本來(lái)面目,盡可能減少個(gè)人見(jiàn)解的偏倚,對(duì)于推動(dòng)中醫(yī)臨床理論發(fā)展具有重要的現(xiàn)實(shí)意義,本文就基于病案數(shù)據(jù)挖掘的中醫(yī)臨床理論重建進(jìn)行探討如下。
1傳統(tǒng)中醫(yī)臨床理論的構(gòu)建框架
1.1中醫(yī)古典文獻(xiàn)是傳統(tǒng)中醫(yī)臨床理論的基礎(chǔ)
眾所周知,中醫(yī)之所以能夠屹立千年不倒,很大一部分原因是因?yàn)槠溆歇?dú)特的理論體系,而在這其中,中醫(yī)古典文獻(xiàn)做出的貢獻(xiàn)應(yīng)該是第一位的。因?yàn)檫@些古典文獻(xiàn)的記載和流傳,為后世的醫(yī)家提供了參考和借鑒,使得我們從前人的思維上不斷創(chuàng)新,與臨床進(jìn)行有機(jī)結(jié)合,不斷研究出新的適合于當(dāng)前時(shí)代的臨床理論。例如,中醫(yī)學(xué)無(wú)論在理論研究還是在臨床治療方面的豐富,許多根本性的理論都是源自于《內(nèi)經(jīng)》。該書(shū)創(chuàng)立了藏象、經(jīng)絡(luò)、診法等各方面的理論[1],勾畫(huà)了中醫(yī)理論的雛形,構(gòu)建了中醫(yī)理論體系的基本框架。到后期東漢時(shí)期張仲景的《傷寒論》則是創(chuàng)造了以六經(jīng)辨證和臟腑辨證為主的局面,其所倡導(dǎo)的“觀其脈證,知犯何逆,隨證治之”使得辨證論治登上新的高度。到了金元時(shí)期,就是百家爭(zhēng)鳴的時(shí)代,這期間以金元四大家為主的學(xué)派開(kāi)始萌生,留下了許多可供后世醫(yī)家參考的古典文獻(xiàn)并創(chuàng)建了不同的臨床理論,而明清時(shí)期以葉天士和吳鞠通為首確立的衛(wèi)氣營(yíng)血和三焦辨證,使溫病學(xué)的辨證理論逐步趨于完善,至今仍是指導(dǎo)臨床治療溫?zé)岵〉睦碚撘罁?jù)?傊瑐鹘y(tǒng)中醫(yī)臨床理論的構(gòu)建和完善,離不開(kāi)前人的摸索與貢獻(xiàn),也得益于著名醫(yī)學(xué)家創(chuàng)建的傳統(tǒng)中醫(yī)理論,使得我們現(xiàn)在的中醫(yī)體系不斷的飽滿和充實(shí)。
1.2當(dāng)代著名中醫(yī)的臨床經(jīng)驗(yàn)不斷提升為中醫(yī)臨床理論
傳統(tǒng)中醫(yī)的臨床理論,在很大程度上展示著著名醫(yī)家的臨床經(jīng)驗(yàn)。在中醫(yī)理論與實(shí)踐發(fā)展的相互促進(jìn)過(guò)程中,當(dāng)代醫(yī)家通過(guò)讀書(shū)、臨證、心悟?qū)?shí)踐經(jīng)驗(yàn)不斷總結(jié)并升華為理論,又在實(shí)踐中不斷完善既有的理論,成為中醫(yī)理論發(fā)展的重要途徑和模式,而當(dāng)代中醫(yī)理論的發(fā)展則需要將傳統(tǒng)理論與現(xiàn)代實(shí)踐相互融合起來(lái)。例如上世紀(jì)60年代時(shí),面對(duì)中醫(yī)基礎(chǔ)理論中新的思想相對(duì)匱乏的這一局面,鄧鐵濤結(jié)合其治療的臨床經(jīng)驗(yàn),首次提出了“五臟相關(guān)學(xué)說(shuō)”。盡管當(dāng)時(shí)的理論準(zhǔn)備并不完善,但是這一理論的提出,在很大程度上完善并且取代了“五行學(xué)說(shuō)”中某些模糊性和不確定性,并且隨著時(shí)代的發(fā)展,逐漸驗(yàn)證了鄧?yán)系倪@一經(jīng)驗(yàn)的正確性,也成為指導(dǎo)中醫(yī)臨床理論的一大重要體系[2]。又如,腦出血這一現(xiàn)代疾病在古代名為中風(fēng),多數(shù)是“從風(fēng)而治”,認(rèn)為肝臟與中風(fēng)的關(guān)系最為密切。隨著時(shí)代的推進(jìn),自20世紀(jì)80年代以來(lái),許多學(xué)者根據(jù)微觀辨證和中醫(yī)理論“離經(jīng)之血便是瘀”,提出急性出血中風(fēng)屬中醫(yī)血證,瘀血阻滯是急性期腦出血的最基本病機(jī),是治療的關(guān)鍵所在[3]。故現(xiàn)代中醫(yī)臨床治療上多以活血化瘀法治療腦出血、腦梗塞這一系列疾病。若是仔細(xì)研讀傳統(tǒng)中醫(yī)臨床理論后,我們不難得出其構(gòu)成和完善離不開(kāi)當(dāng)代著名醫(yī)家的臨床經(jīng)驗(yàn),它是在歷經(jīng)歲月的洗禮下不斷塑造成型的。
1.3傳統(tǒng)中醫(yī)臨床理論不斷將現(xiàn)代醫(yī)學(xué)相關(guān)內(nèi)容中醫(yī)化
傳統(tǒng)中醫(yī)臨床理論不斷吸收現(xiàn)代醫(yī)學(xué)的理論,將其相關(guān)內(nèi)容不斷中醫(yī)化,將病人的各種證型通過(guò)五臟辨證、陰陽(yáng)五行辨證以及八綱辨證劃分得越來(lái)越細(xì)化,以提供病人在中醫(yī)臨床上治療的理論依據(jù)。中醫(yī)吸取了現(xiàn)代醫(yī)學(xué)理論后正在不斷壯大其內(nèi)容,現(xiàn)代醫(yī)學(xué)相關(guān)內(nèi)容中醫(yī)化在許多難治疾病的辨證治療中都起到了良好的指導(dǎo)作用[4]。如艾滋病是古代傳統(tǒng)中醫(yī)辨證論治的空白,通過(guò)對(duì)艾滋病中醫(yī)病因病機(jī)、證候規(guī)律、治法方藥的系統(tǒng)研究,提出了“艾毒傷元”“脾為樞機(jī)”“氣虛為本”的病因病機(jī)學(xué)說(shuō),確立了艾滋病“培元解毒”“益氣健脾”的治療原則,為中醫(yī)藥防治艾滋病奠定了理論基礎(chǔ),為進(jìn)一步提高艾滋病的中醫(yī)藥臨床診療效果提供理論依據(jù)[5]。
2當(dāng)前中醫(yī)臨床理論發(fā)展存在的不足
2.1中醫(yī)主流理論不突出且與時(shí)俱進(jìn)力度不夠
不可否認(rèn)的是,當(dāng)代的中醫(yī)臨床理論發(fā)展也是存在諸多不足的,中醫(yī)理論的完善和發(fā)展是中華五千年來(lái)集體智慧的結(jié)晶,個(gè)別醫(yī)家提出的臨床理論可能各有千秋,其所立的角度和思維也不盡相同。例如,同是治療輸卵管阻塞這一疾病時(shí),朱南孫教授認(rèn)為多是由于濕蘊(yùn)沖任所致,其用自擬的清熱利濕方來(lái)進(jìn)行治療;而李廣文教授則認(rèn)為這一疾病多是由于瘀血阻絡(luò)為主,治療上以活血祛瘀為法,擬通任種子湯進(jìn)行治療[6]。又如對(duì)于“和解法”這一治療方法的理解,當(dāng)代名醫(yī)蒲輔周老先生認(rèn)為“寒熱并用,補(bǔ)瀉合劑,表里雙解,苦辛分消,調(diào)和氣血,皆謂和解”。而方和謙教授則認(rèn)為“在治法上扶正祛邪,表里兼顧,此法就為和解法”。不同的醫(yī)家在面對(duì)不同的疾病,甚至是不同的理法方藥時(shí),所持的看法常常是“各家學(xué)說(shuō)”,這就導(dǎo)致了當(dāng)前中醫(yī)臨床理論發(fā)展比較混亂,不能全面地體現(xiàn)中國(guó)五千年來(lái)發(fā)展過(guò)程中的中醫(yī)主流理論。目前中醫(yī)基礎(chǔ)理論還存在一個(gè)缺陷就是它的與時(shí)俱進(jìn)力度還不夠,很多古代經(jīng)典方藥的主治病癥,在當(dāng)今時(shí)代已經(jīng)不再多見(jiàn)了。比如蛔蟲(chóng)導(dǎo)致的蛔厥這一致病因素在現(xiàn)代已經(jīng)不再常見(jiàn),對(duì)應(yīng)的烏梅丸的主要適應(yīng)病癥也不再是蛔厥;在針對(duì)沒(méi)有明顯臨床表現(xiàn)的疾病如乙肝時(shí),按傳統(tǒng)中醫(yī)往往體現(xiàn)出“無(wú)證可治”的狀態(tài);傳統(tǒng)的診斷與現(xiàn)代檢查相結(jié)合的力度也不夠,中醫(yī)臨床基礎(chǔ)理論在某些程度上忽略了其與生化、B超、X光、CT等現(xiàn)代檢查結(jié)果的結(jié)合,并沒(méi)有用中醫(yī)理論對(duì)其做一合理的陳述;且現(xiàn)在臨床上很多中藥的藥理作用、性味歸經(jīng)的研究作用還不夠深入、細(xì)致,其作用不能在微觀上得以解釋。這些都導(dǎo)致了臨床上很多情況沒(méi)有從中醫(yī)理論來(lái)認(rèn)識(shí)中醫(yī),不是“以中解中”,而是“以西解中”,形成了臨床拋棄中醫(yī)理論的狀態(tài)[7]。由于中醫(yī)學(xué)是一門(mén)實(shí)踐性很強(qiáng)的學(xué)科,它是在哲學(xué)辨證的思想指導(dǎo)下,與臨床經(jīng)驗(yàn)不斷結(jié)合,這與西醫(yī)知識(shí)體系相比較,難免存在一定的滯后性,這都會(huì)使得中醫(yī)臨床理論發(fā)展相對(duì)的落后。
2.2部分中醫(yī)理論帶有權(quán)威專家的“個(gè)人學(xué)說(shuō)”偏見(jiàn)
傳統(tǒng)中醫(yī)強(qiáng)調(diào)個(gè)人經(jīng)驗(yàn)和學(xué)說(shuō),以中醫(yī)內(nèi)科學(xué)為例,第八版中的腦系疾病在第九版中已經(jīng)刪除,其涉及到的各種腦系疾病大多數(shù)歸屬于心系疾病與肝系疾病。根據(jù)其版本的不同,我們可以明顯看出其凸顯的中心內(nèi)容及其思想不同,其多是體現(xiàn)編著者的理論思想,在一定程度上并沒(méi)有客觀地揭示疾病的本質(zhì),治療理論也不夠完善,一部分內(nèi)容與最新研究得出的論文理論不符,這使得當(dāng)代中醫(yī)臨床理論在某些程度上,帶有權(quán)威專家的“個(gè)人學(xué)說(shuō)”色彩。由于現(xiàn)代西方先進(jìn)的科技文化流入,使得中醫(yī)在一定程度上備受質(zhì)疑,而正是因?yàn)槿藗儗?duì)于中醫(yī)理論的一些偏見(jiàn),才使得中醫(yī)長(zhǎng)期讓人詬病。
3新的時(shí)代背景下中醫(yī)臨床理論發(fā)展方向
3.1臨床理論應(yīng)具有真實(shí)性與系統(tǒng)性
中醫(yī)臨床理論的發(fā)展方形應(yīng)當(dāng)是建立在客觀并且真實(shí)的臨床實(shí)踐基礎(chǔ)上,從一次次臨床實(shí)踐中得出。由于歷史時(shí)代的原因以及假設(shè)推理、模式建設(shè)的廣泛使用,當(dāng)代中醫(yī)臨床理論中理論與假說(shuō)并存的現(xiàn)象較為普遍,如中醫(yī)的五運(yùn)六氣學(xué)說(shuō)對(duì)現(xiàn)代疫病預(yù)測(cè)和人體各經(jīng)絡(luò)臟腑在時(shí)間上對(duì)于人體治病效果的`不同等,就需要我們?cè)谠鷮?shí)的文獻(xiàn)與臨床實(shí)踐基礎(chǔ)上,對(duì)醫(yī)案進(jìn)行認(rèn)真總結(jié),利用科學(xué)的方法深入挖掘,開(kāi)展中醫(yī)理論的去偽存真研究,以促進(jìn)中醫(yī)理論的科學(xué)與健康發(fā)展。另外,傳統(tǒng)的中醫(yī)臨床治療上所用的理法方藥,多是根據(jù)個(gè)人經(jīng)驗(yàn)所進(jìn)行的。隨著科技的不斷發(fā)展與時(shí)代的不斷進(jìn)步,當(dāng)代的中醫(yī)臨床理論應(yīng)該在成功的中醫(yī)醫(yī)案上進(jìn)行系統(tǒng)的總結(jié),不斷挖掘和研究其微觀的結(jié)構(gòu),并隨著年月的更迭不斷更新,不斷完善,使其具有科學(xué)性和理論依據(jù)。同時(shí),對(duì)近年來(lái)興起的傳染性非典型肺炎、艾滋病、禽流感等古人所沒(méi)有經(jīng)歷過(guò)的疾病的診治,中醫(yī)就其病因病機(jī)的認(rèn)識(shí)以及探究相應(yīng)的診療方法,無(wú)疑也是一種理論上的創(chuàng)新[8]。通過(guò)對(duì)其進(jìn)行深一層次的研究和發(fā)現(xiàn),歸納出合適的治則治法,找到針對(duì)這一疾病的理法方藥,使其更具有系統(tǒng)性,使得臨床上中醫(yī)治病可以循序漸進(jìn),注重整體,也是當(dāng)代臨床理論的一大發(fā)展方向。
3.2臨床理論具有信息化的特點(diǎn)并可持續(xù)拓展
隨著時(shí)代的進(jìn)步,當(dāng)代的中醫(yī)臨床理論可以通過(guò)網(wǎng)絡(luò)等方式進(jìn)行共享,在大數(shù)據(jù)的這一時(shí)代背景下,隨著病案的不斷報(bào)道與積累,可以將各類成功的中醫(yī)醫(yī)案進(jìn)行統(tǒng)計(jì)和挖掘,其結(jié)果也會(huì)不斷進(jìn)行更新和發(fā)展。不同的醫(yī)家對(duì)于某一疾病的認(rèn)識(shí)角度可能不同,其表現(xiàn)在病位、病性、病勢(shì)和證候的判斷標(biāo)準(zhǔn)也不一樣,因此方藥規(guī)律也不一樣。而通過(guò)統(tǒng)計(jì)某一中醫(yī)或西醫(yī)疾病的較大樣本病例,并對(duì)其進(jìn)行數(shù)據(jù)挖掘,可以得出整個(gè)中醫(yī)群體對(duì)于這一疾病診治的證候分布、治則治法、處方用藥等的規(guī)律,甚至可以根據(jù)統(tǒng)計(jì)的結(jié)果探索出新的方藥,分析他們的共同點(diǎn)和所在差異。將中醫(yī)臨床理論具有信息化的這一特點(diǎn)不斷地拓展下去,通過(guò)計(jì)算機(jī)等客觀科學(xué)的手段進(jìn)行分析,與主觀的名老中醫(yī)傳承模式相比,更具客觀性,更容易被臨床醫(yī)生接受,對(duì)各種疾病的中醫(yī)臨床用藥也更具有指導(dǎo)價(jià)值。
4基于病案數(shù)據(jù)挖掘的中醫(yī)臨床理論重建
4.1病案研究是中醫(yī)理論發(fā)展的重要基礎(chǔ)
在當(dāng)今大數(shù)據(jù)的時(shí)代背景下,中醫(yī)固有的傳統(tǒng)整體論科學(xué)特征有了越來(lái)越多的可供改變的空間。這種變化既為其按照自身特有的規(guī)律發(fā)展特點(diǎn)帶來(lái)了機(jī)遇,也給未來(lái)中醫(yī)理論的發(fā)展提出了挑戰(zhàn)。同時(shí),學(xué)習(xí)醫(yī)案研究也是中醫(yī)學(xué)相關(guān)大學(xué)生們應(yīng)該學(xué)習(xí)的一項(xiàng)內(nèi)容。閱讀醫(yī)案是必要的訓(xùn)練,也是中醫(yī)入門(mén)的方法之一。醫(yī)案的故事性引人入勝,在自然而然中接受中醫(yī)思維方法和傳統(tǒng)文化知識(shí),同時(shí)醫(yī)案中所呈現(xiàn)的名醫(yī)風(fēng)范,醫(yī)德對(duì)學(xué)生起到潛移默化的影響,并培養(yǎng)對(duì)專業(yè)的熱愛(ài)[9]。病案客觀、真實(shí)地直接記錄疾病診斷和治療過(guò)程,醫(yī)案研究作為中醫(yī)理論發(fā)展過(guò)程中至關(guān)重要的一環(huán),是中醫(yī)理論發(fā)展的重要基礎(chǔ),以研究病案為基礎(chǔ),對(duì)于中醫(yī)理論的形成和臨床上中醫(yī)積累經(jīng)驗(yàn),都起到了一定的輔助提升作用。
4.2數(shù)據(jù)挖掘方法是中醫(yī)理論發(fā)展的現(xiàn)代技術(shù)手段
利用多種數(shù)據(jù)挖掘技術(shù)對(duì)中醫(yī)病案中的有關(guān)信息行進(jìn)行歸納、整理,是近年來(lái)傳承中醫(yī)臨床經(jīng)驗(yàn)的重要方法之一[10]。通過(guò)對(duì)同一種疾病的病案進(jìn)行數(shù)據(jù)挖掘以分析醫(yī)者的思路和探索其用藥的方法,對(duì)中醫(yī)臨床病案進(jìn)行規(guī)范化的整理,能夠深入總結(jié)其臨床經(jīng)驗(yàn),挖掘隱藏在大量病案背后的診治規(guī)律,甚至探索出新的方藥配伍,為中醫(yī)理論的發(fā)展提供一定的科學(xué)依據(jù)的同時(shí),使得中醫(yī)理論的發(fā)展越來(lái)越現(xiàn)代化,不僅僅只是停留在以前的靠讀書(shū)和個(gè)人經(jīng)驗(yàn)的結(jié)合,也為廣大的中醫(yī)在日后的臨床治療上提供了新的思路和方向。
4.3臨床實(shí)踐推動(dòng)理論發(fā)展,賦予轉(zhuǎn)化醫(yī)學(xué)新的內(nèi)涵
目前,我們通過(guò)并按數(shù)據(jù)挖掘來(lái)總結(jié)一些中醫(yī)對(duì)于治療同一種疾病所采取的診斷和用藥,可以獲得新的思路,并且為完善我們現(xiàn)有的中醫(yī)理論基礎(chǔ)可以提供可靠的理論支持。采用數(shù)據(jù)挖掘技術(shù)對(duì)中醫(yī)學(xué)術(shù)思想和臨證經(jīng)驗(yàn)進(jìn)行研究,可以全面解析其中的規(guī)律,分析中醫(yī)個(gè)體化診療信息特征,提煉出臨證經(jīng)驗(yàn)中蘊(yùn)藏的新理論、新力法,可以實(shí)現(xiàn)經(jīng)驗(yàn)的有效總結(jié)與傳承[11]。與此同時(shí),要求我們用發(fā)展的眼光將現(xiàn)代的科技手段整合加入到傳統(tǒng)的中醫(yī)學(xué)理論中去,推陳出新,通過(guò)臨床實(shí)踐與基礎(chǔ)理論的不斷結(jié)合,不斷完善,推動(dòng)祖國(guó)醫(yī)學(xué)現(xiàn)代化,譜寫(xiě)有關(guān)于中醫(yī)學(xué)在轉(zhuǎn)化醫(yī)學(xué)上新的篇章。
參考文獻(xiàn)
[1]劉向哲.中醫(yī)理論創(chuàng)新與發(fā)展的基礎(chǔ)和機(jī)遇[J].中醫(yī)學(xué)報(bào),2010,25(5):884-885.
[2]邱仕君,吳玉生.在基礎(chǔ)理論與臨床醫(yī)學(xué)之間———對(duì)鄧鐵濤教授五臟相關(guān)學(xué)說(shuō)的理論思考[J].湖北民族學(xué)院學(xué)報(bào)(醫(yī)學(xué)版),2005,22(2):36-39.
[3]顧寧,周仲英.通下法治療急性腦出血研究進(jìn)展[J].中國(guó)中醫(yī)急診,2000,9(5):227.
[4]靳士英.鄧鐵濤教授學(xué)術(shù)成就管[J].現(xiàn)代醫(yī)院,2004(9):1-6.
[5]許前磊,徐立然,郭會(huì)軍,等.艾滋病發(fā)病與防治中醫(yī)理論的初步構(gòu)建[J].中醫(yī)雜志,2015,56(11):909-911.
[6]張少聰,周偉生.名老中醫(yī)驗(yàn)方治療輸卵管阻塞性不孕癥概況[J].中華中醫(yī)藥學(xué)刊,2010(3):489-491.
[7]孟靜巖,應(yīng)森林.試論中醫(yī)基礎(chǔ)理論指導(dǎo)臨床研究的思考與途徑[J].上海中醫(yī)藥大學(xué)學(xué)報(bào),2009(3):3-5.
[8]邢玉瑞.新形勢(shì)下中醫(yī)理論發(fā)展的思考[J].中醫(yī)雜志,2016,57(18):1540-1542.
[9]盧峰,聶達(dá)榮,彭美玉,等.中醫(yī)內(nèi)科學(xué)應(yīng)用名老中醫(yī)病案教學(xué)法的探索[J].中國(guó)中醫(yī)藥現(xiàn)代遠(yuǎn)程教育,2014(18):80-82.
[10]郭軍.基于數(shù)據(jù)挖掘分析前名老中醫(yī)病案整理的思路與方法[J].中醫(yī)藥信息,2011,28(2):49-50.
[11]吳嘉瑞,唐仕歡,郭位先,等.基于數(shù)據(jù)挖掘的名老中醫(yī)經(jīng)驗(yàn)傳承研究述評(píng)[J].中國(guó)中藥雜志,2014,39(4):614-617.
數(shù)據(jù)挖掘論文10
[1]劉瑩.基于數(shù)據(jù)挖掘的商品銷售預(yù)測(cè)分析[J].科技通報(bào).20xx(07)
[2]姜曉娟,郭一娜.基于改進(jìn)聚類的電信客戶流失預(yù)測(cè)分析[J].太原理工大學(xué)學(xué)報(bào).20xx(04)
[3]李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲(chóng)學(xué)報(bào).20xx(04)
[4]朱志勇,徐長(zhǎng)梅,劉志兵,胡晨剛.基于貝葉斯網(wǎng)絡(luò)的客戶流失分析研究[J].計(jì)算機(jī)工程與科學(xué).20xx(03)
[5]翟健宏,李偉,葛瑞海,楊茹.基于聚類與貝葉斯分類器的網(wǎng)絡(luò)節(jié)點(diǎn)分組算法及評(píng)價(jià)模型[J].電信科學(xué).20xx(02)
[6]王曼,施念,花琳琳,楊永利.成組刪除法和多重填補(bǔ)法對(duì)隨機(jī)缺失的二分類變量資料處理效果的比較[J].鄭州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版).20xx(05)
[7]黃杰晟,曹永鋒.挖掘類改進(jìn)決策樹(shù)[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版).20xx(01)
[8]李凈,張范,張智江.數(shù)據(jù)挖掘技術(shù)與電信客戶分析[J].信息通信技術(shù).20xx(05)
[9]武曉巖,李康.基因表達(dá)數(shù)據(jù)判別分析的隨機(jī)森林方法[J].中國(guó)衛(wèi)生統(tǒng)計(jì).20xx(06)
[10]張璐.論信息與企業(yè)競(jìng)爭(zhēng)力[J].現(xiàn)代情報(bào).20xx(01)
[11]楊毅超.基于Web數(shù)據(jù)挖掘的作物商務(wù)平臺(tái)分析與研究[D].湖南農(nóng)業(yè)大學(xué)20xx
[12]徐進(jìn)華.基于灰色系統(tǒng)理論的數(shù)據(jù)挖掘及其模型研究[D].北京交通大學(xué)20xx
[13]俞馳.基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的.客戶獲取系統(tǒng)研究[D].西安電子科技大學(xué)20xx
[14]馮軍.數(shù)據(jù)挖掘在自動(dòng)外呼系統(tǒng)中的應(yīng)用[D].北京郵電大學(xué)20xx
[15]于寶華.基于數(shù)據(jù)挖掘的高考數(shù)據(jù)分析[D].天津大學(xué)20xx
[16]王仁彥.數(shù)據(jù)挖掘與網(wǎng)站運(yùn)營(yíng)管理[D].華東師范大學(xué)20xx
[17]彭智軍.數(shù)據(jù)挖掘的若干新方法及其在我國(guó)證券市場(chǎng)中應(yīng)用[D].重慶大學(xué)20xx
[18]涂繼亮.基于數(shù)據(jù)挖掘的智能客戶關(guān)系管理系統(tǒng)研究[D].哈爾濱理工大學(xué)20xx
[19]賈治國(guó).數(shù)據(jù)挖掘在高考填報(bào)志愿上的應(yīng)用[D].內(nèi)蒙古大學(xué)20xx
[20]馬飛.基于數(shù)據(jù)挖掘的航運(yùn)市場(chǎng)預(yù)測(cè)系統(tǒng)設(shè)計(jì)及研究[D].大連海事大學(xué)20xx
[21]周霞.基于云計(jì)算的太陽(yáng)風(fēng)大數(shù)據(jù)挖掘分類算法的研究[D].成都理工大學(xué)20xx
[22]阮偉玲.面向生鮮農(nóng)產(chǎn)品溯源的基層數(shù)據(jù)庫(kù)建設(shè)[D].成都理工大學(xué)20xx
[23]明慧.復(fù)合材料加工工藝數(shù)據(jù)庫(kù)構(gòu)建及數(shù)據(jù)集成[D].大連理工大學(xué)20xx
[24]陳鵬程.齒輪數(shù)控加工工藝數(shù)據(jù)庫(kù)開(kāi)發(fā)與數(shù)據(jù)挖掘研究[D].合肥工業(yè)大學(xué)20xx
[25]岳雪.基于海量數(shù)據(jù)挖掘關(guān)聯(lián)測(cè)度工具的設(shè)計(jì)[D].西安財(cái)經(jīng)學(xué)院20xx
[26]丁翔飛.基于組合變量與重疊區(qū)域的SVM-RFE方法研究[D].大連理工大學(xué)20xx
[27]劉士佳.基于MapReduce框架的頻繁項(xiàng)集挖掘算法研究[D].哈爾濱理工大學(xué)20xx
[28]張曉東.全序模塊模式下范式分解問(wèn)題研究[D].哈爾濱理工大學(xué)20xx
[29]尚丹丹.基于虛擬機(jī)的Hadoop分布式聚類挖掘方法研究與應(yīng)用[D].哈爾濱理工大學(xué)20xx
[30]王化楠.一種新的混合遺傳的基因聚類方法[D].大連理工大學(xué)20xx
[31]楊毅超.基于Web數(shù)據(jù)挖掘的作物商務(wù)平臺(tái)分析與研究[D].湖南農(nóng)業(yè)大學(xué)20xx
[32]徐進(jìn)華.基于灰色系統(tǒng)理論的數(shù)據(jù)挖掘及其模型研究[D].北京交通大學(xué)20xx
[33]俞馳.基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的客戶獲取系統(tǒng)研究[D].西安電子科技大學(xué)20xx
[34]馮軍.數(shù)據(jù)挖掘在自動(dòng)外呼系統(tǒng)中的應(yīng)用[D].北京郵電大學(xué)20xx
[35]于寶華.基于數(shù)據(jù)挖掘的高考數(shù)據(jù)分析[D].天津大學(xué)20xx
[36]王仁彥.數(shù)據(jù)挖掘與網(wǎng)站運(yùn)營(yíng)管理[D].華東師范大學(xué)20xx
[37]彭智軍.數(shù)據(jù)挖掘的若干新方法及其在我國(guó)證券市場(chǎng)中應(yīng)用[D].重慶大學(xué)20xx
[38]涂繼亮.基于數(shù)據(jù)挖掘的智能客戶關(guān)系管理系統(tǒng)研究[D].哈爾濱理工大學(xué)20xx
[39]賈治國(guó).數(shù)據(jù)挖掘在高考填報(bào)志愿上的應(yīng)用[D].內(nèi)蒙古大學(xué)20xx
[ 40]馬飛.基于數(shù)據(jù)挖掘的航運(yùn)市場(chǎng)預(yù)測(cè)系統(tǒng)設(shè)計(jì)及研究[D].大連海事大學(xué)20xx
數(shù)據(jù)挖掘論文11
數(shù)據(jù)挖掘技術(shù)在金融業(yè)、醫(yī)療保健業(yè)、市場(chǎng)業(yè)、零售業(yè)和制造業(yè)等很多領(lǐng)域都得到了很好的應(yīng)用。針對(duì)交通安全領(lǐng)域中交通事故數(shù)據(jù)利用率低的現(xiàn)狀,可以通過(guò)數(shù)據(jù)挖掘?qū)ο嚓P(guān)交通事故數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,從而發(fā)現(xiàn)其中的關(guān)聯(lián),這對(duì)提升交通安全水平具有非常重要的意義。
1數(shù)據(jù)挖掘技術(shù)概述
數(shù)據(jù)挖掘(DataMining)即對(duì)大量數(shù)據(jù)進(jìn)行有效的分類統(tǒng)計(jì),從而整理出有規(guī)律的、有價(jià)值的、潛在的未知信息。一般來(lái)講,這些數(shù)據(jù)存在極大的隨機(jī)性和不完全性,其包括各行各業(yè)各個(gè)方面的數(shù)據(jù)。數(shù)據(jù)挖掘是一個(gè)結(jié)合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)的學(xué)科,涉及統(tǒng)計(jì)數(shù)據(jù)和技術(shù)理論等領(lǐng)域。
2數(shù)據(jù)挖掘關(guān)聯(lián)分析研究
關(guān)聯(lián)分析作為數(shù)據(jù)挖掘中的重要組成部分,其主要作用就是通過(guò)數(shù)據(jù)之間的相互關(guān)聯(lián)從而發(fā)現(xiàn)數(shù)據(jù)集中某種未知的聯(lián)系。關(guān)聯(lián)分析最初是在20世紀(jì)90年代初被提出來(lái)的,一直備受關(guān)注。已被廣泛應(yīng)用于各行各業(yè),包括醫(yī)療體檢、電子商務(wù)、商業(yè)金融等各個(gè)領(lǐng)域。關(guān)聯(lián)規(guī)則的挖掘一般可分成兩個(gè)步驟[1]:
。1)找出頻繁項(xiàng)集,不小于最小支持度的項(xiàng)集;
。2)生成強(qiáng)關(guān)聯(lián)規(guī)則,不小于最小置信度的關(guān)聯(lián)規(guī)則。相對(duì)于生成強(qiáng)關(guān)聯(lián)規(guī)則,找出頻繁項(xiàng)集這一步比較麻煩。由R.Agrawal等人在1994年提出的Apriori算法是生成頻繁項(xiàng)集的經(jīng)典算法[2]。Apriori算法使用了Level-wise搜索的迭代方法,即用k-項(xiàng)集探索(k+1)-項(xiàng)集。Apriori算法在整體上可分為兩個(gè)部分。
。1)發(fā)現(xiàn)頻集。這個(gè)部分是最重要的,開(kāi)銷相繼產(chǎn)生了各種各樣的頻集算法,專門(mén)用于發(fā)現(xiàn)頻集,以降低其復(fù)雜度、提高發(fā)現(xiàn)頻集的效率。
。2)利用所獲得的頻繁項(xiàng)集各種算法主要致力產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。當(dāng)然頻集構(gòu)成的聯(lián)規(guī)則未必是強(qiáng)關(guān)聯(lián)規(guī)則,還要檢驗(yàn)構(gòu)成的關(guān)聯(lián)規(guī)則的支持度和支持度是否超過(guò)它們的閾值。Apriori算法找出頻繁項(xiàng)集分為兩步:連接和剪枝。
。1)連接。集合Lk-1為頻繁k-1項(xiàng)集的集合,它通過(guò)與自身連接就可以生成候選k項(xiàng)集的集合,記作Ck。
。2)剪枝。頻繁k項(xiàng)集的集合Lk是Ck的子集。剪枝首先利用Apriori算法的性質(zhì)(頻繁項(xiàng)集的所有非空子集都是頻繁的,如果不滿足這個(gè)條件,就從候選集合Ck中刪除)對(duì)Ck進(jìn)行壓縮;然后,通過(guò)掃描所有的事務(wù),確定壓縮后Ck中的每個(gè)候選的支持度;最后與設(shè)定的最小支持度進(jìn)行比較,如果支持度不小于最小支持度,則認(rèn)為該候選項(xiàng)是頻繁的。目前,在互聯(lián)網(wǎng)技術(shù)及科學(xué)技術(shù)的快速發(fā)展下,人工智能、機(jī)器識(shí)別等技術(shù)興起,關(guān)聯(lián)分析也被越來(lái)越多應(yīng)用其中,并在不斷發(fā)展中提出了大量的改進(jìn)算法。
3數(shù)據(jù)挖掘關(guān)聯(lián)分析在道路交通事故原因分析當(dāng)中的應(yīng)用
近年來(lái),我國(guó)越來(lái)越多的學(xué)者將數(shù)據(jù)挖掘關(guān)聯(lián)分析應(yīng)用于道路交通事故的研究中,主要是分析道路、車輛、行人以及環(huán)境等因素與交通事故之間的某種聯(lián)系。Pande和Abdel-Aty[3]通過(guò)關(guān)聯(lián)分析研究了美國(guó)佛羅里達(dá)州20xx年非交叉口發(fā)生的道路交通事故,重點(diǎn)分析了各個(gè)不同的影響因素與交通事故之間的內(nèi)在聯(lián)系,通過(guò)研究得出如下結(jié)論,道路照明條件不足是引發(fā)道路交通事故的主要因素,除此之外,還發(fā)現(xiàn)天氣惡劣的環(huán)境下道路彎道的直線段也極易發(fā)生交通事故。Graves[4]利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則對(duì)歐洲道路交通事故進(jìn)行了分析,主要研究了交通事故與道路設(shè)施狀況之間的關(guān)聯(lián),通過(guò)研究發(fā)現(xiàn)了易導(dǎo)致交通事故發(fā)生的各個(gè)道路設(shè)施狀況因素,此研究為歐洲路面建設(shè)及投資提供了強(qiáng)大的決策支持。我國(guó)學(xué)者董立巖在研究道路交通事故數(shù)據(jù)的文獻(xiàn)中,將粗糙集與關(guān)聯(lián)分析進(jìn)行了融合,提出了基于偏好信息的決策規(guī)則簡(jiǎn)約算法并將其應(yīng)用其中,通過(guò)分析發(fā)現(xiàn)了道路交通事故的未知規(guī)律。王艷玲通過(guò)關(guān)聯(lián)分析中的因子關(guān)聯(lián)樹(shù)模型重點(diǎn)分析了影響道路交通事故最重要的因子,發(fā)現(xiàn)在道路交通事故常見(jiàn)的誘因人、車、路及環(huán)境中對(duì)事故影響最大的因子是環(huán)境。許卉瑩等利用關(guān)聯(lián)分析、聚類分析以及決策樹(shù)分析三種數(shù)據(jù)挖掘技術(shù)對(duì)道路交通事故數(shù)據(jù)進(jìn)行分析,最終得出了科學(xué)的道路交通事故預(yù)防和交通安全管理決策依據(jù)。尚威等在研究中,對(duì)大量的道路交通數(shù)據(jù)進(jìn)行了有效整合,并在此基礎(chǔ)上按照交通事故相關(guān)因素的不同特點(diǎn)整理出與事故發(fā)生有關(guān)的字段數(shù)據(jù),形成新的事故數(shù)據(jù)記錄表,然后再根據(jù)多維關(guān)聯(lián)規(guī)則對(duì)記錄的相關(guān)數(shù)據(jù)進(jìn)行分析,從而發(fā)現(xiàn)了事故誘導(dǎo)因素記錄字段值和事故結(jié)果字段值組成的道路交通事故頻繁字段的組合。張聽(tīng)等在充分掌握聚類數(shù)據(jù)挖掘理論與方法的基礎(chǔ)上,提出了多目標(biāo)聚類分析框架和一個(gè)啟發(fā)式的聚類算法k-WANMI,并將其用在道路交通事故的聚類研究中對(duì)不同權(quán)重的屬性進(jìn)行了多目標(biāo)分析。同樣,許宏科也利用該方法對(duì)公路隧道交通流數(shù)據(jù)進(jìn)行了聚類分析,其在研究中不僅明確了隧道交通流的'峰值規(guī)律,而且還根據(jù)這種規(guī)律制訂了隧道監(jiān)控設(shè)備的不同控制方案,對(duì)提高隧道交通安全的水平做了極大的貢獻(xiàn)。徐磊和方源敏在研究中,提出了由簡(jiǎn)化信息熵構(gòu)造的改進(jìn)C4.5決策樹(shù)算法,并將其應(yīng)用在交通事故數(shù)據(jù)的研究中,對(duì)交通數(shù)據(jù)進(jìn)行了正確分類,發(fā)現(xiàn)了一些隱藏的規(guī)則和知識(shí),為交通管理提供了依據(jù)。劉軍、艾力斯木吐拉、馬曉松運(yùn)用多維關(guān)聯(lián)規(guī)則分析交通事故記錄,從而找到導(dǎo)致交通事故發(fā)生次數(shù)多的主要原因,并且指導(dǎo)相關(guān)部門(mén)作出相應(yīng)的決策。楊希剛運(yùn)用關(guān)聯(lián)規(guī)則為現(xiàn)實(shí)中的交通事故的預(yù)防提供依據(jù)。吉林大學(xué)的吳昊等人,基于關(guān)聯(lián)規(guī)則的理論基礎(chǔ),定義了公路交通事故屬性模型,并結(jié)合改進(jìn)后的Apriori算法,分析了交通事故歷史數(shù)據(jù)信息,為有關(guān)單位和用戶尋找道路黑點(diǎn)(即事故多發(fā)點(diǎn))提供了技術(shù)支援和決策幫助。
4結(jié)語(yǔ)
通過(guò)數(shù)據(jù)挖掘中的關(guān)聯(lián)分析方法雖然能夠?qū)Φ缆方煌ㄊ鹿实南嚓P(guān)因素進(jìn)行清晰的分析,但是目前在這一方面的研究仍有不足之處。因?yàn)殛P(guān)聯(lián)分析在道路交通事故的研究中往往只能片面發(fā)現(xiàn)某一種或幾種因素影響交通事故的規(guī)律,很難將所有影響因素結(jié)合起來(lái)進(jìn)行全面系統(tǒng)的分析。然而道路交通事故的發(fā)生通常都是由相應(yīng)因素導(dǎo)致,而后事故當(dāng)事人意識(shí)到危險(xiǎn)源的存在并采取措施,直到事故發(fā)生的連續(xù)過(guò)程,整體來(lái)看體現(xiàn)了時(shí)序性。也就是說(shuō),道路交通事故是受到一系列按照時(shí)間先后順序排列的影響因素組合共同作用而發(fā)生的,從整體的角度出發(fā)研究事故發(fā)生機(jī)理更加科學(xué)。
參考文獻(xiàn)
[1]楊秀萍.大數(shù)據(jù)下關(guān)聯(lián)規(guī)則算法的改進(jìn)及應(yīng)用[J].計(jì)算機(jī)與現(xiàn)代化,20xx(12):23-26.
[2]王云,蘇勇.關(guān)聯(lián)規(guī)則挖掘在道路交通事故分析中的應(yīng)用[J].科學(xué)技術(shù)與工程,20xx(7):1824-1827.
[3]徐磊,方源敏.基于決策樹(shù)C4.5改進(jìn)算法的交通數(shù)據(jù)挖掘[J].微處理機(jī),20xx,31(6):57-59.
[4]楊希剛.數(shù)據(jù)挖掘在交通事故中的應(yīng)用[[J].軟件導(dǎo)刊,20xx,7(26):18-20.
數(shù)據(jù)挖掘論文12
摘要:本文簡(jiǎn)述如何將數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書(shū)館各部門(mén)管理中,幫助圖書(shū)館管理者依據(jù)數(shù)據(jù)挖掘技術(shù)更好地為讀者提供科學(xué)化和人性化的服務(wù),促進(jìn)圖書(shū)館事業(yè)的創(chuàng)新與發(fā)展。
關(guān)鍵詞:高校圖書(shū)館;數(shù)據(jù)挖掘;創(chuàng)新;發(fā)展。
隨著網(wǎng)絡(luò)技術(shù)、計(jì)算機(jī)技術(shù)的快速發(fā)展,高校圖書(shū)館事業(yè)也順應(yīng)時(shí)變,不斷向高科技、高水平領(lǐng)域進(jìn)展,尤其是當(dāng)今處于數(shù)字信息發(fā)展的時(shí)代。如果利用圖書(shū)館現(xiàn)有以及收集的數(shù)據(jù)資源,通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)分析、篩選對(duì)圖書(shū)館有用的數(shù)據(jù)信息,依據(jù)提煉的數(shù)據(jù)資源來(lái)指導(dǎo)、推進(jìn)圖書(shū)館事業(yè)的創(chuàng)新與發(fā)展,是當(dāng)今信息時(shí)代圖書(shū)館亟待研究、探討的一個(gè)問(wèn)題。本文將簡(jiǎn)述如何將數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書(shū)館各部門(mén)管理之中,幫助圖書(shū)館管理者依據(jù)數(shù)據(jù)挖掘技術(shù)更好地為讀者提供科學(xué)化和人性化的服務(wù),促進(jìn)圖書(shū)館的事業(yè)創(chuàng)新與發(fā)展。
一、數(shù)據(jù)挖掘技術(shù)綜述。
數(shù)據(jù)挖掘定義。數(shù)據(jù)挖掘(Data Mining,DM)是一種新的信息處理技術(shù),其主要特點(diǎn)是對(duì)單位、企業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換分析和其他模型化處理,以從中提取輔助管理決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識(shí)的過(guò)程。換句話說(shuō),數(shù)據(jù)挖掘技術(shù)就是從收集的大量、繁雜的數(shù)據(jù)中挖掘出其隱含的、未知的、對(duì)決策有潛在價(jià)值的關(guān)系、模式和趨勢(shì),并用這些知識(shí)和規(guī)則建立用于決策支持的模型,提供預(yù)測(cè)性決策支持的方法、工具和過(guò)程。
數(shù)據(jù)挖掘的意義。在當(dāng)今的競(jìng)爭(zhēng)時(shí)代社會(huì)中,隨著計(jì)算機(jī)的飛速發(fā)展,計(jì)算機(jī)強(qiáng)大的數(shù)據(jù)處理能力、內(nèi)存儲(chǔ)存容量和網(wǎng)絡(luò)寬帶等價(jià)格的持續(xù)快速下降,因此大型的數(shù)據(jù)分析、提取技術(shù)不再是一個(gè)障礙。面對(duì)圖書(shū)館每天接收的龐大數(shù)據(jù)源,管理者必須學(xué)會(huì)從所擁有的大量數(shù)據(jù)信息源中提取并利用隱含在這些數(shù)據(jù)中的有用價(jià)值以及有用新信息,從而獲取對(duì)圖書(shū)館事業(yè)研究領(lǐng)域的本質(zhì)認(rèn)知和未來(lái)認(rèn)知,幫助圖書(shū)館管理者從傳統(tǒng)的經(jīng)驗(yàn)管理、主觀管理提升為理性管理和科學(xué)管理。
數(shù)據(jù)挖掘的應(yīng)用分類。目前較常用的一般有分類與回歸、關(guān)聯(lián)規(guī)則、聚類分析、時(shí)序模式等。
二、數(shù)據(jù)挖掘技術(shù)對(duì)圖書(shū)館事業(yè)創(chuàng)新與發(fā)展的影響。
面對(duì)大量數(shù)據(jù),如何去存儲(chǔ)和收集數(shù)據(jù),如何利用數(shù)據(jù)挖掘技術(shù)將圖書(shū)館海量信息數(shù)據(jù)中提取供管理者決策的有價(jià)值的數(shù)據(jù),提取并利用隱藏在這些數(shù)據(jù)中的有用知識(shí)的能力變得越來(lái)越重要。運(yùn)用數(shù)據(jù)挖掘技術(shù)從數(shù)據(jù)中獲得有用的知識(shí),這在圖書(shū)館管理方面顯得尤為重要,本文將簡(jiǎn)述如何將數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書(shū)館各部門(mén)工作,為今后各部門(mén)的'創(chuàng)新與發(fā)展提供策略分析。
流通部門(mén)。流通部門(mén)作為圖書(shū)館的一線服務(wù)崗位,對(duì)圖書(shū)館功能的發(fā)揮起著舉足輕重的作用。作為窗口形象崗位,直接體現(xiàn)了圖書(shū)館的整體工作狀態(tài)。
要實(shí)現(xiàn)從以往的經(jīng)驗(yàn)管理、主觀管理提升為科學(xué)管理和理性管理,數(shù)據(jù)挖掘技術(shù)將利用現(xiàn)代技術(shù)展現(xiàn)其獨(dú)天得厚的優(yōu)勢(shì)。圖書(shū)館每天都會(huì)產(chǎn)生大量的圖書(shū)流通數(shù)據(jù),這些數(shù)據(jù)包含進(jìn)、出館讀者人數(shù),借、還書(shū)數(shù)量,檢索查詢次數(shù)以及網(wǎng)上咨詢等大量繁雜的數(shù)據(jù)。在流通部門(mén)最為常用的數(shù)據(jù)就是借書(shū)、還書(shū)量,通過(guò)借書(shū)、還書(shū)數(shù)據(jù)的統(tǒng)計(jì),可獲取讀者信息行為、借閱書(shū)興趣導(dǎo)向,充分利用數(shù)據(jù)挖掘技術(shù)如關(guān)聯(lián)規(guī)則、分類、聚類、時(shí)間序列分析等,對(duì)圖書(shū)館蘊(yùn)含的大量豐富的用戶行為進(jìn)行建模,從而挖掘出有用的或有興趣的信息和知識(shí)。如可利用這些有價(jià)值的信息,借鑒“啤酒與尿布”的經(jīng)典商業(yè)案例,嘗試在流通部開(kāi)辟一塊試驗(yàn)田地――搭檔書(shū)架,即通過(guò)借、還書(shū)數(shù)據(jù)挖掘,將讀者感興趣、組合搭檔頻率高的書(shū)籍挑選出來(lái),開(kāi)辟一塊搭檔書(shū)架,方便讀者在借用專業(yè)書(shū)籍的同時(shí)順便也借閱自己感興趣的圖書(shū),既學(xué)習(xí)了自己的專業(yè)知識(shí),同時(shí)也順便閱讀了自己感興趣的書(shū)籍,充分實(shí)現(xiàn)了圖書(shū)館“第二課堂”的育人價(jià)值。
采編部門(mén)。傳統(tǒng)的采編部門(mén)在采集書(shū)籍時(shí)大多數(shù)情況是依據(jù)采集經(jīng)驗(yàn)或是依據(jù)各院系、讀者反饋的需求書(shū)籍進(jìn)行征訂。大部分購(gòu)買(mǎi)的圖書(shū)還是比較適合讀者所用的,但也會(huì)存在一些盲目性,有時(shí)會(huì)造成采集的偏差,這是采編部門(mén)一直比較困惑的問(wèn)題。如何既將購(gòu)書(shū)經(jīng)費(fèi)合理利用好,同時(shí)又能滿足讀者借閱所需,是采編部門(mén)長(zhǎng)期探索、研究的問(wèn)題。如果將數(shù)據(jù)挖掘技術(shù)運(yùn)用到采編部門(mén),通過(guò)一線的文獻(xiàn)借閱數(shù)據(jù),分析、挖掘、提煉讀者借、還書(shū)的信息量,且一直追蹤這些信息數(shù)源的變化,即可獲得可被部門(mén)利用的有價(jià)值數(shù)據(jù),并匯總出讀者借、還書(shū)的規(guī)律。依據(jù)這些一線信息數(shù)源的價(jià)值,加之網(wǎng)上薦購(gòu)及讀者書(shū)面薦購(gòu)等信息,匯總出哪些是讀者專業(yè)常用書(shū)籍,哪些是讀者感興趣的書(shū)籍,哪些又是常年被冷落的書(shū)籍,從中提煉出書(shū)籍采集的方向;合理化的采集方案繼續(xù)延用,不合理的采集要進(jìn)行科學(xué)化的數(shù)據(jù)分析,及時(shí)理清思路,盡可能做到書(shū)籍采集的合理化、科學(xué)化。
技術(shù)部門(mén)。在信息飛速發(fā)展的時(shí)代,作為圖書(shū)館負(fù)責(zé)信息網(wǎng)絡(luò)技術(shù)的部門(mén),其肩上的重量顯得格外沉重。技術(shù)部門(mén)不但肩負(fù)著網(wǎng)絡(luò)技術(shù)的責(zé)任,當(dāng)今也要肩負(fù)起圖書(shū)館所有數(shù)據(jù)的收集、存儲(chǔ)、挖掘及分析技術(shù)。數(shù)據(jù)挖掘及分析技術(shù)在技術(shù)部十分重要,技術(shù)部應(yīng)將圖書(shū)館各部門(mén)所產(chǎn)生的相關(guān)數(shù)據(jù)進(jìn)行長(zhǎng)期性、系統(tǒng)性的收集和科學(xué)分析,并將研究數(shù)據(jù)的挖掘及分析作為當(dāng)前和今后技術(shù)部研究及發(fā)展的方向,承擔(dān)起“數(shù)據(jù)監(jiān)護(hù)員”的角色,通過(guò)實(shí)踐為圖書(shū)館提供數(shù)據(jù)監(jiān)護(hù)操作技能及策略。注意將可獲得的數(shù)據(jù)及時(shí)進(jìn)行收集,并通過(guò)收集數(shù)據(jù)使用案例,分析并總結(jié)用戶需求及使用規(guī)律,為數(shù)據(jù)監(jiān)護(hù)提供基礎(chǔ)資料。
學(xué)科部門(mén)。學(xué)科部門(mén)作為一個(gè)新興的部門(mén),目前已在全國(guó)各高校圖書(shū)館廣泛推廣運(yùn)用。學(xué)科館員的主要任務(wù)是派專人與對(duì)口院系或?qū)W科專業(yè)搭建合作、交流平臺(tái),并利用圖書(shū)館信息檢索的技術(shù)優(yōu)勢(shì),為研究者開(kāi)展長(zhǎng)期追蹤、收集、傳遞文獻(xiàn)信息的科技服務(wù)。當(dāng)前大部分學(xué)科館員關(guān)注的是如何為院系教學(xué)提供良好的信息傳遞幫助,而忽略了在當(dāng)前信息飛速發(fā)展的時(shí)代,科研與教學(xué)走向數(shù)字化的趨勢(shì)。學(xué)者所做的所有工作,包括教案、論文、實(shí)驗(yàn)、畢業(yè)設(shè)計(jì)等等工作,基本上都是以電子信息的方式進(jìn)行編輯、存儲(chǔ)的。雖然極大地方便了學(xué)者們的工作,但同時(shí)也面臨這些電子數(shù)據(jù)的丟失風(fēng)險(xiǎn),一旦電子數(shù)據(jù)丟失,其損失的學(xué)術(shù)價(jià)值是不可估量的。為盡量避免這些事件的發(fā)生,學(xué)科部門(mén)可依托技術(shù)部門(mén)的支撐,利用數(shù)據(jù)挖掘技術(shù),開(kāi)展學(xué)者數(shù)據(jù)監(jiān)護(hù)服務(wù),保存這些非紙質(zhì)信息。這樣學(xué)科部門(mén)不僅為學(xué)者提供了科研信息的前沿追蹤,同時(shí)也提供了科學(xué)數(shù)據(jù)保存平臺(tái);既為學(xué)者科研開(kāi)辟道路,也為學(xué)者預(yù)防丟失科研數(shù)據(jù)提供保障,可謂雙保險(xiǎn)。數(shù)據(jù)挖掘技術(shù)還可以幫助學(xué)科部通過(guò)數(shù)據(jù)挖掘、分析出讀者關(guān)注以及咨詢較多的問(wèn)題,從中歸納出重點(diǎn)并分門(mén)別類,作為圖書(shū)館工作的重要依據(jù)。
三、結(jié)語(yǔ)。
數(shù)據(jù)挖掘技術(shù)在當(dāng)今大數(shù)據(jù)時(shí)代,已成為一個(gè)相對(duì)成熟的學(xué)科,融入到社會(huì)的各行各業(yè)。利用數(shù)據(jù)挖掘技術(shù)對(duì)圖書(shū)館數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘已經(jīng)成為圖書(shū)館需要開(kāi)展的一項(xiàng)重要工作。圖書(shū)館事業(yè)已全部進(jìn)入電子信息化,由此產(chǎn)生的大量業(yè)務(wù)數(shù)據(jù)和信息資源是圖書(shū)館行業(yè)的一筆寶貴財(cái)富,它較真實(shí)地反映了讀者對(duì)圖書(shū)館事業(yè)運(yùn)作以及提供的服務(wù)是否到位。因此,通過(guò)數(shù)據(jù)挖掘分析,能夠幫助圖書(shū)館管理者分析并發(fā)現(xiàn)現(xiàn)有管理的不足之處,通過(guò)已知的現(xiàn)象預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。數(shù)據(jù)挖掘技術(shù)已成為今后圖書(shū)館事業(yè)保持競(jìng)爭(zhēng)力的必備法寶。
參考文獻(xiàn):
【1】顧倩.數(shù)據(jù)挖掘應(yīng)用于高校圖書(shū)館個(gè)性化服務(wù)的探討[J].圖書(shū)館雜志,20xx,8:63-65.。
【2】王偉.基于數(shù)據(jù)挖掘的圖書(shū)館用戶行為分析與偏好研究情報(bào)科學(xué),20xx,30(3):391-394.。
【3】楊海燕.大數(shù)據(jù)時(shí)代的圖書(shū)館服務(wù)淺析[J].圖書(shū)與情報(bào)。
【4】程蓮娟.美國(guó)高校圖書(shū)館數(shù)據(jù)監(jiān)護(hù)的實(shí)踐及其啟示[J].圖書(shū)館雜志,20xx,1(31):76-78.。
數(shù)據(jù)挖掘論文13
1數(shù)據(jù)挖掘技術(shù)和過(guò)程
1.1數(shù)據(jù)挖掘技術(shù)概述
發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)應(yīng)當(dāng)能夠被接受、理解和運(yùn)用。也就是發(fā)現(xiàn)全部相對(duì)的知識(shí),是具有特定前提與條件,面向既定領(lǐng)域的,同時(shí)還容易被用戶接受。數(shù)據(jù)挖掘?qū)儆谝环N新型的商業(yè)信息處理技術(shù),其特點(diǎn)為抽取、轉(zhuǎn)化、分析商業(yè)數(shù)據(jù)庫(kù)中的大規(guī)模業(yè)務(wù)數(shù)據(jù),從中獲得有價(jià)值的商業(yè)數(shù)據(jù)。簡(jiǎn)單來(lái)說(shuō),其實(shí)數(shù)據(jù)挖掘是一種對(duì)數(shù)據(jù)進(jìn)行深入分析的方法。因此,可以描述數(shù)據(jù)挖掘?yàn)椋焊鶕?jù)企業(yè)設(shè)定的工作目標(biāo),探索與分析企業(yè)大量數(shù)據(jù),充分揭示隱藏的、未知的規(guī)律性,并且將其轉(zhuǎn)變?yōu)榭茖W(xué)的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的最常見(jiàn)知識(shí)包括:
1.1.1廣義知識(shí)體現(xiàn)相同事物共同性質(zhì)的知識(shí),是指類別特點(diǎn)的概括描述知識(shí)。按照數(shù)據(jù)的微觀特點(diǎn)對(duì)其表征的、具有普遍性的、極高概念層次的知識(shí)積極發(fā)現(xiàn),是對(duì)數(shù)據(jù)的高度精煉與抽象。發(fā)現(xiàn)廣義知識(shí)的方法與技術(shù)有很多,例如數(shù)據(jù)立方體和歸約等。
1.1.2關(guān)聯(lián)知識(shí)體現(xiàn)一個(gè)事件與其他事件之間形成的關(guān)聯(lián)知識(shí)。假如兩項(xiàng)或者更多項(xiàng)之間形成關(guān)聯(lián),則其中一項(xiàng)的屬性數(shù)值就能夠借助其他屬性數(shù)值實(shí)行預(yù)測(cè)。
1.1.3分類知識(shí)體現(xiàn)相同事物共同特點(diǎn)的屬性知識(shí)與不同事物之間差異特點(diǎn)知識(shí)。
1.2數(shù)據(jù)挖掘過(guò)程
1.2.1明確業(yè)務(wù)對(duì)象對(duì)業(yè)務(wù)問(wèn)題清楚定義,了解數(shù)據(jù)挖掘的第一步是數(shù)據(jù)挖掘目的。挖掘結(jié)果是無(wú)法預(yù)測(cè)的,但是研究的問(wèn)題是可預(yù)見(jiàn)的',僅為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘一般會(huì)體現(xiàn)出盲目性,通常也不會(huì)獲得成功。基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘研究劉芬(惠州商貿(mào)旅游高級(jí)職業(yè)技術(shù)學(xué)校,廣東惠州516025)摘要:隨著互聯(lián)網(wǎng)的出現(xiàn),全球范圍內(nèi)電子商務(wù)正在迅速普及與發(fā)展,在這樣的環(huán)境下,電子商務(wù)數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。電子商務(wù)數(shù)據(jù)挖掘技術(shù)是近幾年來(lái)數(shù)據(jù)挖掘領(lǐng)域中的研究熱點(diǎn),基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘技術(shù)研究將會(huì)解決大量現(xiàn)實(shí)問(wèn)題,為企業(yè)確定目標(biāo)市場(chǎng)、完善決策、獲得最大競(jìng)爭(zhēng)優(yōu)勢(shì),其應(yīng)用前景廣闊,促使電子商務(wù)企業(yè)更具有競(jìng)爭(zhēng)力。主要分析了電子商務(wù)內(nèi)容、數(shù)據(jù)挖掘技術(shù)和過(guò)程、用戶細(xì)分理論,以及基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘。
1.2.2數(shù)據(jù)準(zhǔn)備第一選擇數(shù)據(jù):是按照用戶的挖掘目標(biāo),對(duì)全部業(yè)務(wù)內(nèi)外部數(shù)據(jù)信息積極搜索,從數(shù)據(jù)源中獲取和挖掘有關(guān)數(shù)據(jù)。第二預(yù)處理數(shù)據(jù):加工選取的數(shù)據(jù),具體對(duì)數(shù)據(jù)的完整性和一致性積極檢查,并且處理數(shù)據(jù)中的噪音,找出計(jì)算機(jī)丟失的數(shù)據(jù),清除重復(fù)記錄,轉(zhuǎn)化數(shù)據(jù)類型等。假如數(shù)據(jù)倉(cāng)庫(kù)是數(shù)據(jù)挖掘的對(duì)象,則在產(chǎn)生數(shù)據(jù)庫(kù)過(guò)程中已經(jīng)形成了數(shù)據(jù)預(yù)處理。
1.2.3變換數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)為一個(gè)分析模型。這一分析模型是相對(duì)于挖掘算法構(gòu)建的。構(gòu)建一個(gè)與挖掘算法適合的分析模型是數(shù)據(jù)挖掘獲得成功的重點(diǎn)。可以利用投影數(shù)據(jù)庫(kù)的相關(guān)操作對(duì)數(shù)據(jù)維度有效降低,進(jìn)一步減少數(shù)據(jù)挖掘過(guò)程中數(shù)據(jù)量,提升挖掘算法效率。
1.2.4挖掘數(shù)據(jù)挖掘獲得的經(jīng)濟(jì)轉(zhuǎn)化的數(shù)據(jù)。除了對(duì)選擇科學(xué)挖掘算法積極完善之外,其余全部工作都自行完成。整體挖掘過(guò)程都是相互的,也就是用戶對(duì)某些挖掘參數(shù)能夠積極控制。
1.2.5評(píng)價(jià)挖掘結(jié)果這個(gè)過(guò)程劃分為兩個(gè)步驟:表達(dá)結(jié)果和評(píng)價(jià)結(jié)果。第一表達(dá)結(jié)果:用戶能夠理解數(shù)據(jù)挖掘得到的模式,可以通過(guò)可視化數(shù)據(jù)促使用戶對(duì)挖掘結(jié)果積極理解。第二評(píng)價(jià)結(jié)果:用戶與機(jī)器對(duì)數(shù)據(jù)挖掘獲得的模式有效評(píng)價(jià),對(duì)冗余或者無(wú)關(guān)的模式及時(shí)刪除。假如用戶不滿意挖掘模式,可以重新挑選數(shù)據(jù)和挖掘算法對(duì)挖掘過(guò)程科學(xué)執(zhí)行,直到獲得用戶滿意為止。
2用戶細(xì)分理論
用戶細(xì)分是指按照不同用戶的屬性劃分用戶集合。目前學(xué)術(shù)界和企業(yè)界一般接受的是基于用戶價(jià)值的細(xì)分理論,其不僅包含了用戶為企業(yè)貢獻(xiàn)歷史利潤(rùn),還包含未來(lái)利潤(rùn),也就是在未來(lái)用戶為企業(yè)可能帶來(lái)的利潤(rùn)總和。基于用戶價(jià)值的細(xì)分理論選擇客戶當(dāng)前價(jià)值與客戶潛在價(jià)值兩個(gè)因素評(píng)價(jià)用戶。用戶當(dāng)前價(jià)值是指截止到目前用戶對(duì)企業(yè)貢獻(xiàn)的總體價(jià)值;用戶潛在價(jià)值是指未來(lái)用戶可能為企業(yè)創(chuàng)造的價(jià)值總和。每個(gè)因素還能夠劃分為兩個(gè)高低檔次,進(jìn)一步產(chǎn)生一個(gè)二維的矩陣,把用戶劃分為4組,價(jià)值用戶、次價(jià)值用戶、潛在價(jià)值用戶、低價(jià)值用戶。企業(yè)在推廣過(guò)程中根據(jù)不同用戶應(yīng)當(dāng)形成對(duì)應(yīng)的方法,投入不同的資源。很明顯對(duì)于企業(yè)來(lái)說(shuō)價(jià)值用戶最重要,被認(rèn)為是企業(yè)的玉質(zhì)用戶;其次是次價(jià)值用戶,被認(rèn)為是金質(zhì)用戶,雖然數(shù)量有限,卻為企業(yè)創(chuàng)造了絕大部分的利潤(rùn);其他則是低價(jià)值用戶,對(duì)企業(yè)來(lái)說(shuō)價(jià)值最小,成為鉛質(zhì)用戶,另外一類則是潛在價(jià)值用戶。雖然這兩類用戶擁有較多的數(shù)量,但是為企業(yè)創(chuàng)造的價(jià)值有限,甚至很小。需要我們注意的是潛在價(jià)值用戶利用再造用戶關(guān)系,將來(lái)極有可能變成價(jià)值用戶。從長(zhǎng)期分析,潛在價(jià)值用戶可以是企業(yè)的隱形財(cái)富,是企業(yè)獲得利潤(rùn)的基礎(chǔ)。將采用數(shù)據(jù)挖掘方法對(duì)這4類用戶特點(diǎn)有效挖掘。
3電子商務(wù)數(shù)據(jù)挖掘分析
3.1設(shè)計(jì)問(wèn)卷
研究的關(guān)鍵是電子商務(wù)用戶特征的數(shù)據(jù)挖掘,具體包含了價(jià)值用戶特征、次價(jià)值用戶特征、潛在價(jià)值用戶特征,對(duì)電子商務(wù)用戶的認(rèn)知度、用戶的需求度分析。問(wèn)卷內(nèi)容包括3部分:其一是為被調(diào)查者介紹電子商務(wù)的概念與背景;其二是具體調(diào)查被調(diào)查對(duì)象的個(gè)人信息,包含了性別、年齡、學(xué)歷、感情情況、職業(yè)、工作、生活地點(diǎn)、收入、上網(wǎng)購(gòu)物經(jīng)歷;其三是問(wèn)卷主要部分,是對(duì)用戶對(duì)電子商務(wù)的了解、需求、使用情況的指標(biāo)設(shè)計(jì)。
3.2調(diào)查方式
本次調(diào)查的問(wèn)卷主體是電腦上網(wǎng)的人群,采用隨機(jī)抽象的方式進(jìn)行網(wǎng)上訪問(wèn)。一方面采用大眾聊天工具,利用電子郵件和留言的方式發(fā)放問(wèn)卷,另一方面在大眾論壇上邀請(qǐng)其填寫(xiě)問(wèn)卷。
3.3數(shù)據(jù)挖掘和結(jié)果
。1)選擇數(shù)據(jù)挖掘的算法利用Clementine數(shù)據(jù)挖掘軟件,采用C5.O算法挖掘預(yù)處理之后數(shù)據(jù)。
(2)用戶數(shù)據(jù)分析
1)電子商務(wù)用戶認(rèn)知度分析按照調(diào)查問(wèn)卷的問(wèn)題“您知道電子商務(wù)嗎?”得到對(duì)電子商務(wù)用戶認(rèn)知情況的統(tǒng)計(jì),十分了解20.4%,了解30.1%,聽(tīng)過(guò)但不了解具體使用方法40.3%,從未聽(tīng)過(guò)8.9%。很多人僅聽(tīng)過(guò)電子商務(wù),但是并不清楚具體的功能與應(yīng)用方法,甚至有一小部分人沒(méi)有聽(tīng)過(guò)電子商務(wù)。對(duì)調(diào)查問(wèn)卷問(wèn)題“您聽(tīng)過(guò)電子商務(wù)的渠道是什么?”,大部分用戶是利用網(wǎng)了解電子商務(wù)的,占40.2%;僅有76人是利用紙質(zhì)報(bào)刊雜志上知道電子商務(wù)的并且對(duì)其進(jìn)行應(yīng)用;這也表明相較于網(wǎng)絡(luò)宣傳紙質(zhì)媒體推廣電子商務(wù)的方法缺乏有效性。
2)電子商務(wù)用戶需求用戶希求具體是指使用產(chǎn)品服務(wù)人員對(duì)應(yīng)用產(chǎn)品或服務(wù)形成的需求或者期望。按照問(wèn)題“假如你曾經(jīng)使用電子商務(wù),你覺(jué)得其用途怎樣,假如沒(méi)有使用過(guò),你覺(jué)得其對(duì)自己有用嗎?”得到了認(rèn)為需要和十分需要的數(shù)據(jù),覺(jué)得電子商務(wù)有用的用戶為40.7%,不清楚是否對(duì)自己有用的用戶為56.7%,認(rèn)為不需要的僅有2.4%。
3)電子商務(wù)用戶應(yīng)用意愿應(yīng)用意愿是指消費(fèi)者對(duì)某一產(chǎn)品服務(wù)進(jìn)行應(yīng)用或者購(gòu)買(mǎi)的一種心理欲望。按照問(wèn)題“假如可以滿足你所關(guān)心的因素,未來(lái)你會(huì)繼續(xù)應(yīng)用電子商務(wù)嗎?”獲得的數(shù)據(jù)可知,在滿足各種因素時(shí),將來(lái)一年之內(nèi)會(huì)應(yīng)用電子商務(wù)的用戶為78.2%,一定不會(huì)應(yīng)用電子商務(wù)的用戶為1.4%。表明用戶形成了較為強(qiáng)烈的應(yīng)用電子商務(wù)欲望,電子商務(wù)發(fā)展前景很好。基于用戶特征的電子商務(wù)數(shù)據(jù)研究,電子商務(wù)企業(yè)通過(guò)這一結(jié)果能夠更好地實(shí)行營(yíng)銷和推廣,對(duì)潛在用戶積極定位,提高用戶體驗(yàn),積極挖掘用戶價(jià)值。分析為企業(yè)準(zhǔn)確營(yíng)銷和推廣企業(yè)提供了一個(gè)有效的借鑒。
4結(jié)語(yǔ)
互聯(lián)網(wǎng)中數(shù)據(jù)是最寶貴的資源之一,大量數(shù)據(jù)中包含了很大的潛在價(jià)值,對(duì)這些數(shù)據(jù)深入挖掘?qū)ヂ?lián)網(wǎng)商務(wù)、企業(yè)推廣、傳播信息發(fā)揮了巨大的作用。近些年來(lái),數(shù)據(jù)挖掘技術(shù)獲得了信息產(chǎn)業(yè)的極大重視,具體原因是出現(xiàn)了大量的數(shù)據(jù),能夠廣泛應(yīng)用,并且需要轉(zhuǎn)化數(shù)據(jù)成為有價(jià)值的信息知識(shí)。通過(guò)基于用戶特征的電子商務(wù)數(shù)據(jù)挖掘研究,促使電子商務(wù)獲得巨大發(fā)展機(jī)會(huì),發(fā)現(xiàn)潛在用戶,促使電子商務(wù)企業(yè)精準(zhǔn)營(yíng)銷。
數(shù)據(jù)挖掘論文14
[摘 要]目前,隨著現(xiàn)代科技的發(fā)展,互聯(lián)網(wǎng)已成為當(dāng)代主流,互聯(lián)網(wǎng)技術(shù)的應(yīng)用已經(jīng)是任何一個(gè)國(guó)家所不能脫離的,經(jīng)濟(jì)全球化已成為一個(gè)必然的趨勢(shì),在這樣的一個(gè)大數(shù)據(jù)時(shí)代,人民對(duì)信息的獲取需求呈直線上升的狀態(tài)。21世紀(jì)作為一個(gè)信息時(shí)代,網(wǎng)絡(luò)信息的安全防范也顯得尤為重要,而Web數(shù)據(jù)的數(shù)據(jù)技術(shù),對(duì)于網(wǎng)絡(luò)信息安全防范來(lái)說(shuō),是一個(gè)新的技術(shù)運(yùn)用。本文從Web數(shù)據(jù)挖掘技術(shù)的基本概述入手,分析我國(guó)企業(yè)在網(wǎng)絡(luò)信息安全方面存在的問(wèn)題,最后提出將網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘技術(shù)進(jìn)行整合運(yùn)用。
[關(guān)鍵詞]Web數(shù)據(jù)挖掘技術(shù);網(wǎng)絡(luò)信息;安全防范
doi:10.3969/j.issn.1673 - 0194.20xx.22.091
[中圖分類號(hào)]TP393 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(20xx)22-0-02
引 言
世界是發(fā)展的,事物是不斷變化的,21世紀(jì)是一個(gè)大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)技術(shù)顯得越來(lái)越重要。在科技發(fā)展的同時(shí),互聯(lián)網(wǎng)也在家家戶戶普及,然而網(wǎng)絡(luò)安全問(wèn)題卻隨之而來(lái),人們?cè)谶\(yùn)用科技時(shí)也在擔(dān)心網(wǎng)絡(luò)技術(shù)的安全性。鑒于此,本文探討利用Web數(shù)據(jù)挖掘技術(shù)來(lái)控制網(wǎng)絡(luò)安全,以提高網(wǎng)絡(luò)信息安全度。
1 Web數(shù)據(jù)挖掘技術(shù)概述
Web使用記錄挖掘方式是挖掘網(wǎng)絡(luò)上的瀏覽記錄,然后進(jìn)行分析,同時(shí)還可以獲取其他企業(yè)的信息。通過(guò)使用Web數(shù)據(jù)挖掘技術(shù),企業(yè)可以進(jìn)行復(fù)雜的操作,然后從網(wǎng)頁(yè)瀏覽記錄分析出自身企業(yè)的受關(guān)注度,并了解同行競(jìng)爭(zhēng)企業(yè)的詳細(xì)信息,尋找自身的不足。
1.1 Web數(shù)據(jù)挖掘技術(shù)的含義
Web數(shù)據(jù)挖掘技術(shù),指的是通過(guò)自身的技術(shù),在獲取網(wǎng)上資源的同時(shí),尋找到企業(yè)感興趣的信息資料。圖1為Web數(shù)據(jù)發(fā)掘技術(shù)工作流程。
Web數(shù)據(jù)發(fā)掘技術(shù)可以涉及多個(gè)領(lǐng)域,通過(guò)多種數(shù)據(jù)挖掘方式,為企業(yè)找到有用的信息資源。整體來(lái)說(shuō),Web挖掘技術(shù)有兩種類型,一是建立在人工智能模型的基礎(chǔ)上來(lái)實(shí)現(xiàn),類似于決策樹(shù)、分類等;二是建立在統(tǒng)計(jì)模型基礎(chǔ)上來(lái)實(shí)現(xiàn),類似于神經(jīng)網(wǎng)絡(luò)、自然計(jì)算法等。
1.2 Web數(shù)據(jù)挖掘技術(shù)的兩種方式
Web數(shù)據(jù)挖掘技術(shù)整體上來(lái)說(shuō)有兩種方式,分別為內(nèi)容挖掘和使用記錄挖掘。Web內(nèi)容挖掘指的是企業(yè)可以通過(guò)Web挖掘技術(shù),自己從網(wǎng)上尋找對(duì)企業(yè)有用的信息資源,同時(shí)對(duì)后臺(tái)設(shè)置進(jìn)行監(jiān)控,減少某些重要交易內(nèi)容的丟失、泄露。企業(yè)還可以通過(guò)Web挖掘技術(shù),查詢某些用戶的操作記錄,對(duì)企業(yè)的網(wǎng)絡(luò)信息安全進(jìn)行檢查審核,從而降低企業(yè)信息被不法分子竊取的風(fēng)險(xiǎn)。由于其他企業(yè)也有同樣的Web數(shù)據(jù)挖掘技術(shù),因此,企業(yè)也不能深入地去探索同行企業(yè)的內(nèi)部信息,但其通過(guò)該技術(shù),可以分析其他企業(yè)的基本信息資源,然后整合出對(duì)自身有用的資源,從而制定企業(yè)市場(chǎng)戰(zhàn)略。
2 我國(guó)企業(yè)在網(wǎng)絡(luò)信息安全方面存在的問(wèn)題
目前,科技的發(fā)展,使全球的政治、經(jīng)濟(jì)一體化趨勢(shì)越來(lái)越明顯,互聯(lián)網(wǎng)的進(jìn)步也使國(guó)家企業(yè)面臨著更多的挑戰(zhàn)。我國(guó)企業(yè)在網(wǎng)絡(luò)信息安全方面存在的問(wèn)題也逐步顯現(xiàn),而網(wǎng)絡(luò)信息安全技術(shù)人才緊缺是較為明顯的一個(gè)問(wèn)題。
2.1 人才緊缺問(wèn)題
21世紀(jì)是一個(gè)互聯(lián)網(wǎng)的世紀(jì),我國(guó)目前正在積極地吸收、引進(jìn)人才,同時(shí)也在不斷地走出去,各行各業(yè)面臨的壓力也在逐漸變大,要想在快速發(fā)展的世界潮流中占據(jù)一席之地,我國(guó)必須積極發(fā)展自己的科技產(chǎn)業(yè)。目前,我國(guó)的計(jì)算機(jī)信息技術(shù)水平,在總體上還落后于其他很多國(guó)家,而在該方面的人才緊缺問(wèn)題,是目前一個(gè)很明顯的現(xiàn)象。我國(guó)在該領(lǐng)域常常要引進(jìn)國(guó)外技術(shù),受制于人,這也就間接地將自己的弊端暴露于人前,因此,我國(guó)要積極培養(yǎng)具有計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的高端人員,從而促進(jìn)該領(lǐng)域不斷實(shí)現(xiàn)創(chuàng)新。
2.2 自身安全技術(shù)漏洞問(wèn)題
除了人才緊缺,我國(guó)的'網(wǎng)絡(luò)產(chǎn)品自身還存在許多的安全技術(shù)漏洞。從近幾年的市場(chǎng)經(jīng)濟(jì)發(fā)展現(xiàn)狀來(lái)看,我國(guó)很多的電子產(chǎn)品被國(guó)外壟斷,如蘋(píng)果、微軟等高端電子產(chǎn)品,在我國(guó)占有很大的市場(chǎng)份額。我國(guó)要想重新將自己的電子產(chǎn)品推向市場(chǎng),就目前的形勢(shì)來(lái)看,還需要很大的努力,國(guó)民崇尚國(guó)外產(chǎn)品,不是為了標(biāo)榜自己的地位,更多的是國(guó)外產(chǎn)品的性能確實(shí)比我國(guó)的要好。因此,通過(guò)我國(guó)網(wǎng)絡(luò)產(chǎn)品自身存在的安全技術(shù)漏洞可以看出,我國(guó)在網(wǎng)絡(luò)安全技術(shù)方面存在許多的不足。
3 網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘技術(shù)的整合
近幾年,網(wǎng)絡(luò)信息安全問(wèn)題一直是國(guó)民較為關(guān)注的一個(gè)話題,我國(guó)也在該方面加大了防范力度。國(guó)家在發(fā)展創(chuàng)新互聯(lián)網(wǎng)技術(shù)的同時(shí),也不能忽略其安全問(wèn)題。網(wǎng)絡(luò)信息安全,關(guān)乎我國(guó)企業(yè)的發(fā)展,是企業(yè)重要資料不外漏的重要保護(hù)屏障,本文將網(wǎng)絡(luò)信息安全防范與Web數(shù)據(jù)挖掘技術(shù)進(jìn)行整合(見(jiàn)圖2),旨在提高網(wǎng)絡(luò)信息環(huán)境的安全度,提高我國(guó)網(wǎng)絡(luò)信息安全防范能力。
本文初探Web數(shù)據(jù)挖掘技術(shù)與網(wǎng)絡(luò)信息安全防范的整合,將分別從4個(gè)方面來(lái)提高我國(guó)的網(wǎng)絡(luò)信息安全性能。
首先,將存在于網(wǎng)絡(luò)數(shù)據(jù)間的關(guān)聯(lián)尋找出來(lái),然后整合交給企業(yè)進(jìn)行分析,企業(yè)通過(guò)這些關(guān)聯(lián)數(shù)據(jù),分析提煉出對(duì)自己企業(yè)有用的信息,繼而制定企業(yè)戰(zhàn)略,防范風(fēng)險(xiǎn)。
其次,使用Web數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)絡(luò)信息進(jìn)行分類分析。企業(yè)應(yīng)將所有的信息進(jìn)行綜合,然后按照一定的指標(biāo)分出類別,并對(duì)這些不同類別的信息進(jìn)行整理,方便后續(xù)的檢索。該項(xiàng)功能主要依靠人工智能來(lái)完成,以保證資料能夠得到完整的利用。
再次,使用Web數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)絡(luò)信息進(jìn)行聚類分析。企業(yè)應(yīng)將這些具有共同點(diǎn)的信息進(jìn)行分類,將這些數(shù)據(jù)分成各個(gè)小組,但每一個(gè)小組都要有一個(gè)共同的類似點(diǎn),以便于從整體對(duì)局部進(jìn)行分析。
最后,利用Web數(shù)據(jù)挖掘技術(shù),根據(jù)收集到的資源信息的不同點(diǎn)進(jìn)行分類,分類后根據(jù)這些不同點(diǎn)的特征,分析出對(duì)自身企業(yè)有用的信息。從整體上說(shuō),Web數(shù)據(jù)挖掘技術(shù)通過(guò)運(yùn)用其強(qiáng)大的分析能力,可對(duì)網(wǎng)絡(luò)信息進(jìn)行篩選、整合,企業(yè)可再根據(jù)這些整合出來(lái)的資源信息,為自身制定戰(zhàn)略,為企業(yè)發(fā)展提供一個(gè)良好的網(wǎng)絡(luò)信息環(huán)境。
4 結(jié) 語(yǔ)
網(wǎng)絡(luò)技術(shù)在給用戶帶來(lái)便利的同時(shí),也給用戶的信息安全造成了極大的威脅,科技進(jìn)步,技術(shù)也在不斷進(jìn)步,為了使信息得到最大的保護(hù),網(wǎng)絡(luò)信息的安全技術(shù)要隨著科技的進(jìn)步不斷發(fā)展,為互聯(lián)網(wǎng)的運(yùn)用提供一個(gè)完善安全的網(wǎng)絡(luò)系統(tǒng)。本文通過(guò)Web數(shù)據(jù)挖掘技術(shù),將網(wǎng)絡(luò)信息安全防范與該技術(shù)進(jìn)行有效整合,提高了我國(guó)企業(yè)的網(wǎng)絡(luò)信息安全度,以為我國(guó)企業(yè)的發(fā)展提供一個(gè)良好的環(huán)境。
主要參考文獻(xiàn)
[1]劉波.淺談數(shù)據(jù)挖掘技術(shù)在臨床醫(yī)學(xué)領(lǐng)域中的應(yīng)用[J].電子世界,20xx(12).
[2]趙炬紅,陳坤彥.基于數(shù)據(jù)挖掘技術(shù)的茶葉營(yíng)銷策略分析[J].福建茶葉,20xx(5).
[3]崔道江,陳琳,李勇.智能檢索引擎中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)優(yōu)化研究[J].計(jì)算機(jī)測(cè)量與控制,20xx(6).
[4]王珣.基于Spark平臺(tái)的大數(shù)據(jù)挖掘技術(shù)研究[J].微型電腦應(yīng)用,20xx(6)
數(shù)據(jù)挖掘論文15
摘要:文章首先對(duì)數(shù)據(jù)挖掘技術(shù)及其具體功能進(jìn)行簡(jiǎn)要分析,在此基礎(chǔ)上對(duì)科研管理中數(shù)據(jù)挖掘技術(shù)的應(yīng)用進(jìn)行論述。期望通過(guò)本文的研究能夠?qū)蒲泄芾硭降倪M(jìn)一步提升有所幫助。
關(guān)鍵詞:科研管理;數(shù)據(jù)挖掘;技術(shù)應(yīng)用
1數(shù)據(jù)挖掘技術(shù)及其具體功能分析
所謂的數(shù)據(jù)挖掘具體是指通過(guò)相關(guān)的算法在大量的數(shù)據(jù)當(dāng)中對(duì)隱藏的、有利用價(jià)值的信息進(jìn)行搜索的過(guò)程。數(shù)據(jù)挖掘是一門(mén)綜合性較強(qiáng)的科學(xué)技術(shù),其中涉及諸多領(lǐng)域的知識(shí),如人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)、數(shù)理統(tǒng)計(jì)等等。數(shù)據(jù)挖掘技術(shù)具有如下幾個(gè)方面的功能:1.1關(guān)聯(lián)規(guī)則分析。這是數(shù)據(jù)挖掘技術(shù)較為重要的功能之一,可從給定的數(shù)據(jù)集當(dāng)中,找到出現(xiàn)比較頻繁的項(xiàng)集,該項(xiàng)集具體是指行形如X->Y,在數(shù)據(jù)庫(kù)當(dāng)中,X和Y所代表的均為屬性取值。在關(guān)聯(lián)規(guī)則下,只要數(shù)據(jù)滿足X條件,就一定滿足Y條件,數(shù)據(jù)挖掘技術(shù)的這個(gè)功能在商業(yè)金融等領(lǐng)域中的應(yīng)用較為廣泛。1.2回歸模式分析回歸模式主要是通過(guò)對(duì)連續(xù)數(shù)值的預(yù)測(cè),來(lái)達(dá)到挖掘數(shù)據(jù)的目的。例如,已知企業(yè)某個(gè)人的教育背景、工作年限等條件,可對(duì)其年薪的范圍進(jìn)行判定,整個(gè)分析過(guò)程是利用回歸模型予以實(shí)現(xiàn)的。在該功能中,已知的條件越多,可進(jìn)行挖掘的信息就越多。1.3聚類分析聚類具體是指將相似程度較高的數(shù)據(jù)歸為同一個(gè)類別,通過(guò)聚類分析能夠從數(shù)據(jù)集中找出類似的數(shù)據(jù),并組成不同的組。在聚類分析的過(guò)程中,需要使用聚類算法,借助該算法對(duì)數(shù)據(jù)進(jìn)行檢測(cè)后,可以判斷其隱藏的屬性,并將數(shù)據(jù)庫(kù)分為若干個(gè)相似的組。
2科研管理中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
科研是科學(xué)研究的簡(jiǎn)稱,具體是指為認(rèn)識(shí)客觀事物在內(nèi)在本質(zhì)及其運(yùn)動(dòng)規(guī)律,而借助某些技術(shù)手段和設(shè)備,開(kāi)展調(diào)查研究、實(shí)驗(yàn)等活動(dòng),并為發(fā)明和創(chuàng)造新產(chǎn)品提供理論依據(jù)?蒲泄芾硎菍(duì)科研項(xiàng)目全過(guò)程的`管理,如課題管理、經(jīng)費(fèi)管理、成果管理等等。由于科學(xué)研究中涉及的內(nèi)容較多,從而給科研管理工作增添了一定的難度。為進(jìn)一步提升科研管理水平,可在不同的管理環(huán)節(jié)中,對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行應(yīng)用。下面就此展開(kāi)詳細(xì)論述。
2.1在立項(xiàng)及可行性評(píng)估中的應(yīng)用
科研管理工作的開(kāi)展需要以相關(guān)的科研課題作為依托,當(dāng)課題選定之后,需要對(duì)其可行性及合理性進(jìn)行全面系統(tǒng)地評(píng)估,由此使得科研課題的立項(xiàng)及評(píng)估成為科研管理的主要工作內(nèi)容,F(xiàn)階段,國(guó)內(nèi)的科研課題立項(xiàng)采用的是申請(qǐng)審批制,具體的流程是:由科研機(jī)構(gòu)的相關(guān)人員負(fù)責(zé)提出申請(qǐng),然后再由科技主管部門(mén)從申請(qǐng)中進(jìn)行篩選,經(jīng)過(guò)業(yè)內(nèi)專家的評(píng)審論證之后,擇優(yōu)選取科研項(xiàng)目的承接單位。在進(jìn)行科研課題立項(xiàng)的過(guò)程中,涉及諸多方面的內(nèi)容,具體包括申請(qǐng)單位、課題的研究領(lǐng)域、經(jīng)費(fèi)安排、主管單位以及評(píng)審專家等。通過(guò)調(diào)查發(fā)現(xiàn),由于國(guó)家宏觀調(diào)控政策的缺失,導(dǎo)致科研立項(xiàng)中存在低水平、重復(fù)性研究的情況,從而造成大量的研究經(jīng)費(fèi)浪費(fèi),所取得的研究成果也不顯著?蒲泄芾聿块T(mén)雖然建立了相對(duì)完善的數(shù)據(jù)庫(kù)系統(tǒng),并且系統(tǒng)也涵蓋與項(xiàng)目申請(qǐng)、審評(píng)等方面有關(guān)的基本操作流程,如上傳項(xiàng)目申報(bào)文件、將文件發(fā)給相關(guān)的評(píng)審專家、對(duì)評(píng)審結(jié)果進(jìn)行自動(dòng)統(tǒng)計(jì)等。從本質(zhì)的角度上講,數(shù)據(jù)庫(kù)管理系統(tǒng)所完成的這些工作流程,就是將傳統(tǒng)管理工作轉(zhuǎn)變?yōu)樾畔⒒。故此,?yīng)當(dāng)對(duì)已有的數(shù)據(jù)進(jìn)行深入挖掘,從而找出其中更具利用價(jià)值的信息,據(jù)此對(duì)科研立項(xiàng)進(jìn)行指導(dǎo),這樣不但能夠使有限的科技資源得到最大限度地利用,而且還能使科研經(jīng)費(fèi)的使用效益獲得全面提升。在科研立項(xiàng)階段,可對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行合理運(yùn)用,借此來(lái)對(duì)課題申請(qǐng)中涉及的各種因素進(jìn)行挖掘,找出其中潛在的規(guī)則,為指標(biāo)體系的構(gòu)建和遴選方法的選擇提供可靠依據(jù),最大限度地降低不合理因素對(duì)課題立項(xiàng)帶來(lái)的影響,對(duì)確需資助的科研項(xiàng)目進(jìn)行準(zhǔn)確選擇,并給予相應(yīng)的資助。在科研立項(xiàng)環(huán)節(jié)中,對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行應(yīng)用時(shí),可以借助改進(jìn)后的Apriori算法進(jìn)行數(shù)據(jù)挖掘,從中找出關(guān)聯(lián)規(guī)則,在對(duì)該規(guī)則進(jìn)行分析的基礎(chǔ)上,對(duì)立項(xiàng)的合理性進(jìn)行評(píng)價(jià)。
2.2在項(xiàng)目管理中的應(yīng)用
項(xiàng)目管理是科研管理的關(guān)鍵環(huán)節(jié),為提高項(xiàng)目管理的效率和水平,可對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行合理運(yùn)用。在信息時(shí)代到來(lái)的今天,計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)的普及程度越來(lái)越高,國(guó)內(nèi)很多科研機(jī)構(gòu)都紛紛構(gòu)建起了相關(guān)的管理信息系統(tǒng),其中涵蓋了諸多的信息,如課題、科研人員、研究條件等等,而在這些信息當(dāng)中,隱藏著諸多具有特定意義的規(guī)則,為找出這些規(guī)則,需要借助數(shù)據(jù)挖掘技術(shù),對(duì)信息進(jìn)行深入分析,進(jìn)而獲取對(duì)科研項(xiàng)目有幫助的信息。由于大部分科研管理部門(mén)建立的科研管理信息系統(tǒng)時(shí)間較早,從而使得系統(tǒng)本身的功能比較單一,如信息刪減、修改、查詢、統(tǒng)計(jì)等等,雖然這些功能可以滿足對(duì)科研課題進(jìn)展、經(jīng)費(fèi)使用等方面的管理,但其面向的均為數(shù)據(jù)庫(kù)管理人員,處理的也都是常規(guī)事務(wù)。而從科研課題的管理者與決策者的角度上看,管理信息系統(tǒng)這些功能顯然是有所不足的,因?yàn)樗麄冃枰獙?duì)歷史進(jìn)行分析和提煉,從中獲取相應(yīng)的數(shù)據(jù),為決策和管理工作的開(kāi)展提供支撐。對(duì)此,可應(yīng)用數(shù)據(jù)挖掘技術(shù)的OLAP,即數(shù)據(jù)庫(kù)聯(lián)機(jī)分析處理,由此能夠幫助管理者從不同的方面對(duì)數(shù)據(jù)進(jìn)行觀察,進(jìn)而深入了解數(shù)據(jù)并獲取所需的信息。利用OLAP可以發(fā)現(xiàn)多種于科研課題有關(guān)信息之間的內(nèi)在聯(lián)系,這樣管理者便能及時(shí)發(fā)現(xiàn)其中存在的相關(guān)問(wèn)題,并針對(duì)問(wèn)題采取有效的方法和措施加以應(yīng)對(duì)。運(yùn)用數(shù)據(jù)挖掘技術(shù)能夠?qū)蒲许?xiàng)目的相關(guān)數(shù)據(jù)進(jìn)行分析,找出其中存在的矛盾,從而使管理工作的開(kāi)展更具針對(duì)性。
3結(jié)論
綜上所述,科研管理是一項(xiàng)較為復(fù)雜且系統(tǒng)的工作,其中涵蓋的信息相對(duì)較多。為此,可將數(shù)據(jù)挖掘技術(shù)在科研管理中進(jìn)行合理應(yīng)用,對(duì)相關(guān)信息進(jìn)行深入分析,從中挖掘出有利用價(jià)值的信息,為科研管理工作的開(kāi)展提供可靠的依據(jù),由此除了能夠確?蒲许(xiàng)目順利進(jìn)行之外,還能提高科研管理水平。
參考文獻(xiàn):
。1]劉占波,王立偉,王曉麗.大數(shù)據(jù)環(huán)境下基于數(shù)據(jù)挖掘技術(shù)的高?蒲泄芾硐到y(tǒng)的設(shè)計(jì)[J].電子測(cè)試,20xx(1):21-22.
。2]史子靜.高?蒲泄芾硐到y(tǒng)中計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的運(yùn)用研究[J].科技資訊,20xx(6):65-66.
[3]丁磊.?dāng)?shù)據(jù)挖掘技術(shù)在高校教師科研管理中的應(yīng)用研究[D].大連海事大學(xué),20xx.
【數(shù)據(jù)挖掘論文】相關(guān)文章:
數(shù)據(jù)挖掘論文07-16
數(shù)據(jù)挖掘論文07-15
旅游管理下數(shù)據(jù)挖掘運(yùn)用論文11-18
旅游管理下數(shù)據(jù)挖掘運(yùn)用論文6篇11-18
計(jì)算機(jī)數(shù)據(jù)庫(kù)論文07-28
關(guān)于大數(shù)據(jù)時(shí)代下的隱私保護(hù)探究論文04-14
基于大數(shù)據(jù)的江蘇省農(nóng)村電商建設(shè)不足與完善論文03-09
數(shù)據(jù)分析報(bào)告02-02
數(shù)據(jù)員的個(gè)人總結(jié)03-23
關(guān)于挖掘合同04-08