基于興趣的電子商務(wù)數(shù)據(jù)挖掘技術(shù)的研究.docx

上傳人:good****022 文檔編號:116533174 上傳時間:2022-07-05 格式:DOCX 頁數(shù):3 大?。?8.41KB
收藏 版權(quán)申訴 舉報 下載
基于興趣的電子商務(wù)數(shù)據(jù)挖掘技術(shù)的研究.docx_第1頁
第1頁 / 共3頁
基于興趣的電子商務(wù)數(shù)據(jù)挖掘技術(shù)的研究.docx_第2頁
第2頁 / 共3頁
基于興趣的電子商務(wù)數(shù)據(jù)挖掘技術(shù)的研究.docx_第3頁
第3頁 / 共3頁

最后一頁預(yù)覽完了!喜歡就下載吧,查找使用更方便

10 積分

下載資源

資源描述:

《基于興趣的電子商務(wù)數(shù)據(jù)挖掘技術(shù)的研究.docx》由會員分享,可在線閱讀,更多相關(guān)《基于興趣的電子商務(wù)數(shù)據(jù)挖掘技術(shù)的研究.docx(3頁珍藏版)》請在裝配圖網(wǎng)上搜索。

1、基于興趣的電子商務(wù)數(shù)據(jù)挖掘技術(shù)的研究摘要 本文對電子商務(wù)Web頁數(shù)據(jù)挖掘技術(shù)做了全面分析,對于個性化電子商務(wù)網(wǎng)站中難以發(fā)現(xiàn)用戶興趣行為特征問題,給出了Web頁面關(guān)聯(lián)算法。利用數(shù)據(jù)倉庫技術(shù)可有效挖掘用戶興趣特征,從而指導(dǎo)電子商務(wù)網(wǎng)站資源的組織和分配,為商務(wù)型網(wǎng)站的投資者和建立者提供正確的盈利導(dǎo)向。 關(guān)鍵詞 電子商務(wù)數(shù)據(jù)挖掘興趣特征 數(shù)據(jù)挖掘技術(shù)是隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)發(fā)展起來的一種新型的交叉信息技術(shù)。無論是B2B、B2C還是B2G電子商務(wù)模式,商品的采購者都需要通過Web方式與商品的供應(yīng)商及其合作者之間建立信息流的交互,面向電子商務(wù)的數(shù)據(jù)挖掘的特點就是從Web數(shù)據(jù)庫中,運用關(guān)聯(lián)、分類、聚類

2、等技術(shù)手段,從中提取出可以指導(dǎo)市場策略的有用數(shù)據(jù)。它基于“消費者過去的行為預(yù)示著其今后的消費傾向”的原理,通過收集、分析和處理從網(wǎng)上獲取的有關(guān)消費者消費行為的數(shù)據(jù),從潛在的、隱含的、事先不知的狀態(tài),經(jīng)過提取、洗滌、加工變?yōu)闈摿薮蟮膬r值信息,從而實現(xiàn)網(wǎng)絡(luò)營銷的目的,確定特定消費群體或個體的消費習(xí)慣、愛好、傾向,進(jìn)而預(yù)示出消費者下一步的消費行為,有針對性地提供服務(wù)。 一、電子商務(wù)Web數(shù)據(jù)挖掘技術(shù) 1.電子商務(wù)Web數(shù)據(jù)挖掘技術(shù)的分類 電子商務(wù)Web數(shù)據(jù)挖掘一般可分為三個部分:內(nèi)容挖掘、結(jié)構(gòu)挖掘、用法挖掘。Web內(nèi)容挖掘有兩種策略:直接挖掘文檔內(nèi)容和在其他檢索工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。Web結(jié)構(gòu)

3、挖掘是從WWW上的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識。Web用法挖掘的主要目標(biāo)是從Web的訪問記錄中抽取感興趣的模式。大多數(shù)基于數(shù)據(jù)庫的數(shù)據(jù)挖掘方法均可作用于電子商務(wù)Web數(shù)據(jù)挖掘。 在研究以電子商務(wù)網(wǎng)上購物為應(yīng)用背景的工作時發(fā)現(xiàn)。商家在Web上建立自己的在線商品目錄,顧客(即用戶)通過瀏覽器可以瀏覽商品目錄、實現(xiàn)網(wǎng)上訂購甚至網(wǎng)上支付等。用戶與商家的Web服務(wù)器間交互的過程信息(包括用戶的登錄信息、用戶的瀏覽記錄)以及用戶的個人簡要信息等,都能以日志文件或顧客數(shù)據(jù)庫的形式存在,從中找出規(guī)律性,對商家的市場銷售是至關(guān)重要的;從大量顧客數(shù)據(jù)及日志數(shù)據(jù)中,應(yīng)用到計算機并行處理、神經(jīng)元網(wǎng)絡(luò)、模型化算法和其他

4、信息處理技術(shù)手段,挖掘出有意義的用戶訪問模式及相關(guān)的潛在顧客群,從中可得到商家用于向特定消費群體或個體進(jìn)行定向營銷的決策信息。同時有效地對這些Web日志進(jìn)行定量分析,揭示其中的關(guān)聯(lián)關(guān)系、時序關(guān)系、頁面類屬關(guān)系、客戶類屬關(guān)系和頻繁訪問路徑、頻繁訪問頁面等,不但可為優(yōu)化Web站點拓?fù)浣Y(jié)構(gòu)提供參考,而且還可為企業(yè)更有效地確認(rèn)目標(biāo)市場、改進(jìn)決策獲得更大的競爭優(yōu)勢提供幫助。 2.電子商務(wù)Web數(shù)據(jù)挖掘模型構(gòu)建和基本流程 電子商務(wù)Web服務(wù)器自動收集客戶瀏覽信息并保存在訪問日志、引用日志和代理日志中。典型的電子商務(wù)Web服務(wù)器日志文件包括以下信息:IP地址,請求時間,方法(如get),被請求文件的URL,

5、HTTP版本號,返回碼,傳輸字節(jié)數(shù),引用頁的URL和代理。 電子商務(wù)Web挖掘,首先對日志文件進(jìn)行預(yù)處理,預(yù)處理主要由兩部分構(gòu)成:數(shù)據(jù)清洗(data cleaning)和事務(wù)識別(transaction identification)。包括對Web日志進(jìn)行清洗、過濾和轉(zhuǎn)換以及無關(guān)記錄的剔除,判斷是否有重要的訪問沒有被記錄,并從中抽取感興趣的數(shù)據(jù);并將URL、資源的類型、大小、請求的時間、在資源上停留的時間、請求者的Internet域名、用戶、服務(wù)器狀態(tài)作為數(shù)據(jù)cube的維數(shù)變量;再將對模塊、頁面和文件請求次數(shù),來自不同Internet域請求次數(shù)、事件、會話、帶寬、錯誤次數(shù)、不同瀏覽器種類、用戶

6、所在組織作為度量變量建立data cube;而將文件、圖像腳本及多媒體等其他文件轉(zhuǎn)換成可用于Web使用挖掘的數(shù)據(jù)格式,從而可將數(shù)據(jù)挖掘技術(shù)用于Web流量分析、典型的事件序列分析和用戶行為模式分析及事務(wù)分析。 定義函數(shù)log=ip,uid,url,time表示電子商務(wù)Web服務(wù)器日志。其中,ip,uid,url,time分別標(biāo)識客戶ip、客戶id、客戶請求的url和瀏覽時間。 在經(jīng)過數(shù)據(jù)預(yù)處理階段后,即可針對電子商務(wù)中不同的挖掘目標(biāo)可以采用不同的數(shù)據(jù)挖掘方法,選擇數(shù)據(jù)挖掘模式,如統(tǒng)計分析、關(guān)聯(lián)規(guī)則、時序模式、路徑分析(path analysis)及聚類、分類技術(shù)。 進(jìn)行實際的挖掘操作的要點有:首

7、先決定如何產(chǎn)生假設(shè);選擇合適的工具;發(fā)掘知識的操作;證實發(fā)現(xiàn)的知識。 二、基于興趣的關(guān)聯(lián)算法在電子商務(wù)中的Web挖掘應(yīng)用 關(guān)聯(lián)分析是尋找在同一個事件中出現(xiàn)的不同項的相關(guān)性,比如在一次購買活動中所買不同商品的相關(guān)性。序列模式與此類似,它尋找的是事件之間時間上的相關(guān)性,假設(shè)I=i1 ,i2 ,im 是所有項的集合, 相當(dāng)于商品的所有種類的集合,D是所有事務(wù)的集合, 也即數(shù)據(jù)庫中記錄的集合, 事務(wù)T=t1 ,t2 , ,tn,tiI, 相當(dāng)于交易中的商品列表。設(shè)X是一個I中項的集合,如果XTk,那么稱交易Tk包含項集X,若X,Y為項集,XI, YI,并且XY=,則形如X=Y的表達(dá)式稱為關(guān)聯(lián)規(guī)則。 計

8、算方法: 交易數(shù)據(jù)集中同時包含X和Y的交易數(shù)與所有交易數(shù)之比: support(XY)=P(XY)=|T:XYT,TD|/|D|100%(其中|D|是交易數(shù)據(jù)集D中的所有交易數(shù)),給定一個交易集 D, 挖掘關(guān)聯(lián)規(guī)則問題就是產(chǎn)生支持度和可信度分別大于用戶給定的最小支持度 (minsupp)和最小確信度(minconf)的關(guān)聯(lián)規(guī)則。當(dāng)規(guī)則的確信度和支持度分別大于minsupp、minconf 時,我們認(rèn)為規(guī)則是有效的,稱為強關(guān)聯(lián)規(guī)則。當(dāng)數(shù)據(jù)項集X的支持度大于minsupp時, 稱X為高頻數(shù)據(jù)項集。 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)任務(wù)的本質(zhì)是要在數(shù)據(jù)庫中發(fā)現(xiàn)強關(guān)聯(lián)規(guī)則。在電子商務(wù)中關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)也就是要找到客戶對網(wǎng)站

9、上各種文件之間訪問的相互聯(lián)系。例如,用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)技術(shù),我們可以找到以下的相關(guān)性:40%的客戶訪問頁面/company/product1時,也訪問了/company/product2。30%的客戶在訪問/company/special時,在/company/product1進(jìn)行了在線定購。利用這些相關(guān)性,可以更好的組織站點,實施有效的市場策略。 三、數(shù)據(jù)挖掘技術(shù)的工具 隨著電子商務(wù)和數(shù)據(jù)庫技術(shù)的發(fā)展,越來越多的公司、廠家開始開發(fā)數(shù)據(jù)挖掘工具。如Oracle公司通過從Thinking Machine公司獲得Darwin產(chǎn)品來增強其數(shù)據(jù)挖掘功能;IBM公司的Intelligent Miner提供了基于DB2的數(shù)據(jù)挖掘能力,提供了支持C+類和方法的API(應(yīng)用程序接口);SAS公司推出的SASEM(Enterprise Miner)數(shù)據(jù)挖掘軟件可以對Oracle、Informix、Sybase、DB2的數(shù)據(jù)集進(jìn)行操作。Accrue公司更是推出了一個綜合性Web數(shù)據(jù)挖掘工具,能夠?qū)W(wǎng)站的運行狀況進(jìn)行深入、細(xì)致和準(zhǔn)確的分析。 四、小結(jié) 電子商務(wù)Web數(shù)據(jù)挖掘很好地解決了從數(shù)據(jù)到知識轉(zhuǎn)化的問題,為我國的商務(wù)網(wǎng)站個性化定制提供了技術(shù)的可行性,并為網(wǎng)站實現(xiàn)經(jīng)濟(jì)效益提供了一條發(fā)展的新路。

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!