淺談互聯(lián)網(wǎng)頁面價(jià)值.ppt
《淺談互聯(lián)網(wǎng)頁面價(jià)值.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《淺談互聯(lián)網(wǎng)頁面價(jià)值.ppt(17頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
淺談互聯(lián)網(wǎng)頁面價(jià)值,齊家2013-7-18,課程提綱,一、什么頁面價(jià)值二、為什么要研究頁面價(jià)值三、如何判斷頁面價(jià)值1.受眾2.稀缺3.質(zhì)量4.時(shí)效性四、頁面價(jià)值的研究重點(diǎn)五、頁面價(jià)值在工作中的運(yùn)用,一、什么頁面價(jià)值,用戶價(jià)值:某個(gè)頁面滿足了某一用戶的特定需求,就體現(xiàn)了這個(gè)頁面對用戶的價(jià)值(對用戶有用)檢索價(jià)值:只要是能解決某個(gè)用戶信息需求的,并且是可以通過某些正常檢索需求到達(dá)的,那么就是有檢索價(jià)值的。(能夠搜索到的對用戶有用的信息)只有瀏覽價(jià)值的頁面:只有“瀏覽”價(jià)值,而沒有到達(dá)該信息的檢索途徑,那么該資源可能是有價(jià)值的,但檢索價(jià)值就很低。(例子:一張百度大廈附近的地圖,并且沒有任何周邊文字說明(或者link的anchortext),只有一張光禿禿的地圖)結(jié)論:通俗的說,頁面價(jià)值就是指對用戶有用,并且能夠通過搜索找的頁面。,一、什么頁面價(jià)值,一個(gè)頁面是否有檢索價(jià)值,應(yīng)該取決于兩點(diǎn):1)是否能解決某個(gè)特定的需求(價(jià)值)2)是否可以通過某個(gè)常規(guī)的搜索方式獲得該信息(檢索),二、為什么要研究頁面價(jià)值,不可能抓取所有的互聯(lián)網(wǎng)頁面,所以需要優(yōu)先抓取有價(jià)值的頁面對于一個(gè)網(wǎng)站或一個(gè)IP抓取速率需要有一個(gè)抓取速率的上限。在這一限制下,抓取或頁面更新就需要有一個(gè)先后順序。對于這些無價(jià)值的頁面,好的搜索引擎會(huì)在第一時(shí)間將其排除出索引,或在檢索時(shí)對其進(jìn)行屏蔽。(例子:對于某些頁面,頁面內(nèi)容發(fā)生變化,導(dǎo)致它的檢索價(jià)值從有到無。典型的就是變?yōu)椤八梨湣?,或者被黑”)以多快的速度收錄和以多短的周期更新索引,需要通過頁面價(jià)值的分析來指導(dǎo),在相關(guān)性大體相當(dāng)?shù)那闆r下,用戶更傾向與瀏覽普遍意義上頁面價(jià)值高的網(wǎng)頁對頁面價(jià)值的認(rèn)識(shí)和判斷的準(zhǔn)確程度直接影響著搜索引擎的覆蓋率、死鏈率、時(shí)效性等幾大主要指標(biāo)。,三、如何判斷頁面價(jià)值,一個(gè)頁面的檢索價(jià)值,大致受以下四個(gè)要素的影響:1、感興趣的受眾群大小2、該頁面的稀缺程度(可替代性)3、該頁面的質(zhì)量高低4、該頁面的時(shí)效性特征強(qiáng)弱這四種要素,簡稱受眾,稀缺,質(zhì)量和時(shí)效性。例子:小學(xué)生張三qzone日記和李彥宏在i貼吧上發(fā)表一條十幾個(gè)字的i貼——受眾例子:搜索某個(gè)人的手機(jī)號(hào)碼——稀缺例子:比如資源下載速度,頁面的布局,廣告的多寡?!撁尜|(zhì)量例子:有著“新聞”的特征。典型的像各種“門”事件,地震、火災(zāi)等大型的自然災(zāi)害?!獣r(shí)效性,三、如何判斷頁面價(jià)值,1.受眾(代表了用戶檢索需求的大小,評價(jià)受眾的大小主要依據(jù)信息發(fā)布源的受眾和信息內(nèi)容本身受眾兩大方面。具體因素包括且不限于:)①網(wǎng)站忠實(shí)用戶群大小(擁有更多忠實(shí)用戶群的網(wǎng)站上的內(nèi)容,會(huì)比忠實(shí)用戶群較少的網(wǎng)站上的內(nèi)容,有更多的既有和潛在受眾群。)②資源分布規(guī)律相對于某些結(jié)構(gòu)性關(guān)鍵頁面(首頁、頻道頁等)的鏈接深度,也可以成為衡量一個(gè)資源受眾群大小的指標(biāo)了。③訪問熱門度(第三方的工具來獲取關(guān)鍵數(shù)據(jù)。)④超鏈(超鏈某種程度上也是受眾群大小的反映。某個(gè)資源的質(zhì)量越高,接觸的受眾群越大,那么獲得正常鏈接的數(shù)量往往也越大。)⑤內(nèi)容特征當(dāng)在發(fā)布源相同的情況下,具有公眾屬性的內(nèi)容分值會(huì)更高。例子(A:我寫博客:“傳言郭德綱要上春晚了。”B:我寫博客:“我今天吃早飯了?!保?三、如何判斷頁面價(jià)值,2.稀缺(稀缺主要是描述頁面在互聯(lián)網(wǎng)中的獨(dú)特性。)對于主體內(nèi)容重復(fù)的頁面,我們應(yīng)該評價(jià)其是否存在站點(diǎn)增益和內(nèi)容增益,只有對于大量完全無增益的重復(fù)頁面,我們才應(yīng)該認(rèn)為其稀缺度較低。例子:稀缺是不等同于無重復(fù):某人發(fā)表了一篇針對某新聞事件的原創(chuàng)博客,隨后被新浪轉(zhuǎn)載到了新聞?lì)l道。從描述的內(nèi)容上講,這是一種重復(fù)。但這種重復(fù)僅僅是主體內(nèi)容上的重復(fù),一方面它的轉(zhuǎn)載帶來了訪問速度、穩(wěn)定性等方面的增益,并且之后的檢索用戶還有可能用“新聞事件+新浪”來檢索此新聞。這可以被稱之為站點(diǎn)增益。另一方面,它在轉(zhuǎn)載過程中可能會(huì)改變頁面的標(biāo)題,而且依托其受眾,在轉(zhuǎn)載頁面上,還有可能出現(xiàn)更多的有價(jià)值評論和回復(fù)等,還有可能存在指向其它相關(guān)事件的新聞鏈接。這些可以被稱之為內(nèi)容增益。因此即使主題內(nèi)容沒有任何變化,新浪的這次轉(zhuǎn)載也是有價(jià)值的,其稀缺度也是較高的。同樣,反過來說,如果轉(zhuǎn)載的網(wǎng)站相當(dāng)不知名,則其無法帶來站點(diǎn)名/穩(wěn)定性/速度的增益。更有甚者,轉(zhuǎn)載之后在頁面上加入大量廣告妨礙閱讀,或者只轉(zhuǎn)載了內(nèi)容中不完整的一部分,這樣的轉(zhuǎn)載,或者說采集,就是純重復(fù)的,與采集源相比,就是沒有檢索價(jià)值的了。,三、如何判斷頁面價(jià)值,3.質(zhì)量(頁面的質(zhì)量是它對需求的滿足程度的一種體現(xiàn))判斷頁面質(zhì)量的高低,應(yīng)該是從最基礎(chǔ)的需求依次遞進(jìn)的。首先,不能是死鏈、網(wǎng)站要有一定的穩(wěn)定性、訪問速度要令人滿意。其次,主體內(nèi)容是否完整、版式和字體是否易讀、各類廣告會(huì)不會(huì)太多。最后,信息是否豐富、延伸出的次級需求是否滿足。高質(zhì)量的頁面定義:對用戶有用(滿足基本需求、延伸的次級需求),并且易于閱讀的頁面。,三、如何判斷頁面價(jià)值,典型的低質(zhì)量頁面存在以下一些特征:1、主需求無效/未滿足(過期分類廣告/軟件下載頁面,下載鏈接無效等)2、死鏈3、虛假信息/詐騙等4、點(diǎn)不穩(wěn)定5、影響主需求的權(quán)限問題(下載/瀏覽需要注冊會(huì)員/積分等)6、信息不完整(轉(zhuǎn)載不全等)7、瀏覽體驗(yàn)差(廣告/字體/頁面布局等),三、如何判斷頁面價(jià)值,典型的高質(zhì)量頁面存在以下一些特征:1、訪問速度快(頁面加載快/資源下載速度快)2、頁面整潔干凈,主體內(nèi)容在顯著位置。3、頁面信息完整。4、頁面元素豐富(文字、圖片、評論、相關(guān)推薦等),三、如何判斷頁面價(jià)值,4.時(shí)效性一般體現(xiàn)在兩個(gè)方面:一是頁面所描述的事物本身有著較強(qiáng)的公眾話題性,容易被傳播。這其實(shí)是受眾的一個(gè)體現(xiàn)。二是頁面所描述的事物僅在第一時(shí)間有較高熱度,隨著時(shí)間推移熱度顯著下降。這是一種“新聞”性。,三、如何判斷頁面價(jià)值,4.時(shí)效性:時(shí)效性一般體現(xiàn)在兩個(gè)方面:一是頁面所描述的事物本身有著較強(qiáng)的公眾話題性,容易被傳播。這其實(shí)是受眾的一個(gè)體現(xiàn)。二是頁面所描述的事物僅在第一時(shí)間有較高熱度,隨著時(shí)間推移熱度顯著下降。這是一種“新聞”性。,三、如何判斷頁面價(jià)值,判斷頁面的時(shí)效性價(jià)值,主要通過下面一些途徑:頁面本身受眾是否有短時(shí)間的突增,比如超鏈爆發(fā)。賈君鵬的帖子就是一個(gè)典型的例子。描述相同事物的互聯(lián)網(wǎng)頁面是否有段時(shí)間的突增。賈君鵬事件短時(shí)間內(nèi)爆發(fā)出大量相關(guān)討論、報(bào)道,和這一事件相關(guān)的所有內(nèi)容都具有了時(shí)效性屬性。根據(jù)一個(gè)集合內(nèi)的頁面是否具有上述兩種特征,推測該集合的時(shí)效性價(jià)值。比如魔獸世界吧經(jīng)常爆出一些熱門帖子,公眾話題,我們推測出自魔獸世界吧的帖子其時(shí)效性“潛在價(jià)值”比較高。,四、頁面價(jià)值的研究重點(diǎn),1、對頁面價(jià)值體系的認(rèn)識(shí)。我們目前對頁面價(jià)值的認(rèn)識(shí)是來源于前文所述的四個(gè)維度,這個(gè)認(rèn)識(shí)是否全面,對于不斷變化的互聯(lián)網(wǎng)環(huán)境與用戶需求,這些維度應(yīng)該如何擴(kuò)展與變化才能更好的服務(wù)于整體的搜索體驗(yàn)提升,是一個(gè)很重要問題。2、對于反映頁面價(jià)值的頁面特征提取。巧婦難為無米之炊,挖掘更多的頁面特征,更準(zhǔn)確合理的特征提取是頁面價(jià)值判定準(zhǔn)確率提升的基礎(chǔ)。3、對各種頁面特征的組合策略(機(jī)器學(xué)習(xí))。針對不用的應(yīng)用方向,需要利用相應(yīng)的特征通過合理且高效的策略擬合出頁面價(jià)值的最終評價(jià)結(jié)果。,五、頁面價(jià)值在工作中的運(yùn)用,1.如何制作高質(zhì)量的頁面內(nèi)容方面:對用戶有用(滿足基本需求、延伸的次級需求),用戶體驗(yàn)方面:易于閱讀(?1訪問速度快(頁面加載快/資源下載速度快)?2頁面整潔干凈,主體內(nèi)容在顯著位置。?3頁面信息完整。?4頁面元素豐富(文字、圖片、評論、相關(guān)推薦等))從四大要素中考慮。2.轉(zhuǎn)載的內(nèi)容:如何選擇,如何收錄,謝謝!Thankyou!,2013-7-18,- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 淺談 互聯(lián)網(wǎng) 頁面 價(jià)值
鏈接地址:http://m.appdesigncorp.com/p-3410328.html