談到計(jì)算廣告,或者個(gè)性化推薦,甚至是一般的互聯(lián)網(wǎng)產(chǎn)品,無論是運(yùn)營、產(chǎn)品還是技術(shù),最受關(guān)注的指標(biāo)就是點(diǎn)擊率。還有業(yè)內(nèi)經(jīng)常流傳的故事,某位科學(xué)家通過建立更好的點(diǎn)擊率預(yù)測(cè)模型,為公司帶來了數(shù)億的增量收入。為什么要用復(fù)雜的數(shù)學(xué)模型來描述點(diǎn)擊率這樣簡單直接的統(tǒng)計(jì)數(shù)據(jù)呢?這樣的模型是如何建立和評(píng)價(jià)的?北京網(wǎng)站設(shè)計(jì)公司推來客將在本期談到這個(gè)問題。那么什么是點(diǎn)擊率模型呢?
在計(jì)算機(jī)科學(xué)中,點(diǎn)擊模型(Click Model)是對(duì)用戶點(diǎn)擊行為的建模?;谟脩舻臍v史點(diǎn)擊信息,對(duì)用戶的興趣和行為進(jìn)行建模,預(yù)測(cè)用戶未來的點(diǎn)擊行為,提高相關(guān)性。
在搜索引擎中,點(diǎn)擊模型是指對(duì)用戶的歷史點(diǎn)擊文檔進(jìn)行建模,以預(yù)測(cè)文檔的相關(guān)性。
網(wǎng)頁SEO搜索排名傳統(tǒng)上是基于人為設(shè)計(jì)的排名函數(shù),如BM25等。近年來,排序?qū)W習(xí)的引入大大降低了融合大量特征的復(fù)雜性。但是由于排序?qū)W習(xí)是有監(jiān)督學(xué)習(xí),需要大量的人工標(biāo)注者對(duì)文檔進(jìn)行標(biāo)注,需要大量的人工成本。建站網(wǎng)頁的相關(guān)性會(huì)隨著網(wǎng)頁內(nèi)容的更新而變化,尤其是時(shí)效性強(qiáng)的新聞網(wǎng)頁。使所有手動(dòng)標(biāo)記保持最新是不可行的。
用戶點(diǎn)擊日志記錄了用戶對(duì)搜索結(jié)果滿意度的重要信息,可以提供具有很高相關(guān)預(yù)測(cè)價(jià)值的信息。與人工標(biāo)注相比,獲取點(diǎn)擊的成本更低,而且點(diǎn)擊始終反映最新的相關(guān)性。一、為什么要建立一個(gè)點(diǎn)擊率模型?
無論是人工操作還是機(jī)器決策,我們都希望對(duì)一個(gè)廣告或內(nèi)容可能的點(diǎn)擊率有一個(gè)預(yù)測(cè),從而判斷哪些項(xiàng)目應(yīng)該放在更重要的位置。這件事看起來并不難。比如我有十篇內(nèi)容,歷史顯示的點(diǎn)擊率都不一樣。那么我只需要根據(jù)歷史點(diǎn)擊率的統(tǒng)計(jì)數(shù)據(jù)來做決定就可以了。好像沒什么難度。
不過,雞蛋。直接統(tǒng)計(jì)歷史點(diǎn)擊率的方法雖然簡單易操作,但是會(huì)遇到一個(gè)非常棘手的問題。首先大家要樹立一個(gè)觀念:拋開地點(diǎn)、時(shí)間等一系列環(huán)境因素,點(diǎn)擊率的絕對(duì)高低意義不大。比如下面這個(gè)廣告,放在圖片的兩個(gè)位置,統(tǒng)計(jì)前者的點(diǎn)擊率為2%,后者的點(diǎn)擊率為1%。哪個(gè)廣告更好?其實(shí)我們無法得出任何結(jié)論。
于是,聰明運(yùn)營想了個(gè)辦法,我干脆統(tǒng)計(jì)了不同位置的點(diǎn)擊率,然后分別排序。這個(gè)思路在原理上是無懈可擊的,相當(dāng)于直接求解聯(lián)合分布;但其實(shí)用價(jià)值不高:大部分廣告或內(nèi)容項(xiàng)的數(shù)據(jù)太小,例如100次展示。產(chǎn)生了一次點(diǎn)擊,難道這就是1%點(diǎn)擊率的結(jié)論嗎?
那能不能換個(gè)思路,找出一些影響點(diǎn)擊率的關(guān)鍵因素,分別統(tǒng)計(jì)這些因素呢?這其實(shí)已經(jīng)產(chǎn)生了“特征”的建模思路。比如廣告位是一個(gè)因素,廣告本身是一個(gè)因素,用戶的性別是一個(gè)因素。從數(shù)據(jù)充分性的角度,對(duì)每個(gè)因素分別計(jì)算點(diǎn)擊率是可行的。但是這又產(chǎn)生了一個(gè)新的問題:我知道男性用戶的平均點(diǎn)擊率,廣告位S的平均點(diǎn)擊率,廣告A的平均點(diǎn)擊率,那么如何評(píng)價(jià)廣告A男性用戶在廣告位S 上看到的點(diǎn)擊率呢?直觀的方法是求上述三個(gè)點(diǎn)擊率的幾何平均數(shù)。但這里有一個(gè)隱含的假設(shè):這三個(gè)因素是相互獨(dú)立的。但是,當(dāng)有很多特征時(shí),這種獨(dú)立性假設(shè)很難保證。
特征之間的獨(dú)立性往往對(duì)我們的結(jié)論有很大的影響。比如中國癌癥發(fā)病率上升是“中國”因素造成的?還是因?yàn)椤捌骄鶋勖钡囊蛩??顯然,這兩個(gè)因素有些相關(guān),因此簡單的單獨(dú)統(tǒng)計(jì)往往是行不通的。
那么該怎么辦?這就需要統(tǒng)計(jì)學(xué)家和計(jì)算機(jī)科學(xué)家建立一個(gè)綜合考慮各種特征并根據(jù)歷史數(shù)據(jù)進(jìn)行調(diào)整的點(diǎn)擊率模型。問題,它必須能夠在大量數(shù)據(jù)上自動(dòng)訓(xùn)練和優(yōu)化。這就是點(diǎn)擊率模型的意義所在,它是互聯(lián)網(wǎng)+和大數(shù)據(jù)時(shí)代偉大、光榮、正確、重要的工作,具有重大的實(shí)用價(jià)值和戰(zhàn)略意義。那人說,有必要抬那么高嗎?當(dāng)然有必要!因?yàn)槲覍?duì)這門手藝也是粗略的了解,所以不知如何是好。二、怎樣建立一個(gè)點(diǎn)擊率模型?
這個(gè)問題比較簡單,就不展開討論了。 (想罵人的讀者請(qǐng)保持冷靜,繼續(xù)往下看。)三、如何評(píng)估一個(gè)點(diǎn)擊率模型?
評(píng)估點(diǎn)擊率模型的好壞,有各種定性的或定量的、線上的或線下的方法。但是不論什么樣的評(píng)測(cè)方法,其本質(zhì)都是一樣,就是要看這個(gè)模型區(qū)別被點(diǎn)擊的展示與沒被點(diǎn)擊的展示之間的區(qū)別。當(dāng)然,如果能找到一個(gè)離線可以計(jì)算的量化指標(biāo),是再好不過了。
這樣的指標(biāo)是有一個(gè),就是如下圖所示的ROC曲線下的面積,術(shù)語上稱為AUC。(關(guān)于ROC和AUC的詳細(xì)介紹,請(qǐng)大家參考《計(jì)算廣告》第*章。)AUC這個(gè)數(shù)值越大,對(duì)應(yīng)的模型區(qū)別能力就越強(qiáng)。
好了,為了讓大家深入理解點(diǎn)擊率模型評(píng)測(cè)的關(guān)鍵,我們要談到一個(gè)常見的口水仗:有一天,有兩位工程師在閑談,一位叫小優(yōu),一位叫小度。他們分別負(fù)責(zé)某視頻網(wǎng)站和某網(wǎng)盟廣告的點(diǎn)擊率建模。小優(yōu)說:最近可把我忙壞了,上線了個(gè)全新的點(diǎn)擊率模型,把AUC從0.62提高到0.67,效果真不錯(cuò)!哪知道小度聽了哈哈大笑:這數(shù)據(jù)你也好意思拿出來說,我們的AUC早就到0.9以上了!
那么,是不是小度的模型比小優(yōu)真的好那么多呢?當(dāng)然不是,我們看看該視頻網(wǎng)站和網(wǎng)盟的廣告位分布,就一目了然了。
什么?你還沒有明白,那么我建議你自己好好把這個(gè)問題想清楚。不論你是運(yùn)營還是產(chǎn)品,經(jīng)過了這樣的思考,你的數(shù)據(jù)解讀能力會(huì)上一個(gè)臺(tái)階。
好了,三個(gè)關(guān)鍵點(diǎn)說完了,我知道有的讀者還會(huì)對(duì)第二點(diǎn)表示沒看懂,那干脆我們就再多說一點(diǎn)兒,將2015年11月15日王超在計(jì)算廣告讀者微信群里所做的題為“點(diǎn)擊率預(yù)估趨勢(shì)淺析”的分享內(nèi)容整理發(fā)布在下面。沒有堅(jiān)持到這里就把文章關(guān)掉的碼農(nóng)們,讓他們后悔一輩子去吧!
今天分享一下點(diǎn)擊率預(yù)估近年來的一些趨勢(shì)。主要結(jié)合劉鵬老師的一些指導(dǎo),以及自身工作的一些經(jīng)驗(yàn),有偏頗的地方請(qǐng)大家多多指正。
在計(jì)算廣告第一版的書里,主要講到了經(jīng)典的點(diǎn)擊率預(yù)估模型邏輯回歸,特征工程,模型的評(píng)估等,相信對(duì)大多數(shù)場(chǎng)景來說這一步是必做的基線版本。后續(xù)可以在此基礎(chǔ)上做一些更細(xì)致的特征工程和模型工作。考慮到群里的朋友都已經(jīng)拿到了這本書,今天先跳過書里覆蓋的內(nèi)容,講一些目前書里沒有提及的部分。如果對(duì)書里內(nèi)容還不夠了解的朋友,建議第一步還是把書中基礎(chǔ)性的內(nèi)容仔細(xì)掌握。
我們專注高端建站,小程序開發(fā)、軟件系統(tǒng)定制開發(fā)、BUG修復(fù)、物聯(lián)網(wǎng)開發(fā)、各類API接口對(duì)接開發(fā)等。十余年開發(fā)經(jīng)驗(yàn),每一個(gè)項(xiàng)目承諾做到滿意為止,多一次對(duì)比,一定讓您多一份收獲!