最近一直在思考統計系統的統計規則怎樣實現。昨天終于有了一點靈感,可以用數學模型來描述統計系統。(這里所說的統計系統是指網站統計系統web analytics)
統計系統統計的是訪問者在對網站的訪問情況,或者說是訪問者的訪問行為。這里面包含三個基本要素:
1.訪問者
訪問者對應ip,但有共享上網的情況,所以更準確點,需要對應cookie。
2.網站
說是網站,其實更準確的說應該是url,傳統的網站都是一個url對應一個葉面,統計系統的統計也都是基于url的。但隨著動態技術、ajax、flash等在服務端存儲狀態以及異步應用的出現,很多url指代的內容也不再固定(這個暫不考慮)。
url又包括兩種,來源url(referrer)和目標url(當前網頁)
3.時間
這個不用說了,一切以時間為基礎。
上面三個就形成了用戶訪問網站的最基本三維,目前大多數統計系統還是基于這三維的,而且大部分是不是完整的建立在這個三維坐標系內,很多只是分別實現了2和3的二維,1和3的二維;1和2的聯系沒有完整建立起來。比如#、google analytics等。
完整建立起三維空間的統計系統很少,目前我知道的只有getclicky.com,還有我自己的統計系統(www.referer.cn):P
getclicky的三維并不完整,我簡單看了一下它的演示,時間軸是有區間的,只在一天(day)的范圍上有效,跨日的統計沒有建立。
referer比較完整,但目前實現的統計規則比較少。
上面說了三維,另外的兩維從何而來呢?
三維的統計系統只是實現了用戶訪問的統計,并沒有實現用戶在網站上行為的統計。什么是用戶行為呢?也就是用戶在網頁上干什么,是在讀還是在寫?用戶要在網頁上產生行為,必須通過電腦,通過鼠標鍵盤,所以對用戶行為的統計轉化為對鼠標鍵盤操作的統計。通過簡單的觸發,我們可以統計到用戶在頁面的什么位置點了鼠標,用戶通過鍵盤輸入了什么內容。
對鍵盤行為的捕獲意義不是很大,但實現難度和成本卻很高,所以暫且放棄對鍵盤事件的統計。
剩下的就是對鼠標行為的統計了,鼠標的運作原理就是在屏幕的二位坐標系內確定坐標。我們要做的就是捕獲鼠標的坐標以及點擊行為。通過對鼠標行為的捕捉和深入分析,可以獲得很多有價值的數據。
因而產生了統計系統另外的兩個緯度:屏幕的坐標。
目前能夠實現鼠標行為統計的還很少,我知道的有http://www.tapefailure.com、http://www.clicktale.com/、www.crazyegg.com、http://www.mybloglog.com/
然后就是我的referer了.
這種行為統計系統數據量要大很多,大部分系統只是實現了部分的統計,比如只統計點擊時的坐標,clicktale和tapefailure完整統計了鼠標移動軌跡,估計是由于數據量的原因,clicktale到現在只是小范圍測試,沒有進展。tapefailure似乎是模仿著clicktale來的,回放界面都差不多。
referer是目前是實現點擊統計,但只是開放了鏈接上點擊的統計,效果可以在我的blog上看到,點擊過的鏈接上會有一個浮動的統計標簽。
隨著互聯網應用的發展,僅僅做到這五維的統計是不夠的,就像前面提到,flash和ajax應用,已經使內容和url不再一一對應。這就使得統計精確度和難度更大,如果要做到這方面的統計,那就不是三維或者五維能夠完成的了。
其實這是一種垂直趨勢,任何行業都如此,不斷的深入,不斷的完善。統計系統將朝著這個方向發展,并且是飛快的發展。
Author:David | English Version 【轉載時請務必以超鏈接形式標明文章原始出處和作者信息及本聲明】
URL:http://blog.iyi.cn/start/2007/05/post_163.html
新聞熱點
疑難解答