美團內部的RPC服務大多構建在Thrift之上,在日常開發服務的過程中,需要針對這些服務進行壓力測試(以下簡稱壓測)來發現潛在問題。常用的方法有:
1.使用一些腳本語言如:Python、Ruby等,讀取線上日志構建請求,用多線程模擬用戶請求進行壓測
2.使用開源工具進行壓測
然而,無論采取哪種方法,壓測都是一個十分耗時而又繁瑣的過程,主要痛點有:
需要寫很多代碼解析日志,還原請求,對于比較復雜的請求,解析很容易出錯
需要搭建腳本或者工具的運行環境,通常這一過程比較耗時
由于打壓方法沒有統一,導致打壓的結果指標比較混亂,有的結果甚至以終端輸出的方式展示,非常不直觀
對一個應用的打壓測試,由于環境、代碼的問題,導致組內同學很難共享
針對上述問題,提供一個簡單好用的壓測工具是十分有必要的。
是否有必要重復造輪子
在構建壓測工具之前,對于一些現有的開源工具進行了調研?,F在主流的壓測工具主要有以下幾個:
JMeter
JMeter是一個比較老牌的壓測工具,主要針對HTTP服務進行打壓,該工具在以下方面并不滿足美團內部的壓測需求:
1.默認不支持Thrift的打壓測試
2.需要本地安裝,并且配置復雜
3.對于用戶操作并不友好
twitter/iago
iago 是一個由Twitter開源的壓測工具,支持對HTTP、Thrift等服務進行壓測,其主要問題如下:
對每個壓測應用都需要創建一個項目
壓測結果并不直觀
流量重放依賴本地文件
項目依賴于一個較老版本的Scala,搭建不便
相關文檔比較少
除此之外,當時還考察了Gatling、Grinder、Locust 等一些常見的壓測工具,都因為適用場景和美團的需求有些出入而排除了。
綜上,針對當前壓測工具的一些現狀,構建一個簡單易用的壓測工具還是很有必要的。
目標
針對之前提到的痛點,新的壓測工具主要提供以下功能:
線上流量拷貝
1.簡單易用的操作界面(接入壓測的時間應該控制在1小時以內)
2.清晰的圖表能反映壓測應用的各項指標
3.滿足包括Thrift、HTTP等服務的壓測需求
如何構建
抽象
目標已經明確,怎么實現呢?首先是抽象壓測的過程。
一個典型的壓測過程如圖所示,首先在init方法里面,進行一些初始化的工作,比如連接數據庫,創建客戶端等。接下來,在run方法里面發出壓測請求,為了保證能夠對服務產生足夠的壓力,這里通常采用多線程并發訪問,同時記錄每次請求的發起時間和結束時間,這兩個時間的簡單相減就能夠得到每次請求的響應時間,利用該結果就可以計算出TP90、平均響應時間、最大響應時間等指標,等壓測結束后,通過destroy方法進行資源回收等工作。
以上過程可以用接口表示,無論是壓測Thrift服務還是HTTP服務,本質上都是這三個方法實現的不同??紤]到壓測工具的靈活性和通用性,壓測工具可以將這個接口交給打壓測試的同學實現,而壓測工具則重點實現多線程打壓,打壓結果的聚合等比較耗時的工作。
新聞熱點
疑難解答