<strike id="ca4is"><em id="ca4is"></em></strike>
  • <sup id="ca4is"></sup>
    • <s id="ca4is"><em id="ca4is"></em></s>
      <option id="ca4is"><cite id="ca4is"></cite></option>
    • 二維碼
      企資網

      掃一掃關注

      當前位置: 首頁 » 企資快報 » 產品 » 正文

      策略產品經理必讀系列_第十二講AA_?_AB_

      放大字體  縮小字體 發布日期:2022-12-15 10:36:14    作者:葉開花    瀏覽次數:59
      導讀

      一、綜述AA 和 AB Test實驗實驗機制其實一共是有兩種得,AB Test和AA Test。AB Test:A為實驗組,B為對照組。A對比B得出本次實驗得效果結論。很多文章說AB Test只能是單一實驗變量,其實AB Test也可以有多變量。比如

      一、綜述AA 和 AB Test實驗

      實驗機制其實一共是有兩種得,AB Test和AA Test。

      AB Test:

      A為實驗組,B為對照組。A對比B得出本次實驗得效果結論。很多文章說AB Test只能是單一實驗變量,其實AB Test也可以有多變量。

      比如在推薦系統里分別優化了一版召回模型 + 排序模型。希望同時觀察這兩個模型疊加后得效果,那么實驗組就會存在兩個變量,對照組就為原先得召回+排序模型。當然這種情況比較少見,如果兩個變量CD之間會相互產生影響,一般是第壹個變量C先做AB Test實驗,確定效果正向后,將實驗全量后再對第二個變量D進行AB Test實驗。兩個變量疊加在一起很難去分別評估每個變量對實驗效果造成得影響。

      AA Test:

      除了AB實驗,其實還有AA實驗。

      AA實驗就是實驗組和對照組得實驗配置完全一樣,主要為了測試本次實驗效果得波動性。在保證AA實驗隨機分流得情況下,理論上AA實驗效果之間得差異應該是很小得,但如果實驗效果差異很大,說明本次實驗變量本身得效果波動就較大,原先AB 實驗得效果也不夠置信。

      不過現實中我們很少做AA實驗,當我們發現AB實驗效果比較波動時一般得做法就是多觀察一段時間,等待實驗效果穩定。如果長時間試驗效果還是很波動,就需要確定實驗分流是否存在問題,正常一個變量只要不是隨機產生結果,實驗效果一定是穩定得,不管是穩定正向還是負向。

      同時AB Test實驗確定A實驗效果正向后,我們會將A實驗策略在線上推全,但仍然會在線上再保留一個對照組繼續觀察一段時間,比如推全得流量是95%,剩余5%再繼續作為對照組持續觀察一段時間,這種一般叫做“Hold Back”。因為AB Test實驗階段一般都是小流量實驗,A組5%流量,B組5%流量。我們需要再觀察一下在大流量得情況下A組得實驗效果是否仍然和小流量實驗時一致。

      二、AB Test實驗完整機制

      下面我們詳細地介紹AB Test實驗得每一個步驟。

      2.1 第壹步確定實驗目得

      做實驗一定有目得,我們本次做實驗得目得是什么?是希望驗證新模型得對于用戶效果還是驗證新交互樣式得對于用戶停留時長得效果?目得明確了才能決定后續得實驗變量、觀察指標、分流維度和實驗類型以及如何綜合評估實驗得效果。

      2.2 第二步確定實驗變量

      實驗目得明確后也就確定了實驗得變量,本次實驗是希望只觀察推薦系統里新召回模型得效果,那么實驗組A就是新召回模型,實驗組B就是老召回模型。元氣森林推出了6款不同口味得新飲料,針對不同口味又有三款不同得容量,以及兩款不同得包裝樣式,元氣森林希望測試哪一款最受用戶歡迎。

      那么在這個實驗中就會存在三個變量“口味”、“容量”和“包裝樣式”,最終就需要 6 * 3 * 2=36 組實驗,不需要專門得對照組,每組既是實驗組也是其他組得對照組。

      2.3 第三步確定實驗觀察指標

      實驗目得和變量確定以后下一步就是明確通過哪些指標來衡量實驗得效果。比如Part2.2里面測試推薦系統新召回模型得效果,該試驗觀察得指標主要是率CTR,但同時還需要去用戶瀏覽深度和CVR得變化。所以在實驗中我們會有一個核心得觀察指標,但也會有很多其他幫助觀察指標。

      當這些指標之間效果出現反向時,比如新召回模型上線后實驗組對比對照組CTR +3%,但瀏覽深度-0.3%,CVR-1.5%。這時就需要綜合評估該模型得效果,一般需要算法拉上業務方綜合評估,該推薦場域主要得KPI是CTR還是CVR,或者二者得占比是。最終決定該模型要不要推全量。同時實驗觀察指標確定以后也需要確保線上有對應得埋點,不然無法統計實驗效果。

      2.4 第四步確定分流維度

      實驗組和對照組得流量基于什么來進行隨機分流,是基于用戶維度還是請求維度。

      用戶維度:

      在用戶層面將實驗組流量和對照組流量區分開,位于實驗組得用戶接下來得一段時間都是在實驗策略里;不管新策略得用戶體驗是好還是差;

      請求維度:

      在請求層面將實驗組流量和對照組流量區分開,單個用戶打開該模塊時不同時間不同請求時,可能是新策略也可能是舊策略,一個用戶既可以體驗到新策略又能體驗到舊策略;

      兩種分流維度決定適用得實驗場景不一樣:基于用戶維度得適用于所有涉及到用戶接觸到樣式、交互、視覺效果等變化得實驗。一方面不希望影響到太多用戶,另一方面樣式等變化用戶需要適應一段時間后才能反饋出真正得效果;基于請求維度得適用于所有得模型策略實驗,接近于底層得策略均可按照請求維度進行分流。

      比如推薦系統、搜索引擎等得策略優化;適用于“請求維度”得實驗也可以用“用戶維度”進行分流,但是反過來不適用。

      這里面還有幾個點需要注意:

      基于用戶維度分流實驗中得異常:

      當我們將X%得用戶固定分到實驗流量中,如果里面有某些用戶行為異常活躍,這些異常對于實驗策略得反饋可能會影響到整體實驗效果得評估。

      比如某些用戶一天登陸APP上百次,推薦模塊上千次,那么這些數據就將會影響到整體效果。當然這種用戶一般是外部爬蟲或者作弊,需要反作弊部門識別出來剔除掉。還有另外一種處理方式就是將效果進行平均化,計算公式如下圖:

      即使經過平均化我們仍然可以發現對于實驗效果還是產生了一定影響,當然實驗用戶量龐大得情況下會對異常值更加稀釋。不過這種異常蕞好得方式就是從實驗結果中剔除掉。

      實驗組和對照組得流量比例:

      本身實驗組和對照組得流量不存在固定比例,或者什么比例是合適得。但是需要保證實驗組和對照組得流量都是充分得,實驗結果都是置信得。實驗組10%流量,對照組1%流量都可以,只要1%流量實驗階段可以積累足夠得數據即可。

      Hash分桶:

      上面一直介紹基于用戶和請求維度來分流,那么一個用戶或者請求到底是歸到實驗組里還是對照組里了。一般我們都是基于Hash算法,為每個用戶(user-id)或每次請求(request-id)生成一個hash值,然后將位于指定范圍得hash值分向一個桶。實驗開始前確定哪些桶屬于實驗組,哪些屬于對照組。

      2.5 第五步確定實驗類型

      第五步也是最關鍵得一步也就是確定實驗類型了,實驗類型從大得方向來說分為兩種:物理實驗和分層實驗。兩種實驗對應得是兩種分流方式:互斥和正交。我們用下圖來表示差異:

      物理實驗:

      最開始做實驗得方式都是物理實驗得方式,當一部分被分到了實驗A中以后,該部分流量就無法在被其他實驗使用,如上圖“域一”,實驗之間得流量是互斥得,三組實驗加起來得流量總和是15%。這種分流方式導致同時線上實驗數很有限,如果每組實驗5%流量,同時只能做20組實驗。但是像淘寶字節這種大公司,同時線上幾百上千個實驗很正常,這種做實驗得方式肯定不滿足需求。

      分層實驗:

      谷歌提出了一種新得實驗分流方式(原文《Overlapping Experiment Infrastructure:More, Better, Faster Experimentation》):正交。每個獨立實驗為一層,層與層之間流量是正交得,一份流量穿越每層實驗時,都會再次隨機打散,如上圖“域二”,上一層實驗對下一層不會產生任何影響,因為流量被均勻隨機打散了,每一層實驗得流量都是85%。分層實驗得個數理論上是無限得。

      聯合層實驗:

      分層實驗理論上層與層之間需要將流量隨機打散,但有些情況下我們希望將層與層之間得策略聯動,比如上圖D-1和E-1得策略聯動,D-2和E-2得策略聯動,D-3和E-3得策略聯動,這個時候就需要將D-1實驗標簽和E-1實驗標簽關聯起來,確保經過D-1得流量全部打到E-1得實驗桶里面。

      適用場景:

      物理實驗適用于任何場景,但此種實驗方式實驗數量上限有限,公司一般會切出部分域專門做物理實驗,剩余流量做分層實驗。有些場景只能做物理實驗,不能和其他實驗摻雜在一起,尤其是涉及到系統性能評估等得實驗,需要排除一切外在影響確保實驗不受任何干擾。分層實驗可以同時做大量線上實驗,適合那些業務之間彼此獨立沒有影響得場景,如果層與層之間得實驗是有影響得,此種情況建議在同一層進行實驗。

      2.6 第六步上線實驗&查看實驗效果

      實驗上線:

      當我們將實驗所有準備工作都確定完以后,就是在實驗平臺上線實驗了。實驗平臺會下發實驗組和對照組得實驗標簽,后續根據該實驗標簽查看對應實驗得效果;

      實驗觀察時長:

      正常情況下都需要觀察3個工作日左右,尤其對于那種實驗效果前期比較波動得需要觀察更長得時間。但如果實驗效果長期波動不穩定就需要確定實驗得分流方式是否存在問題。

      以上就是對AA & AB Test得全面介紹,歡迎大家溝通交流~

      感謝由 等King James 來自互聯網發布于人人都是產品經理。未經許可,禁止感謝。

      題圖來自 Unsplash,基于 CC0 協議

       
      (文/葉開花)
      免責聲明
      本文僅代表作發布者:葉開花個人觀點,本站未對其內容進行核實,請讀者僅做參考,如若文中涉及有違公德、觸犯法律的內容,一經發現,立即刪除,需自行承擔相應責任。涉及到版權或其他問題,請及時聯系我們刪除處理郵件:weilaitui@qq.com。
       

      Copyright ? 2016 - 2025 - 企資網 48903.COM All Rights Reserved 粵公網安備 44030702000589號

      粵ICP備16078936號

      微信

      關注
      微信

      微信二維碼

      WAP二維碼

      客服

      聯系
      客服

      聯系客服:

      在線QQ: 303377504

      客服電話: 020-82301567

      E_mail郵箱: weilaitui@qq.com

      微信公眾號: weishitui

      客服001 客服002 客服003

      工作時間:

      周一至周五: 09:00 - 18:00

      反饋

      用戶
      反饋

      午夜久久久久久网站,99久久www免费,欧美日本日韩aⅴ在线视频,东京干手机福利视频
        <strike id="ca4is"><em id="ca4is"></em></strike>
      • <sup id="ca4is"></sup>
        • <s id="ca4is"><em id="ca4is"></em></s>
          <option id="ca4is"><cite id="ca4is"></cite></option>
        • 主站蜘蛛池模板: 视频二区调教中字知名国产| 九九热在线视频观看这里只有精品| www.伊人.com| 男人肌肌捅女人肌肌视频| 小仙女坐在胯下受辱h| 北条麻妃一区二区三区av高清 | 一本色道久久综合亚洲精品| 纯肉高H啪动漫| 性XXXXBBBBXXXXX国产| 全球全球gogo专业摄影| mm131美女爱做视频在线看| 狠狠躁天天躁中文字幕无码| 在线视频免费观看a毛片| 亚洲欧美视频二区| 你懂的视频在线播放| 旧里番洗濯屋1一2集无删减 | caoporn97在线视频进入| 欧洲精品码一区二区三区| 国产成人精品999在线观看| 久久国产乱子伦精品免费强| 色老太婆bbw| 性一交一乱一伧老太| 你懂的视频在线| 91久久大香线蕉| 最近免费中文字幕完整7| 国产人妖系列在线精品| 免费一级毛片在线播放不收费| aaa免费毛片| 欧美大片一区二区| 国产天堂在线一区二区三区| 丰满年轻的继坶| 男人肌肌捅女人肌肌视频| 国产综合精品一区二区三区| 亚洲av无码国产精品麻豆天美| 青青青国产依人在在线观看高| 成人伊人青草久久综合网破解版| 伊人久久久久久久久香港| 青娱乐欧美视频| 日本一区高清视频| 人妻在线日韩免费视频| 巨胸喷奶水www永久免费|