A place for study and research

Python 100 Days Day82 Introduction to KNN

|

author: jackfrued

k最近鄰分類

$k$最近鄰(簡稱kNN,k-Nearest Neighbor)是Cover和Hart在1968年提出的一種簡單的監督學習算法,可用於字符識別、文本分類、圖像識別等領域。kNN的工作機制非常簡單:給定測試樣本,基於某種距離度量(如:歐式距離、曼哈頓距離等)找出訓練集中與其最接近的$k$個訓練樣本,然後基於這$k$個“最近鄰居”的信息來進行預測。對於分類任務,可以在$k$個最近鄰居中選擇出現次數最多的類別標簽作為預測的結果;對於回歸任務,可以使用$k$個最近鄰居實際輸出(目標值)的平均值作為預測的結果,當然也可以根據距離的遠近進行加權平均,距離越近的樣本權重值就越大。

Python 100 Days Day81 Introduction to AI and ML

|

author: jackfrued

人工智能和機器學習概述

所謂“人工智能”通常是泛指讓機器具有像人一樣的智慧的技術,其目的是讓機器像人一樣能夠感知、思考和解決問題;而“機器學習”通常是指讓計算機通過學習現有的數據,實現認知的更新和進步。顯然,機器學習是實現人工智能的一種途徑,這也是我們的課程要討論的內容。現如今,“機器學習”和“大數據”可以說是最時髦的兩個詞匯,而在弱人工智能階段,無論是“機器學習”還是“大數據”最終要解決的問題本質上是一樣的,就是讓計算機將紛繁覆雜的數據處理成有用的信息,這樣就可以發掘出數據帶來的意義以及隱藏在數據背後的規律,簡單的說就是用現有的數據對將來的狀況做出預測和判斷。

Python 100 Days Day80 Data Analysis Method

|

Python 100 Days Day79 Correlation and Regression

|

author: jackfrued

相關和回歸

我們知道,可以通過對指標的維度拆來解尋找指標變化的原因。當我們找到問題的原因時,自然會進一步思考一個問題:指標變化的原因這麽多,其中的關鍵因素又是哪個呢?例如,我們在工作場景中時不時會討論這些問題:

  1. 電商類產品想知道哪個品類銷售對整體銷售貢獻更大;
  2. 渠道運營想知道哪個渠道的用戶對整體活躍作用更大;
  3. 負責留存的想知道哪個客群對整體的留存關系更大;
  4. 產品想知道到底哪些維度(城市、年齡、接入設備等)會影響整體活躍。

還有很多類似的場景,在這種情況下我們不僅要要找到數據變化的原因,還需要明確出不同原因的重要性。因為實際工作中可用資源有限,只能集中優勢資源解決核心問題。

Python 100 Days Day78 Analysis of Variance and Parameter Estimation

|

author: jackfrued

方差分析和參數估計

方差分析

基本概念

在產品運營中,我們會遇到各種需要評估運營效果的場景,包括促活的活動是否起到作用、A/B 測試的策略有無成效等等。具體例如,產品升級前的平均 DAU 是 155 萬,產品升級後的平均 DAU 是 157 萬,那麽如何判斷 DAU 提升的 2 萬是正常的波動,還是升級帶來的效果呢?對比同一組數據在實施某些策略前後的數據變化,判斷數據波動是不是某一因素導致的,這種方法我們稱之為方差分析。方差分析通常縮寫為 ANOVA(Analysis of Variance),也叫“F 檢驗”,用於兩個及兩個以上分組樣本的差異性檢驗。簡單的說,分析差異的顯著性是否明顯的方法就是方差分析