A place for study and research

Python 100 Days Day77 Introduction to Probability Statistics

|

author: jackfrued

概率統計基礎

概率論源於賭博遊戲。意大利文藝覆興時代,百科全書式的學者卡爾達諾(死後)發表的《論賭博遊戲》被認為是第一部論述概率論的著作。到了17世紀的法國,宮廷貴族里盛行著擲骰子遊戲,遊戲規則是玩家連續擲4次骰子,如果其中沒有6點出現,玩家贏,如果出現一次6點,則莊家(相當於現在的賭場)贏;後來為了使遊戲更刺激,遊戲規則發生了些許變化,玩家用2個骰子連續擲24次,不同時出現2個6點,玩家贏,否則莊家贏。在這樣的時代背景下,法國數學家帕斯卡和費馬創立了概率論,後來雅各布·伯努利發現,概率論遠遠不止用於賭博,他將他的思考和研究記錄下來,寫成了《猜度數》一書,提出了大數定理(在一個隨機事件中,隨著試驗次數的增加,事件發生的頻率越趨近於一個穩定值),這個定理在當時的保險公司得到了充分利用。

Python 100 Days Day76 Introduction to Seaborn and Pyecharts

|

author: jackfrued

數據可視化-2

通過前面的學習,我們已經對數據可視化工具 matplotlib 有一個初步的認知。大家可能也會發現了,matplotlib 提供的函數雖然強大,但是參數太多,要想對圖表進行深度的定制就需要修改一系列的參數,這一點對新手並不友好。另一方面,使用 matplotlib 定制的統計圖是靜態圖表,可能在某些需要交互效果的場景下並不合適。為了解決這兩個問題,我們為大家介紹兩個新的可視化工具,一個是 seaborn,一個是 pyecharts。

Python 100 Days Day75 Introduction to Matplotlib

|

author: jackfrued

數據可視化-1

在完成了對數據的透視之後,我們可以將數據透視的結果通過可視化的方式呈現出來,簡單的說,就是將數據變成漂亮的統計圖表,然後進一步發現和解讀數據背後隱藏的商業價值。在之前的課程中,我們已經為大家展示過用使用SeriesDataFrame對象的plot方法生成可視化圖表的操作,本章我們為大家講解plot方法的基石,它就是大名鼎鼎的matplotlib庫。

Python 100 Days Day74 Introduction to Pandas-5

|

author: jackfrued

Pandas的應用-5

DataFrame的應用

窗口計算

DataFrame對象的rolling方法允許我們將數據置於窗口中,然後就可以使用函數對窗口中的數據進行運算和處理。例如,我們獲取了某只股票近期的數據,想制作5日均線和10日均線,那麽就需要先設置窗口再進行運算。我們可以使用三方庫pandas-datareader來獲取指定的股票在某個時間段內的數據,具體的操作如下所示。

Python 100 Days Day73 Introduction to Pandas-4

|

author: jackfrued

Pandas的應用-4

DataFrame的應用

數據分析

經過前面的學習,我們已經將數據準備就緒而且變成了我們想要的樣子,接下來就是最為重要的數據分析階段了。當我們拿到一大堆數據的時候,如何從數據中迅速的解讀出有價值的信息,這就是數據分析要解決的問題。首先,我們可以獲取數據的描述性統計信息,通過描述性統計信息,我們可以了解數據的集中趨勢和離散趨勢。