本文結(jié)構(gòu)如下:
Part 1. 數(shù)據(jù)獲取
數(shù)據(jù)集簡(jiǎn)介數(shù)據(jù)集在kaggle官網(wǎng)公開(kāi)數(shù)據(jù)庫(kù)中下載下來(lái)的,是Supply Chain Shipment Pricing Data(Dataset about Supply Chain),數(shù)據(jù)包括了商品名稱、訂單國(guó)家、運(yùn)輸方式、到貨日期、數(shù)量、單價(jià)、重量、保險(xiǎn)等類目??偣?3列類目共10324條記錄。
數(shù)據(jù)來(lái)源數(shù)據(jù)項(xiàng)目
Part 2. 提出問(wèn)題1、針對(duì)訂單記錄,無(wú)法了解每個(gè)國(guó)家的訂單情況,統(tǒng)計(jì)各個(gè)國(guó)家的訂單量2、統(tǒng)計(jì)top10國(guó)家的訂單總金額3、對(duì)數(shù)據(jù)進(jìn)行基礎(chǔ)描述統(tǒng)計(jì),了解大概情況。
4、統(tǒng)計(jì)各類運(yùn)輸方式的訂單量
Part 3. 清洗數(shù)據(jù)
接下來(lái)進(jìn)入正式的數(shù)據(jù)清洗步驟,數(shù)據(jù)清洗是一個(gè)反復(fù)的過(guò)程;若增加了新的函數(shù),還要檢查下是否產(chǎn)生了錯(cuò)誤值,并針對(duì)性地解決。
3.1導(dǎo)入數(shù)據(jù)
數(shù)據(jù)行列數(shù)
因數(shù)據(jù)列名太多,系統(tǒng)會(huì)省略部分顯示,因此用option函數(shù)顯示出所有列名
選取分析(上篇)所需要的數(shù)據(jù)列
修改列名稱為中文名,方便閱讀
查詢各列數(shù)據(jù)的空值情況,經(jīng)查詢導(dǎo)入的原始數(shù)據(jù)無(wú)空值記錄
查看數(shù)據(jù)類型,發(fā)現(xiàn)ID為整形,需改為字符串類型,實(shí)際交付日期和交貨記錄日期為字符串類型,需改為日期類型
修改后,方可對(duì)日期進(jìn)行統(tǒng)計(jì)。
#轉(zhuǎn)換類型后,一些無(wú)法轉(zhuǎn)換為日期類型的數(shù)據(jù)會(huì)產(chǎn)生空值,這次將刪除空值的行,刪除后數(shù)據(jù)為9964行
對(duì)數(shù)據(jù)按貨日期排降序,生成一份新數(shù)據(jù)。
Part4. 數(shù)據(jù)分析及可視化
4.1數(shù)據(jù)的描述性統(tǒng)計(jì)分析圖中單價(jià)最小值為0,需要調(diào)整數(shù)據(jù),保留最小單價(jià)大于0的數(shù)據(jù)
從圖中可看出,訂單數(shù)量平均值為18612,均價(jià)0.59美元。價(jià)格房差是2.29。四分位是0.46.單價(jià)最大是41.68,最小值0.01。
4.2top10國(guó)家的訂單量分析圖中可看出,訂單量最大的是南非,總共有1364條記錄,其次是尼日利亞1158,公司的客戶大部分都是以非洲國(guó)家客戶。
4.3統(tǒng)計(jì)訂單總金額
第一步: 在原數(shù)據(jù)新增新增一列類目,‘訂單金額’
訂單金額=訂單數(shù)量*單價(jià)
第二步,求‘訂單金額’的總合
4.4分類統(tǒng)計(jì)top10各個(gè)國(guó)家的訂單總額
由圖可看出,尼日利亞的訂單金額最大,同時(shí)訂單量排名第二,說(shuō)明尼日利亞的客戶是我們最需要維護(hù)的客戶。