本文結構如下:
Part 1. 數據獲取
數據集簡介數據集在kaggle官網公開數據庫中下載下來的,是Supply Chain Shipment Pricing Data(Dataset about Supply Chain),數據包括了商品名稱、訂單國家、運輸方式、到貨日期、數量、單價、重量、保險等類目。總共33列類目共10324條記錄。
數據來源數據項目
Part 2. 提出問題1、針對訂單記錄,無法了解每個國家的訂單情況,統計各個國家的訂單量2、統計top10國家的訂單總金額3、對數據進行基礎描述統計,了解大概情況。
4、統計各類運輸方式的訂單量
Part 3. 清洗數據
接下來進入正式的數據清洗步驟,數據清洗是一個反復的過程;若增加了新的函數,還要檢查下是否產生了錯誤值,并針對性地解決。
3.1導入數據
數據行列數
因數據列名太多,系統會省略部分顯示,因此用option函數顯示出所有列名
選取分析(上篇)所需要的數據列
修改列名稱為中文名,方便閱讀
查詢各列數據的空值情況,經查詢導入的原始數據無空值記錄
查看數據類型,發現ID為整形,需改為字符串類型,實際交付日期和交貨記錄日期為字符串類型,需改為日期類型
修改后,方可對日期進行統計。
#轉換類型后,一些無法轉換為日期類型的數據會產生空值,這次將刪除空值的行,刪除后數據為9964行
對數據按貨日期排降序,生成一份新數據。
Part4. 數據分析及可視化
4.1數據的描述性統計分析圖中單價最小值為0,需要調整數據,保留最小單價大于0的數據
從圖中可看出,訂單數量平均值為18612,均價0.59美元。價格房差是2.29。四分位是0.46.單價最大是41.68,最小值0.01。
4.2top10國家的訂單量分析圖中可看出,訂單量最大的是南非,總共有1364條記錄,其次是尼日利亞1158,公司的客戶大部分都是以非洲國家客戶。
4.3統計訂單總金額
第一步: 在原數據新增新增一列類目,‘訂單金額’
訂單金額=訂單數量*單價
第二步,求‘訂單金額’的總合
4.4分類統計top10各個國家的訂單總額
由圖可看出,尼日利亞的訂單金額最大,同時訂單量排名第二,說明尼日利亞的客戶是我們最需要維護的客戶。