夜晚10大禁用B站免费_欧美国产日韩久久MV_深夜福利小视频在线观看_人妻精品久久无码区 国产在线高清精品二区_亚洲日本一区二区一本一道_国产在线视频主播区_AV无码精品一区二区三区

免費注冊
有哪些提高數據質量的數據清洗方法

有哪些提高數據質量的數據清洗方法

作者: 低代碼架構師Kaiwen
閱讀數:415
更新時間:2024-02-23 20:34:49
有哪些提高數據質量的數據清洗方法
p>數據清洗是整個數據分析鏈路中非常重要的一個環(huán)節(jié),能夠提供更高的質量的數據,同時供應挖掘材料。

 

一、介紹
在進行數據分析之前,自己拿到的數據大部分情況下都是不能夠直接用的,會存在很多數據質量的問題,這個時候就需要我們先過濾一遍。

數據清洗是整個數據分析鏈路中非常重要的一個環(huán)節(jié),能夠提供更高的質量的數據,同時供應挖掘材料。

二、解決質量問題
解決各種數據質量問題的目的,包括但不限于:

數據的完整性 —— 例如,人的屬性中缺少性別、籍貫、年齡等
數據的唯一性 —— 例如,不同來源的數據重復出現(xiàn)的情況
數據的權威性 —— 例如,同一個指標出現(xiàn)多個來源的數據,且數值不一樣
數據的合法性 —— 例如,獲取的數據與常識不符,年齡大于150歲。
數據的一致性 —— 例如,不同來源的不同指標,實際內涵是一樣的,或是同一指標內涵不一致。
數據清洗的結果是對各種臟數據進行對應方式的處理,得到標準的、干凈的、連續(xù)的數據,提供給數據統(tǒng)計、數據挖掘等使用。

三、解決辦法

  1. 數據的完整性
    思路:數據缺失,那么補上就好了。

首先判斷能不能從源頭上直接補上,這部分的數據缺失太多,是否研發(fā)那邊某個埋點的功能異常,導致一些數據無法上報,這個時候需要找研發(fā)對接。

如果是正常的數據丟失率例如1%-2%左右,那么可以具體通過一下一些方式不上數據:

通過其他信息補全,例如使用身份證件號推算性別、籍貫、出生日期、年齡等
通過前后數據補齊,例如時間序列數據確實了,可以使用前后的均值,缺的多了,可以使用平滑等處理。均值、中位數,或者自動向上或者向下補齊都是比較常用的方法。
實在補不全的,雖然很可惜,但也必須要剔除。但是不要刪掉,沒準以后用的上。
sql處理方式

#查看comm字段缺失數量
select sum(comm is null) from emp;
# 平均值填充
select ifnull(comm,(select avg(comm) from emp)) from emp;
# 也可以使用coalesce()函數,該函數將多個表達式或列作為參數,并返回第一個非空的值
select coalesce(comm,0) from emp; # 將null值填充為0

 

  1. 數據的唯一性
    思路:去除重復記錄,只保留一條。

去重的方法有:

按主鍵去重,用sql 『去除重復記錄』即可。
按規(guī)則去重,編寫一系列規(guī)則,對重復情況復雜的數據進行去重。例如不同渠道來的客戶數據,可以通過相同的關鍵信息進行匹配,合并去重。
sql處理方式

 
# 去重單個字段
select distinct comm from emp;
# 使用group by + 聚合函數例如max,min,any_value
# 去重多個字段,設定一個student表,其中,同一個學生可能有兩個age值
select name,any_value(age) from student group by name
select name,max(age) from student group by name
any_value()會選擇被分到同一組的數據里第一條數據的指定列值作為返回數據

 

  1. 數據的權威性
    思路:用最權威的那個渠道的數據

方法:對不同渠道設定權威級別

  1. 數據的合法性
    思路:設定判定規(guī)則

設定強制合法規(guī)則,凡是不在此規(guī)則范圍內的,強制設為最大值,或者判為無效,剔除
字段類型合法規(guī)則:日期字段格式為『2010-10-10』
字段內容合法規(guī)則:性別 in (男、女、未知);出生日期<=今天
設定告警規(guī)則,凡是不再此規(guī)則范圍內的,進行告警,然后人工處理
告警規(guī)則:年齡 > 110
離群值人工特殊處理,使用分箱、聚類、回歸、等方法發(fā)現(xiàn)離群值
sql處理方式

# 使用where條件進行限制
select name,sex,age from student
where sex in ("男","女","未知")
and age between 0 and 110

 

  1. 數據的一致性問題
    思路:建立元數據體系,包括但不限于:指標體系(度量)、維度(分組、統(tǒng)計口徑)、單位、頻度、數據。

tips:如果數據質量問題比較嚴重,建議跟技術團隊好好聊聊。

 

 

發(fā)表評論

評論列表

暫時沒有評論,有什么想聊的?

數字鄉(xiāng)村平臺定制

數字鄉(xiāng)村平臺定制

數字鄉(xiāng)村,共享未來。定制平臺,助力鄉(xiāng)村振興,共創(chuàng)美好生活。



熱推產品-全域低代碼平臺

會Excel就能開發(fā)軟件

全域低代碼平臺,可視化拖拉拽/導入Excel,就可以開發(fā)小程序、管理系統(tǒng)、物聯(lián)網、ERP、CRM等應用

有哪些提高數據質量的數據清洗方法最新資訊

分享關于大數據最新動態(tài),數據分析模板分享,如何使用低代碼構建大數據管理平臺和低代碼平臺開發(fā)軟件

什么是MCP Model Context Protocol? 有什么用?怎么用Go實現(xiàn)或調用

一、什么是MCP Model Context Protocol? MCP(Model Context Protocol,模型上下文協(xié)議)是一種開放標準協(xié)議,旨在 打通大型語言模型(LLM)與外部數據源/工具之間的通信

...
2025-04-15 17:49:31
大模型知識庫應該怎么用才能最大化其效益?

概述:大模型知識庫應該怎么用才能最大化其效益? 隨著人工智能技術的飛速發(fā)展,大模型知識庫已經成為企業(yè)數字化轉型的重要工具之一。它能夠存儲海量的信息,并通過智能化

...
2025-04-15 17:49:31
大模型 編碼 如何提升開發(fā)效率?

概述“大模型 編碼 如何提升開發(fā)效率?”制作提綱 隨著人工智能技術的飛速發(fā)展,大模型在編程領域的應用正變得越來越廣泛。這些模型不僅能夠理解復雜的代碼邏輯,還能幫助

...
2025-04-15 17:49:31
×
銷售: 17190186096
售前: 15050465281
合作伙伴,請點擊

微信聊 -->

速優(yōu)AIPerfCloud官方微信