Linux Remove Duplicate Data 移除重複資料方法 awk uniq

非連續資料，又需要保留資料順序的話，適合用
$ awk '!x[$0]++' example.txt > unique_file_example.txt

其作用方式是：告訴 awk 要輸出哪些行，其中變數 $0 是整個要處理的文字內容，中括號 [ ] 是要它用陣列的方式處理。
所以每一行的內容會++附加輸入到陣列 x 裡面，且必須是「!」沒有設定過的。
Ref: https://ishm.idv.tw/archives/529

----------

uniq #刪除重複行
$ uniq -c example.txt #計算重複行的個數 (會印出每一行出現的個數)
$ uniq -u example.txt #輸出沒有重複的行
$ uniq -d example.txt #輸出重複的行
$ uniq -i example.txt #不區分大小寫

非連續的重複資料，不適合直接用uniq，效果不佳
須先用 sort 指令將內容排序，讓重複的資料在相鄰的位置，再用 uniq 指令移除連續重複資料：
$ sort example.txt | uniq

吾給力

吾給力的部落格

吾給力發表在痞客邦留言(0) 人氣( 60 )

▲top

請先登入以發表留言。

吾給力的部落格