Python 移除同一檔案內重複的行列字串

一個純文字檔裡面, 每行一個字串, 要將重複的字串移除, 要怎麼做比較快?

原始檔案: data.txt

aa
bb
cc
aa
cd

於 Shell 可以使用: cat data.txt | sort | uniq # 把沒有重複的資料印出來.

註: shell 的 uniq 需要將相同的資料放在隔壁列, 才可以使用, 所以需要 sort + uniq, 檔案很大的話, 避免掉 sort, 可以將速度可以快很多.

Python 移除同一檔案內重複的行列字串

下述程式是針對檔案每列的資料不要重複為主, 移除重複的資料用.

vim uniq.py

#!/usr/bin/python
file = open('data.txt', 'r')
data = {}
try:
    for line in file:
        data[line.strip()] = 1

    for line in iter(data):
        print line

finally:
    file.close()

chmod +x ./uniq.py
./uniq.py # 就會印出不重複的行列資料

感謝 Toomore提供的簡短版本

#!/usr/bin/python
''' ./uniq.py ./data.txt '''
import sys 
with open(sys.argv[1], 'r') as f:
    print ''.join(list(set([i for i in f])))

作者: Tsung

對新奇的事物都很有興趣, 喜歡簡單的東西, 過簡單的生活. 檢視「Tsung」的全部文章

在〈Python 移除同一檔案內重複的行列字串〉中有 4 則留言

#!/usr/bin/python
''' ./uniq.py ./data.txt
import sys
with open(sys.argv[1], 'r') as f:
print ''.join(list(set([i for i in f])))

回覆

Toomore表示:

2012 年 11 月 09 日02:52:10

排版有點悲劇…
http://codepad.org/iAlNYjkn

可以這樣很噁心的寫（修正）
http://codepad.org/BBWB4fzx

回覆

Tsung表示:

2012 年 11 月 09 日07:17:12

呵呵, 這種寫法很難懂阿~
感謝提供, 我把它補在文章的後面~ 🙂

Toomore表示:

2012 年 11 月 09 日02:50:14

#!/usr/bin/python
''' ./uniq.py ./data.txt
import sys
with open(sys.argv[1], 'r') as f:
print ''.join(list(set([i for i in f])))

回覆
1. Toomore表示:
  
  2012 年 11 月 09 日02:52:10
  
  排版有點悲劇…
  http://codepad.org/iAlNYjkn
Toomore表示:

2012 年 11 月 09 日02:56:17

可以這樣很噁心的寫（修正）
http://codepad.org/BBWB4fzx

回覆
1. Tsung表示:
  
  2012 年 11 月 09 日07:17:12
  
  呵呵, 這種寫法很難懂阿~
  感謝提供, 我把它補在文章的後面~ 🙂

發表迴響取消回覆

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

「Tsung」於〈小綠人閃爍衝過斑馬線的法規 - 2026〉發佈留言2026 年 03 月 24 日
感謝，我通常做事是希望可以用自然易懂的方…
「ca」於〈小綠人閃爍衝過斑馬線的法規 - 2026〉發佈留言2026 年 03 月 24 日
謝謝Tsung長期分享很棒的觀點與訊息。…
「駭客服務」於〈駭客接專案平台 - Hacker's List〉發佈留言2026 年 03 月 18 日
如果您正在尋求駭客服務，請聯絡他們 Ur…
「festive jacket kurta for men」於〈lazypg：PostgreSQL 終端機CLI 的 GUI〉發佈留言2026 年 03 月 02 日
The indo western sty…
「Observe system metrics, status, and logs on Linux – I Failed the Turing Test」於〈Dig 常用參數與 DNS 偵錯追蹤〉發佈留言2026 年 02 月 18 日
[…] ref: https…

Python 移除同一檔案內重複的行列字串

分享此文：

相關

作者: Tsung

在〈Python 移除同一檔案內重複的行列字串〉中有 4 則留言

發表迴響取消回覆