關于你不想知道的所有Python3 unicode特性

2020-02-23 06:13:47

字體：大中小

來源：轉載

供稿：網友

我的讀者知道我是一個喜歡痛罵Python3 unicode的人。這次也不例外。我將會告訴你用unicode有多痛苦和為什么我不能閉嘴。我花了兩周時間研究Python3，我需要發泄我的失望。在這些責罵中，仍然有有用的信息，因為它教我們如何來處理Python3。如果沒有被我煩到，就讀一讀吧。

這次吐槽的內容會不一樣。不會關聯到WSGI或者HTTP及與其相關的東西。通常，我被告知我應該停止抱怨Python3 Unicode系統，因為我不寫別人經常寫的代碼（HTTP庫之類的東西），所以我這次準備寫點別的東西：一個命令行應用程序。我寫了一個很方便的庫叫click來讓編寫它更加簡單。

注意，我做的是每一個新手Python程序員做的事情：寫一個命令行應用程序。Hello World程序。但是不同以往，我想要確保應用程序是穩定的并且對于Python2和Python3的Unicode都是支持的，還能夠進行單元測試。所以接下來的就是如何來實現它。

我們想做什么

在Python3我們作為開發者需要好好使用Unicode。顯然，我覺得這意味著所有的文本數據都是Unicode，所有非文本數據都是字節。在這么美妙的世界里所有的東西只有黑與白，Hello World的例子非常直截了當。所以讓我們來寫一些shell工具吧。

這是用Python2形式實現的應用程序：

import sysimport shutil for filename in sys.argv[1:]:  f = sys.stdin  if filename != '-':    try:      f = open(filename, 'rb')    except IOError as err:      print >> sys.stderr, 'cat.py: %s: %s' % (filename, err)      continue  with f:    shutil.copyfileobj(f, sys.stdout)

顯然，命令在處理任何命令行選項的時候也不是特別好，不過至少能夠用。所以我們開始碼代碼吧。

UNIX里的UNICODE

上面的代碼在Python2是不行的，因為你暗中處理字節。命令行參數是字節，文件名是字節，文件內容也是字節。語言衛道士會指出這是不對的，這樣會引發問題，但如果你開始更多考慮它，你會發現這是個不固定的問題。

UNIX是字節，已經被定義成了這樣，并且一直會是這樣。為了理解為什么你需要觀察數據傳輸的不同場景。

終端命令行參數操作系統輸入輸出層文件系統驅動

順便提一下，這不是數據可能通過的唯一東西，但是我們來了解一下，在多少場景下我們能了解一個編碼。答案是一個也沒有。至少我們需要理解一個編碼是終端輸出區域信息。這個信息可以用來展現轉換，也能夠理解文本信息所擁有的編碼。

舉個例子，如果LC_CTYPE的值為en_US.utf-8告訴應用程序系統使用US English，并且大部分文本數據是utf-8編碼。實際上還有很多別的變量，不過我們假定這是我們唯一需要看的。注意LC_CTYPE并不代表所有的數據都是utf-8編碼的。它代替通知應用程序如何分類文本特性并且什么時候需要應用轉換。

上一篇：Python實現讀取目錄所有文件的文件名并保存到txt文件代碼

下一篇：Python動態加載模塊的3種方法