我的讀者知道我是一個喜歡痛罵Python3 unicode的人。這次也不例外。我將會告訴你用unicode有多痛苦和為什么我不能閉嘴。我花了兩周時間研究Python3,我需要發泄我的失望。在這些責罵中,仍然有有用的信息,因為它教我們如何來處理Python3。如果沒有被我煩到,就讀一讀吧。
這次吐槽的內容會不一樣。不會關聯到WSGI或者HTTP及與其相關的東西。通常,我被告知我應該停止抱怨Python3 Unicode系統,因為我不寫別人經常寫的代碼(HTTP庫之類的東西),所以我這次準備寫點別的東西:一個命令行應用程序。我寫了一個很方便的庫叫click來讓編寫它更加簡單。
注意,我做的是每一個新手Python程序員做的事情:寫一個命令行應用程序。Hello World程序。但是不同以往,我想要確保應用程序是穩定的并且對于Python2和Python3的Unicode都是支持的,還能夠進行單元測試。所以接下來的就是如何來實現它。
在Python3我們作為開發者需要好好使用Unicode。顯然,我覺得這意味著所有的文本數據都是Unicode,所有非文本數據都是字節。在這么美妙的世界里所有的東西只有黑與白,Hello World的例子非常直截了當。所以讓我們來寫一些shell工具吧。
這是用Python2形式實現的應用程序:
import sysimport shutil for filename in sys.argv[1:]: f = sys.stdin if filename != '-': try: f = open(filename, 'rb') except IOError as err: print >> sys.stderr, 'cat.py: %s: %s' % (filename, err) continue with f: shutil.copyfileobj(f, sys.stdout)
顯然,命令在處理任何命令行選項的時候也不是特別好,不過至少能夠用。所以我們開始碼代碼吧。
上面的代碼在Python2是不行的,因為你暗中處理字節。命令行參數是字節,文件名是字節,文件內容也是字節。語言衛道士會指出這是不對的,這樣會引發問題,但如果你開始更多考慮它,你會發現這是個不固定的問題。
UNIX是字節,已經被定義成了這樣,并且一直會是這樣。為了理解為什么你需要觀察數據傳輸的不同場景。
終端 命令行參數 操作系統輸入輸出層 文件系統驅動順便提一下,這不是數據可能通過的唯一東西,但是我們來了解一下,在多少場景下我們能了解一個編碼。答案是一個也沒有。至少我們需要理解一個編碼是終端輸出區域信息。這個信息可以用來展現轉換,也能夠理解文本信息所擁有的編碼。
舉個例子,如果LC_CTYPE的值為en_US.utf-8告訴應用程序系統使用US English,并且大部分文本數據是utf-8編碼。實際上還有很多別的變量,不過我們假定這是我們唯一需要看的。注意LC_CTYPE并不代表所有的數據都是utf-8編碼的。它代替通知應用程序如何分類文本特性并且什么時候需要應用轉換。
新聞熱點
疑難解答