shell腳本學習指南[二](Arnold Robbins & Nelson H.F. Beebe著)

2024-07-09 22:42:14

字體：大中小

來源：轉載

供稿：網友

該進入第四章了，剛才看到一個帖子標題：我空有一身泡妞的好本領，但可惜自己是個妞。汗～這個。。。音樂無國界嘛，這個不應該也沒性別界么？

第四章文本處理工具

書中先說明了以下排序的規則，數值的就不用說了，該大就大該小就小，但是字符型很多時候是區分聲調或者重音的。在命令行中輸入locale查看自己系統的編碼配置。默認的是系統配置里的，但是可以自己設置排序的編碼。如：
復制代碼代碼如下:
$ LC_ALL=C sort french-english #以傳統ASCII碼順序排序

下邊介紹以下排序命令sort：
語法： sort [ options ] [ file(s} ]
主要選項： -b 忽略開頭的空白
-c 檢查輸入是否已正確地排序。如果未排序，則退出碼為非零值，不會有任何輸出
-d 字典順序，僅文字數字和空白才有意義。
-g 一般數值：以浮點數字類型比較字段。僅GNU版本提供此選項功能
-f 將混用的字母都看作相同大小寫，即忽略大小寫。
-i 忽略無法打印的字符。
-k 定義排序鍵值字段
-m 將已排序的輸入文件，合并為一個排序后的輸出數據流
-n 以整數類型比較字段
-o outfile 將輸出寫到指定文件
-r 倒置排序由大到小，默認由小到大
-t char 使用單個字符char作為默認的字段分隔符取代空白字符
-u 只有唯一記錄，丟棄所有具有相同鍵值的記錄只留第一條。
另外排序鍵值字段類型標識，即-k一個字段之后的修飾符字母：
b 忽略開頭的空白
d 字典順序
f 不區分大小寫
g 以一般的浮點數進行比較，只適用GNU版本
i 忽略無法打印的字符
n 以整數數字比較
r 倒置排序順序
字段以及字段里的字符是由1開始編號的。如果僅指定一個字段編號，則排序鍵值會自該字段的起始處開始，一直繼續到記錄的結尾（而非字段結尾）。
如果給的是一對用逗號隔開的字段數字，則排序鍵值將由第一個字段值起開始，到第二個指定字段結尾結束。可能出現多個-k，會從第一個開始。

例子：
復制代碼代碼如下:
$ sort -t: -k1,1 /etc/passwd #以用戶名稱排序
$ sort -t: -k2nr /etc/passwd #反向UID的排序
$ sort -t: -k4n -k3n /etc/passwd $以GID與UID排序

關于sort的效率，搞算法的都比較了解目前各種排序算法的效率，這里的sort也沒啥特別的，類似STL估計，組合排序算法盡可能的優化過了。不是搞算法的童鞋也不用了解了，相信它的效率就好了。

有時候我們還十分關心排序的穩定性，默認情況下是不穩定的，但是GNU實現了coreutils包彌補了不足，可以通過--stable選項來解決穩定性問題。（不懂穩定性的簡單說一下：意思就是排序鍵值等同的時候需要以輸入順序來輸出，即排序不打亂輸入順序）

有時候我們還需要解決輸入數據的重復問題，sort -u能夠解決一些，但是它消除的操作依據的是匹配的鍵值，而非匹配的記錄。uniq命令提供另一種過濾數據的方式：它常用于管道中，用來刪除已適用sort排序完成的重復記錄。uniq有3個好用的選項：-c 可在每個輸出行之前加上該行的重復次數。 -d選項則用于僅顯示重復的行。 -u僅顯示未重復的行。這里需要注意一點，uniq處理數據前是需要sort對數據進行排序的！

另外我們處理大量這樣的數據的時候，我們需要重新格式化段落以方便我們使用或閱讀。這時候可以使用fmt命令，有兩個常用的選項：-s 僅切割較長的行，短行不會合并 ; -w n 則設置輸出行寬度為n個字符（默認75個左右）。要考慮fmt移植性的請另行查詢文檔。

這里對可能使用到的統計行數、字數、字符數的wc命令做一個介紹，選項有-c 字節數 -l行數 -w 字數。默認情況下給出行數字數字節數。

好了，處理了那么多文本，我們可能要打印出來看看，unix里支持的打印功能包括兩類不同的命令，但擁有相同的功能，商用的unix系統與GNU/linux通常兩種都支持，不過BSD系統僅支持Berkeley風格，POSIX則只定義了lp命令。

上一篇：docker容器資源配額控制詳解

下一篇：ASP替換、保存遠程圖片實現代碼