上一篇文章將到 Docker 容器使用 linux namespace 來隔離其運行環境,使得容器中的進程看起來就像愛一個獨立環境中運行一樣。但是,光有運行環境隔離還不夠,因為這些進程還是可以不受限制地使用系統資源,比如網絡、磁盤、CPU以及內存 等。為了讓容器中的進程更加可控,Docker 使用 Linux cgroups 來限制容器中的進程允許使用的系統資源。
1. 基礎知識:Linux control groups
1.1 概念
Linux Cgroup 可???讓???您???為???系???統???中???所???運???行???任???務???(進???程???)的???用???戶???定???義???組???群???分???配???資???源??? — 比???如??? CPU 時???間???、???系???統???內???存???、???網???絡???帶???寬???或???者???這???些???資???源???的???組???合???。???您???可???以???監???控???您???配???置???的??? cgroup,拒???絕??? cgroup 訪???問???某???些???資???源???,甚???至???在???運???行???的???系???統???中???動???態???配???置???您???的??? cgroup。所以,可以將 controll groups 理解為 controller (system resource) (for) (process)groups,也就是是說它以一組進程為目標進行系統資源分配和控制。
它主要提供了如下功能:
使???用??? cgroup,系???統???管???理???員???可???更???具???體???地???控???制???對???系???統???資???源???的???分???配???、???優???先???順???序???、???拒???絕???、???管???理???和???監???控???。???可???更???好???地???根???據???任???務???和???用???戶???分???配???硬???件???資???源???,提???高???總???體???效???率???。
在實踐中,系統管理員一般會利用CGroup做下面這些事(有點像為某個虛擬機分配資源似的):
Linux 系統中,一切皆文件。Linux 也將 cgroups 實現成了文件系統,方便用戶使用。在我的 Ubuntu 14.04 測試環境中:
root@devstack:/home/sammy# mount -t cgroupcgroup on /sys/fs/cgroup/cpuset type cgroup (rw,relatime,cpuset)cgroup on /sys/fs/cgroup/cpu type cgroup (rw,relatime,cpu)systemd on /sys/fs/cgroup/systemd type cgroup (rw,noexec,nosuid,nodev,none,name=systemd)root@devstack:/home/sammy# lssubsys -mcpuset /sys/fs/cgroup/cpusetcpu /sys/fs/cgroup/cpucpuacct /sys/fs/cgroup/cpuacctmemory /sys/fs/cgroup/memorydevices /sys/fs/cgroup/devicesfreezer /sys/fs/cgroup/freezerblkio /sys/fs/cgroup/blkioperf_event /sys/fs/cgroup/perf_eventhugetlb /sys/fs/cgroup/hugetlbroot@devstack:/home/sammy# ls /sys/fs/cgroup/ -ltotal 0drwxr-xr-x 3 root root 0 Sep 18 21:46 blkiodrwxr-xr-x 3 root root 0 Sep 18 21:46 cpudrwxr-xr-x 3 root root 0 Sep 18 21:46 cpuacctdrwxr-xr-x 3 root root 0 Sep 18 21:46 cpusetdrwxr-xr-x 3 root root 0 Sep 18 21:46 devicesdrwxr-xr-x 3 root root 0 Sep 18 21:46 freezerdrwxr-xr-x 3 root root 0 Sep 18 21:46 hugetlbdrwxr-xr-x 3 root root 0 Sep 18 21:46 memorydrwxr-xr-x 3 root root 0 Sep 18 21:46 perf_eventdrwxr-xr-x 3 root root 0 Sep 18 21:46 systemd
我們看到 /sys/fs/cgroup 目錄中有若干個子目錄,我們可以認為這些都是受 cgroups 控制的資源以及這些資源的信息。
默認的話,在 Ubuntu 系統中,你可能看不到 net_cls 和 net_prio 目錄,它們需要你手工做 mount:
root@devstack:/sys/fs/cgroup# modprobe cls_cgrouproot@devstack:/sys/fs/cgroup# mkdir net_clsroot@devstack:/sys/fs/cgroup# mount -t cgroup -o net_cls none net_clsroot@devstack:/sys/fs/cgroup# modprobe netprio_cgrouproot@devstack:/sys/fs/cgroup# mkdir net_prioroot@devstack:/sys/fs/cgroup# mount -t cgroup -o net_prio none net_prioroot@devstack:/sys/fs/cgroup# ls net_prio/cgroup.clone_children cgroup.procs net_prio.ifpriomap notify_on_release taskscgroup.event_control cgroup.sane_behavior net_prio.prioidx release_agentroot@devstack:/sys/fs/cgroup# ls net_cls/cgroup.clone_children cgroup.event_control cgroup.procs cgroup.sane_behavior net_cls.classid notify_on_release release_agent tasks
1.2 實驗
1.2.1 通過 cgroups 限制進程的 CPU
寫一段最簡單的 C 程序:
int main(void){ int i = 0; for(;;) i++; return 0;}
編譯,運行,發現它占用的 CPU 幾乎到了 100%:
top - 22:43:02 up 1:14, 3 users, load average: 0.24, 0.06, 0.06 PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
2304 root 20 0 4188 356 276 R 99.6 0.0 0:11.77 hello
接下來我們做如下操作:
root@devstack:/home/sammy/c# mkdir /sys/fs/cgroup/cpu/helloroot@devstack:/home/sammy/c# cd /sys/fs/cgroup/cpu/helloroot@devstack:/sys/fs/cgroup/cpu/hello# lscgroup.clone_children cgroup.procs cpu.cfs_quota_us cpu.stat taskscgroup.event_control cpu.cfs_period_us cpu.shares notify_on_releaseroot@devstack:/sys/fs/cgroup/cpu/hello# cat cpu.cfs_quota_us-1root@devstack:/sys/fs/cgroup/cpu/hello# echo 20000 > cpu.cfs_quota_usroot@devstack:/sys/fs/cgroup/cpu/hello# cat cpu.cfs_quota_us20000root@devstack:/sys/fs/cgroup/cpu/hello# echo 2428 > tasks
然后再來看看這個進程的 CPU 占用情況:
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
2428 root 20 0 4188 356 276 R 19.9 0.0 0:46.03 hello
它占用的 CPU 幾乎就是 20%,也就是我們預設的閾值。這說明我們通過上面的步驟,成功地將這個進程運行所占用的 CPU 資源限制在某個閾值之內了。
如果此時再啟動另一個 hello 進程并將其 id 加入 tasks 文件,則兩個進程會共享設定的 CPU 限制:
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
2428 root 20 0 4188 356 276 R 10.0 0.0 285:39.54 hello
12526 root 20 0 4188 356 276 R 10.0 0.0 0:25.09 hello
1.2.2 通過 cgroups 限制進程的 Memory
同樣地,我們針對它占用的內存做如下操作:
root@devstack:/sys/fs/cgroup/memory# mkdir helloroot@devstack:/sys/fs/cgroup/memory# cd hello/root@devstack:/sys/fs/cgroup/memory/hello# cat memory.limit_in_bytes18446744073709551615root@devstack:/sys/fs/cgroup/memory/hello# echo 64k > memory.limit_in_bytesroot@devstack:/sys/fs/cgroup/memory/hello# echo 2428 > tasksroot@devstack:/sys/fs/cgroup/memory/hello#
上面的步驟會把進程 2428 說占用的內存閾值設置為 64K。超過的話,它會被殺掉。
1.2.3 限制進程的 I/O
運行命令:
sudo dd if=/dev/sda1 of=/dev/null
通過 iotop 命令看 IO (此時磁盤在快速轉動),此時其寫速度為 242M/s:
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
2555 be/4 root 242.60 M/s 0.00 B/s 0.00 % 61.66 % dd if=/dev/sda1 of=/dev/null
接著做下面的操作:
root@devstack:/home/sammy# mkdir /sys/fs/cgroup/blkio/ioroot@devstack:/home/sammy# cd /sys/fs/cgroup/blkio/ioroot@devstack:/sys/fs/cgroup/blkio/io# ls -l /dev/sda1brw-rw---- 1 root disk 8, 1 Sep 18 21:46 /dev/sda1root@devstack:/sys/fs/cgroup/blkio/io# echo '8:0 1048576' > /sys/fs/cgroup/blkio/io/blkio.throttle.read_bps_deviceroot@devstack:/sys/fs/cgroup/blkio/io# echo 2725 > /sys/fs/cgroup/blkio/io/tasks
結果,這個進程的IO 速度就被限制在 1Mb/s 之內了:
TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND
2555 be/4 root 990.44 K/s 0.00 B/s 0.00 % 96.29 % dd if=/dev/sda1 of=/dev/null
1.3 術語
cgroups 的術語包括:
2. Docker 對 cgroups 的使用
2.1 默認情況
默認情況下,Docker 啟動一個容器后,會在 /sys/fs/cgroup 目錄下的各個資源目錄下生成以容器 ID 為名字的目錄(group),比如:
/sys/fs/cgroup/cpu/docker/03dd196f415276375f754d51ce29b418b170bd92d88c5e420d6901c32f93dc14
此時 cpu.cfs_quota_us 的內容為 -1,表示默認情況下并沒有限制容器的 CPU 使用。在容器被 stopped 后,該目錄被刪除。
運行命令 docker run -d --name web41 --cpu-quota 25000 --cpu-period 100 --cpu-shares 30 training/webapp python app.py 啟動一個新的容器,結果:
root@devstack:/sys/fs/cgroup/cpu/docker/06bd180cd340f8288c18e8f0e01ade66d066058dd053ef46161eb682ab69ec24# cat cpu.cfs_quota_us25000root@devstack:/sys/fs/cgroup/cpu/docker/06bd180cd340f8288c18e8f0e01ade66d066058dd053ef46161eb682ab69ec24# cat tasks3704root@devstack:/sys/fs/cgroup/cpu/docker/06bd180cd340f8288c18e8f0e01ade66d066058dd053ef46161eb682ab69ec24# cat cpu.cfs_period_us2000
Docker 會將容器中的進程的 ID 加入到各個資源對應的 tasks 文件中。表示 Docker 也是以上面的機制來使用 cgroups 對容器的 CPU 使用進行限制。
相似地,可以通過 docker run 中 mem 相關的參數對容器的內存使用進行限制:
--cpuset-mems string MEMs in which to allow execution (0-3, 0,1) --kernel-memory string Kernel memory limit -m, --memory string Memory limit --memory-reservation string Memory soft limit --memory-swap string Swap limit equal to memory plus swap: '-1' to enable unlimited swap --memory-swappiness int Tune container memory swappiness (0 to 100) (default -1)
比如 docker run -d --name web42 --blkio-weight 100 --memory 10M --cpu-quota 25000 --cpu-period 2000 --cpu-shares 30 training/webapp python app.py:
root@devstack:/sys/fs/cgroup/memory/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410# cat memory.limit_in_bytes10485760 root@devstack:/sys/fs/cgroup/blkio/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410# cat blkio.weight 100
目前 docker 已經幾乎支持了所有的 cgroups 資源,可以限制容器對包括 network,device,cpu 和 memory 在內的資源的使用,比如:
root@devstack:/sys/fs/cgroup# find -iname ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410./net_prio/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410./net_cls/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410./systemd/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410./hugetlb/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410./perf_event/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410./blkio/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410./freezer/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410./devices/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410./memory/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410./cpuacct/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410./cpu/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410./cpuset/docker/ec8d850ebbabaf24df572cb5acd89a6e7a953fe5aa5d3c6a69c4532f92b57410
2.2 net_cls
net_cls 和 tc 一起使用可用于限制進程發出的網絡包所使用的網絡帶寬。當使用 cgroups network controll net_cls 后,指定進程發出的所有網絡包都會被加一個 tag,然后就可以使用其他工具比如 iptables 或者 traffic controller (TC)來根據網絡包上的 tag 進行流量控制。關于 TC 的文檔,網上很多,這里不再贅述,只是用一個簡單的例子來加以說明。
關于 classid,它的格式是 0xAAAABBBB,其中,AAAA 是十六進制的主ID(major number),BBBB 是十六進制的次ID(minor number)。因此,0X10001 表示 10:1,而 0x00010001 表示 1:!。
(1)首先在host 的網卡 eth0 上做如下設置:
tc qdisc del dev eth0 root #刪除已有的規則tc qdisc add dev eth0 root handle 10: htb default 12 tc class add dev eth0 parent 10: classid 10:1 htb rate 1500kbit ceil 1500kbit burst 10k #限速tc filter add dev eth0 protocol ip parent 10:0 prio 1 u32 match ip protocol 1 0xff flowid 10:1 #只處理 ping 參數的網絡包
其結果是:
(2)啟動容器
容器啟動后,其 init 進程在host 上的 PID 就被加入到 tasks 文件中了:
root@devstack:/sys/fs/cgroup/net_cls/docker/ff8d9715b7e11a5a69446ff1e3fde3770078e32a7d8f7c1cb35d51c75768fe33# ps -ef | grep 10047231072 10047 10013 1 07:08 ? 00:00:00 python app.py
設置 net_cls classid:
echo 0x100001 > net_cls.classid
再在容器啟動一個 ping 進程,其 ID 也被加入到 tasks 文件中了。
(3)查看tc 情況: tc -s -d class show dev eth0
Every 2.0s: tc -s class ls dev eth0 Wed Sep 21 04:07:56 2016class htb 10:1 root prio 0 rate 1500Kbit ceil 1500Kbit burst 10Kb cburst 1599b Sent 17836 bytes 182 pkt (dropped 0, overlimits 0 requeues 0) rate 0bit 0pps backlog 0b 0p requeues 0 lended: 182 borrowed: 0 giants: 0 tokens: 845161 ctokens: 125161
我們可以看到 tc 已經在處理 ping 進程產生的數據包了。再來看一下 net_cls 和 ts 合作的限速效果:
10488 bytes from 192.168.1.1: icmp_seq=35 ttl=63 time=12.7 ms
10488 bytes from 192.168.1.1: icmp_seq=36 ttl=63 time=15.2 ms
10488 bytes from 192.168.1.1: icmp_seq=37 ttl=63 time=4805 ms
10488 bytes from 192.168.1.1: icmp_seq=38 ttl=63 time=9543 ms
其中:
后兩條說使用的 tc class 規則是 tc class add dev eth0 parent 10: classid 10:1 htb rate 1500kbit ceil 15kbit burst 10k
前兩條所使用的 tc class 規則是 tc class add dev eth0 parent 10: classid 10:1 htb rate 1500kbit ceil 10Mbit burst 10k
3. Docker run 命令中 cgroups 相關命令
block IO: --blkio-weight value Block IO (relative weight), between 10 and 1000 --blkio-weight-device value Block IO weight (relative device weight) (default []) --cgroup-parent string Optional parent cgroup for the containerCPU: --cpu-percent int CPU percent (Windows only) --cpu-period int Limit CPU CFS (Completely Fair Scheduler) period --cpu-quota int Limit CPU CFS (Completely Fair Scheduler) quota -c, --cpu-shares int CPU shares (relative weight) --cpuset-cpus string CPUs in which to allow execution (0-3, 0,1) --cpuset-mems string MEMs in which to allow execution (0-3, 0,1)Device: --device value Add a host device to the container (default []) --device-read-bps value Limit read rate (bytes per second) from a device (default []) --device-read-iops value Limit read rate (IO per second) from a device (default []) --device-write-bps value Limit write rate (bytes per second) to a device (default []) --device-write-iops value Limit write rate (IO per second) to a device (default [])Memory: --kernel-memory string Kernel memory limit -m, --memory string Memory limit --memory-reservation string Memory soft limit --memory-swap string Swap limit equal to memory plus swap: '-1' to enable unlimited swap --memory-swappiness int Tune container memory swappiness (0 to 100) (default -1)
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持VEVB武林網。
新聞熱點
疑難解答
圖片精選