On Kubernetes Node Sizing

เหมือนเคยเขียนใน Facebook แต่ไม่แน่ใจ จริงๆ ก็อยากเขียนให้มัน scientific ดีๆ ลง blog บริษัท

คำถามที่ไม่มีใครตอบได้อันนึงของ Kubernetes คือ node ใช้ size อะไรดี โดยเฉพาะใน cloud ที่

  • m5.xlarge 4vCPU RAM 16GB ราคา $0.24/hr
  • m5.4xlarge 16vCPU RAM 64GB ราคา $0.96/hr

ซึ่งถ้าซื้อ m5.xlarge 4 เครื่องให้สเปคเท่ากัน มันก็ $0.96/hr อยู่ดี เลยไม่ต่างกันแล้วจะเลือกยังไง…

Fault isolation

ใน design cluster เดิมผมใช้ m5.xlarge รันอยู่

ข้อดีของวิธีนี้คือเครื่องจะเป็น single point of failure น้อย

ข้อเสียคือสมมุติว่าทุกเครื่องมันจะเหลือ CPU ประมาณ 200m เพราะมันไม่มี workload size ที่ลงได้ สมมุติว่าเรามี 10 เครื่องที่เหลือรวมกันก็ 2000m แล้ว ยังไ่มรวม memory

อีกปัญหาหนึ่งคือ workload ที่มัน burst เกิน cpu request ต่อเนื่องจะกลายเป็น noisy neighbour ให้กับ pod ข้างๆ ซึ่งแก้ไม่ได้เพราะบางทีมันก็ burst แป๊บเดียวจริงๆ เช่นตอน start อาจจะโหลดหนักมากแต่ตอนรันใช้ cpu แค่ 20m ถ้าเราใส่ cpu cap ให้มันเป็น 20m ทีนี้ start ทีนึงหลายนาที เผลอๆ connection timeout แล้ว start ไม่ติด (cloud ต่างๆ ใช้ burst model เป็นแบบเป็น credit ซึ่ง Kubernetes ไม่มี)

Bigger the better

ใน cluster ใหม่ ผมกับ director คิดกันว่าควรจะเลือกเครื่อง size ใหญ่ขึ้น

เหตุผลของผมคือเราใช้ AWS ENI ต่อเข้า pod แล้วพอเครื่องใหญ่ขึ้นจะได้ ENI มากขึ้น คิดว่าประมาณ m5.4xlarge กำลังเหมาะเพราะมันจะได้ 234 pod ซึ่งคิดว่า average case แล้วมันไม่น่า่จะอัดกันเครื่องเดียวได้ 234 pod แต่ก็มีบ้างถ้าเครื่องโดน assign แต่ workload เล็กๆ

เหตุผลของ Director ผมคือถ้าเราไปใช้ m5.8xlarge ขึ้นไป เราจะได้การันตี 10Gbps network (ต่ำกว่านี้เป็น up to) ซึ่งคิดว่ามันน่าจะช่วยให้ network เสถียรขึ้น แต่ก็คงใช้เฉพาะใน production เท่านั้น

ข้อเสียคือถ้าเครื่องมันดับ impact จะใหญ่ขึ้นมากๆ และเวลา scale up เครื่องมันจะเหลือ

จากที่ใช้งานมาจริง ก็พบว่า

  • Network มันน่าจะนิ่งและเร็วขึ้น เพราะเครื่องใหญ่แล้วโอกาสที่ workload จะรันอยู่บนเครื่องเดียวกันจะมากขึ้น
  • ส่วนมากคนจะเขียน resource request เป็น p80 ขึ้นไปแต่เวลาใช้งานจริงส่วนมากจะไม่ถึง และ workload บนเครื่องที่หลากหลายขึ้น คิดว่าน่าจะทำให้ในทางปฏิบัติทุก pod สามารถ burst ชน cpu limit ได้ตลอดเวลา เพราะไม่น่าจะมีโอกาสที่ทุก pod จะอยาก burst พร้อมกัน ซึ่งก็จะลดปัญหา noisy neighbor ไปได้
    • Google มี finding คล้ายๆ กันว่าถ้าเครื่องมันใหญ่กว่าขนาดของ workload มากๆ ทุกคนน่าจะสามารถ burst พร้อมกันได้ถ้ามันกระจายตัวดีพอ
  • rolling reboot เร็วขึ้น แต่ก่อน reboot ทั้ง cluster หลายชั่วโมง
  • resource request ส่วนที่เหลือทิ้งของเครื่องที่เต็มยังเท่าเดิมจริง แต่เครื่องมักจะไม่เต็มเพราะ Kubernetes จะเน้นกระจายมากกว่าพยายามอัดให้เต็มเป็นเครื่องๆ ไป ก็เลยเหลือทิ้งอยู่ดี

ไว้ prod เอาขึ้นแล้วน่าจะได้รู้ผลของทฤษฎีกันจริงๆ ว่าจะ work แค่ไหน

If God Built Netflix

ผมพยายามเขียนบล็อคนึงมาหลายปีแต่ก็ไม่เคยตกผลึกเขียนจบสักที

section ใหญ่ๆ ในบล็อคนั้นคือ ถ้าพระเจ้าสร้าง Netflix มันจะ design ระบบมายังไงกันนะ

เพราะในช่วงนั้น Microservice กำลังอยู่ในช่วงบูม gut feeling ผมบอกว่า microservice มันไม่ถูก แต่ไม่รู้ว่าที่ถูกต้องทำยังไงเลยไปนั่งคิดอยู่ว่าถ้าออกแบบระบบโดยมีเวลาไม่จำกัด มีเงินไม่จำกัด และทีมพัฒนาเทพมากไม่ต้องกังวลว่าจะเกิด feature creep มันจะออกมาหน้าตายังไง


ช่วงนี้ได้กลับไปดูคนอื่นแก้ module ที่เคยถือก่อนหน้านี้

module นี้ผมก็อยู่ในทีมก่อตั้งเลย แต่ตอนนั้นดูฝั่ง client side เลยไม่ค่อยรู้เรื่องว่ามัน design มายังไง จนตอนหลังมาปะติดปะต่อภาพแล้วเข้าใจว่าไอเดียของมันคือจะมี API กลางตัวนึงซึ่งมันแทบจะเป็น REST API ให้ database เลยแหละ แล้วก็ handle authn/authz ต่างๆ และ API นี้จะไม่รู้จัก module ที่เป็น UI เลยจะรู้จักแต่ module ที่ provide service เพื่อ implement feature ของมันเท่านั้น

ในฝั่ง UI ด้านนอกก็จะทำหน้าที่แทบจะเป็น API Gateway แค่นั้นไม่ได้มี logic อะไรเพิ่มนอกจาก map field ต่างๆ

ปัญหาก็คือบางครั้ง UI อยากจะทำ push notification เมื่อ object change ซึ่งเนื่องจาก API กลางจะไม่รู้จักกับ UI module เลยจะ push ไป trigger ไม่ได้ ก็ต้องส่ง message เข้าไปใน message queue ว่ามีการ change แล้ว แล้วใครอยากได้ก็อ่านไป ใน message เองก็จะไม่ได้ระบุว่า change อะไรบ้างส่งมาแต่ snapshot ของ object ที่เวลานั้นๆ

Design นี้ถ้าเคยศึกษา Kubernetes ก็น่าจะพอ map ได้เลยว่า API กลางเหมือน kube-apiserver แล้ว UI ก็คือพวก controller/operator ต่างๆ ซึ่งก็ถือว่าทันสมัยมากเพราะในตอนนั้น Kubernetes ยังเป็นของใหม่มากๆ และคิดว่าทีมก็ยังไม่ได้ศึกษา design ของ Kubernetes มาก่อน แต่มันก็เป็นไปตามหลัก microservice design

ที่จะแตกต่างกันคือ Kubernetes จะมีส่วนเก็บ status ของ object ที่ให้ controller สามารถเขียน state กลับไปได้ ทำให้ controller ทุกตัวเป็น stateless ได้หมด แต่โปรแกรมนี้ไม่ได้คิดไปถึงตรงนั้น

ฟีเจอร์แรกๆ ที่ต้องยิง callback ผมจำได้ว่าใช้วิธีเปิด Redis ของ UI module ตัวนั้นมาเก็บ state ส่วนตัว พอมาฟีเจอร์ที่สองบนอีก UI module หนึ่ง คนที่ออกแบบก็เลือกจะเอา API กลางยิงออกไป 3rd party แทนแล้ว ผมก็ยังไม่แน่ใจว่าทำไมเลือกใช้ design แบบนี้ในตอนนั้น

หลังจากนั้นแล้วผมก็ทิ้งหายจาก module นี้ไปนาน ทีมที่เขียนก็แยกย้ายกันไป บางคนก็ยังอยู่ในบริษัทแต่ทำหน้าที่อื่นๆ แล้ว จนกระทั่งผมได้กลับไปดู UI module ตัวนึงซึ่งทีมปัจจุบันไม่มีคนดู ปัญหาใหญ่ๆ ที่ผมเห็นคือมัน scale ไม่ได้และห้าม restart ด้วยเพราะมันเก็บ state ใน memory ตอนนั้นถึงเข้าใจว่า design ของระบบจริงๆ เค้าคิดอะไรอยู่

หนึ่งปีให้หลัง ทีมปัจจุบันเข้ามาแก้เพิ่มฟีเจอร์ใน UI module นั้น ผมรีวิวแล้วก็เพิ่งรู้ตัวว่า design ของระบบนี้มันเปลี่ยนไปเยอะมากเพราะทีมใหม่คุ้นชินกับการที่ทำฟีเจอร์ใหม่เป็น explicit เกือบหมด อยากได้อะไรก็ยิงไปบอกคนนั้นว่าให้ทำแบบนี้ ซึ่งมันเขียนง่ายขึ้นเยอะแต่ service ก็จะพันกันหมด


ถามว่าถ้าตอนนั้นไปลอก design แบบ Kubernetes มาคือแก้ให้ API กลางช่วย module อื่นเก็บ state ได้มันจะแก้ปัญหานี้มั้ย?

ผมก็ยังคิดว่าปัญหามันยังไม่จบนะ ถ้าดูจาก Kubernetes เองก็จะเห็นว่า API บางอย่างมันจำเป็นต้องมี flow explicit action จริงๆ เช่นขอดู log ที่ถ้าทำเป็น implicit แล้ว kubelet ต้อง stream log ไปที่ API server ตลอดเวลา หรือ API server ต้องมี Kubelet log URL เพื่อให้ client ไปยิงเป็น explicit กันเอง ก็เป็นปัญหา network security อีก และอย่างคำสั่ง exec นี่คงจะไม่มีทางเลี่ยง ยังไงก็ต้องเปิด channel ตรงๆ

นอกจากนี้ Kubernetes design ยังทำให้เกิด traffic ในการ polling เยอะ ก็จะเห็นว่า Kubernetes เริ่มติด scaling limit ระดับหลายพัน node ที่ API Server กินทรัพยากรจำนวนมาก

สำหรับ project ที่เล่าไปนี้ design ปัจจุบันที่ยิง action ตรงๆ ผมว่ามันเป็นอะไรที่ตรงไปตรงมา น่าเบื่อ แต่มันก็เหมือนจะเป็น system design ที่ผ่านการพิสูจน์มานานแล้ว ถ้าไม่กังวลปัญหาใหม่ๆ อย่าง microservice design ก็ดูเหมือนจะเป็น solution ที่น่าสนใจ


ผมเล่าเรื่องถ้าพระเจ้าสร้าง Netflix ลงใน Facebook อาจารย์ผมมาอ่านแล้ว comment ว่า

“ถ้าจะแก้ทีนึงก็ต้องสวดชุมนุมเทวดาก่อน”

ผมขำอยู่ปีนึงถึงจะเข้าใจความหมายที่อาจารย์จะสื่อ