Under the Cloud – GCP

ในฝั่ง Google แล้ว เนื่องจากองค์กรโตมาจากสาย research รายละเอียดการ implement ของ GCP จึงไปอยู่ใน Paper แทน โดย Paper ที่สำคัญคือ “Large-scale cluster management at Google with Borg” ซึ่งออกมาในปี 2015

Borg

ถ้าใครเคยอ่านประวัติของ Kubernetes จะทราบว่า Kubernetes เป็นความพยายามออกแบบระบบ cluster management ของ Google ขึ้นมาใหม่เป็น open source โดยระบบเดิมที่ Google ใช้อยู่นั้นชื่อ Borg

แน่นอนว่า Google จึงไม่ได้ใช้ Kubernetes แต่ยังใช้ Borg อยู่

ในส่วนการทำงานของ Borg จาก Paper จริงๆ ก็แทบจะเหมือน Kubernetes ถ้าเข้าใจส่วนประกอบของ Kubernetes ดีแล้วก็คงไม่จำเป็นจะต้องอธิบายเพิ่ม

Borg high level architecture

จากภาพด้านบน ถ้าเปรียบเทียบกับ Kubernetes แล้ว BorgMaster ก็คือ Kubernetes master, Paxos store ก็คือ etcd, Borglet คือ Kubelet, Cell คือ Cluster และ borgcfg คือไฟล์ YAML นั่นเอง

ในแต่ละงานที่รันใน Borg จะต้องระบุ Quota ที่ต้องการใช้ ซึ่งมีความซับซ้อนกว่า Kubernetes resource มาก เพราะระบุได้ทั้งปริมาณ CPU, RAM, Disk, ฯลฯ ที่ต้องการใช้, ลำดับความสำคัญ และเวลาที่ต้องการใช้ โดยผู้ใช้งาน Borg จะต้องซื้อ Quota ไว้ก่อนใช้งาน

พอทราบ Resource ของ Workload ที่ต้องการใช้แล้ว Borg scheduler ก็จะจัดหา Borglet ที่จะรัน Workload นั้นให้อัตโนมัติ เช่นเดียวกับ Kubernetes

ในปี 2018 มีคน Hack Google Sites ผ่านช่องโหว่ใน Google Caja ได้ และดูดหน้า admin Borg รวมถึงรายละเอียดต่างๆ ออกมาเล่าให้ฟังได้เล็กน้อย ตามบทความ Into the Borg และมีคนแกะ Borg protobuf มาจาก App Engine อีกด้วยใน $36k App Engine RCE

App Engine

เขียนมาอย่างนานอาจจะสงสัยว่าทำไมจะต้องเล่าถึง Borg ด้วย?

คำตอบคือ Google เอา Workload ของเราไปรันบน Borg ครับ! บนเครื่องเดียวกับที่เรารัน โค้ดของเรานั้นอาจจะมี Gmail หรือ YouTube Encoder รันอยู่พร้อมๆ กันก็ได้ ซึ่งใน Paper ก็ได้ยึนยันไว้ในหัวข้อ 6.1 แล้วว่า

VMs and security sandboxing techniques are used to run external software by Google’s AppEngine (GAE) and Google Compute Engine (GCE). We run each hosted VM in a KVM process that runs as a Borg task.

Product แรกของ Google Cloud คือ App Engine ที่เปิดตัวมานานกว่า 10 ปีแล้ว ถ้าใครเคยเขียน App Engine โดยใช้ runtime ตัวแรกก็จะทราบว่ามีข้อจำกัดพอสมควร เช่น

  • ห้ามใช้ Native module
  • ห้าม Write ลง Disk
  • ห้ามต่อออก Network
  • ห้าม import บาง module

ผมไม่แน่ใจว่า App Engine ใช้อะไรมา Sandbox Application ของเรา แต่เข้าใจว่าเนื่องจากข้อจำกัดการใช้งานต่างๆ แล้วจึงไม่ได้ใช้ Sandbox อื่นๆ ครอบทับไปอีก ใน Paper ของ Borg เองก็ระบุว่าใช้เพียง chroot และ cgroup เท่านั้น

ในปี 2018 Google ได้เปิดตัว App Engine Second Generation Runtime ซึ่งใช้ gVisor เป็นระบบ Sandbox แทน ทำให้สามารถรันทุกคำสั่งได้ตามปกติ

gVisor

เนื่องจาก Linux เป็น OS เดียวที่การันตีว่า system call table จะ Stable จึงมีหลายคนที่พยายาม implement system call table ของ Linux ขึ้นมาใหม่

คนหนึ่งที่เราอาจจะรู้จักกันดีคือ Windows Subsystem for Linux ซึ่ง map Linux system calls ไปยัง NT kernel system calls เช่นเดียวกัน gVisor ก็เป็นการเขียน Linux system calls ขึ้นมาใหม่ในภาษา Go

gVisor

การที่ gVisor เขียนด้วยภาษา Go นั้นทำให้โค้ดมีความปลอดภัยกว่าภาษา C ที่ใช้เขียน Linux kernel เนื่องจาก runtime ของภาษาจะจัดการ Memory ให้โดยอัตโนมัติ นอกจากนี้เนื่องจากมันแค่ implement system calls อย่างเดียว ทำให้มันไม่กินทรัพยากรมากเท่ากับ Virtualization

Compute Engine

อย่างที่เล่าไปในหัวข้อด้านบน การสร้าง Compute Engine เครื่องหนึ่งก็คือการสร้าง Borg task หนึ่งที่รันอิมเมจของเราบนโปรแกรม KVM

ประเด็นหนึ่งที่มีคนเคยถามผมคือ Live migration ของ Google Cloud ทำงานอย่างไร? Google ได้เล่าไว้แล้วในบทความ Live migration

สิ่งที่เกิดขึ้นตอน Live migration คือ

  1. มีสัญญาณมาให้ Live migrate เช่นมีการ maintenance hardware หรือระบบตรวจพบว่า hardware ใกล้เสียแล้ว
  2. Scheduler จะจัดหาเครื่องใหม่มาให้
  3. เมื่อได้เครื่องใหม่แล้ว เครื่องใหม่จะเปิด VM เปล่าๆ ขึ้นมา
  4. เครื่องเดิมจะ Dump Memory ของ VM ส่งไปให้เครื่องใหม่
  5. กระบวนการข้อ 4 เนื่องจากจะใช้เวลาส่งข้อมูลพอสมควร จึงจะต้อง Track ด้วยว่ามีการ Update memory ตรงไหนบ้างระหว่างการทำงานนี้ (Delta)
  6. หลังจากส่ง Memory ชุดแรกเสร็จแล้วก็จะส่ง Delta ตามไปด้วย
  7. วนซ้ำข้อ 6 ไปเรื่อยๆ จนระบบคิดว่าการส่ง Update นั้นไม่คุ้มค่าที่จะทำแล้ว
  8. VM จะถูก Pause และระบบจะส่ง Delta ชุดสุดท้าย
  9. เครื่องใหม่เมื่อมี state ครบแล้วก็จะทำงานต่อ
  10. เครื่องเดิมแม้จะหยุดทำงาน VM แล้ว แต่ยังจะต้อง forward network packet ที่ส่งเข้ามาไปยังเครื่องใหม่เรื่อยๆ จนกว่าระบบ network จะ update แล้ว

ถ้าเคยเล่นเกม Emulator กระบวนการนี้ก็คล้ายๆ กับการกด Save state ในเกมแล้ว Load state เมื่อต้องการเล่นต่อ เพียงแต่เกิดขึ้นเป็น Realtime

Kubernetes Engine

สำหรับคนที่เคยเล่น Kubernetes Engine จะเห็นว่า Master ไม่ปรากฏเป็น Node ใน Cluster และโปรแกรมต่างๆ ที่รันอยู่ใน Master เช่น kube-apiserver, kube-scheduler, ingress-gce นั้นจะไม่ปรากฏเป็น Pod เหมือนกับ Cluster ที่ติดตั้งเอง

แล้ว Master อยู่ที่ไหน?

ใน Borg Paper มีย่อหน้าหนึ่งกล่าวไว้ว่า

Google’s open-source Kubernetes system places applications in Docker containers onto multiple host nodes. It runs both on bare metal (like Borg) and on various cloud hosting providers, such as Google Compute Engine.

จากด้านบนทำให้ผมเชื่อว่า GKE Master นั้นรันอยู่บน Borg โดยไม่ใช้ VM แต่ Docs ของ Kubernetes Engine กลับบอกไว้อีกแบบหนึ่ง

Every cluster has a Kubernetes API server called the master. Masters run on VMs in Google-owned projects. In a private cluster, you can control access to the master.

Private Clusters

ก็อาจจะเป็นไปได้ว่าเฉพาะถ้าเราเปิด Private Cluster เท่านั้น Master จึงจะรันอยู่ใน VM แล้วทำ VPC Peering เข้ามายัง project ของเรา

แต่ข้อมูลที่ถูกต้องที่สุดว่า Master รันอยู่ที่ไหน ตอนนี้ก็ยังไม่มีเปิดเผยออกมา


โดยสรุปแล้ว ผมคิดว่า Cloud ของ Google ออกแบบมาได้เฉพาะตัวมากๆ และหาคนเลียนแบบได้ยาก เนื่องจากว่าระบบสามารถเอา workload ของ Google (ที่ไม่ต้องใช้ VM) ปะปนกับ Workload ของลูกค้าได้ ทำให้ทำราคาได้ถูกมาก

ผมลองเปรียบเทียบเครื่อง n1-standard-2 + 25GB Standard Disk ใน region us-central-1 ที่ราคาถูกเกือบที่สุด กับเครื่อง General Purpose ขนาดเล็กสุดของ DigitalOcean (ซึ่งไม่มีการ share CPU กับลูกค้าอื่น) นั้นก็พบว่าราคาของ Google ถูกกว่าถึง $10/เดือน

(ทั้งนี้ราคา Data Transfer ของ Google Cloud นั้นน่าจะสูงที่สุดในบรรดา Cloud provider แล้ว เพราะใช้ routing แบบพิเศษ)

แต่ด้วยการ design ระบบแบบนี้ เราจึงไม่น่าจะเห็นวันที่ Google ย้ายไปเป็น hardware ล้วนๆ เหมือน AWS เพราะ software ที่รันอยู่ด้านบนนั้นมีหน้าที่มากมายหลายอย่าง (นี่ผมยังไม่ได้เล่าถึงฝั่ง Networking เลย…)


ในตอนต่อไปจะกลับไปเล่าถึงฝั่ง AWS บ้าง ว่า Service อื่นๆ นอกจาก Compute นั้น เบื้องหลังทำงานอย่างไร?

Under the Cloud – EC2

วันก่อนน้องในทีมถามว่า AWS EC2 เป็น VM หรือเปล่า?

คำตอบคือ ใช่ และไม่ใช่

ก็เลยคิดว่าควรจะเขียนบล็อคเล่าสักหน่อยว่าเท่าที่เรารู้ ข้างใต้ Cloud นั้นคืออะไร?

EC2

AWS สมัยแรกๆ ระบบ hypervisor (ที่ใช้ควบคุม VM) ค่อนข้างโจ่งแจ้ง นั่นคือเค้าใช้ Xen ซึ่งเครื่อง type โบราณต่างๆ จะมีให้เลือก virtualization mode ได้สองแบบ คือ

  • PV (Paravirtualization) ซึ่งจะมี overhead น้อยกว่า VM ปกติ แต่ข้อจำกัดคือจะต้องใช้ kernel image พิเศษที่ออกแบบมาสำหรับ Xen โดยเฉพาะ
  • HVM ซึ่งจะจำลอง Hardware ขึ้นมาทั้งหมด ทำให้สามารถรัน OS อะไรก็ได้โดยไม่ต้องดัดแปลง

ต่อมาด้วยความก้าวหน้าของเทคโนโลยี AWS ก็เริ่มแนะนำให้ใช้ HVM มากขึ้น เนื่องจากว่าสะดวกในการใช้งานมากกว่า และ EC2 เองก็เริ่มใช้ hardware มากขึ้น เช่น การ์ด network และ GPU ซึ่งเครื่อง HVM เท่านั้นที่สามารถใช้งาน hardware เหล่านี้ได้โดยตรง (passthrough)

EC2, 2013

ในปี 2013 AWS เปิดตัวเครื่อง C3 ซึ่งมาพร้อมกับระบบ Enhanced Networking ซึ่งเบื้องหลังคือ AWS ซื้อการ์ดเร่งความเร็ว network มาเพิ่ม ซึ่งการ์ดตัวนี้จะเสียบเข้ากับ network card ของจริงอีกทีหนึ่ง แล้ว VM ลูกค้าจะสามารถคุยกับการ์ด network ที่แยกเป็นหลายๆ ใบในระดับ hardware ได้โดยตรงโดยไม่ต้องผ่าน hypervisor ทำให้ประสิทธิภาพสูงเท่ากับ hardware จริง

C3 Enhanced Networking

หลังจาก C3 ออกมาแล้ว AWS ก็เริ่มเปลี่ยนชิ้นถัดไป นั่นคือ EBS หรือระบบ network storage ซึ่งในเครื่อง C4 ก็ได้ใช้ Hardware จากบริษัท Annapurna Labs มาทำให้เครื่องมองเห็น network storage เป็น NVMe (ที่เรานิยมใช้ใน SSD)

แต่ในขณะนั้น NVMe ยังค่อนข้างใหม่ AWS จึงไม่ได้ทำให้เครื่องมองเห็น NVMe โดยตรงแต่ hypervisor จะครอบ NVMe แล้วแปลงเป็น PV แบบเดิมให้อยู่

เนื่องจาก IO ทุกอย่างกลายเป็น hardware หมดแล้ว ทำให้เครื่องไม่ต้องเสีย CPU ไปเพื่อ virtualize IO อีก เครื่อง C4 จึงเปิด EBS Optimized ให้เป็นค่าเริ่มต้น และยังทำให้สามารถขาย CPU core ที่เหลือให้ลูกค้าได้อีกด้วย

C4 – EBS Optimized by Default

หลังจาก C4 แล้ว AWS ก็ออกเครื่อง X1 ที่ใส่ RAM ได้สูงสุด 12TB และ 128 CPU core ซึ่งนอกจากขนาดที่ใหญ่มากแล้ว เครื่อง X1 ยังเป็นรุ่นแรกที่เปลี่ยน driver network จาก Intel 82599 Virtual Function เป็น Elastic Network Adapter (ENA)

ด้านหลังของ ENA นั้นจะเปลี่ยนวิธี virtualize network ไป จากเดิมที่จะมีการ์ด network จริงอันหนึ่งแล้วใช้อีกการ์ดหนึ่งเพื่อแยกเป็นหลายๆ ใบ แต่ใน ENA นั้นจะใช้การ์ด network ที่สามารถ virtualize การ์ดได้เลย

การ์ดใบนี้สร้างโดย Annapurna เช่นกัน แต่ต่างจากเดิมคือ Annapurna กลายเป็นบริษัทในเครือ Amazon ไปแล้ว

X1 – Elastic Network Adapter

เครื่องบน Amazon บางประเภทจะมี storage ภายในเครื่อง (Instance storage) ซึ่งในช่วงเวลานี้ NVMe SSD ก็เป็นที่นิยมแล้ว AWS ก็ได้ออกเครื่อง i3 ที่เชื่อม SSD ทั้งลูกกับเครื่องเรา โดยใช้ hardware เข้ามา encrypt และ monitor การใช้งานอีกที

ก้าวใหญ่มากๆ ของ AWS อยู่ในปี 2017 ที่ออกเครื่อง C5 ขึ้นมา ซึ่ง AWS บอกว่า หลังจากทุกอย่างกลายเป็น hardware หมดแล้ว เค้าจึงเอาระบบ monitoring และ management ต่างๆ ออกไปเป็น hardware ทั้งหมด และตั้งชื่อ hardware ทุกตัวที่เค้าสร้างขึ้นมาในเครื่อง C5 ว่า Nitro

นั่นแปลว่าถ้าเราซื้อเครื่อง c5.18xlarge เราจะได้ทุก CPU Core ของ server ด้านล่างไว้ใช้คนเดียว แต่ก็ยังรันอยู่บน KVM เพื่อ emulate บาง CPU instruction อยู่

C5 – Nitro

อ่านถึงตรงนี้ทุกคนคงจะถามว่าแล้วจะเหลือ Hypervisor ไปทำไม?

ในเวลาเดียวกับที่เปิดตัวเครื่อง C5 AWS ก็เลยเปิดตัวเครื่อง i3.metal มาพร้อมกันด้วย โดยเพิ่มชิพ Nitro Security เข้ามาเพื่อป้องกันการเข้าถึง hardware ด้านล่างบางอย่าง

i3.metal – Bare metal hardware

ดังนั้นผมถึงบอกน้องเค้าว่า EC2 เป็นทั้ง VM และไม่ใช่ VM เพราะถ้าซื้อ C5 ก็ยังเป็น VM บางๆ อยู่ แต่ถ้าซื้อ i3.metal แล้วจะได้ทั้งเครื่องไปใช้คนเดียวเลย

ถึงตรงนี้ก็อยากแนะนำ Talk นี้ที่ผมไปขโมยสไลด์เค้ามาให้ดู ก็ไปฟังเค้าเล่ารายละเอียดกันได้ครับ สนุกมาก

หรือถ้าอยากฟัง Boot process ของเครื่อง i3 ว่าไม่มี VM เลยแล้วจะเปิดเครื่องผ่าน API ได้ยังไง ไปฟัง talk นี้ได้ครับ


ตอนหน้าว่าจะมาเขียนถึง Google Cloud บ้างว่าบริษัทที่ทำมือถือกล้องเดียวแล้วใช้ software ทำในสิ่งที่มือถือเจ้าอื่นต้องใช้ 2 กล้องทำเค้าทำ Cloud ยังไง?