ในฝั่ง Google แล้ว เนื่องจากองค์กรโตมาจากสาย research รายละเอียดการ implement ของ GCP จึงไปอยู่ใน Paper แทน โดย Paper ที่สำคัญคือ “Large-scale cluster management at Google with Borg” ซึ่งออกมาในปี 2015
Borg
ถ้าใครเคยอ่านประวัติของ Kubernetes จะทราบว่า Kubernetes เป็นความพยายามออกแบบระบบ cluster management ของ Google ขึ้นมาใหม่เป็น open source โดยระบบเดิมที่ Google ใช้อยู่นั้นชื่อ Borg
แน่นอนว่า Google จึงไม่ได้ใช้ Kubernetes แต่ยังใช้ Borg อยู่
ในส่วนการทำงานของ Borg จาก Paper จริงๆ ก็แทบจะเหมือน Kubernetes ถ้าเข้าใจส่วนประกอบของ Kubernetes ดีแล้วก็คงไม่จำเป็นจะต้องอธิบายเพิ่ม
จากภาพด้านบน ถ้าเปรียบเทียบกับ Kubernetes แล้ว BorgMaster ก็คือ Kubernetes master, Paxos store ก็คือ etcd, Borglet คือ Kubelet, Cell คือ Cluster และ borgcfg คือไฟล์ YAML นั่นเอง
ในแต่ละงานที่รันใน Borg จะต้องระบุ Quota ที่ต้องการใช้ ซึ่งมีความซับซ้อนกว่า Kubernetes resource มาก เพราะระบุได้ทั้งปริมาณ CPU, RAM, Disk, ฯลฯ ที่ต้องการใช้, ลำดับความสำคัญ และเวลาที่ต้องการใช้ โดยผู้ใช้งาน Borg จะต้องซื้อ Quota ไว้ก่อนใช้งาน
พอทราบ Resource ของ Workload ที่ต้องการใช้แล้ว Borg scheduler ก็จะจัดหา Borglet ที่จะรัน Workload นั้นให้อัตโนมัติ เช่นเดียวกับ Kubernetes
ในปี 2018 มีคน Hack Google Sites ผ่านช่องโหว่ใน Google Caja ได้ และดูดหน้า admin Borg รวมถึงรายละเอียดต่างๆ ออกมาเล่าให้ฟังได้เล็กน้อย ตามบทความ Into the Borg และมีคนแกะ Borg protobuf มาจาก App Engine อีกด้วยใน $36k App Engine RCE
App Engine
เขียนมาอย่างนานอาจจะสงสัยว่าทำไมจะต้องเล่าถึง Borg ด้วย?
คำตอบคือ Google เอา Workload ของเราไปรันบน Borg ครับ! บนเครื่องเดียวกับที่เรารัน โค้ดของเรานั้นอาจจะมี Gmail หรือ YouTube Encoder รันอยู่พร้อมๆ กันก็ได้ ซึ่งใน Paper ก็ได้ยึนยันไว้ในหัวข้อ 6.1 แล้วว่า
VMs and security sandboxing techniques are used to run external software by Google’s AppEngine (GAE) and Google Compute Engine (GCE). We run each hosted VM in a KVM process that runs as a Borg task.
Product แรกของ Google Cloud คือ App Engine ที่เปิดตัวมานานกว่า 10 ปีแล้ว ถ้าใครเคยเขียน App Engine โดยใช้ runtime ตัวแรกก็จะทราบว่ามีข้อจำกัดพอสมควร เช่น
- ห้ามใช้ Native module
- ห้าม Write ลง Disk
- ห้ามต่อออก Network
- ห้าม import บาง module
ผมไม่แน่ใจว่า App Engine ใช้อะไรมา Sandbox Application ของเรา แต่เข้าใจว่าเนื่องจากข้อจำกัดการใช้งานต่างๆ แล้วจึงไม่ได้ใช้ Sandbox อื่นๆ ครอบทับไปอีก ใน Paper ของ Borg เองก็ระบุว่าใช้เพียง chroot และ cgroup เท่านั้น
ในปี 2018 Google ได้เปิดตัว App Engine Second Generation Runtime ซึ่งใช้ gVisor เป็นระบบ Sandbox แทน ทำให้สามารถรันทุกคำสั่งได้ตามปกติ
gVisor
เนื่องจาก Linux เป็น OS เดียวที่การันตีว่า system call table จะ Stable จึงมีหลายคนที่พยายาม implement system call table ของ Linux ขึ้นมาใหม่
คนหนึ่งที่เราอาจจะรู้จักกันดีคือ Windows Subsystem for Linux ซึ่ง map Linux system calls ไปยัง NT kernel system calls เช่นเดียวกัน gVisor ก็เป็นการเขียน Linux system calls ขึ้นมาใหม่ในภาษา Go
การที่ gVisor เขียนด้วยภาษา Go นั้นทำให้โค้ดมีความปลอดภัยกว่าภาษา C ที่ใช้เขียน Linux kernel เนื่องจาก runtime ของภาษาจะจัดการ Memory ให้โดยอัตโนมัติ นอกจากนี้เนื่องจากมันแค่ implement system calls อย่างเดียว ทำให้มันไม่กินทรัพยากรมากเท่ากับ Virtualization
Compute Engine
อย่างที่เล่าไปในหัวข้อด้านบน การสร้าง Compute Engine เครื่องหนึ่งก็คือการสร้าง Borg task หนึ่งที่รันอิมเมจของเราบนโปรแกรม KVM
ประเด็นหนึ่งที่มีคนเคยถามผมคือ Live migration ของ Google Cloud ทำงานอย่างไร? Google ได้เล่าไว้แล้วในบทความ Live migration
สิ่งที่เกิดขึ้นตอน Live migration คือ
- มีสัญญาณมาให้ Live migrate เช่นมีการ maintenance hardware หรือระบบตรวจพบว่า hardware ใกล้เสียแล้ว
- Scheduler จะจัดหาเครื่องใหม่มาให้
- เมื่อได้เครื่องใหม่แล้ว เครื่องใหม่จะเปิด VM เปล่าๆ ขึ้นมา
- เครื่องเดิมจะ Dump Memory ของ VM ส่งไปให้เครื่องใหม่
- กระบวนการข้อ 4 เนื่องจากจะใช้เวลาส่งข้อมูลพอสมควร จึงจะต้อง Track ด้วยว่ามีการ Update memory ตรงไหนบ้างระหว่างการทำงานนี้ (Delta)
- หลังจากส่ง Memory ชุดแรกเสร็จแล้วก็จะส่ง Delta ตามไปด้วย
- วนซ้ำข้อ 6 ไปเรื่อยๆ จนระบบคิดว่าการส่ง Update นั้นไม่คุ้มค่าที่จะทำแล้ว
- VM จะถูก Pause และระบบจะส่ง Delta ชุดสุดท้าย
- เครื่องใหม่เมื่อมี state ครบแล้วก็จะทำงานต่อ
- เครื่องเดิมแม้จะหยุดทำงาน VM แล้ว แต่ยังจะต้อง forward network packet ที่ส่งเข้ามาไปยังเครื่องใหม่เรื่อยๆ จนกว่าระบบ network จะ update แล้ว
ถ้าเคยเล่นเกม Emulator กระบวนการนี้ก็คล้ายๆ กับการกด Save state ในเกมแล้ว Load state เมื่อต้องการเล่นต่อ เพียงแต่เกิดขึ้นเป็น Realtime
Kubernetes Engine
สำหรับคนที่เคยเล่น Kubernetes Engine จะเห็นว่า Master ไม่ปรากฏเป็น Node ใน Cluster และโปรแกรมต่างๆ ที่รันอยู่ใน Master เช่น kube-apiserver, kube-scheduler, ingress-gce นั้นจะไม่ปรากฏเป็น Pod เหมือนกับ Cluster ที่ติดตั้งเอง
แล้ว Master อยู่ที่ไหน?
ใน Borg Paper มีย่อหน้าหนึ่งกล่าวไว้ว่า
Google’s open-source Kubernetes system places applications in Docker containers onto multiple host nodes. It runs both on bare metal (like Borg) and on various cloud hosting providers, such as Google Compute Engine.
จากด้านบนทำให้ผมเชื่อว่า GKE Master นั้นรันอยู่บน Borg โดยไม่ใช้ VM แต่ Docs ของ Kubernetes Engine กลับบอกไว้อีกแบบหนึ่ง
Every cluster has a Kubernetes API server called the master. Masters run on VMs in Google-owned projects. In a private cluster, you can control access to the master.
Private Clusters
ก็อาจจะเป็นไปได้ว่าเฉพาะถ้าเราเปิด Private Cluster เท่านั้น Master จึงจะรันอยู่ใน VM แล้วทำ VPC Peering เข้ามายัง project ของเรา
แต่ข้อมูลที่ถูกต้องที่สุดว่า Master รันอยู่ที่ไหน ตอนนี้ก็ยังไม่มีเปิดเผยออกมา
โดยสรุปแล้ว ผมคิดว่า Cloud ของ Google ออกแบบมาได้เฉพาะตัวมากๆ และหาคนเลียนแบบได้ยาก เนื่องจากว่าระบบสามารถเอา workload ของ Google (ที่ไม่ต้องใช้ VM) ปะปนกับ Workload ของลูกค้าได้ ทำให้ทำราคาได้ถูกมาก
ผมลองเปรียบเทียบเครื่อง n1-standard-2 + 25GB Standard Disk ใน region us-central-1 ที่ราคาถูกเกือบที่สุด กับเครื่อง General Purpose ขนาดเล็กสุดของ DigitalOcean (ซึ่งไม่มีการ share CPU กับลูกค้าอื่น) นั้นก็พบว่าราคาของ Google ถูกกว่าถึง $10/เดือน
(ทั้งนี้ราคา Data Transfer ของ Google Cloud นั้นน่าจะสูงที่สุดในบรรดา Cloud provider แล้ว เพราะใช้ routing แบบพิเศษ)
แต่ด้วยการ design ระบบแบบนี้ เราจึงไม่น่าจะเห็นวันที่ Google ย้ายไปเป็น hardware ล้วนๆ เหมือน AWS เพราะ software ที่รันอยู่ด้านบนนั้นมีหน้าที่มากมายหลายอย่าง (นี่ผมยังไม่ได้เล่าถึงฝั่ง Networking เลย…)
ในตอนต่อไปจะกลับไปเล่าถึงฝั่ง AWS บ้าง ว่า Service อื่นๆ นอกจาก Compute นั้น เบื้องหลังทำงานอย่างไร?