Under the Cloud #4: Network Encryption

จริงๆ ไม่ได้กะจะมีต่อภาค 4 แต่เห็น Thread นี้ แล้วเลยอยากจะแชร์กัน เพราะผมเองก็เพิ่งรู้เหมือนกัน

คำถามวันนี้ถามว่า Network บน Cloud Secure แค่ไหน?

ทั้ง Google Cloud และ AWS ต่างมีระบบ network “Virtual Private” Cloud (VPC) ซึ่งทำให้เราเหมือนมี VLAN ส่วนตัวที่มีเฉพาะเครื่องเราคนเดียว ไม่เห็นเครื่องลูกค้าอื่น (ถ้าแต่ก่อนผมจะแซะ DigitalOcean แต่ได้ยินว่าเดี๋ยวนี้ก็มี VPC แล้วเหมือนกัน) คำถามคือแล้ว VPC มัน Secure แค่ไหน?

Going Physical

สำหรับคนที่ใช้ AWS ในสิงคโปร์น่าจะทราบดีว่า AWS จะมี 3 availability zone ด้วยกันคือ ap-southeast-1a, b และ c แล้วมันจัดโซนอย่างไร? มันจะอยู่ตึกเดียวกันหรือเปล่า?

คนที่ให้คำตอบนี้ได้ดีที่สุดคือ WikiLeaks ซึ่งผมก็ไม่รู้ว่าเค้า Leak มาทำไม

Northern Virginia (Map Data (C) OpenStreetMap Contributors)

ในสิงคโปร์อาจจะไม่เห็นชัดเท่าไร แต่ฝั่ง US จะเห็นค่อนข้างชัดว่า Region หนึ่งก็ไม่ใช่ศูนย์ข้อมูลเดียวแต่เป็นหลายๆ ตึกที่เชื่อมต่อกันด้วยไฟเบอร์ความเร็วสูง

สำหรับของ Google Cloud นั้นหน้าแนะนำ Data Center ของ Google ก็บอกเพียงแต่ว่า Google มีศูนย์ข้อมูลเพียงแห่งเดียวที่ Jurong West

ซึ่งต่อมา Google ก็บอกว่าได้ขยายศูนย์ข้อมูลเป็น 2 ตึกติดกับตึกเดิมในปี 2015

ทางซ้ายคือตึกใหม่

และในปี 2018 Google ก็กำลังจะสร้างอีกตึกหนึ่งในบริเวณเดียวกัน

ผมก็ยังสงสัยเหมือนกันว่า Disaster Recovery ของ Google Cloud คืออะไร ถ้ามีภัยธรรมชาติในบริเวณนั้นน่าจะไปพร้อมกันทั้ง 3 ตึก

Link Layer Encryption

ในปี 2013 ข่าวใหญ่อันหนึ่งคือ Edwards Snowden ได้เปิดเผยว่า NSA และ GCHQ ได้ดักฟัง Fiber ใต้น้ำระหว่างศูนย์ข้อมูลของ Google และต่อมา Google ก็เร่งเข้ารหัสข้อมูลระหว่างศูนย์ข้อมูล

ข่าวเหล่านี้ยิ่งทำให้เราเห็นว่าการอยู่บน Cloud ยิ่งทำให้เราเป็นเป้าหมายในการดักฟัง เพราะถ้าหากดักฟัง Cloud ได้แล้วก็จะได้ข้อมูลของลูกค้าจำนวนมากไปด้วย

ปัจจุบัน Cloud ทั้งสองเจ้าจึงระบุว่ามีการเข้ารหัสข้อมูลบน Network แล้ว แต่จะเป็นอย่างไร?

AWS

AWS เพิ่งเปิดเผยระบบ VPC Encryption เมื่อเดือนที่แล้ว

VPC Encryption

Image

โดย Instance ประเภท C5n, I3en, P3dn มีการเข้ารหัสข้อมูลอยู่แล้ว โดยใช้ Hardware เพื่อให้มีประสิทธิภาพสูงสุด

ทั้งนี้ข้อจำกัดของระบบเข้ารหัสอัตโนมัติมีพอสมควรคือ

  1. Instance ทั้งสองฝั่งจะต้องเป็นประเภทที่รองรับเท่านั้น
  2. Instance ทั้งสองฝั่งจะต้องอยู่บน VPC เดียวกัน หรือมี VPC Peering หากันซึ่งไม่ข้าม region

โดยระบบจะเข้ารหัสทั้ง Packet รวมทั้ง Header ของ AWS ด้วย ทำให้เมื่อดักฟังแล้วจะไม่ทราบแม้แต่ว่าเป็นแพคเกจของลูกค้าคนใด

Lever

AWS ยังได้พัฒนาระบบ Lever ที่เข้ารหัสข้อมูลบน Network ขึ้นมาอีกด้วย ซึ่งตอนนี้ผมยังไม่ทราบว่าระบบนี้นำมาใช้ตั้งแต่เมื่อไร

Lever จะเข้ารหัสข้อมูลบน Network ทั้งหมดที่ออกจากที่ตั้งของ AWS (Physical Boundary) ทั้งหมด เช่นถ้าไฟเบอร์วิ่งข้ามถนนไปหรือข้ามน้ำข้ามทะเลก็ตาม ข้อมูลที่วิ่งผ่านจะเข้ารหัสทั้งหมด

แน่นอนว่าทั้งหมดนี้ผู้ใช้งานไม่ต้องทำอะไรเลย

Google Cloud

Google ออก Whitepaper ด้าน Security มาหลายอัน ซึ่งผมแนะนำให้อ่านเพราะสามารถนำมาปรับใช้กับงานของเราได้

  • Google Security เล่าถึงนโยบายการปฏิบัติงานของ Google
  • Encryption at Rest เล่าถึงข้อมูลของเราว่าถูกจัดเก็บไว้อย่างไร
  • Encryption in Transit ซึ่งจะมาเล่าให้ฟัง

ใน Whitepaper นี้ Google ระบุว่า Traffic จะถูกเข้ารหัสก็ต่อเมื่อ

  • Traffic วิ่งออกจากที่ตั้งของ Google (Physical Boundary)
  • Traffic นั้นเป็นการใช้ Private IP คุยกัน
  • ทั้งสองฝั่งอยู่บน VPC เดียวกัน หรือ VPC Peering กัน

นอกจากการเข้ารหัสแล้ว ระบบ SDN ของ Google ยังจะมีการ Authenticate traffic ด้วย ทำให้ไม่สามารถ spoof network traffic ได้

สรุป

จากที่เรารีวิวมาก็จะเห็นว่าทั้งสอง 2 cloud จะมีการเข้ารหัสข้อมูลให้อัตโนมัติเมื่อวิ่งออกจากศูนย์ข้อมูลแห่งหนึ่งไปอีกแห่งหนึ่ง แต่ภายในศูนย์ข้อมูลเดียวกันนั้นก็ยังไม่มีการเข้ารหัสเพื่อลด overhead ลง จะมีแต่เฉพาะ AWS เท่านั้นที่มีการเข้ารหัสภายในศูนย์ข้อมูล แต่ก็จำกัดเฉพาะ instance type บางประเภทเท่านั้น

Under the Cloud – GCP

ในฝั่ง Google แล้ว เนื่องจากองค์กรโตมาจากสาย research รายละเอียดการ implement ของ GCP จึงไปอยู่ใน Paper แทน โดย Paper ที่สำคัญคือ “Large-scale cluster management at Google with Borg” ซึ่งออกมาในปี 2015

Borg

ถ้าใครเคยอ่านประวัติของ Kubernetes จะทราบว่า Kubernetes เป็นความพยายามออกแบบระบบ cluster management ของ Google ขึ้นมาใหม่เป็น open source โดยระบบเดิมที่ Google ใช้อยู่นั้นชื่อ Borg

แน่นอนว่า Google จึงไม่ได้ใช้ Kubernetes แต่ยังใช้ Borg อยู่

ในส่วนการทำงานของ Borg จาก Paper จริงๆ ก็แทบจะเหมือน Kubernetes ถ้าเข้าใจส่วนประกอบของ Kubernetes ดีแล้วก็คงไม่จำเป็นจะต้องอธิบายเพิ่ม

Borg high level architecture

จากภาพด้านบน ถ้าเปรียบเทียบกับ Kubernetes แล้ว BorgMaster ก็คือ Kubernetes master, Paxos store ก็คือ etcd, Borglet คือ Kubelet, Cell คือ Cluster และ borgcfg คือไฟล์ YAML นั่นเอง

ในแต่ละงานที่รันใน Borg จะต้องระบุ Quota ที่ต้องการใช้ ซึ่งมีความซับซ้อนกว่า Kubernetes resource มาก เพราะระบุได้ทั้งปริมาณ CPU, RAM, Disk, ฯลฯ ที่ต้องการใช้, ลำดับความสำคัญ และเวลาที่ต้องการใช้ โดยผู้ใช้งาน Borg จะต้องซื้อ Quota ไว้ก่อนใช้งาน

พอทราบ Resource ของ Workload ที่ต้องการใช้แล้ว Borg scheduler ก็จะจัดหา Borglet ที่จะรัน Workload นั้นให้อัตโนมัติ เช่นเดียวกับ Kubernetes

ในปี 2018 มีคน Hack Google Sites ผ่านช่องโหว่ใน Google Caja ได้ และดูดหน้า admin Borg รวมถึงรายละเอียดต่างๆ ออกมาเล่าให้ฟังได้เล็กน้อย ตามบทความ Into the Borg และมีคนแกะ Borg protobuf มาจาก App Engine อีกด้วยใน $36k App Engine RCE

App Engine

เขียนมาอย่างนานอาจจะสงสัยว่าทำไมจะต้องเล่าถึง Borg ด้วย?

คำตอบคือ Google เอา Workload ของเราไปรันบน Borg ครับ! บนเครื่องเดียวกับที่เรารัน โค้ดของเรานั้นอาจจะมี Gmail หรือ YouTube Encoder รันอยู่พร้อมๆ กันก็ได้ ซึ่งใน Paper ก็ได้ยึนยันไว้ในหัวข้อ 6.1 แล้วว่า

VMs and security sandboxing techniques are used to run external software by Google’s AppEngine (GAE) and Google Compute Engine (GCE). We run each hosted VM in a KVM process that runs as a Borg task.

Product แรกของ Google Cloud คือ App Engine ที่เปิดตัวมานานกว่า 10 ปีแล้ว ถ้าใครเคยเขียน App Engine โดยใช้ runtime ตัวแรกก็จะทราบว่ามีข้อจำกัดพอสมควร เช่น

  • ห้ามใช้ Native module
  • ห้าม Write ลง Disk
  • ห้ามต่อออก Network
  • ห้าม import บาง module

ผมไม่แน่ใจว่า App Engine ใช้อะไรมา Sandbox Application ของเรา แต่เข้าใจว่าเนื่องจากข้อจำกัดการใช้งานต่างๆ แล้วจึงไม่ได้ใช้ Sandbox อื่นๆ ครอบทับไปอีก ใน Paper ของ Borg เองก็ระบุว่าใช้เพียง chroot และ cgroup เท่านั้น

ในปี 2018 Google ได้เปิดตัว App Engine Second Generation Runtime ซึ่งใช้ gVisor เป็นระบบ Sandbox แทน ทำให้สามารถรันทุกคำสั่งได้ตามปกติ

gVisor

เนื่องจาก Linux เป็น OS เดียวที่การันตีว่า system call table จะ Stable จึงมีหลายคนที่พยายาม implement system call table ของ Linux ขึ้นมาใหม่

คนหนึ่งที่เราอาจจะรู้จักกันดีคือ Windows Subsystem for Linux ซึ่ง map Linux system calls ไปยัง NT kernel system calls เช่นเดียวกัน gVisor ก็เป็นการเขียน Linux system calls ขึ้นมาใหม่ในภาษา Go

gVisor

การที่ gVisor เขียนด้วยภาษา Go นั้นทำให้โค้ดมีความปลอดภัยกว่าภาษา C ที่ใช้เขียน Linux kernel เนื่องจาก runtime ของภาษาจะจัดการ Memory ให้โดยอัตโนมัติ นอกจากนี้เนื่องจากมันแค่ implement system calls อย่างเดียว ทำให้มันไม่กินทรัพยากรมากเท่ากับ Virtualization

Compute Engine

อย่างที่เล่าไปในหัวข้อด้านบน การสร้าง Compute Engine เครื่องหนึ่งก็คือการสร้าง Borg task หนึ่งที่รันอิมเมจของเราบนโปรแกรม KVM

ประเด็นหนึ่งที่มีคนเคยถามผมคือ Live migration ของ Google Cloud ทำงานอย่างไร? Google ได้เล่าไว้แล้วในบทความ Live migration

สิ่งที่เกิดขึ้นตอน Live migration คือ

  1. มีสัญญาณมาให้ Live migrate เช่นมีการ maintenance hardware หรือระบบตรวจพบว่า hardware ใกล้เสียแล้ว
  2. Scheduler จะจัดหาเครื่องใหม่มาให้
  3. เมื่อได้เครื่องใหม่แล้ว เครื่องใหม่จะเปิด VM เปล่าๆ ขึ้นมา
  4. เครื่องเดิมจะ Dump Memory ของ VM ส่งไปให้เครื่องใหม่
  5. กระบวนการข้อ 4 เนื่องจากจะใช้เวลาส่งข้อมูลพอสมควร จึงจะต้อง Track ด้วยว่ามีการ Update memory ตรงไหนบ้างระหว่างการทำงานนี้ (Delta)
  6. หลังจากส่ง Memory ชุดแรกเสร็จแล้วก็จะส่ง Delta ตามไปด้วย
  7. วนซ้ำข้อ 6 ไปเรื่อยๆ จนระบบคิดว่าการส่ง Update นั้นไม่คุ้มค่าที่จะทำแล้ว
  8. VM จะถูก Pause และระบบจะส่ง Delta ชุดสุดท้าย
  9. เครื่องใหม่เมื่อมี state ครบแล้วก็จะทำงานต่อ
  10. เครื่องเดิมแม้จะหยุดทำงาน VM แล้ว แต่ยังจะต้อง forward network packet ที่ส่งเข้ามาไปยังเครื่องใหม่เรื่อยๆ จนกว่าระบบ network จะ update แล้ว

ถ้าเคยเล่นเกม Emulator กระบวนการนี้ก็คล้ายๆ กับการกด Save state ในเกมแล้ว Load state เมื่อต้องการเล่นต่อ เพียงแต่เกิดขึ้นเป็น Realtime

Kubernetes Engine

สำหรับคนที่เคยเล่น Kubernetes Engine จะเห็นว่า Master ไม่ปรากฏเป็น Node ใน Cluster และโปรแกรมต่างๆ ที่รันอยู่ใน Master เช่น kube-apiserver, kube-scheduler, ingress-gce นั้นจะไม่ปรากฏเป็น Pod เหมือนกับ Cluster ที่ติดตั้งเอง

แล้ว Master อยู่ที่ไหน?

ใน Borg Paper มีย่อหน้าหนึ่งกล่าวไว้ว่า

Google’s open-source Kubernetes system places applications in Docker containers onto multiple host nodes. It runs both on bare metal (like Borg) and on various cloud hosting providers, such as Google Compute Engine.

จากด้านบนทำให้ผมเชื่อว่า GKE Master นั้นรันอยู่บน Borg โดยไม่ใช้ VM แต่ Docs ของ Kubernetes Engine กลับบอกไว้อีกแบบหนึ่ง

Every cluster has a Kubernetes API server called the master. Masters run on VMs in Google-owned projects. In a private cluster, you can control access to the master.

Private Clusters

ก็อาจจะเป็นไปได้ว่าเฉพาะถ้าเราเปิด Private Cluster เท่านั้น Master จึงจะรันอยู่ใน VM แล้วทำ VPC Peering เข้ามายัง project ของเรา

แต่ข้อมูลที่ถูกต้องที่สุดว่า Master รันอยู่ที่ไหน ตอนนี้ก็ยังไม่มีเปิดเผยออกมา


โดยสรุปแล้ว ผมคิดว่า Cloud ของ Google ออกแบบมาได้เฉพาะตัวมากๆ และหาคนเลียนแบบได้ยาก เนื่องจากว่าระบบสามารถเอา workload ของ Google (ที่ไม่ต้องใช้ VM) ปะปนกับ Workload ของลูกค้าได้ ทำให้ทำราคาได้ถูกมาก

ผมลองเปรียบเทียบเครื่อง n1-standard-2 + 25GB Standard Disk ใน region us-central-1 ที่ราคาถูกเกือบที่สุด กับเครื่อง General Purpose ขนาดเล็กสุดของ DigitalOcean (ซึ่งไม่มีการ share CPU กับลูกค้าอื่น) นั้นก็พบว่าราคาของ Google ถูกกว่าถึง $10/เดือน

(ทั้งนี้ราคา Data Transfer ของ Google Cloud นั้นน่าจะสูงที่สุดในบรรดา Cloud provider แล้ว เพราะใช้ routing แบบพิเศษ)

แต่ด้วยการ design ระบบแบบนี้ เราจึงไม่น่าจะเห็นวันที่ Google ย้ายไปเป็น hardware ล้วนๆ เหมือน AWS เพราะ software ที่รันอยู่ด้านบนนั้นมีหน้าที่มากมายหลายอย่าง (นี่ผมยังไม่ได้เล่าถึงฝั่ง Networking เลย…)


ในตอนต่อไปจะกลับไปเล่าถึงฝั่ง AWS บ้าง ว่า Service อื่นๆ นอกจาก Compute นั้น เบื้องหลังทำงานอย่างไร?