Netflix đã làm thế nào với các dữ liệu để xây dựng một hạ tầng đám mây bảo mật, linh hoạt và có quy mô

Thu HaTr

1.png
Nền văn hóa kỹ thuật của Netflix đã được dự đoán trước trên Freedom & Responsibility, rằng tất cả nhân viên tại Netflix được giao phó một trách nhiệm cốt lõi và họ được tự do hoạt động để hoàn thành nhiệm vụ của họ. Sự tự do này cho phép các nhóm hoặc cá nhân thoải mái tạo ra sự đổi mới nhưng vẫn đảm bảo được chất lượng và mức độ quan trọng của những phần việc họ đảm đương. Nhóm kỹ sư chính dùng mô hình hoạt động này nhằm giảm gánh nặng cho các nhóm thông qua những giải pháp liên quan đến đảm bảo an toàn, mở rộng quy mô và tăng cường khả năng phục hồi cho cơ sở hạ tầng.

Phần lớn các tính năng sản phẩm của Netflix phụ thuộc một phần hoặc hoàn toàn vào một trong nhiều microservice của chúng tôi (ví dụ: thứ tự của các hàng và cột trên trang chủ Netflix, cấp giấy phép nội dung khi bạn nhấp vào icon play, tìm cache Open Connect ẩn gần nhất với nội dung bạn yêu cầu và nhiều hơn nữa). Tất cả các microservice này hiện đang được vận hành trong cơ sở hạ tầng cloud AWS.

Với tư cách là chủ sở hữu microservice, các kỹ sư Netflix chịu trách nhiệm về sự đổi mới cũng như hoạt động của nó, bao gồm việc đảm bảo dịch vụ luôn tin cậy, an toàn và hoạt động hiệu quả. Chiến lược này khiến họ phải tự nhận thức rằng mình cần có sự hiểu biết sâu sắc về hệ thống cảnh báo và đo đạc từ xa, quy trình cung cấp năng lực, các phương pháp hay nhất về bảo mật và độ tin cậy cũng như một lượng lớn kiến thức về cơ sở hạ tầng cloud.

Trong khi các nhóm kỹ sư của Netflix đã và đang tiếp tục xây dựng các giải pháp để giảm tải khối lượng công việc (guardrail tốt hơn, sử dụng các công cụ mới,…), dữ liệu và các sản phẩm bắt nguồn từ nó là những yếu tố quan trọng để hiểu, tối ưu hóa và trừu tượng hóa cơ sở hạ tầng. Đây là nơi các nhóm dữ liệu (kỹ thuật và khoa học) thể hiện: tận dụng một lượng lớn dữ liệu được tạo ra bởi các nền tảng và microservice để tự động hóa việc vận hành cơ sở hạ tầng cloud một cách an toàn và hiệu quả.

Trong phần tiếp theo, Netflix sẽ nêu bật một số lĩnh vực trọng tâm trong từng khía cạnh cơ sở hạ tầng của họ. Phần cuối cùng, sẽ cố gắng khơi gợi sự tò mò của bạn bằng cách trình bày một loạt các cơ hội sẽ thúc đẩy làn sóng tác động tiếp theo của chúng tôi đối với Netflix.

Trong Security space, nhóm dữ liệu tập trung gần như toàn bộ nỗ lực vào việc phát hiện hoạt động đáng ngờ hoặc gây độc hại bằng cách sử dụng tập hợp các mô hình thống kê và học máy. Trong quá khứ, điều này tập trung vào các tài khoản nhân viên có khả năng bị xâm phạm, tuy nhiên hiện nay họ đang xây dựng một khuôn khổ phát hiện tốt hơn có thể xem xét bất kỳ tác nhân nào (con người hoặc máy móc). Các nhóm dữ liệu cũng đầu tư vào việc xây dựng tính minh bạch hơn về bảo mật và quyền riêng tư của chúng tôi để hỗ trợ tiến độ trong việc giảm các mối đe dọa và nguy cơ mà các microservice hoặc các bên liên quan nội bộ của chúng tôi phải đối mặt.

Trong Reliability space, nhóm dữ liệu của chúng tôi tập trung vào hai cách tiếp cận chính. Đầu tiên là về phòng ngừa: các nhóm dữ liệu giúp thực hiện các thay đổi đối với môi trường của chúng tôi an toàn nhất có thể thông qua các thử nghiệm có sẵn (ví dụ: Canaries ), phát hiện và cải thiện KPI. Cách tiếp cận thứ hai là về mặt chẩn đoán: các nhóm dữ liệu đo lường tác động đến sự cố mất điện và hiển thị các mẫu khi chúng xảy ra, cũng như cung cấp tầm nhìn về tính khả dụng ở cấp microservice.

Trong Efficiency space, nhóm dữ liệu tập trung vào tính minh bạch và tối ưu hóa. Trong Freedom and Responsibility culture của Netflix, họ tin rằng cách tiếp cận tốt nhất để đạt được hiệu quả là cung cấp cho mọi chủ sở hữu microservice thông tin phù hợp để giúp họ cải thiện hoặc duy trì hiệu quả của chính họ. Ngoài ra, vì cơ sở hạ tầng của Netflix là một môi trường phức tạp với nhiều người thuê, nên cũng có nhiều cơ hội hiệu quả theo hướng dữ liệu ở cấp nền tảng. Cuối cùng, bản thân việc cung cấp cơ sở hạ tầng của cũng đang trở thành một nhiệm vụ ngày càng phức tạp, vì vậy nhóm dữ liệu đóng góp vào các công cụ chẩn đoán và tự động hóa quản lý dung lượng cloud.

Trong Performance space, nhóm dữ liệu hiện tập trung vào chất lượng trải nghiệm trên các thiết bị hỗ trợ Netflix. Mặc dù bản thân các thiết bị có vai trò quan trọng trong hiệu suất tổng thể, nhưng cơ sở hạ tầng mạng và cloud lại có tác động không đáng kể đến khả năng phản hồi của thiết bị. Liên tục thúc đẩy xây dựng các công cụ và đo đạc từ xa được cải tiến để hiểu và giảm thiểu tác động của cơ sở hạ tầng đối với hiệu suất tổng thể của ứng dụng Netflix trên nhiều loại thiết bị.

Trong People space, các nhóm dữ liệu đóng góp vào hệ thống hợp nhất hồ sơ về nhân viên, nhà thầu, đối tác và dữ liệu tài năng để giúp các nhóm trung tâm quản lý việc lập kế hoạch nhân sự, giảm chi phí mua lại, cải thiện phương thức tuyển dụng và phân tích các trường hợp sử dụng liên quan.

Thách thức & Cơ hội trong Infra Data Space Security Events Platform để phát hiện bất thường
  • Làm thế nào chúng ta có thể phát triển một hệ thống xử lý sự kiện phức tạp để nhập dữ liệu bán cấu trúc được dự đoán trên các hợp đồng lược đồ từ hàng trăm nguồn và chuyển đổi nó thành các luồng sự kiện của dữ liệu có cấu trúc để phân tích hạ nguồn?
  • Làm thế nào chúng ta có thể phát triển các mô-đun phát hiện mẫu (dựa trên quy tắc và ML) và các luồng dữ liệu để tăng tốc độ phát triển?
2.png
Asset Inventory
  • Làm cách nào chúng ta có thể phát triển mô hình dữ liệu chiều đại diện cho mối quan hệ giữa các ứng dụng, cluster, vùng và siêu dữ liệu khác bao gồm AMI / software stack để trợ giúp về tính khả dụng, khả năng phục hồi và quản lý nhóm?
  • Chúng ta có thể phát triển các mô hình học tập để làm phong phú thêm siêu dữ liệu với các lỗ hổng ứng dụng và điểm rủi ro không?
Độ tin cậy
  • Làm thế nào để đảm bảo rằng một thay đổi mã sẽ an toàn khi được triển khai cho môi trường sản xuất?
  • Chúng tôi có thể điều chỉnh các chính sách tự động mở rộng quy mô để hiệu quả hơn mà không gặp rủi ro về tính khả dụng khi lưu lượng truy cập tăng đột biến không?
Năng lực và Hiệu quả
Tài nguyên nào (cụm, bảng,…) không được sử dụng hoặc sử dụng kém và tại sao?

Chi phí tung ra ô chiến thắng của bài kiểm tra AB cho tất cả người dùng là bao nhiêu?

Phân tích người dùng
  • Có thể hỗ trợ các thử nghiệm AB liên quan đến tuyển dụng và giúp cải thiện kinh nghiệm của ứng viên cũng như thu hút nhân tài vững chắc không?
  • Có thể đo lường tác động của các sáng kiến không?
Con người & An ninh
  • Làm cách nào để Netflix có thể xây dựng Kho dữ liệu người an toàn và bị hạn chế để cung cấp một hệ thống tham chiếu hợp nhất và cho phép ứng dụng thêm siêu dữ liệu bổ sung?
  • Làm cách nào để có thể tự động cung cấp hoặc hủy bỏ các đặc quyền truy cập?
Dòng dữ liệu
  • Chúng ta có thể phát triển một hệ thống truyền thừa tổng quát để phát triển mối quan hệ giữa các hiện vật dữ liệu khác nhau được lưu trữ trên toàn cảnh dữ liệu Netflix không
  • Chúng ta có thể tận dụng giải pháp truyền thống này để giúp dự báo số lần trượt SLA và giải quyết các câu hỏi về Quản lý vòng đời dữ liệu (chi phí công việc, chi phí bảng và tỷ lệ giữ chân) không?
Đây chỉ là cái nhìn thoáng qua về thế giới tuyệt vời của Netflix về Kỹ thuật dữ liệu cơ sở hạ tầng, Khoa học & Phân tích. Họ đang thực hiện sứ mệnh giúp mở rộng quy mô cơ sở hạ tầng thông tin dữ liệu đẳng cấp thế giới và đây mới chỉ là bắt đầu.

Nguồn:
 
Top