Các cuộc tấn công của đối thủ trong học máy là gì và chúng ta có thể chống lại chúng như thế nào?

Công nghệ thường có nghĩa là cuộc sống của chúng ta thuận tiện và an toàn hơn. Tuy nhiên, đồng thời, những tiến bộ như vậy đã mở ra những cách tinh vi hơn để tội phạm mạng tấn công chúng ta và làm hỏng hệ thống bảo mật của chúng ta, khiến chúng trở nên bất lực.


Trí tuệ nhân tạo (AI) có thể được sử dụng bởi các chuyên gia an ninh mạng cũng như tội phạm mạng; tương tự, hệ thống học máy (ML) có thể được sử dụng cho cả mục đích tốt và xấu. Việc thiếu la bàn đạo đức này đã khiến các cuộc tấn công đối nghịch trong ML trở thành một thách thức ngày càng lớn. Vì vậy, những gì thực sự là các cuộc tấn công đối nghịch? mục đích của họ là gì? Và làm thế nào bạn có thể bảo vệ chống lại họ?


Các cuộc tấn công đối thủ trong học máy là gì?

Con đà điểu thật nhìn con đà điểu giả qua hàng rào.

ML đối thủ hoặc các cuộc tấn công đối nghịch là các cuộc tấn công mạng nhằm đánh lừa một mô hình ML bằng đầu vào độc hại và do đó dẫn đến độ chính xác thấp hơn và hiệu suất kém. Vì vậy, bất chấp tên gọi của nó, ML đối thủ không phải là một loại máy học mà là một loạt các kỹ thuật mà tội phạm mạng—hay còn gọi là đối thủ—sử dụng để nhắm mục tiêu vào các hệ thống ML.

Mục tiêu chính của các cuộc tấn công như vậy thường là lừa mô hình cung cấp thông tin nhạy cảm, không phát hiện các hoạt động gian lận, đưa ra dự đoán không chính xác hoặc làm hỏng các báo cáo dựa trên phân tích. Mặc dù có một số loại tấn công đối nghịch, nhưng chúng thường nhắm mục tiêu phát hiện thư rác dựa trên học sâu.

Có thể bạn đã nghe nói về tấn công kẻ trung gian, đây là một kỹ thuật lừa đảo tinh vi mới và hiệu quả hơn liên quan đến việc đánh cắp thông tin cá nhân, cookie phiên và thậm chí bỏ qua các phương thức xác thực đa yếu tố (MFA). May mắn thay, bạn có thể chống lại những điều này bằng công nghệ MFA chống lừa đảo.

Các loại tấn công đối thủ

Một tấm bìa cứng của một người phụ nữ nhìn ra ngoài cửa sổ.

Cách đơn giản nhất để phân loại các loại tấn công đối thủ là tách chúng thành hai loại chính—các cuộc tấn công nhắm mục tiêucác cuộc tấn công không có mục tiêu. Như đã đề xuất, các cuộc tấn công nhắm mục tiêu có một mục tiêu cụ thể (chẳng hạn như một người cụ thể) trong khi những cuộc tấn công không nhắm mục tiêu không có bất kỳ ai cụ thể trong tâm trí: chúng có thể nhắm mục tiêu vào hầu hết mọi người. Không có gì đáng ngạc nhiên, các cuộc tấn công không có mục tiêu tốn ít thời gian hơn nhưng cũng kém thành công hơn so với các cuộc tấn công có mục tiêu của chúng.

Hai loại này có thể được chia nhỏ hơn thành hộp trắnghộp đen các cuộc tấn công đối thủ, trong đó màu sắc gợi ý kiến ​​thức hoặc sự thiếu kiến ​​thức về mô hình ML được nhắm mục tiêu. Trước khi tìm hiểu sâu hơn về các cuộc tấn công hộp trắng và hộp đen, chúng ta hãy xem nhanh các loại tấn công đối nghịch phổ biến nhất.

  • trốn tránh: Được sử dụng chủ yếu trong các trường hợp phần mềm độc hại, các cuộc tấn công trốn tránh cố gắng tránh bị phát hiện bằng cách che giấu nội dung của email spam và nhiễm phần mềm độc hại. Bằng cách sử dụng phương pháp thử và sai, kẻ tấn công thao túng dữ liệu tại thời điểm triển khai và làm hỏng tính bảo mật của mô hình ML. Giả mạo sinh trắc học là một trong những ví dụ phổ biến nhất của một cuộc tấn công trốn tránh.
  • ngộ độc dữ liệu: Còn được gọi là các cuộc tấn công gây ô nhiễm, những cuộc tấn công này nhằm thao túng một mô hình ML trong giai đoạn đào tạo hoặc triển khai, đồng thời làm giảm độ chính xác và hiệu suất. Bằng cách giới thiệu đầu vào độc hại, kẻ tấn công sẽ phá vỡ mô hình và khiến các chuyên gia bảo mật khó phát hiện loại dữ liệu mẫu làm hỏng mô hình ML.
  • đứt gãy Byzantine: Kiểu tấn công này làm mất dịch vụ hệ thống do lỗi Byzantine trong các hệ thống yêu cầu sự đồng thuận giữa tất cả các nút của nó. Khi một trong các nút đáng tin cậy của nó trở thành lừa đảo, nó có thể thực hiện một cuộc tấn công từ chối dịch vụ (DoS) và tắt hệ thống, ngăn không cho các nút khác giao tiếp.
  • Khai thác mô hình: Trong một cuộc tấn công trích xuất, kẻ thù sẽ thăm dò hệ thống ML hộp đen để trích xuất dữ liệu huấn luyện của nó hoặc—trong trường hợp xấu nhất—chính mô hình đó. Sau đó, với một bản sao của mô hình ML trong tay, kẻ thù có thể kiểm tra phần mềm độc hại của họ chống lại phần mềm chống phần mềm độc hại/phần mềm chống vi-rút và tìm ra cách vượt qua nó.
  • tấn công suy luận: Giống như với các cuộc tấn công khai thác, mục đích ở đây là làm cho một mô hình ML rò rỉ thông tin về dữ liệu đào tạo của nó. Tuy nhiên, kẻ thù sau đó sẽ cố gắng tìm ra tập dữ liệu nào đã được sử dụng để huấn luyện hệ thống, để chúng có thể khai thác các lỗ hổng hoặc sai lệch trong đó.

White-Box so với Black-Box so với Grey-Box Adversarial Attacks

Điều làm nên sự khác biệt của ba loại tấn công đối thủ này là lượng kiến ​​thức mà đối thủ có được về hoạt động bên trong của các hệ thống ML mà chúng định tấn công. Mặc dù phương pháp hộp trắng yêu cầu thông tin đầy đủ về mô hình ML được nhắm mục tiêu (bao gồm kiến ​​trúc và tham số của nó), nhưng phương pháp hộp đen không yêu cầu thông tin và chỉ có thể quan sát kết quả đầu ra của nó.

Trong khi đó, mô hình hộp xám đứng ở giữa hai thái cực này. Theo đó, các đối thủ có thể có một số thông tin về tập dữ liệu hoặc các chi tiết khác về mô hình ML nhưng không phải tất cả.

Làm thế nào bạn có thể bảo vệ Machine Learning chống lại các cuộc tấn công của đối thủ?

Một đám người cầm gươm trông có vẻ tức giận.

Mặc dù con người vẫn là thành phần quan trọng trong việc tăng cường an ninh mạng, AI và ML đã học cách phát hiện và ngăn chặn các cuộc tấn công độc hại—chúng có thể tăng độ chính xác của việc phát hiện các mối đe dọa độc hại, theo dõi hoạt động của người dùng, xác định nội dung đáng ngờ, v.v. Nhưng liệu họ có thể đẩy lùi các cuộc tấn công của đối thủ và bảo vệ các mô hình ML không?

Một cách chúng ta có thể chống lại các cuộc tấn công mạng là đào tạo các hệ thống ML để nhận biết trước các cuộc tấn công đối thủ bằng cách thêm các ví dụ vào quy trình đào tạo của chúng.

Không giống như cách tiếp cận bạo lực này, phương pháp chắt lọc phòng thủ đề xuất chúng ta sử dụng mô hình chính, hiệu quả hơn để tìm ra các tính năng quan trọng của mô hình thứ cấp, kém hiệu quả hơn và sau đó cải thiện độ chính xác của mô hình thứ cấp bằng mô hình chính. Các mô hình ML được đào tạo bằng phương pháp chắt lọc phòng thủ ít nhạy cảm hơn với các mẫu đối nghịch, điều này khiến chúng ít bị khai thác hơn.

Chúng tôi cũng có thể liên tục sửa đổi các thuật toán mà các mô hình ML sử dụng để phân loại dữ liệu, điều này có thể khiến các cuộc tấn công đối nghịch kém thành công hơn.

Một kỹ thuật đáng chú ý khác là tính năng nén, sẽ cắt giảm không gian tìm kiếm có sẵn cho đối thủ bằng cách “loại bỏ” các tính năng nhập không cần thiết. Ở đây, mục đích là để giảm thiểu các kết quả dương tính giả và làm cho việc phát hiện các ví dụ đối nghịch hiệu quả hơn.

Bảo vệ Machine Learning và Trí tuệ nhân tạo

Các cuộc tấn công của đối thủ đã cho chúng ta thấy rằng nhiều mô hình ML có thể bị phá vỡ theo những cách đáng ngạc nhiên. Xét cho cùng, học máy đối nghịch vẫn là một lĩnh vực nghiên cứu mới trong lĩnh vực an ninh mạng và nó đi kèm với nhiều vấn đề phức tạp đối với AI và ML.

Mặc dù không có giải pháp kỳ diệu nào để bảo vệ những mô hình này trước mọi cuộc tấn công của kẻ thù, nhưng tương lai có thể sẽ mang đến những kỹ thuật tiên tiến hơn và chiến lược thông minh hơn để giải quyết kẻ thù khủng khiếp này.

Previous Post
Next Post

post written by: