Catalogs Hide Show
- 1 Băng thông bộ nhớ là gì và vì sao nó quan trọng?
- 2 Sức mạnh tính toán tăng nhanh hơn khả năng cấp dữ liệu
- 3 AI làm vấn đề băng thông trở nên rõ ràng hơn
- 4 Độ trễ và băng thông không phải là một
- 5 Bộ nhớ cache giúp ích nhưng không giải quyết hết vấn đề
- 6 HBM và bộ nhớ gần chip là hướng đi quan trọng
- 7 Di chuyển dữ liệu tiêu tốn nhiều điện năng
- 8 Phần mềm cũng phải thay đổi
- 9 Tương lai là thiết kế cân bằng, không chỉ mạnh hơn
Băng thông bộ nhớ là gì và vì sao nó quan trọng?
Băng thông bộ nhớ là lượng dữ liệu mà hệ thống có thể di chuyển giữa bộ nhớ và bộ xử lý trong một đơn vị thời gian. Nếu CPU, GPU hoặc accelerator có thể tính toán rất nhanh nhưng không nhận đủ dữ liệu kịp lúc, phần cứng sẽ phải chờ. Khi đó, hiệu năng thực tế không còn bị giới hạn bởi số lõi xử lý hay xung nhịp, mà bị giới hạn bởi tốc độ đưa dữ liệu đến nơi cần xử lý.Sức mạnh tính toán tăng nhanh hơn khả năng cấp dữ liệu
Trong nhiều năm, số nhân xử lý, số đơn vị vector, tensor core và accelerator chuyên dụng tăng rất mạnh. Tuy nhiên, tốc độ truy cập bộ nhớ không tăng cùng nhịp. Một con chip có thể thực hiện hàng nghìn tỷ phép tính mỗi giây, nhưng để duy trì tốc độ đó, nó cần liên tục đọc mô hình, trọng số, texture, bảng dữ liệu hoặc luồng cảm biến từ bộ nhớ. Nếu đường truyền dữ liệu không đủ rộng, phần lớn tài nguyên tính toán sẽ không được khai thác hết.AI làm vấn đề băng thông trở nên rõ ràng hơn
Các mô hình AI hiện đại cần xử lý khối lượng dữ liệu rất lớn. Khi chạy suy luận, hệ thống phải nạp trọng số mô hình, dữ liệu đầu vào, trạng thái trung gian và kết quả đầu ra qua nhiều tầng bộ nhớ. Với mô hình ngôn ngữ lớn, mô hình thị giác hoặc hệ thống đa phương thức, chi phí di chuyển dữ liệu đôi khi còn lớn hơn chi phí tính toán. Vì vậy, một accelerator mạnh nhưng bộ nhớ chậm có thể thua một thiết kế cân bằng hơn về băng thông.Độ trễ và băng thông không phải là một
Băng thông cho biết có thể truyền bao nhiêu dữ liệu trong một khoảng thời gian, còn độ trễ cho biết mất bao lâu để bắt đầu nhận được dữ liệu. Một hệ thống có băng thông cao nhưng độ trễ lớn vẫn có thể gặp khó trong các tác vụ truy cập ngẫu nhiên. Ngược lại, độ trễ thấp nhưng băng thông hẹp cũng không phù hợp với các workload cần quét hoặc nạp dữ liệu liên tục. Các ứng dụng hiện đại thường cần tối ưu cả hai yếu tố này.Bộ nhớ cache giúp ích nhưng không giải quyết hết vấn đề
Cache có nhiệm vụ giữ dữ liệu thường dùng ở gần bộ xử lý hơn, giúp giảm số lần phải truy cập DRAM. Tuy nhiên, cache chỉ hiệu quả khi dữ liệu có tính lặp lại hoặc có mẫu truy cập dễ dự đoán. Với AI, đồ họa, phân tích dữ liệu lớn và mô phỏng khoa học, khối lượng dữ liệu có thể vượt xa dung lượng cache. Khi đó, hệ thống vẫn phải phụ thuộc vào băng thông của bộ nhớ chính hoặc bộ nhớ chuyên dụng như HBM.HBM và bộ nhớ gần chip là hướng đi quan trọng
High Bandwidth Memory giúp tăng mạnh băng thông bằng cách đặt các chồng bộ nhớ gần bộ xử lý và dùng giao tiếp rất rộng. Đây là lý do HBM xuất hiện nhiều trong GPU trung tâm dữ liệu, accelerator AI và các thiết kế hiệu năng cao. Tuy nhiên, HBM đắt, phức tạp trong đóng gói và không phù hợp với mọi phân khúc. Vì vậy, ngành chip vẫn phải cân bằng giữa hiệu năng, chi phí, điện năng và khả năng sản xuất hàng loạt.Di chuyển dữ liệu tiêu tốn nhiều điện năng
Một vấn đề lớn khác là năng lượng. Tính toán một phép nhân hoặc cộng có thể rẻ hơn nhiều so với việc kéo dữ liệu từ bộ nhớ ngoài vào chip. Khi hệ thống càng lớn, chi phí năng lượng của việc di chuyển dữ liệu càng đáng kể. Đây là lý do các kiến trúc mới thường cố gắng đưa bộ nhớ gần đơn vị tính toán hơn, tăng cache, dùng nén dữ liệu hoặc xử lý ngay tại nơi dữ liệu được lưu trữ.Phần mềm cũng phải thay đổi
Không thể chỉ giải quyết nút thắt băng thông bằng phần cứng. Trình biên dịch, framework AI, hệ điều hành và lập trình viên đều phải tối ưu cách dữ liệu được sắp xếp, tái sử dụng và truyền qua các tầng bộ nhớ. Các kỹ thuật như tiling, batching, quantization, pruning và kernel fusion giúp giảm lượng dữ liệu cần di chuyển. Trong nhiều trường hợp, tối ưu luồng dữ liệu đem lại hiệu quả lớn hơn việc chỉ tăng thêm nhân xử lý.Tương lai là thiết kế cân bằng, không chỉ mạnh hơn
Khi CPU, GPU và accelerator tiếp tục tăng sức mạnh, băng thông bộ nhớ sẽ càng trở thành yếu tố quyết định. Một hệ thống tốt không chỉ cần nhiều TOPS, nhiều nhân hay xung nhịp cao, mà cần kiến trúc bộ nhớ đủ nhanh, đủ gần và đủ tiết kiệm điện. Trong kỷ nguyên AI và dữ liệu lớn, hiệu năng thực tế sẽ thuộc về những thiết kế cân bằng giữa tính toán, bộ nhớ, phần mềm và năng lượng.
Sửa lần cuối bởi điều hành viên: