Học deep learning chắc chắn bạn sẽ gặp rất nhiều thuật ngữ chuyên biệt. Để hiểu sâu về các khía cạnh kỹ thuật của deep learning, bạn cần hiểu về gradient – một khái niệm trong điện toán không gian vector.
Gradient (độ dốc) là một khái niệm rất gần với đạo hàm chúng ta đã học ở phổ thông, nó biểu thị tốc độ biến thiên của hàm số. Độ dốc là một vectơ, trong khi đạo hàm là một giá trị vô hướng (đại khái là số). Vectơ này biểu thị hướng mà giá trị của hàm thay đổi nhiều nhất và trở thành vectơ 0 khi hàm đạt cực đại hoặc cực tiểu cục bộ.
Trong một biểu diễn trực quan, hãy tưởng tượng bạn đang ở trên một ngọn núi. Ở chân núi, trong thung lũng và trên đỉnh núi, độ dốc bằng không. Tùy thuộc vào hình dạng của ngọn núi và nơi chúng ta đang tìm kiếm, độ dốc sẽ có các giá trị khác nhau. Trên đỉnh núi, đi hướng nào cũng là “đường xuống dốc”.
Quay trở lại khái niệm đạo hàm mà chúng ta đã học ở trường trung học, đại lượng này cho biết tốc độ thay đổi của một hàm dựa trên một biến duy nhất, thường được đặt thành x. Ví dụ: df/dx cho chúng ta biết hàm f thay đổi bao nhiêu khi x thay đổi 1 đơn vị. Đối với hàm có nhiều biến, chẳng hạn như x và y, hàm này sẽ có nhiều đạo hàm: giá trị df/dx và df /dy cho chúng ta biết giá trị của hàm sẽ thay đổi như thế nào nếu chúng ta thay đổi một biến (giả sử các biến khác không đổi).
Chúng ta có thể biểu diễn các tỷ lệ này dưới dạng một vectơ có nhiều thành phần, một trong số đó là đạo hàm. Vậy hàm có 3 biến sẽ có gradient có 3 thành phần:
- f(x) có một biến và một đạo hàm: df / dx
- f(x, y, z) có ba biến và ba đạo hàm: (df / dx, df / dy, df / dz)
Giống như đạo hàm thông thường, gradient cho biết hướng mà hàm thay đổi mạnh nhất. Vì vậy, nó có thể được sử dụng để tìm cực đại và cực tiểu cục bộ. Trong hàm một biến, để thay đổi giá trị của hàm, chúng ta chỉ có hướng “tiến” và “lùi” dựa trên sự thay đổi của trục x. Đối với các hàm nhiều biến, mọi thứ không đơn giản như vậy. Với hàm hai biến, chúng ta có thể coi nó là vô số hướng trong một mặt phẳng và hàm ba biến, nó có thể là bất kỳ hướng nào trong không gian ba chiều. Một hàm có 100 biến (làm đầu vào cho mạng nơ-ron sử dụng nhúng từ 100 chiều), ngoài sức tưởng tượng của chúng ta. Mặc dù vậy, độ dốc là một công cụ toán học tuyệt vời mà chúng ta có thể kiểm tra tính biến thiên của các hàm này.
Độ dốc được biểu thị bằng một delta ngược (Δ), được gọi là “del”. Đối với ví dụ trên, chúng ta có:
Các thành phần của gradient là đạo hàm riêng theo x, y và z. Đối với các hàm, biến gradient là đạo hàm của hàm đó.
Một ứng dụng phổ biến của độ dốc là tìm cực đại và cực tiểu của một hàm. Đây là một nhiệm vụ quan trọng trong việc tối ưu hóa trọng số trong các mạng học sâu.
Hy vọng bài viết này giúp bạn hiểu rõ hơn về gradient. Đây là một khái niệm quan trọng nếu bạn muốn hiểu rõ hơn về các khía cạnh kỹ thuật của deep learning để thiết kế các mô hình tốt hơn.
Theo dõi trituenhantao.io và nhận thông báo ngay khi có bài viết mới!