Regra da cadeia para funções de várias variáveis
Com uma função de uma variável a regra da cadeia nos conta que [math]\displaystyle{ [f(g(x))]' = g'(x)f'(g(x)) }[/math]. Para funções de várias variáveis a ideia é a mesma, um produto de derivadas. Tanto a função interna quanto a externa devem ser diferenciáveis para a regra da cadeia valer. Dependendo do livro a explicação da regra varia um pouco. Essencialmente temos dois casos a tratar: um é [math]\displaystyle{ f(g(t),h(t)) }[/math]; o outro é [math]\displaystyle{ f(g(a,b),h(t,s)) }[/math]. Um dos livros que eu consulto já faz a generalização para [math]\displaystyle{ f(\gamma(t)) }[/math], onde [math]\displaystyle{ \gamma(t) }[/math] é uma função vetorial de n variáveis.
Eu vou começar pelo caso mais fácil [math]\displaystyle{ f(\gamma(t)) }[/math], onde [math]\displaystyle{ \gamma(t) = (x(t), y(t)) }[/math] é uma função vetorial ou uma curva (diferenciável). [math]\displaystyle{ x(t) }[/math] e [math]\displaystyle{ y(t) }[/math] são ambas diferenciáveis. Antes de prosseguirmos para os cálculos, perceba que qualquer mudança em [math]\displaystyle{ t }[/math] será refletida no valor de [math]\displaystyle{ f }[/math]. Isto significa que, indiretamente, [math]\displaystyle{ f }[/math] depende de [math]\displaystyle{ t }[/math].
Qualquer incremento [math]\displaystyle{ \Delta t }[/math] produzirá os incrementos [math]\displaystyle{ \Delta x }[/math] e [math]\displaystyle{ \Delta y }[/math]. Assim sendo:
[math]\displaystyle{ \Delta f = f(x + \Delta x, y + \Delta y) - f(x,y) = \frac{\partial f}{\partial x}\Delta x + \frac{\partial f}{\partial y}\Delta y + \eta r }[/math].
onde [math]\displaystyle{ \eta \to 0 }[/math] com [math]\displaystyle{ r = \sqrt{\Delta x^2 + \Delta y^2} \to 0 }[/math], porque [math]\displaystyle{ f }[/math] é diferenciável. O último termo é o erro cometido na aproximação linear. No caso estamos diferenciando em relação à [math]\displaystyle{ t }[/math]:
[math]\displaystyle{ \frac{\Delta f}{\Delta t} = \frac{\partial f}{\Delta x} \cdot \frac{\Delta x}{\Delta t} + \frac{\Delta f}{\Delta y} \cdot \frac{\Delta y}{\Delta t} \pm \eta\sqrt{\left(\frac{\Delta x}{\Delta t}\right)^2 + \left(\frac{\Delta y}{\Delta t}\right)^2} }[/math]
onde o sinal do último termo é positivo se [math]\displaystyle{ \Delta t \gt 0 }[/math] e negativo se [math]\displaystyle{ \Delta t \lt 0 }[/math]. Quando tomamos o limite, [math]\displaystyle{ \Delta t \to 0 }[/math], [math]\displaystyle{ \eta \to 0 }[/math] e o último termo some. A expressão final é:
[math]\displaystyle{ \frac{d}{dt}f(x(t),y(t)) = \frac{\partial f}{\partial x} \frac{\partial x}{\partial t} + \frac{\partial f}{\partial y} \frac{\partial y}{\partial t} }[/math]
Numa observação mais atenta a regra da cadeia é um produto escalar entre o gradiente e outro vetor, este [math]\displaystyle{ (x'(t), y'(t)) }[/math]. É bastante parecido com a derivada direcional e não é mera coincidência, porque quando queremos achar as taxas de variação no espaço temos que ter uma direção.
Outra forma de visualizar:
[math]\displaystyle{ \frac{d}{dt}f(P(t)) = \nabla f \cdot P'(t) }[/math]
Onde [math]\displaystyle{ P(t) = (x(t),y(t)) }[/math] e [math]\displaystyle{ P'(t) = (x'(t),y'(t)) }[/math].
Uma pergunta natural surge aqui: o que podemos inferir de [math]\displaystyle{ \nabla f \cdot (x'(t), y'(t)) = 0 }[/math]? Da geometria analítica sabemos que o produto escalar é zero quando os vetores são perpendiculares. Também sabemos que o gradiente é perpendicular às curvas de níveis. Suponha que [math]\displaystyle{ \gamma(t) }[/math] seja uma curva de nível, uma circunferência por exemplo. Enquanto andamos sobre a circunferência nos mantemos no mesmo nível da função, a coordenada [math]\displaystyle{ z }[/math] no caso de uma função de duas variáveis. Como sabemos, existem infinitos pares [math]\displaystyle{ (x,y) }[/math] que satisfazem um mesmo nível. Mais do que isto, [math]\displaystyle{ (x'(t), y'(t)) }[/math] é tangente às curvas de níveis.
Para cada ponto numa curva de nível temos um vetor tangente e o gradiente. Isto significa que temos todo um conjunto de pares de vetores para os quais o produto escalar é zero. Temos uma função. O raciocínio do parágrafo anterior pode ser sintetizado na seguinte equação:
[math]\displaystyle{ F(t) = f(x(t),y(t)) = k }[/math] para todo [math]\displaystyle{ t }[/math]
Quando [math]\displaystyle{ \frac{d}{dt}F(t) = 0 }[/math] ?
[math]\displaystyle{ F(t) = \frac{\partial f}{\partial x}x'(t) + \frac{\partial f}{\partial y}y'(t) = \nabla f \cdot P'(t) = 0 }[/math].
Suponha que [math]\displaystyle{ P'(t) \neq 0 }[/math], isto mostra que a derivada direcional de [math]\displaystyle{ f }[/math] na direção de [math]\displaystyle{ \overrightarrow{u} = \frac{P'(t)}{||P'(t)||} }[/math], tangente à curva de nível, é zero:
[math]\displaystyle{ D_uf = \nabla f \cdot \overrightarrow{u} = 0 }[/math]
Com isto mostramos que [math]\displaystyle{ f(P) }[/math] é constante quando pegamos pares [math]\displaystyle{ (x,y) }[/math] pertencentes à uma mesma curva de nível.
A extensão natural da regra anterior são funções onde cada variável é uma função de duas ou mais variáveis: [math]\displaystyle{ f(x(s,t),y(s,t)) }[/math]. Para estes casos é útil se aproveitar de uma substituição para não se perder nas contas. Se fizermos [math]\displaystyle{ x(s,t) = u }[/math] e [math]\displaystyle{ y(s,t) = v }[/math]. Então sabemos como diferenciar [math]\displaystyle{ f(u,v) }[/math] a partir da regra anterior. Por sua vez, já sabemos como diferenciar [math]\displaystyle{ u }[/math] e [math]\displaystyle{ v }[/math].
Se [math]\displaystyle{ F(s,t) = f(x(s,t),y(s,t)) }[/math]
Então [math]\displaystyle{ \frac{\partial F}{\partial t} = \frac{\partial f}{\partial x}\frac{\partial x}{\partial t} + \frac{\partial f}{\partial y}\frac{\partial y}{\partial t} }[/math]
E [math]\displaystyle{ \frac{\partial F}{\partial s} = \frac{\partial f}{\partial x}\frac{\partial x}{\partial s} + \frac{\partial f}{\partial y}\frac{\partial y}{\partial s} }[/math]
Alguém pode ter perguntando sobre [math]\displaystyle{ \frac{d F}{d(s,t)} }[/math]. Lembre-se, as derivadas parciais são realmente parciais. Não há significado em derivar em relação a duas ou mais variáveis ao mesmo tempo.