Shell: avaliando o desempenho de modelos de aprendizado de máquina usados no setor de energia
Estudo de caso da Shell.
Este projeto aproveita o aprendizado profundo para executar tarefas de visão computacional – segmentação semântica em domínio de aplicativo especializado. O projeto tinha cerca de 15 modelos de aprendizado profundo (DL) em implantação ativa. Os modelos DL são aplicados em cascata às previsões geradas, que então alimentam uma série de tarefas downstream para gerar a saída final que seria inserida na tarefa de interpretação manual. Portanto, a garantia de IA por meio da avaliação de desempenho do modelo é fundamental para garantir resultados de IA robustos e explicáveis. Três tipos de testes de avaliação de modelo foram projetados e implementados no pipeline de inferência DL:
Mais informações sobre os Princípios Regulatórios do Livro Branco da IA.
Os testes de regressão e integração formam o backbone e fornecem capacidade de interpretação do modelo em relação a um conjunto de dados de teste. Durante o desenvolvimento do modelo, eles fornecem uma linha de base para interpretar se o desempenho do modelo está melhorando ou degradando, dependendo dos dados e parâmetros de treinamento do modelo. Durante a fase de implantação do modelo, esses testes também fornecem indicação antecipada de desvio de conceito.
Os testes estatísticos são mais projetados para prever o desempenho do modelo, dadas as estatísticas dos dados de teste, fornecendo, portanto, um mecanismo para detectar desvios de dados à medida que os modelos são implantados. Além disso, eles também fornecem uma indicação de quão robusto é o desempenho do modelo DL para variações estatísticas nos dados de teste.
A saída dessa técnica de garantia de IA é comunicada aos desenvolvedores de IA e proprietários de produtos para monitorar possíveis desvios do desempenho esperado do modelo DL. Além disso, se o desempenho se desviar, essas equipes podem operacionalizar medidas de mitigação apropriadas.
Além disso, para usuários da linha de frente e partes interessadas de negócios manter um alto grau de confiança nos resultados dos modelos DL.
Os desenvolvedores de IA são responsáveis por projetar e executar os testes de avaliação do modelo para fortalecer o teste de desempenho. Os proprietários do produto são responsáveis por alavancar esses testes como uma primeira linha de defesa antes das implantações de novos modelos. A equipe do projeto trabalha em conjunto para adaptar os testes para lidar com dados e desvios de conceito durante a implantação.
Neste projeto, as previsões dos modelos DL estão gerando entradas para uma tarefa de interpretação manual. Esta tarefa é complicada, demorada e exige muito esforço, portanto, é crucial que o ponto de partida (neste caso, as previsões do modelo DL) seja de alta qualidade em termos de precisão, cobertura de detecção e ruído muito baixo. Além disso, o resultado da interpretação manual alimenta um processo de tomada de decisão de alto impacto.
A qualidade e robustez da previsão do modelo DL é, portanto, de suma importância. A métrica mais importante para julgar o desempenho de previsão do modelo de ML é o controle de qualidade humano-in-the-loop. No entanto, para automatizar o teste de desempenho em uma primeira linha de defesa, foi adotada a técnica de suíte de teste de avaliação de modelo. O controle de versão de dados e a criação de pipelines experimentais de ML implícitos visavam principalmente garantir que os modelos pudessem ser reproduzidos de ponta a ponta (dados, código e desempenho do modelo) dentro de uma margem de erro aceitável.
Primeira linha de defesa, teste de desempenho de DL automatizado para controle de qualidade
Teste a robustez do modelo e melhor interpretabilidade do desempenho do modelo DL.
Explicação robusta do desempenho do modelo DL para desenvolvedores de IA e usuários finais
Crie confiança em modelos e fluxos de trabalho DL com a comunidade de usuários
Ativa o monitoramento do modelo ao estabelecer um mecanismo para detectar desvios de conceito.
Ganchos MLOps para ativar o CI-CD durante a implantação do modelo.
Um grande número de modelos DL com tarefas muito diferentes: detecção, classificação, redução de ruído.
A complexidade e a variabilidade do problema abordado pelo DL dificultam o projeto de KPIs.
Falta de dados representativos e de alta qualidade que possam ser usados para projetar a avaliação do modelo
Falta de métricas/limiares claros para projetar regressão, integração e testes estatísticos.
Falta de uma biblioteca de avaliação de modelo estável.