13.7.4. Treinando o modelo¶

Com um conjunto de dados rotulado em mãos, o treinamento é um fluxo guiado na página Train: defina uma versão do conjunto de dados, escolha uma arquitetura e entregue a execução aos servidores do Roboflow.

13.7.4.1. A versão do conjunto de dados¶

Antes do treinamento, o Roboflow constrói uma versão do conjunto de dados – um snapshot congelado das imagens mais duas transformações aplicadas no processo:

O Preprocessing redimensiona cada imagem para a resolução em que o modelo treina. Mantenha essa resolução pequena: a câmera roda modelos pequenos, e um detector treinado em uma resolução modesta cabe na memória da câmera e roda rápido.
A Augmentation sintetiza imagens de treinamento extras perturbando as originais – inversões, mudanças de brilho e exposição, desfoque, ruído. Cada técnica de aumento ensina o modelo a tolerar uma variação real que ele encontrará na câmera, o que estende muito mais um pequeno conjunto de dados capturado à mão.

As configurações de aumento de saturação do Roboflow, mostrando a imagem original ao lado de versões com saturação reduzida e aumentada — Uma pré-visualização de aumento: cada opção mostra o que ela faz a uma imagem de amostra antes de você aplicá-la à versão.¶

Alinhe os aumentos às variações que a câmera realmente verá. Brilho e exposição merecem seu lugar – a iluminação muda o tempo todo. Pule os que nunca acontecem na sua configuração; uma câmera fixada no lugar nunca vê uma inversão vertical, então o aumento por inversão apenas dilui o conjunto de dados.

13.7.4.2. Escolhendo uma arquitetura¶

Em seguida, escolha a arquitetura do modelo. O Roboflow oferece várias, cada uma com um seletor de tamanho que troca acurácia por velocidade.

A página Select Architecture do Roboflow com as opções Roboflow RF-DETR, YOLO26, Roboflow 3.0 e YOLOv11, cada uma com um menu suspenso de tamanho de modelo — As opções de arquitetura – cada uma com um seletor de tamanho que troca acurácia por velocidade de inferência.¶

Para a câmera, escolha Roboflow 3.0. Ela é YOLOv8 por baixo dos panos, e a câmera inclui um pós-processador YOLOv8 em ml.postprocessing.ultralytics, de modo que sua saída é decodificada sem código extra do seu lado. Escolha o tamanho Fast – ele cabe na memória da câmera e roda a uma taxa de quadros utilizável.

13.7.4.3. Executando o treinamento¶

Inicie a execução e o treinamento acontece nos servidores do Roboflow – geralmente bem menos de uma hora para um conjunto de dados pequeno, com um e-mail quando estiver concluído. A página da versão então mostra os gráficos de treinamento e as métricas de acurácia: mAP, precisão e recall.

A página da versão do modelo treinado do Roboflow mostrando o painel de métricas com mAP, precisão, recall e F1, acima da seção Deploy Your Model — O modelo treinado com suas métricas de acurácia. A partir daqui, a página *Visualize* também o executa em imagens de teste ou em uma webcam para uma verificação rápida de sanidade.¶

Se os números estiverem bons, o modelo está pronto para ser implantado. Caso contrário, a solução geralmente é ter mais dados ou dados mais variados – capture outro clipe, rotule-o e treine uma nova versão.