Problemas con el modelo CLIP (IA)

Estoy desarrollando un codigo que dada una imagen que un UI (interfaz web o interfaz de windows,linux etc) y una descripcion del elemento a buscar, obtenga las coordenadas centrales del elemento, por ejemplo… (Budget: €8 – €30 EUR, Jobs: Machine Learning (ML), Python, User Interface / IA)

Loading...