Bien que des travaux récents sur la génération d'objets 3D conditionnels au texte aient montré des résultats prometteurs, les méthodes de pointe nécessitent généralement plusieurs heures GPU pour produire un seul échantillon. Cela contraste fortement avec les modèles d’images génératifs de pointe, qui produisent des échantillons en quelques secondes ou minutes. Dans cet article, nous explorons une méthode alternative de génération d'objets 3D qui produit des modèles 3D en seulement 1 à 2 minutes sur un seul GPU. Notre méthode génère d'abord une seule vue synthétique à l'aide d'un modèle de diffusion texte-image, puis produit un nuage de points 3D à l'aide d'un deuxième modèle de diffusion qui conditionne l'image générée. Bien que notre méthode soit encore en deçà de l’état de l’art en termes de qualité d’échantillon, elle est d’un à deux ordres de grandeur plus rapide à échantillonner, offrant un compromis pratique pour certains cas d’utilisation. Nous publions nos modèles de diffusion de nuages de points pré-entraînés, ainsi que notre code et nos modèles d'évaluation, à l'adresse cette URL https.