La société d'analyse de big data Databricks Inc. s'est imposée comme un acteur improbable dans le domaine de l'intelligence artificielle générative, en mettant à disposition un nouveau modèle d'IA qui, selon elle, est « aussi magique que ChatGPT« , bien qu'il ait été entraîné sur beaucoup moins de données, en moins de trois heures, à l'aide d'une seule machine.
Databricks a annoncé aujourd'hui dans un billet de blog qu'elle mettait ce qu'elle appelle Dolly à la disposition de tous, dans n'importe quel but, en tant que modèle open-source, avec l'ensemble de son code d'entraînement et des instructions sur la manière de le recréer. Selon l'entreprise, ce lancement vise à démocratiser les grands modèles de langage, de sorte qu'au lieu d'être réservés aux plus grandes entreprises technologiques, des millions de petites entreprises pourront construire et utiliser leurs propres modèles génératifs d'IA personnalisés.
Dans son billet de blog, Databricks explique que ChatGPT a été entraîné sur des millions de mots provenant de milliers de sources web différentes, et que cet entraînement a nécessité l'utilisation de milliers de GPU puissants. La création d'OpenAI LP a pris le monde d'assaut avec sa capacité à créer des phrases cohérentes en réponse à presque n'importe quel type de question, et à discuter de pratiquement n'importe quel sujet.
En réponse à ChatGPT, Meta Platforms Inc., la société mère de Facebook, a publié son propre modèle partiellement libre, appelé LLaMA, qui a probablement été entraîné sur des milliers de mots. Au début du mois, un groupe de chercheurs a repris le LLaMA de Facebook et a créé une IA appelée Alpaca, qui a été entraînée à l'aide d'un très petit ensemble de données d'environ 50 000 questions et réponses et qui pourrait présenter des qualités similaires à celles de ChatGPT.
Bien qu'Alpaca soit encourageant, il n'est pas disponible sous une licence open-source complète, ce qui signifie qu'il ne peut pas être utilisé commercialement. Cependant, il a inspiré Databricks pour la création de son propre modèle.
Au lieu de créer son propre modèle à partir de zéro ou d'utiliser LLaMA, Databricks a pris un LLM beaucoup plus ancien et open-source appelé GPT-J, qui a été créé par EleutherAI plusieurs années auparavant. GTP-J est la base sur laquelle Dolly a été construit. Selon Databricks, le modèle « n'a pas fait grand bruit, probablement parce qu'il ne présente pas de capacités magiques de suivi des instructions« .
Databricks a déclaré qu'il avait été en mesure de prendre le modèle EleutherAI et de le rendre « très accessible » simplement en l'entraînant avec un petit ensemble de données de 50 000 mots, en moins de trois heures et en utilisant une seule machine. Malgré un modèle beaucoup plus petit – seulement 6 milliards de paramètres contre 175 milliards pour ChatGPT – ainsi qu'un ensemble de données et un temps d'entraînement réduits, Dolly présente toujours la même « capacité magique d'interaction humaine » démontrée par ChatGPT, selon Databricks.
« Cela montre que la magie du suivi des instructions ne réside pas dans la formation de modèles sur des ensembles de données gigantesques utilisant un matériel massif« , a expliqué Databricks. « La magie consiste plutôt à montrer à ces puissants modèles à source ouverte des exemples spécifiques de la manière de parler aux humains, ce que n'importe qui peut faire pour une centaine de dollars en utilisant ce petit ensemble de données de 50 000 exemples de questions-réponses.
Databricks a déclaré avoir baptisé le modèle Dolly en hommage à Dolly la brebis, le premier mammifère cloné, car il s'agit en réalité d'un clone très bon marché d'Alpaca et de GPT-J. L'entreprise affirme qu'il s'agit toujours d'un modèle de qualité. Elle affirme qu'il s'agit tout de même d'une réalisation capitale, car en mettant Dolly et ses données d'entraînement en libre accès, elle permet à quiconque de former et d'exploiter une IA véritablement humaine, sans investir des millions de dollars.
« C'est le moment où l'IA se réveille« , a déclaré l'entreprise. « Nous n'avons rien changé fondamentalement et nous n'avons rien fait de miraculeux du point de vue de la recherche et du développement, mais nous avons réalisé qu'il suffisait de montrer quelques milliers d'exemples de la manière dont vous voulez qu'ils se comportent pour libérer le potentiel de ces outils largement disponibles. »
Databricks a déclaré qu'il s'agissait de la première d'une série d'annonces concernant les grands modèles de langage. Les personnes souhaitant essayer Dolly peuvent contacter l'entreprise à l'adresse hello-dolly@databricks.com.