Des chercheurs viennent de trouver un truc complètement dingue. Un modèle de langage entraîné UNIQUEMENT sur de l'anglais, du texte humain basique quoi, est capable de comprendre la biologie moléculaire sans jamais avoir vu une seule séquence de protéines durant son entraînement.
En gros, GPT-2 qui fait de la paraphrase d'ordinaire est, sans le savoir, un expert en détection d'
homologie protéique
. Je vous jure que c'est vrai !!
Liang Wang, chercheur à l'Université de Wuhan (les pangolins, tout ça tout ça, loool), a publié
une étude sur bioRxiv
qui remet en question pas mal de certitudes. L'idée, c'est que la "grammaire" du langage humain et celle du vivant partagent une structure profonde...