paper_reading / JournalDB 1cfe54e949178196af93d90c73636f9d.csv
UlrickBL's picture
Update JournalDB 1cfe54e949178196af93d90c73636f9d.csv
b22018c verified
Paper name,Note,Status,Link
Flash attention,OK mais faire la formule pour 2,FINISHED,
Diffusion et token meta,ok l'image est faite complètement lors de lattention avec patch de vae et diffusion unet et le modèle switch entre text et Diffusion à partir de tokens pour la generation,FINISHED,
Diffusion avec attention et latent,"OK c'est de la cross attention avec le texte ,un latent vae pour les perfs et un unet avec du transformer pour prédire le noise",FINISHED,
Xformers,pas forcement fou à lire,FINISHED,
Mlir pour les compilers,lire le diapo intro de Google,FINISHED,
Autogen et autogen studio,plusieurs interactions d'agents pour augmenter les performances : à tester avec l'ui,FINISHED,
Text2sql is not ennough,en gros ok utilise le llm dans la query sous forme d'agent,FINISHED,
ReMamba,double forward pour sélectionner les latents intéressants pour la query,FINISHED,
Spéculative decoding,"OK on utilise un petit modèle de façon itérative pour c token puis on prédit de façon batche les x séquences, si le même mot est prédit par le gros c'est bon",FINISHED,
Whisper,concept compris mais pq pas lire le papier,FINISHED,
Agentic rag for time series analysis,pas très intéressant,FINISHED,
Kosmos,OK mais que anglais,FINISHED,
Graph rag survey,,FINISHED,
Political débate paper,,FINISHED,
Pairwise préférence,,FINISHED,
Multilingual rope,,FINISHED,
Dspy ai prompt,,FINISHED,
Crew ai,,FINISHED,
Quiet star,on raisone lorsqu'il y a des token thought et on simple dans les logits pour pas faire trop de compute,FINISHED,
Lets vérify step by step,c'est mieux de juger une réponse avec un process plutôt que outcome pour un générateur. Active learning performe mieux pour fous de le reward model sur les cas difficiles,FINISHED,
Tree of thought,,FINISHED,
Agent q,"prompt react et thought, dpo sur le prompt et agent avec vision qui critique le choix des actions + tree search pour améliorer les perfs et itérations",FINISHED,
Yarn,"rope est en fait sur q et k donc que au niveau du softmax de lattention pas la value
Position interpolation : on multiplie la position m par L/L'
Problème pour les tokens très proches (High frequency)
Ntk aware : on remplace la fréquence par une constante dépendante du ratio L/L'
Out of bond (on peut faire plus de 1 tour) + on traite toutes les dimensions pareil alors que le nn non
Ntk by part : condition sur la wavelength (valeur pour laquelle on fait une full rotation donc 2pi/teta) et L/wave donne une condition pour si on doit atténuer teta ou non lors du calcul du rope
Yarn : ntk by part et division dans le softmax par un constante qui dépend du ratio L/L'",FINISHED,
Dual Chunk attention,"Le rope c'est entre q et k et ça fait une rotation m-n
Quand m-n est trop grand le model est pas entraîné. Dca fait des chunk de taille 3/4 du max entraîné.
Si le token est distant relativement de moins d'un chunk : distance relative normale
Si les tokens sont dans des chunks adjacents : distance relative capée sur la distance max - 1
Si les token sont dans des chunks non adjacents, gradient capé (on a un éloignement fixe maximal qui descend sur la valeur de k seulement)",FINISHED,
Qwen2,"classique yarn dual chunk attention , orm , création d'instruction à partir de réponse de Hugh qualité, prompt avec guidline puis tu lui apprend sans les guidelines. Le moe a 8 experts actifs toujours et 8 partis 64",FINISHED,
Jina,xlm roberta rope avec un fine tuning lora pour les différentes taches et du two towers avec 2 adapters pour query et passage. Par contre reranker pas top,FINISHED,
Itérations of thought,un inner dialogue agent juge et gère le dialogue et les reformulations. Un llm agent répond aux requêtes et améliorations du ida,FINISHED,
Molmo,"clip + qwen, aucun freezer pour le prerraining. Dataset humain avec le captions en speech pour être efficace. Dataset et fine tuning pour pointer sur une image",FINISHED,
Logic of thought,"extraire les éléments logiques d'un prompt, utiliser un programme ou des logiques pour en déduire quelque chose, parser ça avec un llm comme réponse",FINISHED,
Rag and beyond survey,"il y a 4 types d'applications rag et il faut savoir ce qu'on veut faire :
Explicit facts retrieval
Implicite facts (graph, tree , itérative, text 2 sql) il faut faire des liens
Interprétation (prompt, cot, il faut réfléchir et interpréter)
Hidden rationals ( office learning utiliser un llm pour déduire des choses, in context learning ie few shot et fine tuning ) il faut se servir devenement passes pour en sortir une logique exemple analyse d'incidents",FINISHED,
Making llm text embedders,on instruct un llm avec few shot query passage puis on donne une query et on fine tune sur la nce sur le token end of séquence,FINISHED,
Colpali,colbert sur les patchs avec un llm pour avoir token par token,FINISHED,
Late interaction,"on regarde le maximum de similarité entre un token de text et chaque patch de l'image puis on somme ce Max sur l'ensemble des tokens de text de la query, cela donne le LI entre la query et l'image. On a après une matrice de la taille query pages",FINISHED,
Slora,"partage de beaucoup d'adapter grâce à un batching, un load depuis la ram et un ténor parallèle",FINISHED,
Where rnn all we needed,"min Lstm et min gru - on enlevé quasi toutes les récurrences sauf pour la sortie, on enlevé tous les tanh et grâce à un algo la récurrence est parallellisable quand c'est dans le format restant (parrallel scan)",FINISHED,
Llms Know more than they show,à partir des tokens qui font vraiment la réponse et des logits des layers d'avant(extraits avec un autre call llm malheureusement) il est possible de classifier si la réponse est juste ou fausse,FINISHED,
Probing classifier,,FINISHED,
Contextuel document embedding,un peu comme un truc avec un vision encoder on rajoute au niveaud e lembedding les infos des autres documents proches + Entraînement sur des donnes de même cluster pour rendre les batchs plus difficiles,FINISHED,
Nouveau modèle vision aria,"66 Moe plus petits que les FFN avec 2 communs et 6 choisis , la dim interne des experts est plus petite que la dim hidden , vit avec learnable latent queries par un adapter en sortie. Le model a des experts visuels selon la modalité dans chaque couche",FINISHED,
Pixtral,"rope 2d, break et end images",FINISHED,
Liquid neural network,,FINISHED,
Model swarm,,FINISHED,
Nvidia judge et dataset,"Bradley terry (llm +dense qui écarté le reward d'un win et loose end of séquence) et steer lm régression (llm + dense end of séquence qui prédit parmis 4 score), en réalité BT avec le base llm qui est un steer lm est le meilleur reward. Les sets juges par gpt4o favorise des set de data de gpt4o. Reinforce meilleur que ppo meilleur que dpo.",FINISHED,
Model mergin différentiable adaptive merging,"Merge les modèles en les sommant avec un coefficient par modèle par layer par colonne. Ces coefficients sont appris en minimisant une loss basée sur la kl divergence des logits entre le modèle merge et le modèle spécialisé sur i avec le dataset de i (avec un dataset et un modèle pour chaque type de modèle), L1 et L2 et on essaie aussi de minimiser la cosine distance entre les coefficients de chaque modele pour aligner dans le meme sens. L'embedding et la rms restent ceux du base modèle non spécialisé.
Il faudrait faire qlora adapter merging maintenant",FINISHED,
Allegro,"video vae bien fait (temporal et res net), bonne donnés, vidéo dit (self attention avec 3d rope, cross avec text et temporal avec adaln) prédire le noise dans le latent",FINISHED,
Adaln,une couche de sale et fit de conditioning ajouté avant chaque bloc d'attention,FINISHED,
Réduction attention layer,similarité entre la sortie et l'entrée pour voir si c'est utile. Tu enleves la moitié des couches c'est quasi pareil,FINISHED,
Training on 10k gpu,checkpointing et parallélisme,FINISHED,
Rewarding progress scaling automated process,"on mesure la progression dans le process plutôt que la justesse de l'étape, un autre modèle weak mais pas trop c'est mieux pour ça et avec du beam search",FINISHED,
AttnLRP,layer wise redevance propagation pour explainabilité des LLMs,FINISHED,
Spéculative decoding distillation,plutôt que d'avoir une ground truth ou les logits du teacher. On laisse le student générer en mode Spéculative et si le token généré n'est pas dans le top k du teacher on le rétribué et on continue. Ça crée un dataset proche des 2 distributions,FINISHED,
Multimodal rag,pas très intéressant,FINISHED,
Arithmetic without algorithm,sur des opérations simples (+×-) un très petit nombre de neurones par layer est responsable du résultat. Ils correspondent à des heuristiques (pour une opération et une range de réponse). La solution d'opérations vient d'une combinaison de ces heuristiques,FINISHED,
Longrag,"Retriever et rerank
Utiliser un llm pour extraire se linfo globale du chunk associé à un long contexte autour du chunk - info 1
Sélectionner le chunk avec un cot qui décide si ça va répondre ou pas - info 2",FINISHED,
Yolov3,très drôle,FINISHED,
Modèle tencent,"MoE 16 experts, 1 commun + 1 activé. Cross layer attention toutes les 2 couches. Rope et swiglu. On policy et off policy DPO. Beaucoup de synthétique",FINISHED,
L'autre colpali unifying,"pas de late interaction, llm phi et clip",FINISHED,
Docling,,FINISHED,
Table former,modèle transformer d'extraction de tables avec un décoder pour les tags (structure) et un pour les box (extraction du contenu ),FINISHED,
Layout,"base sur rt detr qui est yolo en mieux : suite de cnn pour extraire différentes features, aifi fusion pour meilleur information, fusion des features cross chabnel qui deviennent des queries puis transformer pour extraire les plus importantes et têtes de detection",FINISHED,
Mixture of transformer,"On a un transformer par modalité. On classe la séquence par modalité (text, image, speech) on fait les projection Q,V, K, on reordonne pour la formule de l'attention. On reclasse par modalité puis on a un feedforward par modalité et on ordonne de nouveau.
On peut même avoir différentes loss par transformer du coup (diffusion vs autoregressif)",FINISHED,
Pddl,"pour planning et api plusieurs soucis : nombre d'api limité, hallucinations, query pas complète pour les keys, planning difficile.
Llm qui généré une représentation de la query en asp puis pddl via le solver qui fait le pont entre sémantique et api (planning domain définition language ) avec un pddl qui représente le domaine (action possible input et output) et un pour la tâche
On résout ça avec un solver classique ia donc pas d'hallucinations etc",FINISHED,
Taxonomy agentops,,FINISHED,
Qwen coder report,"qwen 2.5 en base, data code, tewt et math avec NTP et fill in the Middle (on donne le début et la fin d'un code et il fait le milieu avec des tokens spéciaux pour lui dire). Rope et augmentation de la fréquence pour long contexte sur des repos + yarn",FINISHED,
Logit processor,"Réfléchir à du funxtion calling meilleur en attribuant des tokens de function directement et en fine tunant en limitant uniquement à ces token sur les demande
genre pas besoin de prédire une partie et surtout on simplifié le vocabulaire au moment de la pred , en mode RLSVR.
Par contre ça veut dire qu'on ocille entre du rule based et du generatif donc le kv cache est pas opti",FINISHED,
Nvidia paper ssm et attention,meta token pour stocker de linfo (differents pour differents domaines). Ssm et attention qui sont pool. Slidding Window sauf pour 3 layer pour accélérer car ssm à déjà le global. Cross layer attention. Lattention se conxentre sur le cross et le ssm sur le self,FINISHED,
Tulu,"llama3.1 base model
Gros job sur la data, sft avec un focus sur des skills (math, code, recall, instruct), dpo on policy et off policy avec d'autres models +gpt4o qui score lez preferences, et rl with vérifiable reward avec maths et précise instructions avec ppo et un vérifiable
Grosse étude des overlap des datasets entre train et eval avec ngram
Generation de data avec des persona (250k personna)
Sft skill spécific model pour ajuster le dataset et savoir quel dataset est bien pour quel skill
Quand on veut train un plus gros model on augmente le batch size et diminue le lr
Framework d'évaluation complet",FINISHED,
Flux,"diffuser classique avec latent pour le noise, scheduler pour savoir les timestamp, t5 encoder pour le text mais clip pour ajouter au scheduler pour pas mal d'étapes de modulation. N composants de multimodal ( en gros on mélange text et image en faisant du point wise de q k et v donc cest pas de la cross attention) avec une étape de modulation par modalité. Puis N composants de self attention normale du truc assemblé.",FINISHED,
Qwq,principalement train sur su cot,FINISHED,
Qwen2vl,,FINISHED,
Naive dynamic résolution,process toutes les résolutions et vidéos possibles avec 2d rope dans le vit + compression après patching avec un mlp pour 2x2 = 1 token,FINISHED,
Multimodal rope,3 dimensions et incrementation de 1 pour le changement se modalité du maximum des 3 modalités,FINISHED,
Vidéo,"2 frames par secondes sampled, avec une limite de token par vidéos qui influe sur la compression et 3d convolution (dans le vit ???)",FINISHED,
Autoround quantization,quantize et dequantize avec une sormule qui clip avec un param s qui dépend de alpha et bêta et v qui sont appris sur l'erreur de dequantization,FINISHED,
Gaia,"leader bord de 400 questions classés qui nécessite des tools. Tools : Web browning, multimodality tool (stt, ocr,)",FINISHED,
Yi lightbing,classique moe,FINISHED,
Chain of continious thought,le cot se fait en latent pour avoir bcp plus d'informations et reviens direct en input s'en skippant le tokenizer. Fixed size thinking et k steps de thinking,FINISHED,
Process bench,,FINISHED,
Meta no token,"On travaille au niveau des bytes avec un embedding auquel on ajoute les hash des ngrams précédents. On fait de la cross attention pour représenter les patchs (key et values) de manière perceiver resampler. Ces groupement de bytes sont déterminés à partir d'un petit self transformer et de la perte dentropy sur la tache de next byte prediction. Ensuite on passe dans un petit encoder qui fait le perceiver avec une couche self et une couche cross avec les vecteurs patchs qui sont initialises avec un max pooling des embedding des bytes du patch pour representer les groupes de bytes en patch er en sortie de l'encodeur, les patchs sont envoyés dans un transformer classique puis décoder avec sensiblement le même système inverse (cross attention puis transformer)
Prédiction de 1 bytes ou d'une séquence de bytes ???
Regarder le code pour voir ce qui est décode et à quel moment c'est patche",FINISHED,
Jina clip v2,"XML roberta et image encoder eva02, train en 3 stage sur de linfo nce avec hard negative et long captions au stage 3, full multilangue avec le dataset vidore en particulier. Pas au niveau de colpali mais ça va",FINISHED,
Large concept model,"Sonar qui encodé et décode des phrases
Lcm qui généré les concepts (les représentations des phrases) - décoder only avec une mse loss, diffusion pour avoir un espace continu",FINISHED,
Apollo llm,"siglip image encoder et internvideo2 vidéo encoder concat et passés dans un perciever puis qwen. Ablation sur les types de data, les encoder, le sampling des vidéos Gros benchmark model vidéos",FINISHED,
Adam vs adamW,weight decay = l2 directement appliquée au param et multiplié par le lr alors que adam n''a pas le lr sur l2 cela permet de ne pas avoir de trop gros poids detre stable et généraliste. Moment = prise en compte des gradients davant pour convergence plus rapide et moins de bruit. Velocite = prise en compte du carre des gradients pour adapter le learning rate.,FINISHED,
"Cliping ",on empêche la norme de gradient de dépasser 1 pour ne pas exploser,FINISHED,
Linéar warmup,on monte le lr petit à petit pour pas apprendre trop vite et garder un optimum,FINISHED,
Cosine decay,on diminue jusqu'à 0 le lr sur la période pour continuer petit à petit à converger sans rater loptima et arriver chill à la fin sans tout bouger,FINISHED,
Loss ocr,CTC avec -log de la proba. On a un token blank qui permet au modèle de prédire rien quand il a pas toutes les infos. Ensuite on supprime les blank et les répétitions qui sont pas separes par blank. La ctc loss prend en compte les différents chemins qui peuvent amener à la bonne pred (donc avec les blancs et répétitions),FINISHED,
Crnn,conv pour avoir 1 ou 2 de hauteur et les channels et la largeur de l'image. Puis Split par colonne qu'on envoie à un rnn + fnn + softmax qui prédit le caractère ou un blank pour chaque pas de séquence,FINISHED,
Cohere,3 couches avec sliding window et rope et une couche avec full séquence sans postiional encoding,FINISHED,
"Q former ","query former, on a des query latent comme pour le perceiver resampler sauf que on 1 2 modules un avec la query latent, self attention et cross attention avec un image encoder et un pur encoder avec comme input le texte correspondant à l'image. Ensuite on apprend en constructive à avoir des latents qui en sortie de q former ressemble à la sortie du texte",FINISHED,
Perceiver resampler,"transformer avec des latent : q c'est le latent, k et v c'est latent concat avec ce qu'on veut représenter",FINISHED,
Wave2vec,"Des couches de cnn avec activation gelu pour faire un latent (512 channels)
Un transformer pour representer lembedding
Puis entraînement self supervised
on mask 50% des latent et on fait passer ça dans un quantizer qui les représente de façon discrète. On sample 100 latent quantize comme négative et le bon comme positive et on fait constrative loss entre la sortie du transformer et ceux là",FINISHED,
Test time Training,"dataset arc, permutation pour augmenter et fine tuning lora sur la task spécifique augmente beaucoup les perfs",FINISHED,
Deepseek v3,"Moe shared expert et gating avec un sigmoid(vecteur * layer de classification d'expert ) et softmax pour l'activation des experts du top k (donc en gros leur impact est sommé avec un poids) les 3 premières couches sont pas moe. Par contre une limite de 4 nodes max par token (mais 8 experts)
Ajout d'un buaisdans le calcul de la décision des experts pour équilibrer les experts en Training
Multi latent attention on stocke le kv cache dans un vecteur latent commun bcp plus petit qu'on découpe en k et v avec une couche linéaire chacun, ça réduit de bcp le cache - 512 vs 2x7168 (61 layers )
Multi token prediction par token qu'on veut prédire en multiple on concat la sortie du modèle à lembedding on fait passer dans un transformer et on prédit le token. On stack ça de façon itérative pour k token avec un loss sur le tiem token par simple Block. Ça permet le Spéculative decoding mais aussi de sensibiliser le modèle à penser bcp plus loin. En mode normal on enlevé juste ces couches et le modèle s'utilise normalement
Fill in the middle durant le pré Training
Grpo au lieu de ppo",FINISHED,
Multi latent attention,"on stocke le kv cache dans un vecteur latent commun bcp plus petit qu'on découpe en k et v avec une couche linéaire chacun, ça réduit de bcp le cache - 512 vs 2x7168 (61 layers )",FINISHED,
Multi token prediction,par token qu'on veut prédire en multiple on concat la sortie du modèle à lembedding on fait passer dans un transformer et on prédit le token. On stack ça de façon itérative pour k token avec un loss sur le tiem token par simple Block. Ça permet le Spéculative decoding mais aussi de sensibiliser le modèle à penser bcp plus loin. En mode normal on enlevé juste ces couches et le modèle s'utilise normalement,FINISHED,
Olmo 2,"pre Training, mid Training (phase dannealing répétées sur des petits set de domain specific amélioré bcp ) pas mal de travail sur les weight decay (enlever l'embedding de ça améliore) sur les spike loss (rms juste après lattention et avant le résiduel est mieux que ln sur la sortie) z norm, no bias, kvq norm . Model souping est bien
Tulu3 pour post Training. Sft avec environ 1m prompt, dpo avec un pool de 20 models open et gpt4o qui fait le juge pour rate les préférences puis select la meklleur comme w et sample une des autres pour l. (On et off car dans les 20 il y a des checkpointing olmo). Ils donnent tous les paramètres de ppo",FINISHED,
Smaller Weaker yet better,"à budget égal, il vaut mieux avoir plus de samplzs quand on fait du sampling sur la réponse d'un plus petit modèle que plus d'un gros model (coverage et diversité)",FINISHED,
Model 7b et prm rstar math,"un petit model généré des steps de solution avec MCTS et donc q value avec un PPM (il est entraîné sur des préférences base sur ses q values plutôt que sur un label - on sample pour une même étape la plus positive et la plus négative plutôt que tout classer et Bradley terry pour la loss). Tout le Training est en self improve de la policiy et critique (ppm) en 4 round ça bat o1 en maths. Les q value sont initialisées avec un terminal guided anotation.Ablation sur orm, prm avec q value et ppm. Ppm est meilleur.",FINISHED,
Reinforce ++,grpo avec pénalité kl sur le reward (le reward est la kl avec l'ajout du reward sur le dernier token),FINISHED,
,,Not started,
Kalm,"travail sur la data, clearing des false negative, hard negative mining, mean pooling et train sur 512 mais rope donc long ok",FINISHED,
TabPFN,fondation model pour données tabulaires,FINISHED,
Qwen prm,combinaison de monte Carlos et llm as judge pour sélectionner parmis n sample d'une step. Évaluer sur best of n force le orm donc process bench est mieux.,FINISHED,
Monte Carlo,on se met à une étape t et on prédit depuis la jusqu'à la réponse k réponses. La MC value est la proportion de bonne réponses sur les réponses générés donc le pouvoir de cette step a générer une bonne réponse,FINISHED,
Minmax model moe,"Lightning attention 7 layers sur 8 = la combinaison permet un super retrieval, un long contexte et une rapidité quasi linéaire
Moe avec routing mlp
Half head rope appartement pas mal
Vison classique avec encoder, mlp, llm mais le long context permet de garder beaucoup de résolution facilement.
Grpo custom pour le rward et la kl (stop tensor)",FINISHED,
Monolith,offline et online Training et inference d'un énorme système que reco qui bouge avec le temps,FINISHED,
Deepseek r1,"Deepseek r1 zéro : pas de sft, GRPO direct sur base model avec accuracy reward math et code et format reward sur le thinkiñg .Pas de prm. En pur rl, le model tend naturellement vers des réponsees plus longues et réfléchies, révision et réévaluation se fait naturellement. A-ha moment juste dingue en fait.
R1 avec çold start : short sft avec cot, rl sur clear solution (math, code,...)+ lang consistancy reward, puis sft sur des donnes générales avec rejection samplingavec v3 + v3 dataset pour non reasoning data + final rl classic de v3. Distillation en pur sft ???
Distiller d'un gros est mieux que de faire la pipeline complète
Vraiment une harmonie entre un o1 et 4o (l'un renforce l'autre en data ou juge )",FINISHED,
Kimi paper,multimodal reasoning mldel avec rl simple type reinforce avec moyenne des rewards sur base model et ft cot. Graduation en difficulté et RM qui compare la réponse à la ground truth pour donner un scalar,FINISHED,
Qwen moe balancing,faire le lbl au niveau du batch complet plutôt que post data parallel (donc au niveau proche de la sequence) permet d'équilibrer les experts bcp mieux et de les spécialiser fortement,FINISHED,
Bytedance agent,"agent gui avec une approche data driven (+ouverture sur le rl ft suite à d'autres interactions à venir pour s'améliore) vs design driven (prompt c'est trop chiant et trop peu sur, frameworks trop prompt à l'erreur et peu fiables en prod). Lien rpa, agent framework, native agent et lifeline agent plus tard.
Pas mal de tache pur apprendre au model a cliquer (coordonnés) decrire et localiser, capter les changements et les Milestone.",FINISHED,
Technique de agent dpo,on garde les traces fausses et la trace succesful pour dpo le model sur ça- online dpo.ces data sont online,FINISHED,
Large action model,lu en diagonale / plan et task mais plutôt orienté gui. Un llm vraiment tune uniquement sur de l'action,FINISHED,
Rl deepmind muzero,"rl à partir d'observation d'un jeu (genre x parties et Z observer) un modèle qui n'a pas les règles et qui fait juste un hidden state. 3 têtes- hidden state, policy, value et reward
Utilisation avec mcts et nombre de visite d'une node comme proba",FINISHED,
Deepseek math,GRPO + insight sur le RL : tout peut être représenté comme du RL,FINISHED,
Qwen 2.5 max,"pretraining fill in the middle, position et Word retrieval, paragraph reordering 5 Training phase pour rtendre petit à petit
DCA (remap relative pos avec intra, inter et successive ) et yarn pour faire x4
Pour le prefilling Minference
on sélectionne seulement les token qui ont une attention avec les derniers token pour compute leur attention, grosse réduction. On fait ça par chunk aussi (donc plusieurs lots de derniers )",FINISHED,
Critique fine tuning,"plutôt que d'apprendre au modèle à imiter des réponses, on lui apprend à critiquer des réponses et donc à les comprendre",FINISHED,
O3 mini card,"tous les safety test de o3 (jailnbreal, cybersecu, persuasion, ...)",FINISHED,
Sft memorize rl généralize,sft à tendance à ne pas performer sur de le ood mais est nécessaire pour formater la réponse et donner une bonne base au rl qui lui après permet de généraliser à des tâches de language ou de vision,FINISHED,
Janus pro paper,"plus gros model, plus de data et focus sur meilleure qualité",FINISHED,
Janus et Vq tokenizer,"encoder décoder cnn qui reduit la dimention de l'image et amène dans un codebook (c'est une quantization du vecteur de feature dans un dictionnaire de tokens, on map le feature sur lindice du token le plus proche). On entraîné sur une loss qui a l'erreur de reconstruction et l'erreur de représentation du feature avec le vecteur quantizé. Ensuite en mode autoreg il y a un MLP pour adapter le codebook à lembedding et une prediction head sur le vocabulaire texte et une sur le vocabulaire image (codebook)",FINISHED,
Space moe,,FINISHED,
VideoJam,,FINISHED,
Joint embedding,"pas de constrative loss mais l2 loss dans l'espace embedding. Generation dans l'espace dembedding. Embedding pour target et input en vit, predixtor en vit",FINISHED,
On teacher hacking,"le fait de passer par un proxy teacher peut faire du hacking, on se rapproche du teacher mais s'éloigne de la réalité. Il faut privilégier le online distillation, la diversité des prompts et si offline sampler plus de réponses.",FINISHED,
Scaling up test time compute with latent reasoning,"l'idée est de penser dans l'espace latent avec une récurrence sur le depth au lieu du temps. Le model est composé de 3 Blocks de couches transfo : prélude qui construit l'embedding, coda qui décode le dernier espace latent en tokens et un Block récurrent qui prend un bruit blanc et l'embedding puis les espaces latents et l'embedding avec le nombre de récurrences variables . Ça vient de la thoery de deep thinkkng et le fait que dans les llm la première et dernière couches sont très différents mais au milieu c'est échangeable
Ils utilisent un adapter qui combine via concatenation et reduction l'espace latent et lembedding dans un seul espace
Travail sur le nombre de récurrence en train sample sur du poisson et sur la backprop qui doit être indep de r (donc backprop que sur les k dernières récurrences mais comme l'embeddingest tj concat, meme si k alors le prelude est tj backprop)
Ils ont étudier le fait de partager le kv cache en early stopping et de mettre un kv cache de taille définie en partageant avec un modulo sur le cache.
On peut aussi faire cot en prenant le bruit blanc à partir du dernier hidden state du dernier token.
On peut aussi Spéculative decoding àvec moins de steps et vérifier sur le batch avec plus de steps",FINISHED,
On the émergence of thinking in llm,thinking = search et stratégie. Cot amélioré le tĥinking et donc le reasoning et plus la réponse est longue meilleure est la réponse. Sft sur du thinkkng et Ppo avec 2 rewards : outcome vérifiable et thinking reward (un truc sur la longueur de la réponse et un llm as à judge),FINISHED,
Infinitehip,prune les token pour k et v pour diminuer la taille et adaptation du rope,FINISHED,
Slang json output,vs outlines,FINISHED,
Adaptative graph of thought,"DAG decomposition récursivité et graph, passer plus de temps sur des sous tâches complexes. Alternative à cot et tot",FINISHED,
R1 perplexity,fine tune sur le censorship chinois,FINISHED,
Large diffusion model,"transformer bidirectionnel entraîné comme un llm sauf que l'idée est de masquer tous les mots et de démasquer petit à petit (diffusion) avec un remasquage sur les low confidence pour corriger et une prediction de la longueur de la réponse au début. Pretraining tout token avec une proba masque, sft token réponse avec ube proba masque masquée, infernec pred de la taille + full mask et remasquage",FINISHED,
Deepseek nsa,"sparse traînaient attention avec 3 composants qui sont combinés via un poids calcule par un mlp et softmax suite à leur calcul d'attention :
Compression - on découpe en blocs et on compresse avec un MLP
Token sélection - on prend les tokens des topn blocs avec le plus gros softmax
Sliding window",FINISHED,
Mixture of Block attention for long context,10p,FINISHED,
Siglip v2,"Training avec une logistic loss, une dense loss qui est en fait un décoder qui classifie des regions et captiosn et une distillation loss sur du mlm et du ema (en gros on montre un bout de l'image au stydent et l'image entière au teacher, on fait mlm avec ça aussi) plutôt que cobstrative (donc ça en fait une tâche de classif pour la première) map head pour le pooling. ",FINISHED,
Swe rl grpo meta,"clone un gros paquet de repo avec PR, prend en compte le status avant le merge et après et les discussions, filtre les PR vide, avec trop de changements et ajouté les files pas changes mais utiles pour la PR.
Grpo avec -1 sur le format et entre 0 et 1 par un séquence matcher sur le résultat officiel de la PR
C'est mieux d'avoir un reward continue que discret (-1 ou 1). Le rl garde bien le reasoning ood
Ça utilise agentless mini qui sépare les taches en des tâches simples donc c'est limitant ça ça ne gère pas tout d'un coup
Revoir l'algo grpo qui est Old et qui est réf
A chaque itération principale on prend le modèle comme init
Ensuite on fait un nombre de step en fonction du nombre de batch. Pour chaque batch le dernier modèle devient le old puis on compute le reward pour chaque output et le advantage pour le batch. Ensuite on fait ses itérations de grpo pour améliorer les paramètres et on change de batch (donc de old) sur tout le set ( on peut faire plusieurs itérations en changeant de réf)",FINISHED,
Nolima long context benchmark,benchmark réaliste sur le long context,FINISHED,
Kalomaze blog,grpo marche mieux sur du 7b et avec un lr schedule simple,FINISHED,
Self taught reasoner tools alibaba,quand qwq utilisé des tools python il est bien meilleur mais il suit pas l'instruction . Donc ils ont fait star en 3 étapes. Insérer des hint d'utilisation de python sur les mots clés de réflexion et changement se direction. Rejection sampling pour créer une première version avec les hint qui marchent bien. Rejection sampling sans hint pour faire stat. Grosse hausse de perf.,FINISHED,
Mcp,API spécifique LLM avec POST (tools) GET (ressources) et Prompts,FINISHED,
Gemma 3,"multi modal, local et ĝlobal 5:1, ablations sur ça, le scale du rope, la taille du teacher pour distiller (si plus de token gros c'est mieux )",FINISHED,
Meta renforcement fine tuning,l'idée est d'entraînemer et de juger sur du cumulative regret. En gros on découpe le truc en episode et on check si cet épisode nous approche de la réponse que ce soit en exploitation ou exploration il y a un meta prover llm qui etablie une réponsea partir de ce quon a deja fait comme episode . En plus on est capable d'analyser des llm avec cette métrique et trouver que plus de budget et plus long cot ne fait pas forcement se meilleures réponses en full outcome reward . En plus ici le reward est dense,FINISHED,
Dapo,"grpo sauf qu'on exclue la kl divergence, on met un clip high et low différent (pour les petites probas), on moyenne sur le nbr de token après la somme sur le batch pour pas pénaliser les longues réponses et on choisi que les réponses qui n'ont pas 0 ou 1 dacxuraxy (dynamic sampling)",FINISHED,
"Why do multi agent fails ","taxonomie sur les fail des multi agents systèmes orientés autour de poor spécification, inter agent miss alignment et task vérification failure Pipeline llm as à judge sur ça",FINISHED,
Gr00t n1,LAM robot action sur des mouvements en 6 dimensions,FINISHED,
Qwen omni,"thinker (llm) et talker (transformer audio), tmrope qui est un rope 3d, un pas de rope est a mot ou 40ms d'audio ou vidéo et height et width. Si vudeo avec audio c'est 2 secondes de audio puis une image. Talker reçoit direct le token mais aussi lembedding de sortir même de thinker pour prévoir mieux le ton et la suite mais dire le bon mot",FINISHED,
Metamorphe vipt meta,prediction de token image sur espace continu qui est l'espace embedding du vit encoder avec cosine loss avec une tête vision spécifique déclenchée par un token image begin. Puis diffusion avec une cross attention sur les token image plutôt que text. Super perf en reason. Finding que vlm généralisé bien à la geberation d'image,FINISHED,
Papiers interpretability Claude,2 papiers,FINISHED,
Transformer without normalization,la ln dans la plupart des transformers fait un truc linéaire par token ou channel de lembedding mais en regardant en globalité ça fait de la non linéarité comme un tanh avec un param. Donc dyt remplace par ça . Ne marche pas bien hors transformers,FINISHED,
Rope,"l'objectif est purement d'avoir une position relation ici co(i-j). Ça se passe au niveau de la dimension des embedding et c'est fait pour chaque token sur q et k donc que dans le softmax. La value reste sur la même espace. Ensuite plus la fréquence est grande, moins on tourne vite, moins on est sensible proche (on reste bien pour les longs contextes). On a aussi la position dans lembedding qui joue et permet de capturer dans les premières dimensions les contextes plus proches et les dimensions grosses les contextes plus longs",FINISHED,
Proof or bluff,"model testé sur olympiad math et avec des humains en juge. Finalement pas très bons pour manque de logique, assomption, créativité et algèbre . Llm as à judge tend à surévaluer les performances.",FINISHED,
Ui r1,"grpo avec un reward en 3 pare : action, coordonnées du clic et format se la réponse (car thinking) permet de faire un meilleur model qu'un 7b 1m de data avec 3b 126 data",FINISHED,
Papier Claude cot reasoning model dont always say what they think,les cot cachent leur reasoning souvent et font du reward hack,FINISHED,
Command a,"3:1 swa et full nope, gqa swiglu. No bias, merging de models entraînés sur 6 scores en sft et idem en rl (rag tool agent, multilingual, code, math et reasoning, long cotnext, safety, if) avec des dataset spécifiques pour chaque. Rl preference avec srpo qui en gros train 2 policy pour maximiser le reward tout en réduisant le reward gap entre les 2. Rl vr copg qui ressemble à rloo. Reward du code sur le passage des test en %,Warp merging et linear merging pour le code.",FINISHED,
Llama 4 blog,"Distillation du plus gros, mix moe dense metap pour des hyper params par layer, utilise des alternances d'attention sans rope",FINISHED,
"Simple bench ",qcm sur de la logique,FINISHED,
Deepseek généraliste reward modeling,"on apprend au grm à générer des principes puis il score avec ça, c'est en self sur du reward et du sampling pour les principes. Faire avec des principes filtres ça marche très bien. Le papier explique aussi les différents types de rewards",FINISHED,
Chain of thought is not explainability,TO READ,TO READ,
From bytes to ideas,"u net sur les bytes pour se priver de tokenizer, stade de recherche. Un peu comme le meta no token.",FINISHED,
Absence benche,niah mais version omission. On propose un document et une version avec une partie supprimé et demande de retrouver ce qui a été omis. Pour l'instant les perfs sont mauvaise alors que les contextes sont petits. Un peu un benchmark sur la comparaison,FINISHED,
Ndcg,quand on sinquiete du rang et ordre de tous les relevant.,FINISHED,
Mrr,quand on s'inquiète seulement du rang du premier relevant,FINISHED,
Jina v4,"j vdr benchmark avec pas que des questions et du text. Train sur du retrieval mais aussi sémantique text similarité pour screenshots. Train sur dense et late interaction et text et multimodal. Lora pour Retriever, code et symétrique. Analyse des embeddings unifiés en multimodal. Qwen 2.5 vl based",FINISHED,
Hunyuan,"classique swiglu moe 80b 14b avtive. Pré Training sur 20T tokens avec anealing et long context avec nltk. Post Training en dual mode (token thinking empty) avec sft reasoning, rl resoning et sft rl full très divers sur base de GRM sur understanding, long context, créative, agents et mcp, multi Turn, instructions, rôle, safety, qa, multilingual, finance. Bonnes perfs mais apparemment très benchmaxé",FINISHED,
Gemma 3n,"audio, image, text. Matryoshka pour réduire les params, per layer embedding caching pour améliorer la performance des layers. Possible de offload les paramètres multimodaux.",FINISHED,
Llm get lost in multiturn conversation,49% de average drop en perf entre simple et multi,FINISHED,
Magistral,"grpo custom (pas de kl donc pas de réf, upper et lower différentes, normalisation du batch et des avantages) pas de truc full juste ou full fauw (ressemble à dapo). Reward format (code math think) correct length et language (problème,thought et answer dans la même langue) généralisé bien aux autres languesRl only marche très bien pas forcement besoin de distiller Entraîner sur du text amélioré les perfs multimodales Asynchrones rl les générations sont continues et les poids des modèles updates en pleine séquenceAugmente la difficulté, la complétion length et diminue le batch au fur et à mesure du rl ",FINISHED,
Bytedance dolphin,"encoder décoder pour parser les documents images, texte, formules, tables. Swin transformers et mbart fine tune sur 30m doc en anglais et chinois. 2 passes : une qui détecté dans l'ordre de lecture le layout et les éléments avec leur bounding box avec un prompt. Une qui prend la photo de l'élément avec un prompt spécifique a l'élément pour le parser et le remettre en markdown. 320M et très performant.",FINISHED,
How visual representations map to language feature space in multimodal llms,sae sur Gemma 2 avec la layer de projection train et le vit et llm freeze. Les features de visions converge seulement dans les dernières layers ce qui peut gâcher le potentiel et pose des questions d'alignement,FINISHED,
Deepresearch bench,"100 task phd level représentatives. Race : poids décidé par llm as judge sur 4 critères : compréhensive, depth,instructions following, readbility. Puis on donne au juge une référence top niveau sur laquelle il score (on ground par le haut)Fact check les citations, regarde si la réponse est ground et combien de citations pertinentes sont retrouvées",FINISHED,
V jepa 2,TO READ,TO READ,
Reward anything,model de reward base sur des principes (prompt) avec un grpo sur format et accuracy pour le model de reward. Le model rank les réponses et les score,FINISHED,
Entropy minimization,objectif est de réduire l'entropie donc maximiser la confiance sur un exemple. En peu de steps et un exemple on attend un model plus confiant qui s'avère meilleur,FINISHED,
Prolonged rl expands reasoning,"grpo orienté long train avec dapo, high temp pour entropy et kl penalty car on part d'un algo déjà cot. Mais ils ajoutent un reset pour repartir d'une snapshot plus récente sur la kl et prolonger le train quand le model stagne. Ça scale hyper bien en ood. Le rl apprend vraiment des trucs nouveaux au modèle surtout quand on train longtemps",FINISHED,
Llm can learn without external reward,faux d'après le blog,FINISHED,
Harnessing the universal geometry of embeddings,en apprenant un latent space (avec un generator qui a pour but de translate dans un espace latent) et un discriminator qui force à garder la distribution originale. En fait dans le latent tous les embeddings sont très similaires et donc c'est facile de retrouver de quoi on parle,FINISHED,
Rl finetunes small subnetworks in llm,le rl update les poids de façon sparse autour de 80% là où le sft fait ça dense. Contrairement à lora c'est en full rank et sur toutes les couches.C'est le cas principalement car les data de rl sont in distribution,FINISHED,
Byte dance pretrain merging,"avec model merging tous les V tokens et pour N models avec un pur avertie permet de simplifier le scheduler avec un wsd, de stabiliser le Training et de mieux le préparer pour les étapes d'après. Avoir un plus gros lr permet de diminuer le coût",FINISHED,
Alpha évolve,"en gros un humain propose un problème, ube première solution et une évaluation automatique et un llm fait évoluer le code grâce à l'historique pour améliorer les résultats sur l'évaluation.",FINISHED,
Qwen 3 tech report,"archi classique, 3 stage de pretrain avec normal, high qualité en montant le lr, long contextThinking et non thinking mode +Post Training cot facile mais besoin de cot filtre avec 2.5 sample avec qwq, long rl qui a besoin de thinking 4000 paires avec grpo, non thinking, allignementPossibilité de stopper la generation mid thi King distillation des tokens puis des logits Thinking budget ",FINISHED,
Prime intellect paper,faire l'inference sur des serveurs partagés et lupdate sur un serveur sûr. Update les poids et partager les data efficacementToploc vérifie l'intégrité des inferneces grâce à un sha256 des checkpointsAccepte les générations jusqu'à 5 checkpoints précédents,FINISHED,
1 shot rlvr,rlvr sur un exemple très complexe n'overfit pas sur le test set,FINISHED,
Nano vlm,classique,FINISHED,
Prm that think,objectif reasoning pour vérifier les steps et boxed avec correct et incorrecte. Utilise de la donnes synthétique sur PRM800k mais sur 1k. Générée Avé. Qwq 32b. Llm as à judge en reasoning tend à overthink emou essayer de retrouver. Train empêche loverthinl et amélioré les résultats. Lora 32b sur une a100 pendant 4 heures. Batch size 16,FINISHED,
Deepseek prover,"COT avec V3 pour avoir les grandes partie d'une preuve, utilisation d'un prover 7b pour faire la preuve de chaque partie. Training en sft puis grpo avec un mode preuve poussé ou un mode cot high level",FINISHED,
Papier embedding bm25,"comparaison d'embedding et BM25, les embedding BEIR apprenent BM25 dans leurs poids (ou similiaire)",FINISHED,
Tied embedidng,"en fait la matrice dembedding qui est un lookup et la matrice de logit ou dé embedding qui est une couche dense sont de même dimensions mais on peut partager cette matrice en transposant car la couche dense est donc juste un dot product pour trouver le token le plus proche en distance (puis softmax). Ça permet de réduire le nombre de paramètres, de faire de la régularisation (car l'input est lié à loutput )",FINISHED,
Phi 4 multimodal,"tied embedding, rope sur 75% des heads pour long contexte, lora pour les 2 modalités sur les couches linéaires",FINISHED,
Mixture of Block attention,MEO mais sur l'attention,FINISHED,
Retool,chain of thought avec code interpréter dans la chaîne appris en rl avec un peu de sft pour les token code et interpréter et du outcome reward. Ppo avec interpréter caché. Kv cache optimise pour pas refaire tout le calcul.,FINISHED,
Synthétique data generation and multistep reasoning for tool Use,"Google, swirl step wise renforcement learning. On généré avec yn llm sous un format spécifique une actions et un env réponse par step qui appelle et reçoit la réponse d'un outils. A la fin on a la réponse. On filtre avec judge sur le process et outcome filtering. Puis on s'en sert pour train. A l'inference, on prompt et on répond à chaque appel de tools c1 augment de 10 à 20% sur les benchmarks un Gemma 27b",FINISHED,
Doc ppo et rl,TO READ,TO READ,
Gspo qwen,"grpo et ppo utilisent le clip pour ne pas trop s'éloigner du old (c'est le proximal) mais en fait le reward est au niveau de la phrase et grpo au niveau du token donc un haut risque de variance sur le long contexte. Gspo traire le clip et le ratio au niveau de la sequence et normalisé ça, ce qui corrige le problème. Ça clip bcp plus mais amélioré la stabilité et les résultatsSft token level loss donc backpropag et gradient au niveau du token puis averageGrpo et gspo c'est plutôt au niveau de la squence mais comme on a des rollouts et un advantage, on sait quel rollout impact mieux et vers qui on doit aller niveau séquence",FINISHED,
Nvidia scaling up rl,"La kl divergence est quand même importante. Technique prises de DAPO. Entropy collapse car grpo à besoin d'exemples variés (découpler clip et dynamic sampling aident). Kl important sur du fine tuning, la remarque de dapo est pour le base model. Ablation study sur le clip, l'entropie collapse la kl divergence et le reset de référence et la température ",TO READ,
Hiérarchical reasoning model,hiérarchie avec low level qui coûte pas cher et fait plein de steps et high level qui fait une grosse step pour guider le low level. Rnn. Approximation des gradients sans stocker toutes les forwards mais seul les derniers par rapport à l'input.,TO READ,
Dynamic chunking,"similarité avec bytes to idea, l'idée est d'avoir un autoencoder h net qui chunk dynamiquement les bytes à partir d'une limite d'entropie et similarité puis fourni ça à un main network (genre un llm) les chunks sont ensuite décodés en bytes",FINISHED,
Muon,"Niveau matrice de full param et gradient, pas element Wise.
Momentum, pas de vélocité donc premier ordre et pas seconde ordre.
Par contre ça utilise le full paramètres dans l'inverse donc le preconditioning est beaucoup plus riche sur les dimensions
Newton shultz approxime le -1/2 (inverse squared) qui est le classique precond en optim (sauf que c'est normalement celui du hessien mais coûte en calcul)
C'est que pour du 2D en terme de param donc la couche dembedding reste avec du adam ",FINISHED,
Kimi k2 paper,"moe 1T 32B active, beaucoup de token muonclip at scale (Adaptative clip sur k et q). Training mega stable. Pipeline de génération synthétique de data agentique comme acebench avec des milliers de tools en env. Un llm as a judge extrait les donnees de haute qualite pour le train. Général rl system avec Self judge pour les non vérifiable rewards.La première couche est un denseL'algo est un grpo pur rl sans advantage *avec la moyenne juste et la kl est dans la somme ? Ou juste le ratio. Pénalité si réponse trop longue et loss ptx qui vérifie que le model overfit pas sur le reward. Température decay pendant le Training. D'exploration à exécution",FINISHED,
Nemo Retriever colembed,"nvidia eagles fine tune en 2 stage sur text puis image en late interaction. Découpage de l'image en petit et thumbnails. Finetune pour passer de causal à bidirectionnel. Dans la infonce la loss est avec 2 négatives qui sont le top2 sans ceux au dessus de 0.95 de score. Attention au tiling, max token et embedding dim. Ablations sur le stockage, lembedding, le reranker et bi encoder.",FINISHED,
Voxtral,whisper v3 encoder sur des chunks de 30sec en bidirectionnel qui sont concat sans attention commune. Mlp layer pour downsample de 4 fois ce qui fait 12.5kHz donc 32k pour 40 minutes. Plug à ministral ou mistral small. Pretraining sur transcription et audio puis text complétion pour aligner les modes. Avec des tokens de contrôle. Puis sft sur des tâches audio et texte,FINISHED,
Websailor,"construction de data synthetic et training de model Deepresearch. Deepresearch marche que en propriétaire, les open source marchent que pour des simples recherches ou des trucs où le chemin de résolution est simple. Il manque le level 3 qui est d'avoir une généralisation quand les taches n'ont pas de solution claire et définie. Ils ont pris des graph de parcours de pages sur des entités complexes pour en extraire des tâches complexes (jusqu'à 40 calls nécessaires pour o3) et utilise des LRM pour extraire des étapes concises de thinking pour faire un dataset. Phase de rejection sammpling sft puis rl. ReAct et rejection sampling et DUPO : comme ils veulent faire comme dapo et filtrer les exemples avec full ou 0 reward mais que le rollout coûte cher, ils dupliquent certains reward pour combler le batch",FINISHED,
"Webshaper ","système formal de génération de dataset pour information seeking (IS). L'idée est de créer un dataset de base à partir de Wikipedia sur un graph d'entité puis de complexifier les question avec un agent expender. Le système formalités permet d'éviter les hallucinations et structurer les graphs. L'agent expander à des tools de recherche, résumé et validation.",Not started,
"Attention sinks ",sliding window perd le contexte initial. L'idée est de tj garder le kv des premiers token (qui ont bcp d'importance) et de faire sliding window sur le reste.,Not started,
Small language model are the future of agentic,"défense du slm contre llm pour l'agentique : les slm sont puissants,peu cher, fine tunable et améliorable. Les agents sont très fermés, précis et utilisent peu de choses du llm. Pour ça il faut des benchmark et une bonne évaluation.",Not started,
Seed prover,seed geometry train sur tonggeometry pour les taches géométriques (ils ont test actor critic mais un seul model est mieux). Seed prover qui utilise lean 4 en mode lemma qui sont vérifiés pour suivre ce qui marche ou pas et ce qui compile puis theorem. 3 modes : Light qui prove en boucle en améliorant sur le feedback du compiler. Médium qui refibe les fails en ajoutant les pass dans le context. Heavy qui généré une multitude de facts avec le light puis les utilise pour le médium avec un llm as judge.,Not started,
"Gepa ",optimisation de prompts par pareto. L'idée est de générer des candidats d'amélioration de prompts et de les merge ou fusionner si ça améliore une métrique. Les prompts sont aussi générés avec les traces de la métrique (le détail du score et les steps). Ça marche vraiment bien. Le pareto sert à ne pas se focus sur un local.,Not started,
Qwen image,"mmdit qui prend pour input qwen vl pour l'alignement sémantique/image et un vae encoder pour la reconstruction fiable d'images. 2 taches principales t2i et ti2i. Msrope qui au lieu de faire comme 2d rope et de mettre le text en (×,0) fait sur la diag (x,x) avec l'image centrée en 0. Grosse étape de filtering des images en 7 stages et en augmentant la qualité. Train sur la velocite dans l'espace latent (velocite = différence entre cst *noise et cst2 * image de base - le Training se fait en samplant un timestep et en prédisant bien la velocite)",Not started,
Glm rl Training framework, sensiblement comme magistral en asynchrone,Not started,
Glm 4.5," thinking et non thinking unifié, mid training avec plusieurs epochs sur les data de qualité, post training avec SFT et RL unifié (general dpo, agentic, tool, IF, …) et difficulté qui augmente au cours du training +usage d'experts et self distilation (SFT, RL, SFT avec rejection sampling, RL). RL Framework synchrone et async avec ray, megatron et sgland (slime)",Not started,
Gpt oss," attention sink, sliding, attention is off by one et classique ",Not started,
Glm vl,adapte la difficulté au fur et à mesure. Mix rlvr et rlhf. Clip plus haut et pas de kl divergence pour les modèles de vision. ,Not started,