Spaces:

UlrickBL
/

paper_reading

Sleeping

App Files Files Community

UlrickBL commited on Jul 23

Commit

b68d325

verified ·

1 Parent(s): 1af50a8

Upload JournalDB 1cfe54e949178196af93d90c73636f9d.csv

Browse files

Files changed (1) hide show

JournalDB 1cfe54e949178196af93d90c73636f9d.csv +241 -0

JournalDB 1cfe54e949178196af93d90c73636f9d.csv ADDED Viewed

	@@ -0,0 +1,241 @@

+Paper name,Note,Status,Link
+Flash attention,OK mais faire la formule pour 2,FINISHED,
+Diffusion et token meta,ok l'image est faite complètement lors de lattention avec patch de vae et diffusion unet et le modèle switch entre text et Diffusion à partir de tokens pour la generation,FINISHED,
+Diffusion avec attention et latent,"OK c'est de la cross attention avec le texte ,un latent vae pour les perfs et un unet avec du transformer pour prédire le noise",FINISHED,
+Xformers,pas forcement fou à lire,FINISHED,
+Mlir pour les compilers,lire le diapo intro de Google,FINISHED,
+Autogen et autogen studio,plusieurs interactions d'agents pour augmenter les performances : à tester avec l'ui,FINISHED,
+Text2sql is not ennough,en gros ok utilise le llm dans la query sous forme d'agent,FINISHED,
+ReMamba,double forward pour sélectionner les latents intéressants pour la query,FINISHED,
+Spéculative decoding,"OK on utilise un petit modèle de façon itérative pour c token puis on prédit de façon batche les x séquences, si le même mot est prédit par le gros c'est bon",FINISHED,
+Whisper,concept compris mais pq pas lire le papier,FINISHED,
+Agentic rag for time series analysis,pas très intéressant,FINISHED,
+Kosmos,OK mais que anglais,FINISHED,
+Graph rag survey,,FINISHED,
+Political débate paper,,FINISHED,
+Pairwise préférence,,FINISHED,
+Multilingual rope,,FINISHED,
+Dspy ai prompt,,FINISHED,
+Crew ai,,FINISHED,
+Quiet star,on raisone lorsqu'il y a des token thought et on simple dans les logits pour pas faire trop de compute,FINISHED,
+Lets vérify step by step,c'est mieux de juger une réponse avec un process plutôt que outcome pour un générateur. Active learning performe mieux pour fous de le reward model sur les cas difficiles,FINISHED,
+Tree of thought,,FINISHED,
+Agent q,"prompt react et thought, dpo sur le prompt et agent avec vision qui critique le choix des actions + tree search pour améliorer les perfs et itérations",FINISHED,
+Yarn,"rope est en fait sur q et k donc que au niveau du softmax de lattention pas la value
+Position interpolation : on multiplie la position m par L/L'
+Problème pour les tokens très proches (High frequency)
+Ntk aware : on remplace la fréquence par une constante dépendante du ratio L/L'
+Out of bond (on peut faire plus de 1 tour) + on traite toutes les dimensions pareil alors que le nn non
+Ntk by part : condition sur la wavelength (valeur pour laquelle on fait une full rotation donc 2pi/teta) et L/wave donne une condition pour si on doit atténuer teta ou non  lors du calcul du rope
+Yarn : ntk by part et division dans le softmax par un constante qui dépend du ratio L/L'",FINISHED,
+Dual Chunk attention,"Le rope c'est entre q et k et ça fait une rotation m-n
+Quand m-n est trop grand le model est pas entraîné. Dca fait des chunk de taille 3/4 du max entraîné.
+Si le token est distant relativement de moins d'un chunk :	distance relative normale
+Si les tokens sont dans des chunks adjacents :	distance relative capée sur la distance max - 1
+Si les token sont dans des chunks non adjacents, gradient capé (on a un éloignement fixe maximal qui descend sur la valeur de k seulement)",FINISHED,
+Qwen2,"classique yarn dual chunk attention , orm , création d'instruction à partir de réponse de Hugh qualité,  prompt avec guidline puis tu lui apprend sans les guidelines. Le moe a 8 experts actifs toujours et 8 partis 64",FINISHED,
+Jina,xlm roberta rope avec un fine tuning lora pour les différentes taches et du two towers avec 2 adapters pour query et passage. Par contre reranker pas top,FINISHED,
+Itérations of thought,un inner dialogue agent juge et gère le dialogue et les reformulations. Un llm agent répond aux requêtes et améliorations du ida,FINISHED,
+Molmo,"clip + qwen, aucun freezer pour le prerraining. Dataset humain avec le captions en speech pour être efficace. Dataset et fine tuning pour pointer sur une image",FINISHED,
+Logic of thought,"extraire les éléments logiques d'un prompt, utiliser un programme ou des logiques pour en déduire quelque chose, parser ça avec un llm comme réponse",FINISHED,
+Rag and beyond survey,"il y a 4 types d'applications rag et il faut savoir ce qu'on veut faire :
+Explicit facts retrieval
+Implicite facts (graph, tree , itérative, text 2 sql) il faut faire des liens
+Interprétation (prompt, cot, il faut réfléchir et interpréter)
+Hidden rationals ( office learning utiliser un llm pour déduire des choses, in context learning ie few shot et fine tuning ) il faut se servir devenement passes pour en sortir une logique exemple analyse d'incidents",FINISHED,
+Making llm text embedders,on instruct un llm avec few shot query passage puis on donne une query et on fine tune sur la nce sur le token end of séquence,FINISHED,
+Colpali,colbert sur les patchs avec un llm pour avoir token par token,FINISHED,
+Late interaction,"on regarde le maximum de similarité entre un token de text et chaque patch de l'image puis on somme ce Max sur l'ensemble des tokens de text de la query, cela donne le LI entre la query et l'image. On a après une matrice de la taille query pages",FINISHED,
+Slora,"partage de beaucoup d'adapter grâce à un batching, un load depuis la ram et un ténor parallèle",FINISHED,
+Where rnn all we needed,"min Lstm et min gru - on enlevé quasi toutes les récurrences sauf pour la sortie, on enlevé tous les tanh et grâce à un algo la récurrence est parallellisable quand c'est dans le format restant (parrallel scan)",FINISHED,
+Llms Know more than they show,à partir des tokens qui font vraiment la réponse et des logits des layers d'avant(extraits avec un autre call llm malheureusement) il est possible de classifier si la réponse est juste ou fausse,FINISHED,
+Probing classifier,,FINISHED,
+Contextuel document embedding,un peu comme un truc avec un vision encoder on rajoute au niveaud e lembedding les infos des autres documents proches + Entraînement sur des donnes de même cluster pour rendre les batchs plus difficiles,FINISHED,
+Nouveau modèle vision aria,"66 Moe plus petits que les FFN avec 2 communs et 6 choisis , la dim interne des experts est plus petite que la dim hidden , vit avec learnable latent queries par un adapter en sortie. Le model a des experts visuels selon la modalité dans chaque couche",FINISHED,
+Pixtral,"rope 2d, break et end images",FINISHED,
+Liquid neural network,,FINISHED,
+Model swarm,,FINISHED,
+Nvidia judge et dataset,"Bradley terry (llm +dense qui écarté le reward d'un win et loose end of séquence) et steer lm régression (llm + dense end of séquence qui prédit parmis 4 score), en réalité BT avec le base llm qui est un steer lm est le meilleur reward. Les sets juges par gpt4o favorise des set de data de gpt4o. Reinforce meilleur que ppo meilleur que dpo.",FINISHED,
+Model mergin différentiable adaptive merging,"Merge les modèles en les sommant avec un coefficient par modèle par layer par colonne. Ces coefficients sont appris en minimisant une loss basée sur la kl divergence des logits entre le modèle merge et le modèle spécialisé sur i avec le dataset de i (avec un dataset et un modèle pour chaque type de modèle), L1 et L2 et on essaie aussi de minimiser la cosine distance entre les coefficients de chaque modele pour aligner dans le meme sens. L'embedding et la rms restent ceux du base modèle non spécialisé.
+Il faudrait faire qlora adapter merging maintenant",FINISHED,
+Allegro,"video vae bien fait (temporal et res net), bonne donnés, vidéo dit (self attention avec 3d rope, cross avec text et temporal avec adaln) prédire le noise dans le latent",FINISHED,
+Adaln,une couche de sale et fit de conditioning ajouté avant chaque bloc d'attention,FINISHED,
+Réduction attention layer,similarité entre la sortie et l'entrée pour voir si c'est utile. Tu enleves la moitié des couches c'est quasi pareil,FINISHED,
+Training on 10k gpu,checkpointing et parallélisme,FINISHED,
+Rewarding progress scaling automated process,"on mesure la progression dans le process plutôt que la justesse de l'étape, un autre modèle weak mais pas trop c'est mieux pour ça et avec du beam search",FINISHED,
+AttnLRP,layer wise redevance propagation pour explainabilité des LLMs,FINISHED,
+Spéculative decoding distillation,plutôt que d'avoir une ground truth ou les logits du teacher. On laisse le student générer en mode Spéculative et si le token généré n'est pas dans le top k du teacher on le rétribué et on continue. Ça crée un dataset proche des 2 distributions,FINISHED,
+Multimodal rag,pas très intéressant,FINISHED,
+Arithmetic without algorithm,sur des opérations simples (+×-) un très petit nombre de neurones par layer est responsable du résultat. Ils correspondent à des heuristiques (pour une opération et une range de réponse). La solution d'opérations vient d'une combinaison de ces heuristiques,FINISHED,
+Longrag,"Retriever et rerank
+Utiliser un llm pour extraire se linfo globale du chunk associé à un long contexte autour du chunk - info 1
+Sélectionner le chunk avec un cot qui décide si ça va répondre ou pas - info 2",FINISHED,
+Yolov3,très drôle,FINISHED,
+Modèle tencent,"MoE 16 experts, 1 commun + 1 activé. Cross layer attention toutes les 2 couches. Rope et swiglu. On policy et off policy DPO. Beaucoup de synthétique",FINISHED,
+L'autre colpali unifying,"pas de late interaction, llm phi et clip",FINISHED,
+Docling,,FINISHED,
+Table former,modèle transformer d'extraction de tables avec un décoder pour les tags (structure) et un pour les box (extraction du contenu ),FINISHED,
+Layout,"base sur rt detr qui est yolo en mieux : suite de cnn pour extraire différentes features, aifi fusion pour meilleur information, fusion des features cross chabnel qui deviennent des queries puis transformer pour extraire les plus importantes et têtes de detection",FINISHED,
+Mixture of transformer,"On a un transformer par modalité. On classe la séquence par modalité (text, image, speech) on fait les projection Q,V, K, on reordonne pour la formule de l'attention. On reclasse par modalité puis on a un feedforward par modalité et on ordonne de nouveau.
+On peut même avoir différentes loss par transformer du coup (diffusion vs autoregressif)",FINISHED,
+Pddl,"pour planning et api plusieurs soucis : nombre d'api limité, hallucinations, query pas complète pour les keys, planning difficile.
+Llm qui généré une représentation de la query en asp  puis pddl via le solver qui fait le pont entre sémantique et api (planning domain définition language ) avec un pddl qui représente le domaine (action possible input et output) et un pour la tâche
+On résout ça avec un solver classique ia donc pas d'hallucinations etc",FINISHED,
+Taxonomy agentops,,FINISHED,
+Qwen coder report,"qwen 2.5 en base, data code, tewt et math avec NTP et fill in the Middle (on donne le début et la fin d'un code et il fait le milieu avec des tokens spéciaux pour lui dire). Rope et augmentation de la fréquence pour long contexte sur des repos + yarn",FINISHED,
+Logit processor,"Réfléchir à du funxtion calling meilleur en attribuant des tokens de function directement et en fine tunant en limitant uniquement à ces token sur les demande
+genre pas besoin de prédire une partie et surtout on simplifié le vocabulaire au moment de la pred , en mode RLSVR.
+Par contre ça veut dire qu'on ocille entre du rule based et du generatif donc le kv cache est pas opti",FINISHED,
+Nvidia paper ssm et attention,meta token pour stocker de linfo (differents pour differents domaines). Ssm et attention qui sont pool. Slidding Window sauf pour 3 layer pour accélérer car ssm à déjà le global. Cross layer attention. Lattention se conxentre sur le cross et le ssm sur le self,FINISHED,
+Tulu,"llama3.1 base model
+Gros job sur la data, sft avec un focus sur des skills (math, code, recall, instruct), dpo on policy et off policy avec d'autres models +gpt4o qui score lez preferences, et rl with vérifiable reward avec maths et précise instructions avec ppo et un vérifiable
+Grosse étude des overlap des datasets entre train et eval avec ngram
+Generation de data avec des persona (250k personna)
+Sft skill spécific model pour ajuster le dataset et savoir quel dataset est bien pour quel skill
+Quand on veut train un plus gros model on augmente le batch size et diminue le lr
+Framework d'évaluation complet",FINISHED,
+Flux,"diffuser classique avec latent  pour le noise, scheduler pour savoir les timestamp, t5 encoder pour le text mais clip pour ajouter au scheduler pour pas mal d'étapes de modulation. N composants de multimodal ( en gros on mélange text et image en faisant du point wise de q k et v donc cest pas de la cross attention) avec une étape de modulation par modalité. Puis N composants de self attention normale du truc assemblé.",FINISHED,
+Qwq,principalement train sur su cot,FINISHED,
+Qwen2vl,,FINISHED,
+Naive dynamic résolution,process toutes les résolutions et vidéos possibles avec 2d rope dans le vit + compression après patching avec un mlp pour 2x2 = 1 token,FINISHED,
+Multimodal rope,3 dimensions et incrementation de 1 pour le changement se modalité du maximum des 3 modalités,FINISHED,
+Vidéo,"2 frames par secondes sampled, avec une limite de token par vidéos qui influe sur la compression et 3d convolution (dans le vit ???)",FINISHED,
+Autoround quantization,quantize et dequantize avec une sormule qui clip avec un param s qui dépend de alpha et bêta et v qui sont appris sur l'erreur de dequantization,FINISHED,
+Gaia,"leader bord de 400 questions classés qui nécessite des tools. Tools : Web browning, multimodality tool (stt, ocr,)",FINISHED,
+Yi lightbing,classique moe,FINISHED,
+Chain of continious thought,le cot se fait en latent pour avoir bcp plus d'informations et reviens direct en input s'en skippant le tokenizer. Fixed size thinking et k steps de thinking,FINISHED,
+Process bench,,FINISHED,
+Meta no token,"On travaille au niveau des bytes avec un embedding auquel on ajoute les hash des ngrams précédents. On fait de la cross attention pour représenter les patchs (key et values) de manière perceiver resampler. Ces groupement de bytes sont déterminés à partir d'un petit self transformer et de la perte dentropy sur la tache de next byte prediction. Ensuite on passe dans un petit encoder qui fait le perceiver avec une couche self et une couche cross avec les vecteurs patchs qui sont initialises avec un max pooling des embedding des bytes du patch pour representer les groupes de bytes en patch er en sortie de l'encodeur, les patchs sont envoyés dans un transformer classique puis décoder avec sensiblement le même système inverse (cross attention puis transformer)
+Prédiction de 1 bytes ou d'une séquence de bytes ???
+Regarder le code pour voir ce qui est décode et à quel moment c'est patche",FINISHED,
+Jina clip v2,"XML roberta et image encoder eva02, train en 3 stage sur de linfo nce avec hard negative et long captions au stage 3, full multilangue avec le dataset vidore en particulier. Pas au niveau de colpali mais ça va",FINISHED,
+Large concept model,"Sonar qui encodé et décode des phrases
+Lcm qui généré les concepts (les représentations des phrases) - décoder only avec une mse loss, diffusion pour avoir un espace continu",FINISHED,
+Apollo llm,"siglip image encoder et internvideo2 vidéo encoder concat et passés dans un perciever puis qwen. Ablation sur les types de data, les encoder, le sampling des vidéos Gros benchmark model vidéos",FINISHED,
+Adam vs adamW,weight decay = l2 directement appliquée au param et multiplié par le lr alors que adam n''a pas le lr sur l2 cela permet de ne pas avoir de trop gros poids detre stable et généraliste. Moment = prise en compte des gradients davant pour convergence plus rapide et moins de bruit. Velocite = prise en compte du carre des gradients pour adapter le learning rate.,FINISHED,
+"Cliping ",on empêche la norme de gradient de dépasser 1 pour ne pas exploser,FINISHED,
+Linéar warmup,on monte le lr petit à petit pour pas apprendre trop vite et garder un optimum,FINISHED,
+Cosine decay,on diminue jusqu'à 0 le lr sur la période pour continuer petit à petit à converger sans rater loptima et arriver chill à la fin sans tout bouger,FINISHED,
+Loss ocr,CTC avec -log de la proba. On a un token blank qui permet au modèle de prédire rien quand il a pas toutes les infos. Ensuite on supprime les blank et les répétitions qui sont pas separes par blank. La ctc loss prend en compte les différents chemins qui peuvent amener à la bonne pred (donc avec les blancs et répétitions),FINISHED,
+Crnn,conv pour avoir 1 ou 2 de hauteur et les channels et la largeur de l'image. Puis Split par colonne qu'on envoie à un rnn + fnn + softmax qui prédit le caractère ou un blank pour chaque pas de séquence,FINISHED,
+Cohere,3 couches avec sliding window et rope et une couche avec full séquence sans postiional encoding,FINISHED,
+"Q former ","query former, on a des query latent comme pour le perceiver resampler sauf que on 1 2 modules un avec la query latent, self attention et cross attention avec un image encoder et un pur encoder avec comme input le texte correspondant à l'image. Ensuite on apprend en constructive à avoir des latents qui en sortie de q former ressemble à la sortie du texte",FINISHED,
+Perceiver resampler,"transformer avec des latent : q c'est le latent, k et v c'est latent concat avec ce qu'on veut représenter",FINISHED,
+Wave2vec,"Des couches de cnn avec activation gelu pour faire un latent (512 channels)
+Un transformer pour representer lembedding
+Puis entraînement self supervised
+on mask 50% des latent et on fait passer ça dans un quantizer qui les représente de façon discrète. On sample 100 latent quantize comme négative et le bon comme positive et on fait constrative loss entre la sortie du transformer et ceux là",FINISHED,
+Test time Training,"dataset arc, permutation pour augmenter et fine tuning lora sur la task spécifique augmente beaucoup les perfs",FINISHED,
+Deepseek v3,"Moe	shared expert et gating avec un sigmoid(vecteur * layer de classification d'expert ) et softmax pour l'activation des experts du top k (donc en gros leur impact est sommé avec un poids) les 3 premières couches sont pas moe. Par contre une limite de 4 nodes max par token (mais 8 experts)
+Ajout d'un buaisdans le calcul de la décision des experts pour équilibrer les experts en Training
+Multi latent attention	on stocke le kv cache dans un vecteur latent commun bcp plus petit qu'on découpe en k et v avec une couche linéaire chacun, ça réduit de bcp le cache - 512 vs 2x7168 (61 layers )
+Multi token prediction	par token qu'on veut prédire en multiple on concat la sortie du modèle à lembedding on fait passer dans un transformer et on prédit le token. On stack ça de façon itérative pour k token avec un loss sur le tiem token par simple Block. Ça permet le Spéculative decoding mais aussi de sensibiliser le modèle à penser bcp plus loin. En mode normal on enlevé juste ces couches et le modèle s'utilise normalement
+Fill in the middle durant le pré Training
+Grpo au lieu de ppo",FINISHED,
+Multi latent attention,"on stocke le kv cache dans un vecteur latent commun bcp plus petit qu'on découpe en k et v avec une couche linéaire chacun, ça réduit de bcp le cache - 512 vs 2x7168 (61 layers )",FINISHED,
+Multi token prediction,par token qu'on veut prédire en multiple on concat la sortie du modèle à lembedding on fait passer dans un transformer et on prédit le token. On stack ça de façon itérative pour k token avec un loss sur le tiem token par simple Block. Ça permet le Spéculative decoding mais aussi de sensibiliser le modèle à penser bcp plus loin. En mode normal on enlevé juste ces couches et le modèle s'utilise normalement,FINISHED,
+Olmo 2,"pre Training, mid Training (phase dannealing répétées sur des petits set de domain specific amélioré bcp ) pas mal de travail sur les weight decay (enlever l'embedding de ça améliore) sur les spike loss (rms juste après lattention et avant le résiduel est mieux que ln sur la sortie) z norm, no bias, kvq norm . Model souping est bien
+Tulu3 pour post Training. Sft avec environ 1m prompt, dpo avec un pool de 20 models open et gpt4o qui fait le juge pour rate les préférences puis select la meklleur comme w et sample une des autres pour l. (On et off car dans les 20 il y a des checkpointing olmo). Ils donnent tous les paramètres de ppo",FINISHED,
+Smaller Weaker yet better,"à budget égal, il vaut mieux avoir plus de samplzs quand on fait du sampling sur la réponse d'un plus petit modèle que plus d'un gros model (coverage et diversité)",FINISHED,
+Model 7b et prm rstar math,"un petit model généré des steps de solution avec MCTS et donc q value avec un PPM (il est entraîné sur des préférences base sur ses q values plutôt que sur un label - on sample pour une même étape la plus positive et la plus négative plutôt que tout classer et Bradley terry pour la loss). Tout le Training est en self improve de la policiy et critique (ppm) en 4 round ça bat o1 en maths. Les q value sont initialisées avec un terminal guided anotation.Ablation sur orm, prm avec q value et ppm. Ppm est meilleur.",FINISHED,
+Reinforce ++,grpo avec pénalité kl sur le reward (le reward est la kl avec l'ajout du reward sur le dernier token),FINISHED,
+Kalm,"travail sur la data, clearing des false negative, hard negative mining, mean pooling et train sur 512 mais rope donc long ok",FINISHED,
+TabPFN,fondation model pour données tabulaires,FINISHED,
+Qwen prm,combinaison de monte Carlos et llm as judge pour sélectionner parmis n sample d'une step. Évaluer sur best of n force le orm donc process bench est mieux.,FINISHED,
+Monte Carlo,on se met à une étape t et on prédit depuis la jusqu'à la réponse k réponses. La MC value est la proportion de bonne réponses sur les réponses générés donc le pouvoir de cette step a générer une bonne réponse,FINISHED,
+Minmax model moe,"Lightning attention 7 layers sur 8 = la combinaison permet un super retrieval, un long contexte et une rapidité quasi linéaire
+Moe avec routing mlp
+Half head rope appartement pas mal
+Vison classique avec encoder, mlp, llm mais le long context permet de garder beaucoup de résolution facilement.
+Grpo custom pour le rward et la kl (stop tensor)",FINISHED,
+Monolith,offline et online Training et inference d'un énorme système que reco qui bouge avec le temps,FINISHED,
+Deepseek r1,"Deepseek r1 zéro : pas de sft, GRPO direct sur base model avec accuracy reward math et code et format reward sur le thinkiñg .Pas de prm. En pur rl, le model tend naturellement vers des réponsees plus longues et réfléchies, révision et réévaluation se fait naturellement. A-ha moment juste dingue en fait.
+R1 avec çold start : short sft avec cot, rl sur clear solution (math, code,...)+ lang consistancy reward, puis sft sur des donnes générales avec rejection samplingavec v3 + v3 dataset pour non reasoning data + final rl classic de v3. Distillation en pur sft ???
+Distiller d'un gros est mieux que de faire la pipeline complète
+Vraiment une harmonie entre un o1 et 4o (l'un renforce l'autre en data ou juge )",FINISHED,
+Kimi paper,multimodal reasoning mldel avec rl simple type reinforce avec moyenne des rewards sur base model et ft cot. Graduation en difficulté et RM qui compare la réponse à la ground truth pour donner un scalar,FINISHED,
+Qwen moe balancing,faire le lbl au niveau du batch complet plutôt que post data parallel (donc au niveau proche de la sequence) permet d'équilibrer les experts bcp mieux et de les spécialiser fortement,FINISHED,
+Bytedance agent,"agent gui avec une approche data driven (+ouverture sur le rl ft suite à d'autres interactions à venir pour s'améliore) vs design driven (prompt c'est trop chiant et trop peu sur, frameworks trop prompt à l'erreur et peu fiables en prod). Lien rpa, agent framework, native agent et lifeline agent plus tard.
+Pas mal de tache pur apprendre au model a cliquer (coordonnés) decrire et localiser, capter les changements et les Milestone.",FINISHED,
+Technique de agent dpo,on garde les traces fausses et la trace succesful pour dpo le model sur ça- online dpo.ces data sont online,FINISHED,
+Large action model,lu en diagonale / plan et task mais plutôt orienté gui. Un llm vraiment tune uniquement sur de l'action,FINISHED,
+Rl deepmind muzero,"rl à partir d'observation d'un jeu (genre x parties et Z observer) un modèle qui n'a pas les règles et qui fait juste un hidden state. 3 têtes- hidden state, policy, value et reward
+Utilisation avec mcts et nombre de visite d'une node comme proba",FINISHED,
+Deepseek math,GRPO + insight sur le RL : tout peut être représenté comme du RL,FINISHED,
+Qwen 2.5 max,"pretraining fill in the middle, position et Word retrieval, paragraph reordering 5 Training phase pour rtendre petit à petit
+DCA (remap relative pos avec intra, inter et successive ) et yarn pour faire x4
+Pour le prefilling Minference
+on sélectionne seulement les token qui ont une attention avec les derniers token pour compute leur attention, grosse réduction. On fait ça par chunk aussi (donc plusieurs lots de derniers )",FINISHED,
+Critique fine tuning,"plutôt que d'apprendre au modèle à imiter des réponses, on lui apprend à critiquer des réponses et donc à les comprendre",FINISHED,
+O3 mini card,"tous les safety test de o3 (jailnbreal, cybersecu, persuasion, ...)",FINISHED,
+Sft memorize rl généralize,sft à tendance à ne pas performer sur de le ood mais est nécessaire pour formater la réponse et donner une bonne base au rl qui lui après permet de généraliser à des tâches de language ou de vision,FINISHED,
+Janus pro paper,"plus gros model, plus de data et focus sur meilleure qualité",FINISHED,
+Janus et Vq tokenizer,"encoder décoder cnn qui reduit la dimention de l'image et amène dans un codebook (c'est une quantization du vecteur de feature dans un dictionnaire de tokens, on map le feature sur lindice du token le plus proche). On entraîné sur une loss qui a l'erreur de reconstruction et l'erreur de représentation du feature avec le vecteur quantizé. Ensuite en mode autoreg il y a un MLP pour adapter le codebook à lembedding et une prediction head sur le vocabulaire texte et une sur le vocabulaire image (codebook)",FINISHED,
+Space moe,,FINISHED,
+VideoJam,,FINISHED,
+Joint embedding,"pas de constrative loss mais l2 loss dans l'espace embedding. Generation dans l'espace dembedding. Embedding pour target et input en vit, predixtor en vit",FINISHED,
+On teacher hacking,"le fait de passer par un proxy teacher peut faire du hacking, on se rapproche du teacher mais s'éloigne de la réalité. Il faut privilégier le online distillation, la diversité des prompts et si offline sampler plus de réponses.",FINISHED,
+Scaling up test time compute with latent reasoning,"l'idée est de penser dans l'espace latent avec une récurrence sur le depth au lieu du temps. Le model est composé de 3 Blocks de couches transfo : prélude qui construit l'embedding, coda qui décode le dernier espace latent en tokens et un Block récurrent qui prend un bruit blanc et l'embedding puis les espaces latents et l'embedding avec le nombre de récurrences variables . Ça vient de la thoery de deep thinkkng et le fait que dans les llm la première et dernière couches sont très différents mais au milieu c'est échangeable
+Ils utilisent un adapter qui combine via concatenation et reduction l'espace latent et lembedding dans un seul espace
+Travail sur le nombre de récurrence en train sample sur du poisson et sur la backprop qui doit être indep de r (donc backprop que sur les k dernières récurrences mais comme l'embeddingest tj concat, meme si k alors le prelude est tj backprop)
+Ils ont étudier le fait de partager le kv cache en early stopping et de mettre un kv cache de taille définie en partageant avec un modulo sur le cache.
+On peut aussi faire cot en prenant le bruit blanc à partir du dernier hidden state du dernier token.
+On peut aussi Spéculative decoding àvec moins de steps et vérifier sur le batch avec plus de steps",FINISHED,
+On the émergence of thinking in llm,thinking = search et stratégie. Cot amélioré le tĥinking et donc le reasoning et plus la réponse est longue meilleure est la réponse. Sft sur du thinkkng et  Ppo avec 2 rewards : outcome vérifiable et thinking reward (un truc sur la longueur de la réponse et un llm as à judge),FINISHED,
+Infinitehip,prune les token pour k et v pour diminuer la taille et adaptation du rope,FINISHED,
+Slang json output,vs outlines,FINISHED,
+Adaptative graph of thought,"DAG decomposition récursivité et graph, passer plus de temps sur des sous tâches complexes. Alternative à cot et tot",FINISHED,
+R1 perplexity,fine tune sur le censorship chinois,FINISHED,
+Large diffusion model,"transformer bidirectionnel entraîné comme un llm sauf que l'idée est de masquer tous les mots et de démasquer petit à petit (diffusion) avec un remasquage sur les low confidence pour corriger et une prediction de la longueur de la réponse au début. Pretraining tout token avec une proba masque, sft token réponse avec ube proba masque masquée, infernec pred de la taille + full mask et remasquage",FINISHED,
+Deepseek nsa,"sparse traînaient attention avec 3 composants qui sont combinés via un poids calcule par un mlp et softmax suite à leur calcul d'attention  :
+Compression - on découpe en blocs et on compresse avec un MLP
+Token sélection - on prend les tokens des topn blocs avec le plus gros softmax
+Sliding window",FINISHED,
+Mixture of Block attention for long context,10p,FINISHED,
+Siglip v2,"Training avec une logistic loss, une dense loss qui est en fait un décoder qui classifie des regions et captiosn et une distillation loss sur du mlm et du ema (en gros on montre un bout de l'image au stydent et l'image entière au teacher, on fait mlm avec ça aussi) plutôt que cobstrative (donc ça en fait une tâche de classif pour la première) map head pour le pooling. ",FINISHED,
+Swe rl grpo meta,"clone un gros paquet de repo avec PR, prend en compte le status avant le merge et après et les discussions, filtre les PR vide, avec trop de changements et ajouté les files pas changes mais utiles pour la PR.
+Grpo avec -1 sur le format et entre 0 et 1 par un séquence matcher sur le résultat officiel de la PR
+C'est mieux d'avoir un reward continue que discret (-1 ou 1). Le rl garde bien le reasoning ood
+Ça utilise agentless mini qui sépare les taches en des tâches simples donc c'est limitant ça ça ne gère pas tout d'un coup
+Revoir l'algo grpo qui est Old et qui est réf
+A chaque itération principale on prend le modèle comme init
+Ensuite on fait un nombre de step en fonction du nombre de batch. Pour chaque batch le dernier modèle devient le old puis on compute le reward pour chaque output et le advantage pour le batch. Ensuite on fait ses itérations de grpo pour améliorer les paramètres et on change de batch (donc de old) sur tout le set ( on peut faire plusieurs  itérations en changeant de réf)",FINISHED,
+Nolima long context benchmark,benchmark réaliste sur le long context,FINISHED,
+Kalomaze blog,grpo marche mieux sur du 7b et avec un lr schedule simple,FINISHED,
+Self taught reasoner tools alibaba,quand qwq utilisé des tools python il est bien meilleur mais il suit pas l'instruction . Donc ils ont fait star en 3 étapes. Insérer des hint d'utilisation de python sur les mots clés de réflexion et changement se direction. Rejection sampling pour créer une première version avec les hint qui marchent bien. Rejection sampling sans hint pour faire stat. Grosse hausse de perf.,FINISHED,
+Mcp,API spécifique LLM avec POST (tools) GET (ressources) et Prompts,FINISHED,
+Gemma 3,"multi modal, local et ĝlobal 5:1, ablations sur ça, le scale du rope, la taille du teacher pour distiller (si plus de token gros c'est mieux )",FINISHED,
+Meta renforcement fine tuning,l'idée est d'entraînemer et de juger sur du cumulative regret. En gros on découpe le truc en episode et on check si cet épisode nous approche de la réponse que ce soit en exploitation ou exploration il y a un meta prover llm qui etablie une réponsea partir de ce quon a deja fait comme episode . En plus on est capable d'analyser des llm avec cette métrique et trouver que plus de budget et plus long cot ne fait pas forcement se meilleures réponses en full outcome reward . En plus ici le reward est dense,FINISHED,
+Dapo,"grpo sauf qu'on exclue la kl divergence, on met un clip high et low différent (pour les petites probas), on moyenne sur le nbr de token après la somme sur le batch pour pas pénaliser les longues réponses et on choisi que les réponses qui n'ont pas 0 ou 1 dacxuraxy (dynamic sampling)",FINISHED,
+"Why do multi agent fails  ","taxonomie sur les fail des multi agents systèmes orientés autour de poor spécification, inter agent miss alignment et task vérification failure Pipeline llm as à judge sur ça",FINISHED,
+Gr00t n1,LAM robot action sur des mouvements en 6 dimensions,FINISHED,
+Qwen omni,"thinker (llm) et talker (transformer audio), tmrope qui est un rope 3d, un pas de rope est a mot ou 40ms d'audio ou vidéo et height et width. Si vudeo avec audio c'est 2 secondes de audio  puis une image. Talker reçoit direct le token mais aussi lembedding de sortir même de thinker pour prévoir mieux le ton et la suite mais dire le bon mot",FINISHED,
+Metamorphe vipt meta,prediction de token image sur espace continu qui est l'espace embedding du vit encoder avec cosine loss avec une tête vision spécifique déclenchée par un token image begin. Puis diffusion avec une cross attention sur les token image plutôt que text. Super perf en reason. Finding que vlm généralisé bien à la geberation d'image,FINISHED,
+Papiers interpretability Claude,2 papiers,FINISHED,
+Transformer without normalization,la ln dans la plupart des transformers fait un truc linéaire par token ou channel de lembedding mais en regardant en globalité ça fait de la non linéarité comme un tanh avec un param. Donc dyt remplace par ça . Ne marche pas bien hors transformers,FINISHED,
+Rope,"l'objectif est purement d'avoir une position relation ici co(i-j). Ça se passe au niveau de la dimension des embedding et c'est fait pour chaque token sur q et k donc que dans le softmax. La value reste sur la même espace. Ensuite plus la fréquence est grande, moins on tourne vite, moins on est sensible proche (on reste bien pour les longs contextes). On a aussi la position dans lembedding qui joue et permet de capturer dans les premières dimensions les contextes plus proches et les dimensions grosses les contextes plus longs",FINISHED,
+Proof or bluff,"model testé sur olympiad math et avec des humains en juge. Finalement pas très bons pour manque de logique, assomption, créativité et algèbre . Llm as à judge tend à surévaluer les performances.",FINISHED,
+Ui r1,"grpo avec un reward en 3 pare : action, coordonnées du clic et format se la réponse (car thinking) permet de faire un meilleur model qu'un 7b 1m de data avec 3b 126 data",FINISHED,
+Papier Claude cot reasoning model dont always say what they think,les cot cachent leur reasoning souvent et font du reward hack,FINISHED,
+Command a,"3:1 swa et full nope, gqa swiglu. No bias, merging de models entraînés sur 6 scores en sft et idem en rl (rag tool agent, multilingual, code, math et reasoning, long cotnext, safety, if) avec des dataset spécifiques pour chaque. Rl preference avec srpo qui en gros train 2 policy pour maximiser le reward tout en réduisant le reward gap entre les 2. Rl vr copg qui ressemble à rloo. Reward du code sur le passage des test en %,Warp merging et linear merging pour le code.",FINISHED,
+Llama 4 blog,"Distillation du plus gros, mix moe dense metap pour des hyper params par layer, utilise des alternances d'attention sans rope",FINISHED,
+"Simple bench ",qcm sur de la logique,FINISHED,
+Deepseek généraliste reward modeling,"on apprend au grm à générer des principes puis il score avec ça, c'est en self sur du reward et du sampling pour les principes. Faire avec des principes filtres ça marche très bien. Le papier explique aussi les différents types de rewards",FINISHED,