Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2005.11401

It is a collection of papers that are useful in studying LLM.

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 104
LoRA: Low-Rank Adaptation of Large Language Models

Paper • 2106.09685 • Published Jun 17, 2021 • 54
Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Paper • 2305.18290 • Published May 29, 2023 • 63
Lost in the Middle: How Language Models Use Long Contexts

Paper • 2307.03172 • Published Jul 6, 2023 • 43

Graph Reasoning

Graph-enhanced Large Language Models in Asynchronous Plan Reasoning

Paper • 2402.02805 • Published Feb 5, 2024 • 1
Barack's Wife Hillary: Using Knowledge-Graphs for Fact-Aware Language Modeling

Paper • 1906.07241 • Published Jun 17, 2019 • 2
A Latent Space Theory for Emergent Abilities in Large Language Models

Paper • 2304.09960 • Published Apr 19, 2023 • 3
Reasoning on Graphs: Faithful and Interpretable Large Language Model Reasoning

Paper • 2310.01061 • Published Oct 2, 2023 • 2

Detecting Pretraining Data from Large Language Models

Paper • 2310.16789 • Published Oct 25, 2023 • 11
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

Paper • 2310.13671 • Published Oct 20, 2023 • 19
AutoMix: Automatically Mixing Language Models

Paper • 2310.12963 • Published Oct 19, 2023 • 14
An Emulator for Fine-Tuning Large Language Models using Small Language Models

Paper • 2310.12962 • Published Oct 19, 2023 • 13

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 104
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Paper • 2005.11401 • Published May 22, 2020 • 14
LoRA: Low-Rank Adaptation of Large Language Models

Paper • 2106.09685 • Published Jun 17, 2021 • 54
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

Paper • 2205.14135 • Published May 27, 2022 • 15

Crystal_Alchemist

nvidia/nemo-megatron-gpt-20B

Updated Sep 21, 2022 • 18 • 32
Runtime error

1

Openai Clip Vit Large Patch14

🏃

1
nvidia/nemo-megatron-mt5-3B

Updated Dec 1, 2022 • 51 • 13
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

Paper • 2307.01952 • Published Jul 4, 2023 • 90

#MustRead Papers

Signature papers in AI/ML with focus on generative AI or large language models that bring unique perspectives and/or are highly cited by peers

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 104
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 18
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Paper • 2201.11903 • Published Jan 28, 2022 • 14
Orca 2: Teaching Small Language Models How to Reason

Paper • 2311.11045 • Published Nov 18, 2023 • 77

JudgeLM: Fine-tuned Large Language Models are Scalable Judges

Paper • 2310.17631 • Published Oct 26, 2023 • 35
AgentTuning: Enabling Generalized Agent Abilities for LLMs

Paper • 2310.12823 • Published Oct 19, 2023 • 36
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment

Paper • 2303.16634 • Published Mar 29, 2023 • 3
GPT-4 Doesn't Know It's Wrong: An Analysis of Iterative Prompting for Reasoning Problems

Paper • 2310.12397 • Published Oct 19, 2023 • 1

KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval

Paper • 2310.15511 • Published Oct 24, 2023 • 5
ToolChain*: Efficient Action Space Navigation in Large Language Models with A* Search

Paper • 2310.13227 • Published Oct 20, 2023 • 14
Reverse Chain: A Generic-Rule for LLMs to Master Multi-API Planning

Paper • 2310.04474 • Published Oct 6, 2023 • 2
AgentTuning: Enabling Generalized Agent Abilities for LLMs

Paper • 2310.12823 • Published Oct 19, 2023 • 36

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Paper • 2005.11401 • Published May 22, 2020 • 14

Large Language Models as Optimizers

Paper • 2309.03409 • Published Sep 7, 2023 • 77
Challenges and Applications of Large Language Models

Paper • 2307.10169 • Published Jul 19, 2023 • 50
Efficiently Modeling Long Sequences with Structured State Spaces

Paper • 2111.00396 • Published Oct 31, 2021 • 3
DreamCoder: Growing generalizable, interpretable knowledge with wake-sleep Bayesian program learning

Paper • 2006.08381 • Published Jun 15, 2020

It is a collection of papers that are useful in studying LLM.

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 104
LoRA: Low-Rank Adaptation of Large Language Models

Paper • 2106.09685 • Published Jun 17, 2021 • 54
Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Paper • 2305.18290 • Published May 29, 2023 • 63
Lost in the Middle: How Language Models Use Long Contexts

Paper • 2307.03172 • Published Jul 6, 2023 • 43

#MustRead Papers

Signature papers in AI/ML with focus on generative AI or large language models that bring unique perspectives and/or are highly cited by peers

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 104
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 18
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Paper • 2201.11903 • Published Jan 28, 2022 • 14
Orca 2: Teaching Small Language Models How to Reason

Paper • 2311.11045 • Published Nov 18, 2023 • 77

Graph Reasoning

Graph-enhanced Large Language Models in Asynchronous Plan Reasoning

Paper • 2402.02805 • Published Feb 5, 2024 • 1
Barack's Wife Hillary: Using Knowledge-Graphs for Fact-Aware Language Modeling

Paper • 1906.07241 • Published Jun 17, 2019 • 2
A Latent Space Theory for Emergent Abilities in Large Language Models

Paper • 2304.09960 • Published Apr 19, 2023 • 3
Reasoning on Graphs: Faithful and Interpretable Large Language Model Reasoning

Paper • 2310.01061 • Published Oct 2, 2023 • 2

JudgeLM: Fine-tuned Large Language Models are Scalable Judges

Paper • 2310.17631 • Published Oct 26, 2023 • 35
AgentTuning: Enabling Generalized Agent Abilities for LLMs

Paper • 2310.12823 • Published Oct 19, 2023 • 36
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment

Paper • 2303.16634 • Published Mar 29, 2023 • 3
GPT-4 Doesn't Know It's Wrong: An Analysis of Iterative Prompting for Reasoning Problems

Paper • 2310.12397 • Published Oct 19, 2023 • 1

Detecting Pretraining Data from Large Language Models

Paper • 2310.16789 • Published Oct 25, 2023 • 11
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models

Paper • 2310.13671 • Published Oct 20, 2023 • 19
AutoMix: Automatically Mixing Language Models

Paper • 2310.12963 • Published Oct 19, 2023 • 14
An Emulator for Fine-Tuning Large Language Models using Small Language Models

Paper • 2310.12962 • Published Oct 19, 2023 • 13

KITAB: Evaluating LLMs on Constraint Satisfaction for Information Retrieval

Paper • 2310.15511 • Published Oct 24, 2023 • 5
ToolChain*: Efficient Action Space Navigation in Large Language Models with A* Search

Paper • 2310.13227 • Published Oct 20, 2023 • 14
Reverse Chain: A Generic-Rule for LLMs to Master Multi-API Planning

Paper • 2310.04474 • Published Oct 6, 2023 • 2
AgentTuning: Enabling Generalized Agent Abilities for LLMs

Paper • 2310.12823 • Published Oct 19, 2023 • 36

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 104
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Paper • 2005.11401 • Published May 22, 2020 • 14
LoRA: Low-Rank Adaptation of Large Language Models

Paper • 2106.09685 • Published Jun 17, 2021 • 54
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

Paper • 2205.14135 • Published May 27, 2022 • 15

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Paper • 2005.11401 • Published May 22, 2020 • 14

Crystal_Alchemist

nvidia/nemo-megatron-gpt-20B

Updated Sep 21, 2022 • 18 • 32
Runtime error

1

Openai Clip Vit Large Patch14

🏃

1
nvidia/nemo-megatron-mt5-3B

Updated Dec 1, 2022 • 51 • 13
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis

Paper • 2307.01952 • Published Jul 4, 2023 • 90

Large Language Models as Optimizers

Paper • 2309.03409 • Published Sep 7, 2023 • 77
Challenges and Applications of Large Language Models

Paper • 2307.10169 • Published Jul 19, 2023 • 50
Efficiently Modeling Long Sequences with Structured State Spaces

Paper • 2111.00396 • Published Oct 31, 2021 • 3
DreamCoder: Growing generalizable, interpretable knowledge with wake-sleep Bayesian program learning

Paper • 2006.08381 • Published Jun 15, 2020

Previous
1
2
3
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs