Phú Võ's picture

68 11

Phú Võ

phuvo

·

phuvo

AI & ML interests

None yet

Organizations

None yet

phuvo's activity

upvoted a paper 16 days ago

OLMoE: Open Mixture-of-Experts Language Models

Paper • 2409.02060 • Published 16 days ago • 74

upvoted a paper about 1 month ago

LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs

Paper • 2408.07055 • Published Aug 13 • 65

upvoted 5 papers about 2 months ago

SAM 2: Segment Anything in Images and Videos

Paper • 2408.00714 • Published Aug 1 • 103

The Llama 3 Herd of Models

Paper • 2407.21783 • Published Jul 31 • 102

Scalify: scale propagation for efficient low-precision LLM training

Paper • 2407.17353 • Published Jul 24 • 11

Scaling Granite Code Models to 128K Context

Paper • 2407.13739 • Published Jul 18 • 18

EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Paper • 2407.11062 • Published Jul 10 • 8

upvoted 3 papers 2 months ago

Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models

Paper • 2407.12327 • Published Jul 17 • 75

Qwen2 Technical Report

Paper • 2407.10671 • Published Jul 15 • 153

Unveiling Encoder-Free Vision-Language Models

Paper • 2406.11832 • Published Jun 17 • 49

upvoted 3 papers 3 months ago

Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA

Paper • 2406.17419 • Published Jun 25 • 14

Language Models are Surprisingly Fragile to Drug Names in Biomedical Benchmarks

Paper • 2406.12066 • Published Jun 17 • 8

An Image is Worth 32 Tokens for Reconstruction and Generation

Paper • 2406.07550 • Published Jun 11 • 55

upvoted a paper 4 months ago

Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

Paper • 2405.15071 • Published May 23 • 34

upvoted 3 papers 5 months ago

BLINK: Multimodal Large Language Models Can See but Not Perceive

Paper • 2404.12390 • Published Apr 18 • 24

Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models

Paper • 2404.12387 • Published Apr 18 • 38

Rho-1: Not All Tokens Are What You Need

Paper • 2404.07965 • Published Apr 11 • 83

upvoted 6 papers 7 months ago

StarCoder 2 and The Stack v2: The Next Generation

Paper • 2402.19173 • Published Feb 29 • 132

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27 • 590

SDXL-Lightning: Progressive Adversarial Diffusion Distillation

Paper • 2402.13929 • Published Feb 21 • 27

Neural Network Diffusion

Paper • 2402.13144 • Published Feb 20 • 94

Instruction-tuned Language Models are Better Knowledge Learners

Paper • 2402.12847 • Published Feb 20 • 24

OneBit: Towards Extremely Low-bit Large Language Models

Paper • 2402.11295 • Published Feb 17 • 22

upvoted 10 papers 8 months ago

OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1 • 78

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Paper • 2402.00159 • Published Jan 31 • 59

SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Paper • 2401.15024 • Published Jan 26 • 67

MambaByte: Token-free Selective State Space Model

Paper • 2401.13660 • Published Jan 24 • 48

TOFU: A Task of Fictitious Unlearning for LLMs

Paper • 2401.06121 • Published Jan 11 • 14

Asynchronous Local-SGD Training for Language Modeling

Paper • 2401.09135 • Published Jan 17 • 9

Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18 • 140

DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference

Paper • 2401.08671 • Published Jan 9 • 13

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

Paper • 2401.04081 • Published Jan 8 • 70

Mixtral of Experts

Paper • 2401.04088 • Published Jan 8 • 157

upvoted 3 papers 9 months ago

TinyLlama: An Open-Source Small Language Model

Paper • 2401.02385 • Published Jan 4 • 88

PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

Paper • 2312.12456 • Published Dec 16, 2023 • 40

Generative Multimodal Models are In-Context Learners

Paper • 2312.13286 • Published Dec 20, 2023 • 34

upvoted 5 papers 11 months ago

Text Rendering Strategies for Pixel Language Models

Paper • 2311.00522 • Published Nov 1, 2023 • 10

FP8-LM: Training FP8 Large Language Models

Paper • 2310.18313 • Published Oct 27, 2023 • 31

LLM-FP4: 4-Bit Floating-Point Quantized Transformers

Paper • 2310.16836 • Published Oct 25, 2023 • 13

Habitat 3.0: A Co-Habitat for Humans, Avatars and Robots

Paper • 2310.13724 • Published Oct 19, 2023 • 8

BitNet: Scaling 1-bit Transformers for Large Language Models

Paper • 2310.11453 • Published Oct 17, 2023 • 96

upvoted 8 papers 12 months ago

Enable Language Models to Implicitly Learn Self-Improvement From Data

Paper • 2310.00898 • Published Oct 2, 2023 • 22

AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model

Paper • 2309.16058 • Published Sep 27, 2023 • 55

Large Language Models Cannot Self-Correct Reasoning Yet

Paper • 2310.01798 • Published Oct 3, 2023 • 32

Effective Long-Context Scaling of Foundation Models

Paper • 2309.16039 • Published Sep 27, 2023 • 30

Qwen Technical Report

Paper • 2309.16609 • Published Sep 28, 2023 • 34

Demystifying CLIP Data

Paper • 2309.16671 • Published Sep 28, 2023 • 19

Vision Transformers Need Registers

Paper • 2309.16588 • Published Sep 28, 2023 • 77

DreamLLM: Synergistic Multimodal Comprehension and Creation

Paper • 2309.11499 • Published Sep 20, 2023 • 58

upvoted 11 papers about 1 year ago

TextBind: Multi-turn Interleaved Multimodal Instruction-following

Paper • 2309.08637 • Published Sep 14, 2023 • 7

Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Using Sorted Fine-Tuning (SoFT)

Paper • 2309.08968 • Published Sep 16, 2023 • 22

CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages

Paper • 2309.09400 • Published Sep 17, 2023 • 82

Efficient Memory Management for Large Language Model Serving with PagedAttention

Paper • 2309.06180 • Published Sep 12, 2023 • 25

NExT-GPT: Any-to-Any Multimodal LLM

Paper • 2309.05519 • Published Sep 11, 2023 • 78

Textbooks Are All You Need II: phi-1.5 technical report

Paper • 2309.05463 • Published Sep 11, 2023 • 86

Large-Scale Automatic Audiobook Creation

Paper • 2309.03926 • Published Sep 7, 2023 • 53

LLaSM: Large Language and Speech Model

Paper • 2308.15930 • Published Aug 30, 2023 • 29

LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models

Paper • 2308.16137 • Published Aug 30, 2023 • 39

RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation

Paper • 2308.15975 • Published Aug 30, 2023 • 11

Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers

Paper • 2308.13494 • Published Aug 25, 2023 • 9