🪴 Quartz 4.0

Search

❯

The differences between Bert-base and Bert-large

The differences between Bert-base and Bert-large

Sep 09, 20241 min read

Model size differs:
L : number of layers (transformer blocks)
H : hidden size
A : number self-attention heads
base → L = 12, H = 768, A = 12, total-params: 110M
large → L = 24, H = 1024, A = 16, total-params: 340M

Graph View

Backlinks

BERT

Created with Quartz v4.2.3 © 2024

GitHub
Discord Community