Hacker News with Generative AI: Decoding

DeepSeek Open Source FlashMLA – MLA Decoding Kernel for Hopper GPUs (github.com/deepseek-ai)
FlashMLA is an efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences serving.

GPU, Open Source, Machine Learning, Decoding, Computer Vision

441 points by helloericsf 508 days ago | 108 comments