Hacker News 中文摘要

文章摘要

SIMD（单指令多数据）函数通过一次调用处理多个数据元素，旨在提升性能。文章探讨了SIMD函数的定义、适用场景以及如何有效声明和使用它们。例如，传统的sin函数处理单个数据，而向量化版本可以同时处理多个数据。SIMD函数可以通过手动向量化或编译器生成，利用硬件特性加速计算。

文章总结

文章主要内容总结

标题：SIMD（向量）函数的混乱现实
来源：The messy reality of SIMD (vector) functions
发布时间：2025年7月4日

本文深入探讨了SIMD（单指令多数据）函数的概念、应用场景、声明与使用方法，并指出了其在实践中的局限性。

1. SIMD函数简介

SIMD函数是一种能够同时处理多个数据元素的函数。例如，标准的sin函数处理单个双精度浮点数，而其向量版本可以同时处理四个双精度浮点数。通过手动或编译器生成的向量化函数，SIMD函数旨在提高性能。

2. 为什么需要SIMD函数？

SIMD函数主要用于自动向量化循环。编译器可以在循环中选择调用标量版本或向量版本的函数，通常选择向量版本以提高性能，但有时也会调用标量版本来处理无法向量化的少量迭代。

3. 声明和定义SIMD函数

SIMD函数可以通过自定义编译器属性（如GCC的__attribute__((simd))）或标准化的OpenMP指令（如#pragma omp declare simd）来声明和定义。OpenMP指令通常更具可移植性。

4. 函数参数类型

在声明SIMD函数时，参数可以指定为以下几种类型： - variable：每个lane的值可以不同（默认）。 - uniform：每个lane的值相同。 - linear：lane的值呈线性变化（如0, 1, 2, 3）。

此外，还有inbranch和notinbranch属性，用于控制函数在分支条件下的行为。

5. SIMD函数的现实问题

尽管SIMD函数在理论上具有性能优势，但在实践中存在以下问题： - 编译器支持有限：许多编译器对SIMD函数的支持不足，例如Clang 20不支持#pragma omp declare simd。 - 可用性有限：编译器通常更倾向于内联函数并进行优化，而不是直接调用SIMD函数。 - 编译器生成的实现效率低下：例如，GCC生成的向量函数可能只是标量函数的重复。 - 覆盖编译器生成的实现：提供自定义的向量化实现需要深入了解编译器的内部机制，如函数名称编码（name mangling）和向量ABI。

6. 如何提供自定义的向量化实现

通过使用编译器内部函数（intrinsics），可以覆盖编译器生成的向量函数。这需要理解函数名称编码规则，并在单独的编译单元中定义向量函数。

7. 编译器的问题

在实验中发现，GCC的SIMD函数功能存在一些问题： - 自动生成的向量函数效率低下。 - 使用simdlen时，向量调用可能被忽略。 - 在SSE4下编译时，GCC不会生成向量调用。

8. 结论

尽管SIMD函数在理论上具有潜力，但在实际应用中，跨编译器和环境的有效使用仍然具有挑战性。目前，该功能主要用于高性能计算领域，如libmvec（向量化数学函数库）。

图片标记

参考链接

评论总结

支持更好的语言级SIMD支持
- 观点：评论1认为语言应提供更好的SIMD支持，避免使用繁琐的intrinsics。
- 论据：使用GCC/clang的SIMD扩展时，sin4f和sin8f的实现几乎相同，仅类型不同，而intrinsics需要为每个操作选择特定指令。
- 引用：
  - "When using GCC/clang SIMD extensions in C (or Rust nightly), the implementation of sin4f and sin8f are line by line equal, with the exception of types."
  - "Contrast this with intrinsics where the programmer needs to explicitly choose the mm128 or mm256 instruction even for trivial stuff like addition and other arithmetic."
动态调度和高级工具的优势
- 观点：评论2认为ISPC和Google的Highway项目在实践中表现更好，主要因为它们的动态调度功能。
- 引用：
  - "In my experience, ISPC and Google’s Highway project lead to better results in practice - this mostly due to their dynamic dispatching features."
函数调用的优化问题
- 观点：评论3指出C语言中函数调用不会导致编译器假设最坏情况，因此不会影响优化。
- 引用：
  - "This is not the case in C. It might be technically possible for a function to modify any memory, but it wouldn’t be legal, and compilers don’t need to optimise for the illegal cases."
kdb+的SIMD优化能力
- 观点：评论4强调kdb+内置的SIMD原语和基于数据类型的优化能力。
- 引用：
  - "It has SIMD primitives out of the box and can optimize your code based on data types to take advantage of it."
CUDA的SIMD设计
- 观点：评论5认为CUDA的SIMD设计简洁高效，无需指定特定指令，只需使用基本类型。
- 引用：
  - "You never have to say '_m1024ps' in CUDA, you just say float. CUDA has been a huge success but somehow nobody has really copied this paradigm."
编译器的不可靠性
- 观点：评论6指出编译器在SIMD优化上不可靠，建议直接使用intrinsics。
- 引用：
  - "Anyone who has spent time writing SIMD optimizations know not to trust the compiler."
  - "If you want to write SIMD then… just use intrinsics?"

总结：评论者普遍认为语言级SIMD支持可以简化代码并提高效率，但intrinsics在某些情况下仍是必要的。动态调度工具如ISPC和Highway在实践中表现更好，而CUDA的设计也被认为是成功的范例。同时，编译器在SIMD优化上的不可靠性也促使开发者直接使用intrinsics。

SIMD（向量）函数的混乱现实 -- The messy reality of SIMD (vector) functions