【实测】Python 和 C++ 下字符串查找的速度对比
最近在备战一场算法竞赛,语言误选了 Python ,无奈只能着手对常见场景进行语言迁移。而字符串查找的场景在算法竞赛中时有出现。本文即对此场景在 Python 和竞赛常用语言 C++ 下的速度进行对比,并提供相关参数和运行结果供他人参考。
背景
最近在备战一场算法竞赛,语言误选了 Python ,无奈只能着手对常见场景进行语言迁移。而字符串查找的场景在算法竞赛中时有出现。本文即对此场景在 Python 和竞赛常用语言 C++ 下的速度进行对比,并提供相关参数和运行结果供他人参考。
参数
硬件和操作系统
1 | -` root@<hostname> |
编译环境和解释环境
- Python
- 解释器:Python 3.10.2 (main, Jan 23 2022, 21:20:14) [GCC 10.2.0] on linux
- 交互环境:IPython 8.0.1
- C++
- 编译器:g++ (GCC) 11.2.0
- 编译命令:
g++ test.cpp -Wall -O2 -g -std=c++11 -o test
场景
本次实测设置两个场景:场景 1 的源串字符分布使用伪随机数生成器生成,表示字符串查找的平均情况;场景 2 的源串可连续分割成 20,000 个长度为 50 的字符片段,其中第 15,001 个即为模式串,形如“ab…b”(1 个“a”,49 个 “b”),其余的字符片段形如“ab…c”(1 个“a”,48 个“b”,1 个“c”)。
项目 | 场景 1:平均情况 | 场景 2:较坏情况 |
---|---|---|
字符集 | 小写字母 | abc |
字符分布 | random.choice |
有较强规律性 |
源串长度 | 1,000,000 | 1,000,000 |
模式串长度 | 1,000 | 50 |
模式串出现位置 | 250,000、500,000、750,000 | 750,000 |
模式串出现次数 | 1 | 1 |
测试方法
本次实测中,Python 语言使用内置类型 str
的 .find()
成员函数,C++ 语言分别使用 string
类的 .find()
成员函数、strstr
标准库函数和用户实现的 KMP 算法。
测试对象 | 核心代码 |
---|---|
Python | src.find(pat) |
C++ - test.cpp |
src.find(pat) |
C++ - test_strstr.cpp |
strstr(src, pat) |
C++ - test_kmp.cpp |
KMP(src, pat) |
源代码
生成源串和模式串
1 | import random |
测试代码
Python
1 | In []: %timeit s.find(p[0]) |
C++ - test.cpp
1 |
|
C++ - test_strstr.cpp
1 |
|
C++ - test_kmp.cpp
1 |
|
结果
IPython 的 %timeit
魔法命令可以输出代码多次执行的平均时间和标准差,在此取平均时间。C++ 的代码对每个模式串固定运行 1,000 次后取平均时间。
以下时间若无特别说明,均以微秒为单位,保留到整数位。
场景 | 模式串出现位置 | Python | C++ - test.cpp |
C++ - test_strstr.cpp |
C++ - test_kmp.cpp |
---|---|---|---|---|---|
场景 1 | 250,000 | 105 | 523 | 155 | 2564 |
场景 1 | 500,000 | 183 | 1053 | 274 | 3711 |
场景 1 | 750,000 | 291 | 1589 | 447 | 4900 |
场景 2 | 750,000 | 2630* | 618 | 353 | 3565 |
* 原输出为“2.63 ms”。IPython 的 %timeit
输出的均值保留 3 位有效数字,由于此时间已超过 1 毫秒,微秒位被舍弃。此处仍以微秒作单位,数值记为“2630”。
局限性
本次实测时使用的设备硬件上劣于算法竞赛中的标准配置机器,实测结果中的“绝对数值”参考性较低。
总结
根据上表中的结果,在给定环境和相关参数条件下,场景 1 中 Python 的运行时间大约为 C++ 中 string::find
的五分之一,与 std:strstr
接近;而在场景 2 中 Python 的运行时间明显增长,但 C++ 的前两种测试方法的运行时间与先前接近甚至更短。四次测试中,C++ 的用户实现的 KMP 算法运行时间均较长,长于同条件下 Python 的情况。
Python 中的内置类型 str
的快速查找(.find()
)和计数(.count()
)算法基于 Boyer-Moore 算法和 Horspool 算法的混合,其中后者是前者的简化,而前者与 Knuth-Morris-Pratt 算法有关。
有关 C++ 的 string::find
比 std::strstr
运行时间长的相关情况,参见 Bug 66414 - string::find ten times slower than strstr。
值得关注的是:C++ 中自行实现的 KMP 算法的运行时间竟然远长于 C++ 标准库甚至 Python 中的算法。这也类似于常说的“自己设计汇编代码运行效率低于编译器”的情况。Stack Overflow 的一个问题 strstr faster than algorithms? 下有人回答如下:
Why do you think
strstr
should be slower than all the others? Do you know what algorithmstrstr
uses? I think it’s quite likely thatstrstr
uses a fine-tuned, processor-specific, assembly-coded algorithm of theKMP
type or better. In which case you don’t stand a chance of out-performing it inC
for such small benchmarks.
KMP 算法并非是所有线性复杂度算法中最快的。在不同的环境(软硬件、测试数据等)下,KMP 与其变种乃至其他线性复杂度算法,孰优孰劣都无法判断。编译器在设计时考虑到诸多可能的因素,尽可能使不同环境下都能有相对较优的策略来得到结果。因而,在保证结果正确的情况下,与其根据算法原理自行编写,不如直接使用标准库中提供的函数。
同时本次实测也在运行时间角度再次印证 Python 并不适合在算法竞赛中取得高成绩的说法。
参考
- https://stackoverflow.com/questions/22387586/measuring-execution-time-of-a-function-in-c
- https://www.cplusplus.com/reference/string/string/find/
- https://stackoverflow.com/questions/681649/how-is-string-find-implemented-in-cpython
- https://github.com/python/cpython/blob/main/Objects/stringlib/fastsearch.h#L5
- https://stackoverflow.com/questions/8869605/c-stringfind-complexity
- https://stackoverflow.com/questions/19506571/can-it-be-faster-to-find-the-minimum-periodic-string-inside-another-string-in-te
- https://gcc.gnu.org/onlinedocs/gcc-9.4.0/libstdc++/api/a17342_source.html
- https://opensource.apple.com/source/tcl/tcl-10/tcl/compat/strstr.c.auto.html
- https://gist.github.com/hsinewu/44a1ce38a1baf47893922e3f54807713
- https://stackoverflow.com/questions/11799956/performance-comparison-strstr-vs-stdstringfind
- https://stackoverflow.com/questions/7586990/strstr-faster-than-algorithms
- https://gcc.gnu.org/bugzilla/show_bug.cgi?id=66414
- http://0x80.pl/notesen/2016-10-08-slow-std-string-find.html
【实测】Python 和 C++ 下字符串查找的速度对比
https://blog.tamako.work/techdev/python-cpp-string-find-perf-test/
1.Codeforces 1324B: Yet Another Palindrome Problem
2.Codeforces 363B: Fence & Rust for Competitive Programming
3.Codeforces 1327A: Sum of Odd Integers
4.LeetCode Problem 3: Longest Substring Without Repeating Characters
5.【文件格式探究】EP.2 WAV 音频文件格式
6.Codeforces 1399D: Binary String to Subsequences
7.Codeforces 1368B: Codeforces Subsequences
8.Codeforces 1430C: Numbers on Whiteboard
1.【ACG音乐分享】Ceui《今、歩き出す君へ》
2.使用 GPG 加密、解密和验证信息
3.【翻译】如何编写 Git 提交消息
4.Linux 时间操作及其同步
5.【实测】Python 和 C++ 下字符串查找的速度对比
6.Codeforces 1312B: Bogosort