日常生活中,会经常用到随机数,使用场景非常广泛,例如买彩票、丢骰子、抽签、年会抽奖等。
Shell 下如何生成随机数呢,米扑博客特意写了本文,总结 Linux Shell 产生随机数的多种方法。
计算机产生的的只是“伪随机数”,不会产生绝对的随机数(是一种理想随机数)。实际上,伪随机数和理想随机数也是相对的概念,例如伪随机数在1万万亿亿亿年内也无法重复,算是理想随机数么?
伪随机数在大量重现时也并不一定保持唯一,但一个好的伪随机产生算法将可以产生一个非常长的不重复的序列,例如 UUID(通用唯一识别码)在100亿年内才可用完。
1. 使用系统的 $RANDOM 变量(CentOS、Ubuntu、MacOS 都支持,但只有5位数随机)
$RANDOM 的范围是 [0, 32767]
示例:使用 for 循环来验证:
运行结果:
# sh mimvp_shell_rand.sh
1 20191
2 16817
3 25971
4 1489
5 34
6 25183
7 920
8 315
9 18845
10 29519
如需要生成超过32767的随机数,可以用以下方法实现(有缺陷)
例:生成 40,000,000~50,000,000 的随机数,但最后末尾五位数在随机变化,实现原理有缺陷
运行结果:
# sh mimvp_shell_rand.sh
1 40022422
2 40014261
3 40022712
4 40016695
5 40026575
6 40032198
7 40026667
8 40016024
9 40012010
10 40016143
这里,还可以通过 awk 产生随机数,最大为6位随机数,其跟时间有关,系统时间一致则随机数都相同,没有 $RANDOM 随机性好
2. 使用date +%s%N(CentOS、Ubuntu支持,MacOS不支持纳秒 +%N)
通过 Linux / Unix 的时间戳来获取随机数
说明:
如果用时间戳 date +%s 做随机数,相同一秒的数据是一样的。在做循环处理多线程时,基本不能满足要求
如果用纳秒值 date +%N 做随机数,精度达到了亿分之一,相当精确了,在多cpu高并发的循环里,同一秒里也很难出现相同结果,不过也会有重复碰撞的可能性
如果用时间戳+纳秒值 date +%N%s 做组合随机数(10+9=19位数),则比较完美了,重复的概率大大降低,但注意: MacOS 系统不支持纳秒值,不算通用
示例:生成 40,000,000~50,000,000 的随机数
运行结果:
# sh mimvp_shell_rand.sh
1 42153680
2 42199904
3 42243885
4 42283556
5 42332691
6 42376578
7 42422048
8 42462640
9 42505483
10 42550221
说明:
上面的结果可以看到,当取大数值范围时,高位可能都是相同的,原因是 date +%N%s 是按照 秒数+纳秒 获取的,时间高位具有顺序位,可能相同
那么,有的同学问题,能不能把 date +%s%N 的秒数和纳秒互换下,答案是不可以的,原因是纳秒的第一位可能为0,从第一位截取可能为 09641524615487432 ,shell 会提示错误: value too great for base (error token is "09641524615487432")
改进的办法1:互调 date +%N%s (仍然不行):
既然第一位不能为0,那么从纳秒的第2位、第3位.... 截取不行吗,答案也是不可以的,因为纳秒的每一位都有可能是0,毕竟纳秒是9位数(毫秒3位数、微秒6位数、纳秒9位数)纳秒本身就在秒数之后,所以纳秒的9位数的每一位都可以为0 另外,纳秒在高位,秒数在低位,截取大数值可能导致高位不相同,但低位数值相同的情况,原因是秒数的值变化非常慢。结论,互换的办法是行不通的,还可能导致新的问题,因此,老老实实的用 date +%s%N 格式吧
改进的方法2:直接用 date +%s%N 的19位数(可行)
不要截取 date +%s%N | cut -c1-17 ,充分利用纳秒的快速变化后再取余
3. 使用 /dev/random 和 /dev/urandom 随机文件(CentOS、Ubuntu、MacOS 都支持,推荐)
/dev/random 是阻塞的随机数发生器,读取有时需要等待。存储着系统当前运行环境的实时数据,如 CPU、内存、电压、物理信号等
/dev/urandom 是非阻塞随机数发生器,读取操作不会产生阻塞。
说明:
/dev/random 和 /dev/urandom 存储的都是乱码,实际上它们是通过二进制数据保存实时数据的
打开 /dev/random 和 /dev/urandom 文件,推荐用 head,不推荐 cat 命令,因为文件非常大且是乱码,只需要获取前几行文件内容就变了
用到了 cksum 命令,其读取文件内容,生成唯一的整型数据,只有文件内容没变,生成结果就不会变化,与php crc函数类似,一般校验文件是否篡改
其生成随机数的原理是:截取文件的一部分内容,做内容的计算,取第一个数值
示例:使用/dev/urandom生成 40,000,000~50,000,000 之间的随机数,使用 /dev/urandom 避免阻塞。
运行结果:
# sh mimvp_shell_rand.sh
1 48894638
2 43078483
3 41678948
4 48987680
5 46095205
6 49650777
7 47144679
8 49003259
9 44562068
10 42014734
由此可见,用随机文件生成的随机数,基本是全随机的,且通用于 CentOS、Ubuntu、MacOS
4. 使用 linux uuid (CentOS、Ubuntu支持,MacOS不支持)
UUID(Universally Unique Identifier,通用唯一识别码),格式包含32个16进制数字,以'-'连接号分为5段。
格式为 8-4-4-4-12 的32个字符,例如: 07e73165-1196-4194-98bb-a3bf7c96e34a
UUID 数量,理论上的总数为216 x 8=2128,约等于3.4 x 1038。 也就是说若每奈秒产生1兆个UUID,要花100亿年才会将所有UUID用完。
UUID 目的,是让分布式系统中的所有元素,都能有唯一的辨识信息,而不需要通过中央控制端来做辨识信息的指定。如此一来,每个人都可以创建不与其它人冲突的 UUID。在这样的情况下,就不需考虑数据库创建时的名称重复问题。它会让网络任何一台计算机所生成的uuid码,都是互联网整个服务器网络中唯一的。它的原信息会加入硬件,时间,机器当前运行信息等等。
UUID 格式:包含32个16进位数字,以“-”连接号分为五段,形式为8-4-4-4-12的32个字符。范例;550e8400-e29b-41d4-a716-446655440000 ,所以:
与 uuid类似的还有一个guid(全局唯一标识符)码,它由微软支持,它们由操作系统内核产生。
示例:使用 linux uuid 生成 40,000,000~50,000,000 之间的随机数
运行结果:
# sh mimvp_shell_rand.sh
1 44736535
2 43538760
3 40133914
4 41016814
5 49148972
6 40179476
7 48147712
8 45665645
9 40522150
10 44361996
5. 使用 openssl rand (CentOS、Ubuntu支持、MacOS 都支持,需安装 openssl,推荐)
openssl rand 用于产生指定长度个bytes的随机字符
其中,参数 -base64 或 -hex 对随机字符串进行base64编码或用hex格式显示
结合 cksum 产生整数、md5sum 产生字符串,可以产生随机的整数或字符串(仅含小写字母和数字)
例如:
示例:使用 openssl rand 生成 40,000,000~50,000,000 之间的随机数
运行结果:
# sh mimvp_shell_rand.sh
1 43422505
2 40756492
3 45087076
4 43882168
5 47105153
6 45505018
7 41411938
8 48662626
9 47508094
10 41362566
6. 自定义数组生成随机数
自定义一个数组,用于生成一段特定长度(整数最长为18位)的有数字和字母组成的字符串,字符串中元素取自自定义的池子。
示例:自定义数组生成 40,000,000~50,000,000 之间的随机数(注释有点不好看,但非常有助于理解代码哈)
运行结果:
# sh mimvp_shell_rand.sh
1 48952205
2 43220726
3 45241774
4 45758327
5 43147638
6 44319391
7 46834434
8 41601915
9 48687238
10 45029848
7. 生成随机字符串
上述所有可以生成随机整数的方法,都可以生成随机字符串,原理是对随机整数进行 md5sum 计算
示例:生成10位随机字符串
随机数应用一
随机生成端口号范围为 (通用于 CentOS, Ubuntu, MacOS),并支持排除任意添加的端口号
应用的随机数是 方法3. 使用 /dev/random 和 /dev/urandom 随机文件
应用代码:
运行结果:
# sh mimvp_shell_rand.sh
1 29483
2 61738
3 31935
4 3242
5 19865
6 56677
7 5944
8 28579
9 12510
10 31844
随机数应用二
随机生成长度为10的密码字符串 (通用于 CentOS, Ubuntu, MacOS)
应用的随机数是 方法1:使用系统的 $RANDOM 变量
应用代码:
运行结果:
# sh mimvp_shell_rand.sh
01 02 03 04 05 06 07 08 09 10
user-01 52cf5272cb
user-02 40f20d352d
user-03 9fe9a7b770
user-04 ff4e20e6e0
user-05 88fc4a3ea3
user-06 6494032261
user-07 6a42732519
user-08 6fc7a25dd5
user-09 f0b6a95608
user-10 49219467fa
随机数应用三
统计掷骰子,投掷6000次统计分别为1-6的次数 (通用于 CentOS, Ubuntu, MacOS)
应用的随机数是 方法1:使用系统的 $RANDOM 变量
应用代码:
运行结果:
# sh mimvp_shell_rand.sh
stat_1 923
stat_2 994
stat_3 977
stat_4 1039
stat_5 1072
stat_6 995
总结
random、urandom、uuid、openssl rand、自定义数组(用到了 $RANDOM)产生随机码的伪数据来源,都与 /dev/random 设备有关系,只是它们各自呈现不同。
date 日期生成的随机数,与Linux 系统的随机设备 /dev/random 的关系不大,但系统时间也会影响 /dev/random 设备,两者并非绝对无关系。
所有可以生成随机整数的方法,都可以生成随机字符串,原理是对随机整数进行 md5sum 计算
最后,附上完整的 shell 代码,方便爱好者研究、调试