题干:大小为N的数组,其主元素是一个出现超过N/2的元素。
首先找出主元素的一个候选元,第二步确认该候选元是否为主元素。为找出数组A中的候选元,先构造一个数组B,比较A1和A2,如果相等,则放入到数组B中,然后比较A3和A4以此类推,直到比完整个数组A。然后递归地寻找数组B中的候选元,它也是数组A中的候选元。
分析
首先, 这个算法只对偶数成立, 先证明一下算法的正确性:
比如N = 10, 主要元素是3,则3出现的次数>=6
需要证明的点1:6个3随机分布在大小为10的容器中,必定有至少1次的连续下标的2个元素均为3。
1
|
反证:任意2个3都不连续(也就是1次都没有)的极端情况是5个3依次被另一个元素隔开:3,1,3,1,3,1,3,1,3,1 所以用第6个3替换1的任意一个的位置,都会出现至少1次连续的2个3。
|
需要证明的点2:连续的两个3出现的位置下标,必定是i2,i2+1
1
|
反证:任意2个连续的3的下标都是i*2+1,(i + 1) * 2的极端情况是:1,3,3,1,1,3,3,1,1,3 所以用第6个3替换1的任意一个的位置,都会出现至少1次连续的两个3出现的位置下标,必定是i*2,i*2+1 据此可以证明B数组中一定包含候选元.
|
需要证明的点3:B数组中候选元的个数出现次数>CountB/2
1
2
3
4
5
|
反证:如果B中候选元的个数出现次数<=CountB/2,举个B的极端情况,3,3,3,1,2,4 根据“比较A1和A2,如果它们相等则取其中之一加到数组B中;否则什么都不做”规则反推A,A必定包含3,3,3,3,3,3,1,1,2,2,4,4(这些元素组成的数组我们定义为A的子数组A`,D后面可能还有其他元素,我们定义为A的子数组A``),分情况讨论:
1:A``的元素个数为0,那么在A中3的个数 = CountA` / 2 + 0 / 2 = CountA/2,A中3的个数不满足>CountA/2的条件。
2:A``的元素个数大于0,最好情况有1半都是3,(因为如果A``的3超过一半,根据证明1和证明2,B中必定会在现有元素基础上多出至少1个候选元3),此时A中3的个数 CountA` / 2+ CountA`` / 2 = CountA/2,A中3的个数不满足>CountA/2的条件。
|
所以B数组中候选元的个数出现次数>CountB/2。
问答
(1)、递归何时停止?
当数组 B 中只有两个或更少的元素时递归便不必要了。
(2)、数组A为奇数情况时如何处理?
一种方法是,注意到如果前 N-1 个元素中有主要元素,则最后一个元素对结果没有影响,否则最后一个元素可能是候选元,将它作为候选元。
(3)、题干所描述的算法的运行时间?
设运行时间为 T(N),有递推式 T(N)=T(N/2)+O(N),解得 T(N)=O(N)
(4)、如何避免使用附加数组B?
保存一个数组 A 的拷贝后,可将要添加到数组 B 的元素直接覆盖在数组 A 上,每一级 递归均可这样做。最初的递归策略需要 O(logN)个数组,而这样只需要两个。
(5)、给出题干所描述的算法代码?
如下
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
|
#include <stdio.h>
#define NotAMainCell -1
#define ARRLength 10
void swap (int *a, int *b) {
int temp = *a;
*a = *b;
*b = temp;
}
int isMainCell(int arr[], int probablyMaincell) {
int count = 0;
for (int i = 0; i < ARRLength; i++) {
if (arr[i] == probablyMaincell) {
count++;
}
}
if (count > ARRLength / 2) {
return 1;
} else {
return 0;
}
}
int findMainCell(int arr[], int length) {
if (length == 0) {
return NotAMainCell;
}
if (length == 1) {
if (isMainCell(arr, arr[0]) == 1) {
return arr[0];
} else {
return NotAMainCell;
}
}
for (int i = 0, len = 0; i < length; i = i + 2) {
if (arr[i] == arr[i + 1]) {
swap(&arr[i], &arr[len++]);
}
if (i == length - 1) {
return findMainCell(arr, len);
} else if (i == length - 2) {
int resule = findMainCell(arr, len);
if (resule == NotAMainCell) {
if (isMainCell(arr, arr[ARRLength - 1]) == 1) {
return arr[ARRLength - 1];
} else {
return NotAMainCell;
}
} else {
return resule;
}
}
}
return NotAMainCell;
}
int main() {
int arr[ARRLength] = {4,3,4,2,4,4,2,4,3,4};
printf("%d \n", findMainCell(arr, ARRLength));
}
|
当然还有很多方法找到主元的,比如排序一下,那么index为n/2的元素,必然是主元。用hashmap。还有删除不同的一对元素等。。就不一一展开了。