Leetcode819 最常见的单词
1.题目
给定一个段落 (paragraph) 和一个禁用单词列表 (banned)。返回出现次数最多,同时不在禁用列表中的单词。
题目保证至少有一个词不在禁用列表中,而且答案唯一。
禁用列表中的单词用小写字母表示,不含标点符号。段落中的单词不区分大小写。答案都是小写字母。
2.解题思路
首先分析题目,得出输入和输出:输入一个字符串段落和一个字符串数组。输出字符串段落中出现次数最多, 并且不在字符串数组里的单词字符串。从题目可知这是一道分析词频的题目。
因为要输出字符串段落中的单词字符串,所以需要字符串拆分(strtok)
因为要采集字符串次数,因此需要使用到字典(dict)和排序(qsort)
因为要确认每个拆分出来的字符串不属于banned列表中,因此每次要进行比较(strcmp)
综上分析,核心解法可以分成:
step1. 拆分字符串(strtok)
step2. 遍历比较当前拆下来的字符串是否在banned中 (strcmp)
step3.1 若在banned中,跳过处理。 step3.2 若不在banned中,则遍历判断是否已经记录在字典中(dict = {word : count})
step4.2.1 若不在字典中,则字典中新增一个({word, count=1})
step4.2.2 若在字典中, 则对应word的count + 1
step5. 按照上述循环完成整个字符串段落的搜索
step6. 对字典的词频进行从大到小排序,并取出词频最大值 count_max所对应的单词。(也可以再遍历一遍字典,筛选出最大值)
再考虑预处理,
pre1. 由于字符串分割时,只能对特定某一种符号进行分割,因此需要将标点符号全转化为空格符号。
pre2. 题目提到banned都是小写字符,因此需要遍历一次数组,将所有大写字母化为小写。
pre3. 题目已经定死段落长度为1000单词以内,单词长度小于10,对于C语言解题时,可以直接写死数组长度。
3.数据结构与算法
数据结构:字典
算法:字符串拆分算法、排序算法
4.字符串拆分 + 定长字典排序
typedef struct {char val[11];int time;
} WordDict;int Cmp (const void* a, const void* b)
{return ((WordDict*)b)->time - ((WordDict*)a)->time;
}char * mostCommonWord(char * paragraph, char ** banned, int bannedSize) {int i;int j;int is_in_banned = 0; // 是否在banned名单里int is_in_dict = 0; // 是否已经存在dict里// 预处理while (paragraph[i] != 0) {if (paragraph[i] >= 'A' && paragraph[i] <= 'Z') {// paragraph[i] += ('a' - 'A');paragraph[i] = tolower(paragraph[i]);}if ((paragraph[i] < 'A' || paragraph[i] > 'Z') && ((paragraph[i] < 'a' || paragraph[i] > 'z'))) {paragraph[i] = ' ';}i++;}// 创建词频字典 word,count// 因为不知道多少单词,所以定位为段落的最大值。WordDict para_word_dict[1000];memset(para_word_dict, 0, sizeof(WordDict) * 1000);// 主功能,提取字符串char* temp = strtok(paragraph, " ");// 每次获得新单词时候,int is_in_banned, is_in_dict标记清零while (temp != NULL) {is_in_banned = 0;is_in_word = 0;// 判断是否在banned中for (i = 0; i < bannedSize; i++) {if (strcmp(banned[i], temp) == 0) {is_in_banned = 1;break;}}// 若在banned中,下面if不执行,直接分割下个字符串// 若不在banned中,判断是否在字典中。if (!is_in_banned) {j = 0;is_in_word = 0;// 判断是否在字典中->遍历有序字典到当前字典末端,time = 0 等价于 !valwhile (para_word_dict[j].time != 0 && j < 1000) {if (strcmp(para_word_dict[j].val, temp) == 0) {para_word_dict[j].time++;is_in_word = 1;break;}j++;}// 不在,则新增一个val,timeif (!is_in_word) {strcpy(para_word_dict[j].val, temp);para_word_dict[j].time++;}}// 获取新字符串temp = strtok(NULL, " ");}qsort(para_word_dict, 1000, sizeof(para_word_dict[0]), Cmp);// 输出char* res = (char*)malloc(11);memset(res, 0, 11);strcpy(res, para_word_dict[0].val);return res;
}