我正在尝试将包含2个不同字符的序列的字符串拆分为多个组.如果我们假设字符是a和b,则用于分组的纯文本规则为:
>组包含0 a,后跟1 b
>后面的所有a都包含在下一组中,除非我们在单词末尾.
例如:处理测试后,目标是分成预期的组.
tests = ['abab',
'ababab',
'aabab',
'aababa',
'aba',
'baba']
expected = [['ab','ab'],
['ab','ab','ab'],
['aab','ab'],
['aab','aba'],
['aba'],
['b','aba']]
我最近得到的是以下内容:
import re
# filter() returns iterator not list in Python 3
def testing(s):
return list(filter(None, re.compile('(a*b+a*(?=$))').split(s)))
output = [testing(s) for s in tests]
output
[['ab', 'ab'], ['abab', 'ab'], ['aab', 'ab'], ['aab', 'aba'], ['aba']]
在1-2组上效果很好,但对于大于1-2的组效果不好,这意味着我的正则表达式需要改进.我应该重新考虑这种方法吗?我可能可以使用for循环来做一些蛮力的工作,但是希望能做些更优雅的事情.
N.B .: This post使我相信.split()可能不是这里的解决方法,但是到目前为止,我已经获得了最好的结果.