我不明白为什么其他所有人都提出如此复杂的正则表达式或如此长的代码。本质上,你想从字符串中获取两种东西:不是空格或引号的字符序列,以及两种引号之间以引号开头和结尾且中间没有引号的字符序列。你可以使用以下正则表达式轻松匹配这些内容:
[^\s"']+|"([^"]*)"|'([^']*)'
我添加了捕获组,因为你不需要列表中的引号。
此Java代码构建列表,如果匹配则将捕获组添加到引号中,如果捕获组不匹配(匹配未引用的单词),则添加总体正则表达式匹配。
List<String> matchList = new ArrayList<String>();
Pattern regex = Pattern.compile("[^\\s\"']+|\"([^\"]*)\"|'([^']*)'");
Matcher regexMatcher = regex.matcher(subjectString);
while (regexMatcher.find()) {
if (regexMatcher.group(1) != null) {
// Add double-quoted string without the quotes
matchList.add(regexMatcher.group(1));
} else if (regexMatcher.group(2) != null) {
// Add single-quoted string without the quotes
matchList.add(regexMatcher.group(2));
} else {
// Add unquoted word
matchList.add(regexMatcher.group());
}
}
如果你不介意在返回列表中使用引号,则可以使用更简单的代码:
List<String> matchList = new ArrayList<String>();
Pattern regex = Pattern.compile("[^\\s\"']+|\"[^\"]*\"|'[^']*'");
Matcher regexMatcher = regex.matcher(subjectString);
while (regexMatcher.find()) {
matchList.add(regexMatcher.group());
}