您可能想查看tldextract,该库旨在执行这种操作。
它使用公共后缀列表尝试根据已知gTLD进行合理的拆分,但请注意,这只是一个蛮力列表,没有什么特别的,因此可以过时了(尽管希望它经过整理以免)。
>>> import tldextract
>>> tldextract.extract('http://forums.news.cnn.com/')
ExtractResult(subdomain='forums.news', domain='cnn', suffix='com')
因此,在您的情况下:
>>> extracted = tldextract.extract('http://www.google.com')
>>> "{}.{}".format(extracted.domain, extracted.suffix)
"google.com"