在 Kakao地图 选择餐厅时,人们最先看的往往是星级评分。如果评分是 4.8、评论有 500 条,大多数消费者都会毫不怀疑地决定前往。

Naver 已在 2023 年取消了餐厅星级评分。Kakao 也正在引入支付认证和现场照片认证制度,这说明各大平台其实都已经意识到星级评分的局限。

那么,Kakao地图 的星级评分究竟有多准确?我们对首尔·京畿道 84,736 家店铺的 175 万条评论进行了全量分析,验证了星级评分的可信度。

1

Kakao 评分 4.8 以上,98.9% 被归类为美食店

本次分析引入了“Gold 评论者”这一概念。也就是在 Kakao地图 上撰写了 50 条以上评论,且平均评分在 2.5~4.2 分之间的评论者——既不过分宽容,也不过分苛刻,是相对平衡的评价者。我们以这些 Gold 评论者为核心,为全体评论者赋予可信度权重,计算出加权正向率。75% 以上归类为美食店,50% 以上归类为不错,30% 以下则归类为注意。

按照这一标准,对 8,248 家 Kakao 评分 4.8 以上的店铺进行判定后发现,其中 98.9% 被归类为美食店。“不错”占 1.1%,而“普通及以下”仅占 0.02%。其中 2,995 家满分 5.0 的店铺全部都是美食店。

98.9%
Kakao 评分 4.8 以上店铺中被判定为“美食店”的比例
图表 1
Kakao 高评分店铺的实际判定分布
基于加权正向率的判定 · 排除无法判定项 · 69,069 家店铺
美食店 (75%+) 不错 普通 注意 4.5+ 4.8+ 5.0 91.1% 8.5% 98.9% 100% 0.39% 0.02% 0%
右侧数值:"普通+注意"合计的失望率。结果显示,Kakao 评分只要超过 4.5,令人失望的概率也仅有 0.39%。

如果选择 Kakao 评分 4.5 以上的店铺,被判定为“普通及以下”的概率只有 0.39%;到了 4.8,这一数字更降至 0.02%。单从数字来看,Kakao 的星级评分相当准确。

那么,星级评分的“谎言”是否根本不存在?如果把数据再往深处看一层,故事就不一样了。问题并不出在星级评分本身,而是构成这个评分的评论者质量

2

比起 500 条评论,Gold 评论者人数更能决定准确度

一般来说,人们会认为评论越多,星级评分就越准确。500 条评论比 30 条更值得信赖,这是很直观的想法。但数据呈现出的却是另一种面貌。

我们将 Kakao 星级评分与加权分析分数之间相差超过 0.5 分的比例,也就是“星级误差率”,按评论数以外的另一项指标——Gold 评论者人数——进行分类比较。

图表 2 — 核心
按 Gold 评论者人数划分的星级误差率
Kakao 星级评分与加权分析分数差值 ≥ 0.5 分的比例
0% 10% 20% 30% 40% 误差在 0.5 分以上的比例 Gold 0 人 4,474 家店 33.6% Gold 1–2 人 16,918 家店 30.0% Gold 3–4 人 15,486 家店 21.6% Gold 5–9 人 21,141 家店 15.7% Gold 10–19 人 6,408 家店 7.4% Gold 20 人+ 4,642 家店 1.4% 没有 Gold 时,3 家里就有 1 家不准确 Gold 20 人+ → 误差 1.4%
如果 Gold 评论者为 0 人,那么每 3 家店里就有 1 家的 Kakao 星级评分会偏离 0.5 分以上;而当 Gold 评论者达到 20 人以上时,误差率会收敛到 1.4%。
33.6%
Gold 为 0 人时
星级误差率
1.4%
Gold 为 20 人+ 时
星级误差率

在一个 Gold 评论者都没有的店铺中,Kakao 星级评分与实际情况相差 0.5 分以上的比例高达三分之一(33.6%)。相反,在 Gold 评论者达到 20 人以上的店铺中,这一比例会降到 1.4%。这一定量结果清楚地说明:决定星级评分准确度的,不是评论数量,而是评论者质量

实际上,即使有 500 条评论,如果 Gold 评论者只有一两人,店铺的星级可信度依然偏低;反过来,即使只有 50 条评论,只要 Gold 评论者超过 10 人,误差率也会显著降低。

3

“干净”的店,Kakao 反而会低估

在本次分析中,我们将评分虚高程度分为 3 个等级。如果缺乏辨别力的评论比例超过 40%,或 Kakao 星级评分与加权分数差值超过 0.5 分,则归为“注意”;若达到 20% / 0.3 分,则归为“可疑”;其余则归为“干净”。

值得关注的是“干净”等级店铺的数据。

图表 3
按泡沫等级划分的 Kakao 星级扭曲与失望率
Kakao−加权分数差值 + “普通+注意”判定比例
等级 Kakao−加权分数差值 普通+注意比例 店铺数 干净 正常 −0.39 19.0% 39,743 可疑 轻微 −0.15 15.5% 20,823 注意 严重 +0.48 55.0% 8,503 在“干净”的店铺中,Kakao 星级评分反而比实际低 0.39 分。 在“注意”等级中,高估达 +0.48 分,普通及以下比例为 55%。

在“干净”等级的店铺中,Kakao 星级评分比加权分析分数低了 0.39 分。也就是说,那些更挑剔的评论者给出的评价,反而比 Kakao 平均分更高。这意味着一间 Kakao 评分只有 3.9 的“干净”店铺,实际水平可能达到 4.3。

相反,在“注意”等级中,Kakao 则被高估了 0.48 分,而“普通+注意”的判定比例高达55%。也就是说,即便同样是 Kakao 评分 4.3,依据泡沫等级不同,实际情况也可能完全不同。

4

确实存在 Kakao 评分 4.5、实际却只有 1.38 的店

Kakao 评分在 4.0 以上、却被判定为“普通”以下的店铺共有 772 家。将这些店铺的 Kakao 星级评分与加权分析分数差值按判定结果拆分后,可以看到一种非常一致的模式。

图表 4
按判定结果划分的 Kakao 虚高程度与 Gold 评论者人数
Kakao 4.0+ 店铺 · 排除无法判定项
判定 Kakao vs 加权分数差值 平均 Gold 数 店铺数 美食店 −0.07 6.1 人 26,009 不错 +0.08 7.7 人 10,492 普通 +1.10 2.8 人 712 注意 +1.32 1.7 人 60 被判定为“普通”/“注意”的店铺,Gold 数平均仅 1.7~2.8 人,连美食店的一半都不到。

被判定为美食店的店铺,Kakao 星级评分与加权分数的差值仅为 −0.07 分,几乎可以视为一致;“不错”也只有 +0.08 分,仍在误差范围内。

但在被判定为“普通”的店铺中,Kakao 被高估了 1.1 分;而“注意”则被高估了 1.32 分。这意味着一间 Kakao 评分 4.2 的店,实际水平可能只有 2.9。它们的共同点是,Gold 评论者平均只有 1.7~2.8 人,几乎等于没有。

看具体案例,这一模式会更加清晰。

店名 Kakao 加权分数 差值 Gold 判定
양*** 삼성역점 4.5 1.38 +3.12 1 人 普通
남****** 양주덕계점 4.6 2.24 +2.36 1 人 普通
바******* 별가람역점 4.6 2.67 +1.93 3 人 普通
당**** 신촌점 4.6 3.14 +1.46 5 人 普通
판** 수내직영점 4.5 3.33 +1.17 2 人 普通

以 양*** 삼성역점(Yang*** 三成站店)为例,Kakao 评分虽然高达 4.5,但加权分析分数只有 1.38,两者相差 3.12 分。而 Gold 评论者仅有 1 人。판** 수내직영점(Pan** 水内直营店)则有 573 条评论,数据量看似充足,但 Gold 也只有 2 人。也就是说,即使评论很多,只要缺少可信的评论者,星级评分的意义就会被稀释。

被判定为“普通”以下的 772 家店铺,其共同点非常明确:平均 Gold 评论者仅 2.4 人,Kakao 评分平均高估幅度为 +1.1 分。这反映出一种结构性问题——缺少能够验证星级评分的、平衡而可靠的评价者。

5

比星级评分更重要的,是构成评分的人

事实证明,Kakao 的星级评分本身并不是在“说谎”。问题出在这样一种结构:所有评论都会被平等地计入星级评分。写过 3 条评论的新手用户,和写过 200 多条评论的资深评论者,他们的评分在平均值中拥有同样的权重。

Naver 之所以取消星级评分,Kakao 之所以引入支付认证和现场照片认证,看起来也都源于同样的问题意识。核心限制不在于星级评分本身,而在于缺少一套评估“构成星级评分的评论者质量”的机制

挑选美食店时的实战清单

泡沫等级“干净” + Gold 5 人以上
这是 Kakao 星级评分反而被低估的区间。即使评分只有 3.9,实际也可能达到 4.3 水平。
泡沫等级“可疑”或 Gold 少于 3 人
建议同时查看加权正向率。比起评论数,看 Gold 人数更有意义。
泡沫等级“注意”
判断时请先从 Kakao 星级评分中减去 0.5 分。这个区间里有 55% 被判定为普通及以下。

对 175 万条评论的分析,结论非常明确。Kakao 评分 4.8 几乎总是准确的。真正的谎言不在星级数字本身,而是出现在没有 Gold 评论者支撑、却只有高分的店铺中。

对消费者来说,比起只看星级数字本身,更重要的是同时确认构成这个数字的评论者结构。与其数评论条数,不如看有多少经验丰富、评价平衡的评论者。要避开星级评分的“谎言”,这或许才是最现实的方法。