发际线堪忧的小 Q,为了守住头发最后的尊严,深入分析了几十款防脱洗发水的评价,最后综合选了一款他认为最完美的防脱洗发水。

SRE实战 互联网时代守护先锋,助力企业售后服务体系运筹帷幄!一键直达领取阿里云限量特价优惠。

 

一星期后,他没察觉到任何变化。

 

一个月后,他用卷尺量了量,发际线竟然后退了 0.5cm!难道防脱要经历一个物极必反的过程,先脱再长?小 Q 不甘心,决定继续坚持。

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第1张

 

 

两个月后,小 Q 心如死灰,忍不住和小 Z 抱怨。

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第2张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第3张

 

这句话,平地一惊雷,炸出了小 Q 惨痛的网购回忆。

 

他,屡屡冲着卖家秀而去,却屡屡化身买家秀而归。

 

说好的椰子!?

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第4张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第5张

 

我想买两个杯子来着,怎么变成了一个!?

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第6张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第7张

 

小 Q 曾经因为网购吃亏太多,而为自己的颜值和智商担忧。但经过小 Z 的点拨,他认定了一件事:活成卖家秀,并不是自身的问题,而是万恶的假评价误导了自己的消费决策。

 

为了自己,为了让更多的朋友免受误导,他和小 Z 一拍即合,决定用数据思维来鉴定刷单。

 

经过一番翻云覆雨,终于总结出了用数据鉴定刷单的两板斧。

 

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第8张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第9张

第一板斧:评销比

 

购买——使用——评价是一个完整的购后链路。消费者在购买了产品之后,一定会使用,但评价则需要一定场景来触发。

 

比如这个产品超出预期,我要感谢卖家!或者这个产品在侮辱我的智商,我要骂街!

 

当然,还存在一部分为了刷积分而评价的人,不过正常情况下,主动评论的人占总人数的比重是维持在稳定水平的。

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第10张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第11张

 

如果有通过大规模红包返现或其他人为手段刷的好评,在同样购买人数的前提下,参与评价的人大概率是高于正常的。

 

怎么衡量这个比例是否合理呢?这里,我们引入一个叫做评销比的指标。

 

评销比 = 单款产品总评论数 / 单款产品总销量 * 100,以此来衡量平均每卖出 100 单位的产品,对应着多少条评价。

 

接下来,我们导入爬取的脱敏真实数据(为了去重广告嫌疑脱的敏)来实践一下:

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第12张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第13张

 

增加一列计算评销比:

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第14张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第15张

 

看看评销比分布形态,数据在 20 左右分散开来,略微偏右:

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第16张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第17张

 

从评销比分布图,可以看出在 40 处有二次下跌,我们暂且把 40(一般也可以尝试平均值)设置为一个筛选阈值,高于阈值的判定为有刷单嫌疑。

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第18张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第19张

 

第一版斧挥过,12% 疑似刷单的产品应声倒下,小 Z 露出了欣慰的微笑。

 

小 Q 却眉头紧锁:“这个鉴定逻辑是有一定道理,但是,我买的那款洗发水竟然逃过了筛选!”

 

不要慌,我们还有第二板斧保驾护航。

 

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第20张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第21张

第二板斧:内容重复度

 

第二板斧整个判别逻辑极其简单粗暴:对于一款产品,如果存在不同的用户,在不同的时间,评论了相同的内容,那妥妥的是刷啊!

 

直接上案例数据,我们爬取了小 Q 购买的那款防脱洗发水评价,共计1706条:

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第22张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第23张

 

为了让鉴别更加科学,先换位思考:除极端情绪外,我们自己在评论时总会用“还行”、“一般般”、“刚收到,还没用”等短评来敷衍。这些短评非常容易重复,但也不能说是刷的评价。

 

so,我们在用重复度鉴别时,可以先预设一个评论长度作为筛选标准,比如只对超过 15 个字的评论进行重复度匹配:

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第24张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第25张

 

长度筛选之后,正好还剩下 1200 条评价,下面开始正式匹配。大家如果想更精细,可以考虑用文本挖掘等高阶方法,在这里我们用最最最简单粗暴的文本排序:

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第26张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第27张

 

前 6 条评价,有 3 个不同的客户,分别在 19 年的 10 月 16 日、24 日和 21 日发表了相同的内容,他们都受高考压力影响,脱发严重,每天房间、床铺、地上掉满他们的头发。

 

幸好!!!他们在秃顶前遇到了这款洗发水!用了几次不仅比之前掉的少,还新长出来了一些小碎发!

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第28张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第29张

 

177 个字,洋洋洒洒,令人动容!

 

但这到底是偶然的巧合还是有组织刷的评价呢?我们不能这么简单下定论。

 

继续看一看,这些长篇大论一字不差的重复评论有多少条:

注:A、B、C 三条内容完全一样,则统计为 3 条重复评价

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第30张Python 教你识别淘宝刷单,买到称心如意的商品 Python 第31张

 

1200 条超过 15 个字的评价,有 378 条是虚伪的,占比高达 31.5%。

 

他们文风多变,除了“高考压力”,还有“为父分忧而买”、也有“被微博广告安利”、甚至有“担心被骗,用第二套才敢评价的”。

 

可谓情真而意切,感人而至深!

 

小 Z 看过评价,深深不能自拔,瞬间理解了小 Q 为什么被忽悠。

 

“你跺你也麻啊!”

 

幸好,以后有了这两板斧保驾护航,再也不用担心这些虚评假意了。

 

发际线堪忧的小 Q,为了守住头发最后的尊严,深入分析了几十款防脱洗发水的评价,最后综合选了一款他认为最完美的防脱洗发水。

 

一星期后,他没察觉到任何变化。

 

一个月后,他用卷尺量了量,发际线竟然后退了 0.5cm!难道防脱要经历一个物极必反的过程,先脱再长?小 Q 不甘心,决定继续坚持。

 

两个月后,小 Q 心如死灰,忍不住和小 Z 抱怨。

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第32张

 

这句话,平地一惊雷,炸出了小 Q 惨痛的网购回忆。

 

他,屡屡冲着卖家秀而去,却屡屡化身买家秀而归。

 

说好的椰子!?

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第33张

 

我想买两个杯子来着,怎么变成了一个!?

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第34张

 

小 Q 曾经因为网购吃亏太多,而为自己的颜值和智商担忧。但经过小 Z 的点拨,他认定了一件事:活成卖家秀,并不是自身的问题,而是万恶的假评价误导了自己的消费决策。

 

为了自己,为了让更多的朋友免受误导,他和小 Z 一拍即合,决定用数据思维来鉴定刷单。

 

经过一番翻云覆雨,终于总结出了用数据鉴定刷单的两板斧。

 

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第35张

第一板斧:评销比

 

购买——使用——评价是一个完整的购后链路。消费者在购买了产品之后,一定会使用,但评价则需要一定场景来触发。

 

比如这个产品超出预期,我要感谢卖家!或者这个产品在侮辱我的智商,我要骂街!

 

当然,还存在一部分为了刷积分而评价的人,不过正常情况下,主动评论的人占总人数的比重是维持在稳定水平的。

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第36张

 

如果有通过大规模红包返现或其他人为手段刷的好评,在同样购买人数的前提下,参与评价的人大概率是高于正常的。

 

怎么衡量这个比例是否合理呢?这里,我们引入一个叫做评销比的指标。

 

评销比 = 单款产品总评论数 / 单款产品总销量 * 100,以此来衡量平均每卖出 100 单位的产品,对应着多少条评价。

 

接下来,我们导入爬取的脱敏真实数据(为了去重广告嫌疑脱的敏)来实践一下:

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第37张

 

增加一列计算评销比:

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第38张

 

看看评销比分布形态,数据在 20 左右分散开来,略微偏右:

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第39张

 

从评销比分布图,可以看出在 40 处有二次下跌,我们暂且把 40(一般也可以尝试平均值)设置为一个筛选阈值,高于阈值的判定为有刷单嫌疑。

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第40张

 

第一版斧挥过,12% 疑似刷单的产品应声倒下,小 Z 露出了欣慰的微笑。

 

小 Q 却眉头紧锁:“这个鉴定逻辑是有一定道理,但是,我买的那款洗发水竟然逃过了筛选!”

 

不要慌,我们还有第二板斧保驾护航。

 

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第41张

第二板斧:内容重复度

 

第二板斧整个判别逻辑极其简单粗暴:对于一款产品,如果存在不同的用户,在不同的时间,评论了相同的内容,那妥妥的是刷啊!

 

直接上案例数据,我们爬取了小 Q 购买的那款防脱洗发水评价,共计1706条:

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第42张

 

为了让鉴别更加科学,先换位思考:除极端情绪外,我们自己在评论时总会用“还行”、“一般般”、“刚收到,还没用”等短评来敷衍。这些短评非常容易重复,但也不能说是刷的评价。

 

so,我们在用重复度鉴别时,可以先预设一个评论长度作为筛选标准,比如只对超过 15 个字的评论进行重复度匹配:

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第43张

 

长度筛选之后,正好还剩下 1200 条评价,下面开始正式匹配。大家如果想更精细,可以考虑用文本挖掘等高阶方法,在这里我们用最最最简单粗暴的文本排序:

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第44张

 

前 6 条评价,有 3 个不同的客户,分别在 19 年的 10 月 16 日、24 日和 21 日发表了相同的内容,他们都受高考压力影响,脱发严重,每天房间、床铺、地上掉满他们的头发。

 

幸好!!!他们在秃顶前遇到了这款洗发水!用了几次不仅比之前掉的少,还新长出来了一些小碎发!

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第45张

 

177 个字,洋洋洒洒,令人动容!

 

但这到底是偶然的巧合还是有组织刷的评价呢?我们不能这么简单下定论。

 

继续看一看,这些长篇大论一字不差的重复评论有多少条:

注:A、B、C 三条内容完全一样,则统计为 3 条重复评价

 

Python 教你识别淘宝刷单,买到称心如意的商品 Python 第46张

 

1200 条超过 15 个字的评价,有 378 条是虚伪的,占比高达 31.5%。

 

他们文风多变,除了“高考压力”,还有“为父分忧而买”、也有“被微博广告安利”、甚至有“担心被骗,用第二套才敢评价的”。

 

可谓情真而意切,感人而至深!

 

小 Z 看过评价,深深不能自拔,瞬间理解了小 Q 为什么被忽悠。

 

“你跺你也麻啊!”

 

幸好,以后有了这两板斧保驾护航,再也不用担心这些虚评假意了。

扫码关注我们
微信号:SRE实战
拒绝背锅 运筹帷幄