前不久,百度公开数据屏蔽3.8亿条虚假有害链接,处理超过1亿个违规站点,在2014至2015年两年时间里拒绝了5亿条推广信息,2015年拒绝438300个不良账户。
百度经常被质疑,搜索结果中存在虚假推广信息,夸大宣传等问题,不少人认为只要有钱就能在百度上做推广,谁出价高就能排在搜索结果的第一位。而百度推广确实存在各种问题,如同阿里平台中始终有假货存在,在这方面百度责无旁贷。但在道德审判之外,我更为关心具体的场景细节,到底百度需要面临怎样的“骗子横行”?以及夹在“骗子”与“需求”之间的百度在其中究竟做了什么?每个硬币都有一体两面,本文希望能够通过纯粹的技术视角来重新看百度的另一面。
事件回放
此前,一位前百度高管找到李彦宏,为一家著名投资机构旗下的P2P公司说情,希望加入到能够在百度进行推广的“P2P网贷平台白名单”。而说情的原因是因为这家P2P公司的资质未能达到百度信誉的评定标准,并被百度拒绝推广请求,虽然这家P2P公司也获得了正规知名机构的风险投资,并且这位前高管在百度内部有着很多“人脉资源”甚至有直接上达李彦宏的权力,但百度方面依然表示需要按照百度的信誉V体系来审核,并且最终仍然没有通过审核。
除此之外,事实上百度还做了大量反诈骗的工作, “网民权益保障计划”网站中,百度就对部分诈骗网站进行了曝光。
而这些反诈骗案例得以曝光,都与“百度信誉V体系”有关,如同阿里打假的“神盾局”,“百度信誉V体系”也是百度的防火墙,为什么李彦宏如此信任这道防火墙,甚至可以直接拒绝前高管的请求?
百度信誉V体系,三道防火墙
简单的说百度信誉V体系就是对企业信誉的评级,百度首先通过这套评级机制来决定企业是否有资格在百度进行推广,并且即使已经入住的企业,“百度信誉V体系”依然会对其进行持续性的监督,中途一旦发现违规就根据具体情况进行暂停推广、警告、永久封号、上报公安等等具体措施。
信誉V体系主要依托人工与大数据的混合监控,在数据审查主要分为三层递进方式,可以看成是三道防火墙。
1)第一道防火墙,百度没有该企业数据,要求资质信息
没有任何一家企业可以随意在百度投放推广信息,根据每个行业的审核机制不同,百度会要求提供每个行业的企业背景资料和相关证件,包括公司营业执照原件及营业执照上登记的法定代表人的身份证原件的影印件,以及法定代表人手持自己身份证的肖像照片等等。
百度通过“实名认证、资信认证、商标认证、授权认证、官网认证、诚企专区”等六大产品彻底核实企业身份信息的真实性。
基本的企业信息审核,这是第一道防火墙。
2)第二道,百度拥有部分该企业数据,全网信用建模
只是获得企业的给到的信息是远远不够的,这等于博弈的筹码完全在对方手里,而百度方面也需要自己的筹码,也就是对方的数据信息。百度主要采取了以下数据收集的方式对该企业进行全网的信用建模。
接入政府方面的第三方数据,通过接入工商信息数据、全国个人身份信息数据等等相关部门数据,通过人工审查,实现100%的信息准确性核实,进而规避部分地区工商网站建设落后导致的人工审核受限、无企业信息可查的问题。其次是通过政府方面的监管记录可以对企业进行更严密的监控,下图以“苏宁”为例。
百度的此类相关数据均来自政府监管。
其次通过全网数据对其进行建模,百度有着可以对“事件”建模的技术,例如我们搜索“张飞”时百度可以根据全网的数据,找出一切与张飞的关联人物,诸如赵云、刘备等等,如图。
因此我们继续以“苏宁”举列,百度会根据“苏宁”这个关键词索引一切关联的大数据、诸如“天猫”、"京东"、"家电"、"家电"等等关键词,进行一个大的品牌建模。其中百度会抽取大数据中的诸如“苏宁电器质量怎么样?”、“苏宁发货速度好快”等等全网的相关键词搜索信息、媒体网站舆论信息、问答网站信息、百度口碑信息等等多方信息,对其进行一个信誉体系的建模,反向得出其信誉指数。
也就是说,想要在百度进行推广的企业,在其入驻百度之前,百度就已经有了其相关的大量数据信息,从政府方面提供的信息再到全网的信誉初级指数,凡是能够有该企业数据的地方百度都会不遗余力的去收集。
因此,即使一个网站给了百度初级的资质信息,但只要无法与百度取的的政府信息匹配,以及有着不良的全网信息记录评级,就不可能被允许投放推广信息。在这套系统制约下,百度信誉认证体系已封禁企业达20546家,共封禁194392个推广账户。
3)第三道防火墙,持续监督该企业数据,全网追踪跟进+百度口碑
推广信息动态监控,上面两道防火墙都是建立在投放推广信息之前,而让百度最为头疼的则是在投放推广信息之后,大部分作恶的企业都是在百度审核之时交给了百度一个正常的网页,而在百度通过审核之后便通过代码技术,偷偷换上自己的非法内容,瞒天过海,在百度那里原来看到的“正常内容”,到了用户那里就变成了“作恶内容”。
举个例子,一些不法推广公司会在Flash推广信息中嵌入第三方外链或php脚本内容,会根据IP、时段、设备的不同进行不同的跳转,并且还会监视百度蜘蛛的抓取技术躲避百度监控,早上同一个链接点开可能是正常的钢材推广信息,但是到了晚上就变成了色情内容,而百度面通过建立程序员组建立Flash信息的代码解析模块,24小时监控,主动发现其中“不应出现”的外链或php脚本内容。
经过这么多年的“交手”,百度目前基本已经杜绝推广信息作弊。去年百度共封禁Flash账户超1.5万个,涉及Flash信息数超570万条,其中机器拒绝违规Flash信息通过共近60万条。
全网数据动态监控,“百度信誉V”体系并非永久不变,对于百度来说除了在企业主推广之前对其进行全网建模以外,还会持续跟进对其信誉的评级,一旦在权威媒体网站或者在关键词搜索中检索到其负面内容,或者检测到政府方面对该企业给予了处罚内容,那么企业信誉则会发生相应波动,而当波动幅度过大时,百度方面会立即进行人工检查,并可能立即停止其推广行为。
百度口碑,该项目是百度内部自建项目,通过利用百度用户的UGC内容对各大网站内容进行用户评级,这也是“百度信誉V”体系中的一环。目前百度口碑中集成了评论、实名曝光、舆情观察等内容。用户的海量曝光投诉,对“百度信誉V”有着较大的参考价值,以下为百度口碑的实名曝光。
一些思考
阑夕曾在《百度为什么要“卖”贴吧》一文中说过,由于国外有着极强的政府监管以及优渥的基础设施,因此谷歌在投放推广信息方面并没有太多后顾之忧,与政府有着泾渭分明的界限。
由于国内的监管机制、基础设施都起步较晚,导致原本属于政府的压力都转嫁到了互联网公司上,而一旦互联网公司监管不利,公众对互联网公司的愤怒反而大于对政府的愤怒,这里面或许有多少无奈。
此外,在当前的环境下,无论百度阿里腾讯都无法彻底禁止“作恶者”,百度眼皮底下依然会有钻空子的作恶者,阿里的平台上也无法做到完全禁止假货,而那些以微商之名做“传销”的假微商,也还是会对微信不择手段的利用。
但值得期待的另一面则是,互联网公司正在承担起这些责任,百度成立了“百度信誉V”,拒绝了5亿的推广频次,自掏近5000万的理赔费,阿里成立了“神盾局”,一年花费10亿用于打假,腾讯也在通过监测关键词禁止一切非法推广等等。
而这些公司处理的方式都有一个最大的共同点就是—技术,而技术只对结果负责,所有一切“作恶”都会被彻底放到放大镜底下被监视,脱离于原来的“人治监控”手段,也就可以避免各种因人而导致的不确定的利益勾结。
因此对于未来,当我们拿起放大镜去客观看每一个历史进程的细节时,那个真实的世界,一直都在变得更好。