阅读设置(推荐配合 快捷键[F11] 进入全屏沉浸式阅读)

设置X

046 湍流算法(3 / 4)

对于航司来说,一般这种特价票预定之后会有半小时的时间给买家付款,半小时内不付款就会再次进入票池,但爬虫技术却能在这些特价票进入到票池后秒之内再次抢到手,直到黄牛党找到愿意加价的买家,用买家身份信息购票并付款。

可以想象不管是12306还是各大航司,都恨透了这种爬虫。

毕竟黄牛的加价他们一分钱都赚不到,还增加了网络负载。

尤其是各大航司,本来是要让利给客户,增加客户粘性的,结果客户没享受到低价票,还会可能因为付了高价,没享受相对应的服务而恼火。

除了这种网络爬虫之外,还有一些更为恶意的网络爬虫,它们默默的潜伏在网络中不断爬取着各种私人的用户身份信息,各大连锁酒店、各种APP的用户系统等等,都是这些网络爬虫的目标。

可惜的是目前针对这些恶意网络爬虫并没有太好防御性技术手段,一般都是依靠各种硬软件防火墙技术来进行隔绝。

更让无数开发者为难的是,安全跟便捷性往往无法兼得。

这就好像12306曾经出台的那些让人崩溃的验证码,短暂制止了爬虫肆虐的同时,也让无数普通人晕头转向。

此时宁为脑海中的湍流算法,却能在兼顾便利性的同时,解决掉恶意爬虫肆虐的问题。

用可以理解的语言来表述这种算法的功能大概就是稳定态的数据流会在服务端数据接口如同像流水般缓缓正常流动。每一个连接请求都会直接影响这条处于平稳态的数据流。就好像平静流动的河面因为逆流而上的小鱼,而形成一个个湍流。

当服务端配置好湍流算法后,通过升级验证系统,平稳态的数据流就能通过无数次的访问,来智能判定各种连接请求是正常的还是其他非法请求,并以此判定出网络爬虫在做数据爬取,还是正常客户的正常访问。

做出区分之后,算法可以自动将这些爬虫指向目标直接引向一个数据湍流,在这里这些爬虫只能爬取到各种混乱且庞杂的无效数据然后反馈给爬虫作者。

这一过程如果精心布置还可能直接影响到接收信息的设备安全,让这些恶意爬虫无所遁形。

上一页 目录 +书签 下一页