人民網
人民網>>經濟·科技

“爬虫”如何搶低價票?借助超鏈接信息抓取網頁

付麗麗
2017年12月27日08:36 | 來源:科技日報
小字號
原標題:“爬虫”如何搶低價票?借助超鏈接信息抓取網頁

  你的低價機票 被“虫子”吃了

  資料圖:一款搶票瀏覽器的廣告出現在北京的公交站台。中新社發 劉關關 攝

  不到兩個月,2018年春節要來了。

  “今年我得早下手,搶張回家的低價機票。”在北京打工的小王對科技日報記者說,由於老家在雲南,春節機票太貴,他都選擇坐兩天兩夜的火車回去,長途跋涉,苦不堪言。

  然而,就在小王摩拳擦掌,准備使出“洪荒之力”搶張便宜機票時,看到網上曝出這樣一則消息:航空公司放出的低價機票,80%以上被票務公司的“爬虫”搶走,普通用戶很少能買到。

  小王傻眼了,“爬虫”究竟是什麼鬼?它又是怎麼搶機票的?難道就沒有辦法治理嗎?

  借助超鏈接信息抓取網頁

  “‘爬虫’技術是實現網頁信息採集的關鍵技術之一,通俗來說,‘爬虫’就是一段用來批量、自動化採集網站數據的程序,幾乎不需要人工干預。”北京理工大學網絡科學與技術研究院副教授閆懷志告訴科技日報記者。

  閆懷志介紹,“爬虫”又稱網頁“蜘蛛”、網絡機器人,它是一種按照一定規則自動抓取網頁信息的程序或者腳本,通常駐留在服務器上。在Web網頁中,既包含可供用戶閱讀的文字、圖片等信息,還包含一些超鏈接信息。網絡“爬虫”正是借助這些超鏈接信息來不斷抓取網絡上的其他網頁。

  “這種信息採集過程很像一個爬虫或蜘蛛在網絡上漫游,網絡‘爬虫’或網頁‘蜘蛛’因此得名。”閆懷志說,“爬虫”最早應用在搜索引擎領域,比如谷歌、百度、搜狗等搜索引擎工具每天需要抓取互聯網上數百億的網頁,它們需要借助龐大的“爬虫”集群來實現搜索功能。

  當前,“爬虫”已被廣泛用於電子商務、互聯網金融等諸多領域。比如,“爬虫”可以抓取航空公司官網的機票價格,發現低價或緊俏機票后,“爬虫”可以利用虛假客源的真實身份信息實現搶先預訂。再有,很多互聯網瀏覽器都推出了自己的搶票插件,以高訂票成功率來推廣瀏覽器。

  根據抓取任務和目標的不同,網絡“爬虫”可大致分為批量型、增量型和垂直型。批量型“爬虫”的抓取范圍和目標較為明確,可以是網頁的設定數量,也可以是消耗時間的設定。增量型“爬虫”主要用於持續抓取更新的網頁,以適應網頁的不斷變化。垂直型“爬虫”主要是用於特定主題內容或特定行業的網頁。

  “爬虫”究竟是如何搶票的

  此前,在線票務服務公司攜程的“反爬虫”專家在技術分享中透露,某網站的一個頁面,每分鐘的瀏覽量是1.2萬,真實用戶隻有500個,“爬虫”流量佔比為95.8%。

  採訪中,很多業內人士也表示,即使在“爬虫”活動的淡季,虛假流量也佔到訂票網站總流量的50%,高峰期更是在90%以上。

  那麼,“爬虫”究竟是如何實現搶票的呢?對此,閆懷志解釋,主要是機票代理公司利用“爬虫”技術,不斷抓取航空公司售票官網網頁信息,如果發現該航空公司有低價票放出,“爬虫”即刻利用虛假客源身份進行批量預定但不實際支付,以達到搶佔低價票源的目的。由於“爬虫”的效率遠遠超過正常的手動操作,導致通過正常操作幾乎無法搶到票。

  隨后,機票代理公司會通過其自身銷售渠道(包括公司網站、在線旅行社、客戶電話訂購等)找到真正的客源,在航空公司允許的賬期內,退訂此前使用虛假客源身份預定的低價票,然后使用真實身份信息進行訂購,最后實現該低價票的加價轉售。

  如果未在航空公司規定的賬期內找到真正客源,機票代理公司會在訂單失效前再追加虛假身份訂單,繼續“霸佔”該低價票,如此反復,直至找到真正客源售出為止。

  “上面的操作流程就構成了完整的機票銷售鏈條。在這個過程中,航空公司售票系統允許在賬期內反復訂、退票的規定為機票代理公司利用‘爬虫’搶票並加價獲利提供便利。這種搶票方式,被稱為技術‘黃牛’。”閆懷志強調。

  的確,有業內人士表示,這些“爬虫”流量消耗了大量的機器資源,卻不產生任何消費,這是每個公司最痛恨的東西。但是,因為怕誤傷真實用戶,各家公司的“反爬虫”策略做得非常謹慎。

  採用一定手段 “爬虫”可防可控

  任何事情都有兩面,“爬虫”技術也不例外。

  在閆懷志看來,“爬虫”既可為正常的數據批量獲取提供有效的技術手段,也可被惡意使用以獲取不當利益。如果“爬虫”技術被不正當利用,就會帶來一定的危害。

  首先,威脅數據安全。航空公司售票網站數據被惡意爬取,數據可能會被機票代理公司惡意利用,而且還存在被同業競爭對手獲取的風險。

  其次,導致系統性能下降,影響用戶體驗。“爬虫”大量的抓取請求會導致航空公司售票網站服務器資源負載上升、性能下降,網站響應變慢甚至無法提供服務,對用戶搜索和交易體驗造成負面影響。但由於存在巨大的灰色利益空間,同時“反爬虫”技術在與“爬虫”對抗中作用有限,使得這種顯失公平的“作弊”方式成為擾亂機票市場秩序的技術“頑疾”。

  “從技術角度來看,阻擊‘爬虫’可以通過網站流量統計系統和服務器訪問日志分析系統。”閆懷志說,通過流量統計和日志分析,如果發現單個IP訪問、單個session訪問、User-Agent信息超出設定的正常頻度閾值,則判定該訪問為惡意“爬虫”所為,將該“爬虫”的IP列入黑名單以拒絕其后續訪問。

  再就是設置各種訪問驗証環節。比如,在可疑IP訪問時,返回驗証頁面,要求訪問者通過填寫驗証碼、選取驗証圖片或者字符等方式實現驗証。如果是惡意“爬虫”爬取,顯然很難完成上述驗証操作,進而可以封鎖該“爬虫”的訪問,防止其惡意爬取信息。

  互聯網空間不能有“灰色地帶”

  當前,雲計算、大數據等為代表的新一代信息技術處在高速發展階段。

  “上述新技術如果被非法或者不當應用,則會產生嚴重的危害。互聯網空間安全需要建立健全完善的保護體系,絕不能‘裸奔’。”閆懷志說。

  2017年6月1日,我國《網絡安全法》正式實施,明確了各方在網絡安全保障中的權利與責任。這是中國網絡空間治理和法制建設從量變到質變的重要裡程碑,這部法律作為依法治網、化解網絡風險的法律重器,成為我國互聯網在法治軌道上健康運行的重要保障。

  然而,目前對於高科技“黃牛”倒票行為,尚未有明確規定,使得惡意爬取信息並不當獲利行為處在法律法規監管的“灰色地帶”。

  閆懷志介紹,國際上,針對“爬虫”應用,專門制訂了Robots協議(即“爬虫”協議、網絡機器人協議等)。該協議全稱為“網絡爬虫排除標准”,網站可通過該協議告知“爬虫”可以爬取哪些頁面及其信息,不能爬取哪些頁面及其信息。該協議作為網站和“爬虫”的溝通方式,用來規范“爬虫”行為,限制不正當競爭。

  作為國際互聯網界通行的道德規范,該協議的原則是:“爬虫”及搜索技術應服務於人類,同時尊重信息提供者的意願,並維護其隱私權﹔網站有義務保護其使用者的個人信息和隱私不被侵犯。這就規定了爬取者和被爬取者雙方的權利和義務。

  一位不願具名的法律專家也表示,“反爬虫”不僅要依靠技術防范和業界自律,還應該通過完善管理和法律法規手段來約束這種行為,尤其是法律手段才能彰顯懲治力和震懾力。航空公司也要完善賬期管理,不給“爬虫”搶票提供機會。

  本報記者 付麗麗

(責編:趙爽、李棟)

分享讓更多人看到

推薦閱讀
產業觀察:“618”平台促銷常態化 消費者購物日趨理性
  預售訂金(定金)和尾款、直播、全場滿贈和滿送、跨店津貼、購物返券、滿減打折……今年“618”期間,各平台推出系列優惠活動來吸引消費者。然而,此次年中大促,似乎越來越多的消費者們已經沒有了當年一遍又一遍算優惠,然后定表開搶的熱情,而是選擇了“躺平式”參與。…
証監會發布《挂牌公司信息披露電子化規范》等五項金融行業標准
  人民網北京6月18日電 (記者王震)據証監會網站消息,近日,証監會發布《証券期貨業結算參與機構編碼》《挂牌公司信息披露電子化規范 第1部分:公告分類及分類標准框架》《挂牌公司信息披露電子化規范 第2部分:定期報告》《挂牌公司信息披露電子化規范 第3部分:臨時報告》《証券期貨業大數據平台性能測試指引》五項金融行業標准,自公布之日起施行。 証監會介紹,《証券期貨業結算參與機構編碼》標准的實施,通過為証券期貨業結算參與機構分配統一的編碼,可有效降低編碼轉換和適配工作成本,便於機構間以及結算參與機構內部進行數據查詢、統計、分析、挖掘以及數據共享等工作,進一步促進行業數據標准化,支持行業數據治理工作﹔《挂牌公司信息披露電子化規范》行業系列標准的制定實施有利於實現証券業內、挂牌公司之間的信息共享,推動挂牌公司信息披露和証券信息服務業規范、有序地發展﹔《証券期貨業大數據平台性能測試指引》的制定,從測試流程、測試方法和測試內容等方面規范了大數據平台性能測試,有效指導各証券期貨業機構開展性能測試工作,提升測試能力,提高測試效率,並基於測試結果客觀評估大數據平台產品性能。…
返回頂部