運用信息技術反剽竊是國內規范學術行為的有效措施之一。國外從20世紀70年代初,就開始有研究防止程序抄襲的軟件,但直至1991年第一個自然語言文本抄襲識別軟件WordCheck才誕生,目前廣泛應用并具有代表性的軟件有很多。如論文作業抄襲檢查平臺Turnitin,由 iParadigms開發,系統采用基于數字指紋的抄襲檢測方法,檢測資源包括網絡資源ProQuest論文庫、論文作業庫等。

提供的英文反剽竊服務目前已經服務于包括美國加州大學伯克利分校、杜克大學、德國漢堡大學等在內的2500多所高校和科研機構,遍及九十多個國家,檢索網頁數量超66億,用戶達650萬。據稱,該網站目前已阻止了世界范圍內將近600萬的學生和教育者的剽竊行為,在使用的高峰期,每天可以收到2萬篇論文。由CrossRef與iParadigms共同開發的抄襲檢測平臺CrossCheck,于2008年6月19日正式啟動。CrossCheck的功能由兩部分組成:一個基于全球學術出版物所組成的龐大數據庫和一個基于網頁的檢驗工具。這個基于網頁的工具可用于編輯過程中去鑒別相似文檔,生成對比報告,并通過分析去判斷是否存有學術剽竊行為。截止2010年3月,正式會員包括 Elsevier,Springer,牛津出版社,美國科學進步協會(AAAS),美國物理學會(APS),植物生物學會、《浙江大學學報》(英文版)等75家單位。
國內已研發出兩款較成熟的專門軟件,且兩款軟件的核心都是基于數字指紋的抄襲檢測方法進行文檔相似性檢測。一款是武漢大學沈陽副教授研制的“ROST反剽竊系統”軟件,目前已在全國20多所高校院系推廣和100多家期刊社使用。另一款是中國學術期刊電子雜志社與中國知網共同研制的“學術不端文獻檢測系統”,目前全國已有3000多家期刊和360所高校的研究生院免費使用這個軟件。ROST系統和CNKI系統當前的一個主要差異在于其使用的參照文檔數據庫不同。
“ROST反剽竊系統”軟件通過將切割文檔后混合引擎將其與188億個網頁和490萬篇文獻進行模糊匹配,標示出每個文本塊與文獻庫中的某些文獻的最大相似度。
中國知網從2006年開始立項研發基于全文的“學術不端文獻檢測系統”,以《中國學術文獻網絡出版總庫》為全文比對數據庫,采用基于數字指紋的多階快速檢測方法,支持從詞到句子、篇章級別的數字指紋,可對圖、表等特殊檢測對象進行基于標題、上下文、圖表內容結合的相似性檢測處理,還可根據特定的概念、觀點、結論等內容進行智能信息分類處理,實現語義級別內容的檢測。中國知網擁有文獻量居國際國內同類產品之首,這為其進行檢測提供了豐富的對比文獻資源。科技期刊檢測系統已經檢測的10多萬篇科技文獻中,文字復制比超過30%的超過1萬篇;學位論文檢測系統檢測5000篇學位論文,重合字數超過1萬篇的論文約1000篇。
目前Internet上還有一些提供文本抄襲檢測服務的網站和工具。例如,Plagiarism、mydropbox、WordCheck等。針對中文的paperpass提供法學論文和教育社科類論文的免費檢測服務;中國搜網站的文章照妖鏡工具基于谷歌和百度提供免費的檢測服務;拷克提供針對網頁內容抄襲的免費檢測服務。
