SysNucleus WebHarvy(網(wǎng)頁采集)
v7.2.0.217 官方版 發(fā)表評論
- 軟件類別:電腦應(yīng)用
- 軟件大?。?30 MB
- 更新時間:2025-02-13 16:57
- 軟件版本:v7.2.0.217 官方版
- 軟件語言:英文
- 軟件等級:
- 官方網(wǎng)址:https://www.webharvy.com/
- 相關(guān)標(biāo)簽:網(wǎng)頁采集
評分:
好評:0
差評:0
應(yīng)用介紹
SysNucleus
WebHarvy提供網(wǎng)頁內(nèi)容采集功能,可以在軟件界面配置采集計(jì)劃,輸入一個網(wǎng)站,設(shè)置數(shù)據(jù)類型,設(shè)置頁面交互方式,設(shè)置捕捉數(shù)據(jù)的參數(shù),輸入采集的關(guān)鍵詞,創(chuàng)建采集計(jì)劃完畢就可以直接在電腦上快速捕捉自己需要的大量文本資源,將多個網(wǎng)站的貼子采集,將圖像網(wǎng)站的素材資源采集,將電子郵件采集,可以采集的資源還是非常多的,大部分網(wǎng)頁上的元素資源都可以批量下載到電腦使用,如果你需要這款軟件就下載使用吧。

軟件功能
圖像抓取
可以下載圖像或抓取圖像 URL。 WebHarvy 可以自動抓取顯示在 電子商務(wù)網(wǎng)站的產(chǎn)品詳細(xì)信息頁面。
分類抓取
WebHarvy 使您能夠從指向網(wǎng)站上類似頁面或列表的鏈接列表中抓取數(shù)據(jù)。此功能允許您使用單個配置抓取網(wǎng)站中的類別和子類別。
正則表達(dá)式
正則表達(dá)式 (RegEx) 可應(yīng)用于文本或 HTML source 的網(wǎng)頁來抓取匹配的部分。這 強(qiáng)大的技術(shù)為您提供更多的靈活性和控制力 over 數(shù)據(jù)選擇。
輕松的網(wǎng)頁抓取
使用 WebHarvy 的點(diǎn)擊式界面,Web 抓取變得毫不費(fèi)力。無需編碼或腳本即可抓取數(shù)據(jù)。使用 WebHarvy 的內(nèi)置瀏覽器,您可以加載網(wǎng)站、導(dǎo)航頁面,只需單擊即可選擇要抓取的數(shù)據(jù)。
智能模式檢測
WebHarvy 智能識別數(shù)據(jù)發(fā)生的模式 在網(wǎng)頁中。要抓取項(xiàng)目列表或表(名稱、 地址、電子郵件、價格等)在網(wǎng)頁中,不需要執(zhí)行其他步驟。如果數(shù)據(jù)重復(fù),WebHarvy 將 自動抓取它。
保存到文件或數(shù)據(jù)庫
抓取的數(shù)據(jù)可以以多種格式保存。最新版本的 WebHarvy 允許您將數(shù)據(jù)導(dǎo)出為 Excel、XML、CSV、JSON 或 TSV 文件。此外,您可以直接將數(shù)據(jù)導(dǎo)出到 SQL 數(shù)據(jù)庫(MySQL、SQL Server、Oracle 等)。
軟件特色
1、SysNucleus WebHarvy支持配置引導(dǎo)功能,可以閱讀軟件界面的提示文字
2、支持手動配置采集方案,可以添加需要采集的數(shù)據(jù)
3、支持網(wǎng)頁訪問功能,在軟件可以輸入需要采集的網(wǎng)站地址,可以直接瀏覽網(wǎng)頁內(nèi)容
4、支持多個URL地址采集,可以在軟件添加對應(yīng)的地址,匹配采集規(guī)則
5、支持圖像文件名設(shè)置,下載的圖像可以設(shè)置新的名字規(guī)則,支持從URL字符串自動命名圖像
6、標(biāo)記類別/URL/關(guān)鍵字:在數(shù)據(jù)表中添加一個額外的列,顯示與記錄相關(guān)的類別、URL或關(guān)鍵字,用于基于類別和關(guān)鍵字的抓取。
7、支持禁用加載圖像、禁用元素突出顯示、啟用web安全、禁用打開彈出窗口
8、使用單獨(dú)的瀏覽器引擎挖掘,啟用自定義用戶代理字符串,挖掘時自動刪除重復(fù)記錄
9、支持自動保存挖掘數(shù)據(jù),捕獲每100個數(shù)據(jù)后自動保存
使用方法
如何編輯配置 ?
要編輯已保存的配置,請點(diǎn)擊 Home 菜單中的 Open 按鈕打開配置 XML 文件。

然后,WebHarvy 將詢問您是使用配置開始挖礦還是對其進(jìn)行編輯。單擊 Edit configuration 按鈕。

您也可以點(diǎn)擊 編輯 主菜單中的按鈕開始編輯已加載的 配置。

單擊 Edit 按鈕后,WebHarvy 將開始加載配置。這 配置的起始頁將被加載并顯示在瀏覽器窗口中。預(yù)覽 還將顯示選擇進(jìn)行抓取的數(shù)據(jù)。在此之后,WebHarvy 會自動切換 設(shè)置為配置模式,您可以開始選擇要抓取的更多數(shù)據(jù)或刪除現(xiàn)有數(shù)據(jù) 選擇。您還可以編輯與配置關(guān)聯(lián)的 URL 和關(guān)鍵字。
添加 / 刪除數(shù)據(jù)
要選擇新數(shù)據(jù),只需單擊它。要刪除已選擇的數(shù)據(jù),請右鍵單擊 “Captured Data Preview”窗格,然后從“Delete”菜單中選擇要刪除的數(shù)據(jù),如圖所示 下面。

完成配置編輯后,單擊 Home 菜單的 Configuration 面板中的 Stop 按鈕。您現(xiàn)在可以通過單擊 Save 按鈕來保存配置,或者通過單擊 Start-Mine 按鈕來運(yùn)行配置。
在配置中添加/刪除 URL
在配置期間(或編輯配置時),您可以單擊配置菜單的編輯面板中的 URL 按鈕,以添加或刪除與 配置。

在結(jié)果窗口中,您可以在配置中添加或刪除 URL,如下所示。所有 URL added 將使用相同的配置進(jìn)行抓取。

如果您有一個 URL 列表(所有 URL 都屬于同一個域,共享相同的頁面布局),則 可以按照以下步驟使用此功能使用單個配置抓取所有 URL 下面給出。
1. 打開 WebHarvy 并導(dǎo)航到列表中的第一個 URL
2. 開始配置
3. 選擇所需數(shù)據(jù)
4. 在“配置”菜單中,單擊“編輯”面板中的“URL”按鈕。
5. 在結(jié)果窗口中,粘貼列表中所有剩余的 URL,然后單擊“應(yīng)用”
6. 停止配置
7. Start Mine - 列表中的所有 URL 都將使用相同的配置進(jìn)行抓取
編輯關(guān)鍵字
要編輯配置中的關(guān)鍵字,請?jiān)谂渲脮r(或編輯時 配置),單擊 Configuration 菜單的 Edit 面板中的 Keywords 按鈕,如下所示。

在結(jié)果窗口中,您可以添加/刪除與配置關(guān)聯(lián)的關(guān)鍵字。

編輯開始 URL 和發(fā)布數(shù)據(jù)
要編輯(更改)配置的 Start URL、Post Data 和 Headers,請?jiān)谂渲闷陂g單擊 Configuration 菜單的 Edit 面板中的 Start URL / PostData 按鈕,如 所 示。

在結(jié)果窗口中,您可以更改 Start URL、PostData 和 Headers 的值

在起始頁中禁用自動模式檢測
WebHarvy 會自動查找并提取起始頁中出現(xiàn)的重復(fù)數(shù)據(jù)模式 的配置。這可以幫助您從起始頁的所有記錄中選擇和抓取相似數(shù)據(jù) 只需單擊一下。但有時,當(dāng)起始頁數(shù)據(jù) 不是表格或列表,其中每頁的每個數(shù)據(jù)列只有一個條目。
例如,如果您在加載列出的產(chǎn)品的產(chǎn)品詳細(xì)信息頁面后開始配置 在亞馬遜,建議打開此選項(xiàng),因?yàn)槊總€選定的數(shù)據(jù)(如價格、評級、 ASIN 等)每個頁面(每個產(chǎn)品)僅出現(xiàn)一次。
如下所示,您可以從 Configuration 菜單的 Options 面板中選擇 Disable pattern detection 選項(xiàng)。

僅當(dāng) configuration 不是列表或表。默認(rèn)情況下,對于加載的頁面,模式識別處于禁用狀態(tài) 通過導(dǎo)航起始頁中的鏈接。
開始抓取數(shù)據(jù)
配置 WebHarvy 后(開始配置 - 數(shù)據(jù)選擇 - 停止配置)或之后 打開已保存的配置 XML 文件,單擊 Start-Mine 按鈕打開 Miner 窗口。

點(diǎn)擊 Miner 窗口中的 'Start' 按鈕開始挖礦 數(shù)據(jù)。如果您的配置涉及從多個頁面抓取數(shù)據(jù),您還可以指定要挖掘的頁面數(shù)。

WebHarvy 將開始挖掘數(shù)據(jù)。WebHarvy 的評估版僅限于 從最多 2 個頁面抓取數(shù)據(jù)。(一旦您購買了 完整版 WebHarvy)

多平臺下載
Pc版SysNucleus WebHarvy(網(wǎng)頁采集) v7.2.0.217 官方版
本類推薦
Advanced Archive Password Recovery(zip密碼破解軟件)
hwinfo64(系統(tǒng)信息檢測工具)
ACDSee Photo Studio Pro 2025(圖片編輯器)
360極速瀏覽器pc版安裝包
360小貝溫控
ShellExView(擴(kuò)展管理器)
Upscayl圖像放大增強(qiáng)工具
TreeSize Free(磁盤文件分析)
ones刻錄軟件
iToolab UnlockGo(蘋果解鎖軟件)
Topaz Video Enhance AI(視頻增強(qiáng))
變速齒輪游戲加速器
3DMark 11 Developer Edition(電腦跑分軟件)
sound lock音量控制工具
本類最新
kimi智能助手電腦版v2.0.3 官方版
Text Edit Plus(文本編輯器)v15.5 免費(fèi)版
純純寫作桌面版v1.9.1 官方版
騰訊ima電腦版v1.10.0 官方版
notepad++(代碼編輯器)v8.5 中文版
pdf補(bǔ)丁丁v1.1.2.4659 免費(fèi)版
十六進(jìn)制轉(zhuǎn)換文本工具v1.0.2 官方版
騰訊元寶電腦版v2.34.0.604 官方版
極強(qiáng)數(shù)據(jù)恢復(fù)軟件v7.0.4 官方版
云上PDF軟件v1.0.6.2070 官方版
點(diǎn)睛內(nèi)碼轉(zhuǎn)換器v0.95 綠色版
極強(qiáng)PDF轉(zhuǎn)換成WORD轉(zhuǎn)換器v5.2.3 官方版
PDF貓CAD轉(zhuǎn)PDF軟件v1.0 官方版
DumpViewer(dump轉(zhuǎn)txt工具)v2016301 免費(fèi)版
圖形轉(zhuǎn)cad工具v2.0 免費(fèi)版
相關(guān)應(yīng)用
kimi智能助手電腦版v2.0.3 官方版kimi智能助手功能豐富,可以在軟件和ai聊天,輸入文字內(nèi)容就可以開始提問,在百度無法查找到的答案都可以在這款軟件搜索,幾秒鐘就可以得到答案,提升用戶搜索的效率,軟件支持AI翻譯功能,可以在軟件執(zhí)行中文、英文相互翻譯,可以粘
Text Edit Plus(文本編輯器)v15.5 免費(fèi)版TextEditPlus提供文本編輯功能,可以在軟件編輯TXT文本,可以編輯HTML文本,可以編輯PDF文本,打開軟件就可以直接輸入文字內(nèi)容,中文和英文都可以在軟件輸入,也可以在軟件切換輸入的語法,支持使用C++、C#、CSS、Fortran、HTML、J
純純寫作桌面版v1.9.1 官方版純純寫作桌面版是一款碼字軟件,可以讓用戶在電腦上更快速寫作,軟件需要連接手機(jī)才能使用,可以在自己的手機(jī)安裝純純寫作軟件,保持手機(jī)和電腦連接同一個WiFi,隨后將手機(jī)的IP地址輸入到電腦軟件,這樣就可以將手機(jī)和電腦連接,碼
騰訊ima電腦版v1.10.0 官方版騰訊ima電腦版是一款A(yù)I寫作軟件,可以在軟件讓AI幫助你編輯作為,編輯論文,編輯其他文案內(nèi)容,直接在軟件啟動“智能寫作”模式就可以開始輸入文字主題,軟件會根據(jù)您的主題生成大量文字內(nèi)容,還是可以續(xù)寫您的文字,可以總結(jié)您輸
下載排行
- 1渝快政PC端
- 2企業(yè)微信pc客戶端
- 3HashTools(文件哈希值校驗(yàn)工具)
- 44DDiG DLL Fixer(DLL全能修復(fù)工具)
- 5Advanced Archive Password Recovery(zip密碼破解軟件)
- 6hwinfo64(系統(tǒng)信息檢測工具)
- 7全能王Windows密碼重置工具
- 8windows遷移助理
- 9標(biāo)簽管家PC版
- 10ACDSee Photo Studio Pro 2025(圖片編輯器)












網(wǎng)友評論
查看所有0條評論