手机扫描下载
应用指数:3 分
类型:电脑应用性质:国外软件版本:v7.2.0.217 官方版大小:130 MB更新:2025-02-13语言:英文等级:平台:WinXP, Win7, Win8, Win10, WinAll官网:https://www.webharvy.com/
LizardSystems Wi-Fi Scanner(无线网络扫描工具)5.59 MB电脑应用
懒人采集器Chrome版(网页资源采集工具)85.6 MB电脑应用
Hibernate Enable or Disable(休眠启用或禁用工具)1.13 MB电脑应用
佰盾铠甲(Baidun Armor)3.07 MB电脑应用
Algorius Net Viewer(网络监控软件)18.4 MB电脑应用
Winbox(ROS软路由)8.58 MB电脑应用
应用介绍应用截图相关版本网友评论下载地址
SysNucleus
WebHarvy提供网页内容采集功能,可以在软件界面配置采集计划,输入一个网站,设置数据类型,设置页面交互方式,设置捕捉数据的参数,输入采集的关键词,创建采集计划完毕就可以直接在电脑上快速捕捉自己需要的大量文本资源,将多个网站的贴子采集,将图像网站的素材资源采集,将电子邮件采集,可以采集的资源还是非常多的,大部分网页上的元素资源都可以批量下载到电脑使用,如果你需要这款软件就下载使用吧。
图像抓取
可以下载图像或抓取图像 URL。 WebHarvy 可以自动抓取显示在 电子商务网站的产品详细信息页面。
分类抓取
WebHarvy 使您能够从指向网站上类似页面或列表的链接列表中抓取数据。此功能允许您使用单个配置抓取网站中的类别和子类别。
正则表达式
正则表达式 (RegEx) 可应用于文本或 HTML source 的网页来抓取匹配的部分。这 强大的技术为您提供更多的灵活性和控制力 over 数据选择。
轻松的网页抓取
使用 WebHarvy 的点击式界面,Web 抓取变得毫不费力。无需编码或脚本即可抓取数据。使用 WebHarvy 的内置浏览器,您可以加载网站、导航页面,只需单击即可选择要抓取的数据。
智能模式检测
WebHarvy 智能识别数据发生的模式 在网页中。要抓取项目列表或表(名称、 地址、电子邮件、价格等)在网页中,不需要执行其他步骤。如果数据重复,WebHarvy 将 自动抓取它。
保存到文件或数据库
抓取的数据可以以多种格式保存。最新版本的 WebHarvy 允许您将数据导出为 Excel、XML、CSV、JSON 或 TSV 文件。此外,您可以直接将数据导出到 SQL 数据库(MySQL、SQL Server、Oracle 等)。
1、SysNucleus WebHarvy支持配置引导功能,可以阅读软件界面的提示文字
2、支持手动配置采集方案,可以添加需要采集的数据
3、支持网页访问功能,在软件可以输入需要采集的网站地址,可以直接浏览网页内容
4、支持多个URL地址采集,可以在软件添加对应的地址,匹配采集规则
5、支持图像文件名设置,下载的图像可以设置新的名字规则,支持从URL字符串自动命名图像
6、标记类别/URL/关键字:在数据表中添加一个额外的列,显示与记录相关的类别、URL或关键字,用于基于类别和关键字的抓取。
7、支持禁用加载图像、禁用元素突出显示、启用web安全、禁用打开弹出窗口
8、使用单独的浏览器引擎挖掘,启用自定义用户代理字符串,挖掘时自动删除重复记录
9、支持自动保存挖掘数据,捕获每100个数据后自动保存
如何编辑配置 ?
要编辑已保存的配置,请点击 Home 菜单中的 Open 按钮打开配置 XML 文件。
然后,WebHarvy 将询问您是使用配置开始挖矿还是对其进行编辑。单击 Edit configuration 按钮。
您也可以点击 编辑 主菜单中的按钮开始编辑已加载的 配置。
单击 Edit 按钮后,WebHarvy 将开始加载配置。这 配置的起始页将被加载并显示在浏览器窗口中。预览 还将显示选择进行抓取的数据。在此之后,WebHarvy 会自动切换 设置为配置模式,您可以开始选择要抓取的更多数据或删除现有数据 选择。您还可以编辑与配置关联的 URL 和关键字。
添加 / 删除数据
要选择新数据,只需单击它。要删除已选择的数据,请右键单击 “Captured Data Preview”窗格,然后从“Delete”菜单中选择要删除的数据,如图所示 下面。
完成配置编辑后,单击 Home 菜单的 Configuration 面板中的 Stop 按钮。您现在可以通过单击 Save 按钮来保存配置,或者通过单击 Start-Mine 按钮来运行配置。
在配置中添加/删除 URL
在配置期间(或编辑配置时),您可以单击配置菜单的编辑面板中的 URL 按钮,以添加或删除与 配置。
在结果窗口中,您可以在配置中添加或删除 URL,如下所示。所有 URL added 将使用相同的配置进行抓取。
如果您有一个 URL 列表(所有 URL 都属于同一个域,共享相同的页面布局),则 可以按照以下步骤使用此功能使用单个配置抓取所有 URL 下面给出。
1. 打开 WebHarvy 并导航到列表中的第一个 URL
2. 开始配置
3. 选择所需数据
4. 在“配置”菜单中,单击“编辑”面板中的“URL”按钮。
5. 在结果窗口中,粘贴列表中所有剩余的 URL,然后单击“应用”
6. 停止配置
7. Start Mine - 列表中的所有 URL 都将使用相同的配置进行抓取
编辑关键字
要编辑配置中的关键字,请在配置时(或编辑时 配置),单击 Configuration 菜单的 Edit 面板中的 Keywords 按钮,如下所示。
在结果窗口中,您可以添加/删除与配置关联的关键字。
编辑开始 URL 和发布数据
要编辑(更改)配置的 Start URL、Post Data 和 Headers,请在配置期间单击 Configuration 菜单的 Edit 面板中的 Start URL / PostData 按钮,如 所 示。
在结果窗口中,您可以更改 Start URL、PostData 和 Headers 的值
在起始页中禁用自动模式检测
WebHarvy 会自动查找并提取起始页中出现的重复数据模式 的配置。这可以帮助您从起始页的所有记录中选择和抓取相似数据 只需单击一下。但有时,当起始页数据 不是表格或列表,其中每页的每个数据列只有一个条目。
例如,如果您在加载列出的产品的产品详细信息页面后开始配置 在亚马逊,建议打开此选项,因为每个选定的数据(如价格、评级、 ASIN 等)每个页面(每个产品)仅出现一次。
如下所示,您可以从 Configuration 菜单的 Options 面板中选择 Disable pattern detection 选项。
仅当 configuration 不是列表或表。默认情况下,对于加载的页面,模式识别处于禁用状态 通过导航起始页中的链接。
开始抓取数据
配置 WebHarvy 后(开始配置 - 数据选择 - 停止配置)或之后 打开已保存的配置 XML 文件,单击 Start-Mine 按钮打开 Miner 窗口。
点击 Miner 窗口中的 'Start' 按钮开始挖矿 数据。如果您的配置涉及从多个页面抓取数据,您还可以指定要挖掘的页面数。
WebHarvy 将开始挖掘数据。WebHarvy 的评估版仅限于 从最多 2 个页面抓取数据。(一旦您购买了 完整版 WebHarvy)
应用截图
相关版本
多平台下载
猜您喜欢换一换
腾讯视频pc客户端
夸克浏览器PC版
微信PC客户端
qq音乐pc端
搜狗输入法PC版
腾讯应用宝pc版
谷歌浏览器正式版/稳定版(Google Chrome)
Wps Office PC版
酷我音乐盒pc版
360极速浏览器pc版安装包
微信输入法pc端
优酷视频pc客户端
百度输入法pc客户端
360安全浏览器PC版
查看所有0条评论>网友评论
海鹦OfficeAI助手45 MB电脑应用
消防融合通信PC客户端154.09 MB电脑应用
lossless scaling最新版(游戏无损放大工具)43.00 KB电脑应用
Bandizip Professional(解压缩软件)24.3 MB电脑应用
网易云音乐客户端115.23 MB电脑应用
大华摄像机IP搜索工具17.8 MB电脑应用
海鹦OfficeAI助手45 MB电脑应用
消防融合通信PC客户端154.09 MB电脑应用
4DDiG DLL Fixer(DLL全能修复工具)16.2 MB电脑应用
京东ME PC版336.33 MB电脑应用
西瓜视频pc客户端90.01 MB电脑应用
Rolling Sky Remake电脑版(滚动的天空自制器)36.00 MB电脑应用