浏览器智能体军团

构建智能体军团,无障碍网上冲浪

超高速采集并阅读理解复杂网站,完整精确输出数据和知识。爬虫级智能体,1000+ 倍数据采集人效。

智能体 亚马逊解决方案 Google 解决方案

大规模处理 Web 数据非常困难。网站经常变化并且变得越来越复杂,这意味着收集的网络数据通常不准确或不完整,数据标准化和知识化面临更多难题。

柏拉图智能的人工智能体军团自动采集、自动清洗任意规模站点群

网页理解和自动提取

零干预将网站还原为数据

给定入口链接,柏拉图 AI 识别、浏览并解读最重要的详情页,输出全部字段:


                        https://www.amazon.com/b?node=3117954011
     

AI 已浏览120个网页,已理解8组数据共142个字段。 以下显示第2组数据,该组数据共包含10个字段,对应网页区域 #centerCol

  URL Title By Brand Stars Ratings Bar QAs Fees Other Sellers Price
1 Amazon.com: BLACK+DECKER 6 quart 11-in-1 Cooking Pot, Stainless Steel, Pressure Cooker, Slow Cooker, Multi-Cooker, PR100 BLACK+DECKER 6 quart 11-in-1 Cooking Pot, Stainless Steel, Pressure Cooker, Slow Cooker, Multi-Cooker, PR100 by BLACK+DECKER 4.2 out of 5 stars 129 ratings | 89 answered questions + No Import Fees Deposit & ¥40.72 Shipping to Hong Kong New (5) from ¥54.17
2 Amazon.com: BLACK+DECKER 6 quart 11-in-1 Cooking Pot, Stainless Steel, Pressure Cooker, Slow Cooker, Multi-Cooker, PR100 BLACK+DECKER 6 quart 11-in-1 Cooking Pot, Stainless Steel, Pressure Cooker, Slow Cooker, Multi-Cooker, PR100 by BLACK+DECKER 4.2 out of 5 stars 129 ratings | 89 answered questions + No Import Fees Deposit & ¥40.72 Shipping to Hong Kong New (5) from ¥54.17
3 Amazon.com: Crock Pot 6 Quart 8 in 1 Multi Use Express Crock Programmable Pressure Cooker, Slow Cooker, Sauté & Steamer | Stainless Steel (SCCPPC60... Crock Pot 6 Quart 8 in 1 Multi Use Express Crock Programmable Pressure Cooker, Slow Cooker, Sauté & Steamer | Stainless Steel (SCCPPC600 V1) by Crockpot 4.2 out of 5 stars 2,086 ratings | 670 answered questions There is a newer model of this item: New (31) from ¥74.79
4 Amazon.com: Crockpot Thermoshield 6 Quart Manual Slow Cooker, Black Crockpot Thermoshield 6 Quart Manual Slow Cooker, Black by Crockpot 4.1 out of 5 stars 150 ratings | 47 answered questions + No Import Fees Deposit & ¥47.40 Shipping to Hong Kong New & Used (12) from ¥59.99
5 Amazon.com: GoWISE USA GW22637 4th-Generation Electric Pressure Cooker with rice scooper, and measuring cup, 14 QT GoWISE USA GW22637 4th-Generation Electric Pressure Cooker with rice scooper, and measuring cup, 14 QT by GoWISE USA 3.9 out of 5 stars 927 ratings | 498 answered questions + No Import Fees Deposit & ¥70.96 Shipping to Hong Kong New & Used (4) from ¥113.18
6 Amazon.com: GoWISE USA GW22637 4th-Generation Electric Pressure Cooker with rice scooper, and measuring cup, 14 QT GoWISE USA GW22637 4th-Generation Electric Pressure Cooker with rice scooper, and measuring cup, 14 QT by GoWISE USA 3.9 out of 5 stars 927 ratings | 498 answered questions + No Import Fees Deposit & ¥70.96 Shipping to Hong Kong New & Used (4) from ¥113.18
7 Amazon.com: GoWISE USA GW22637 4th-Generation Electric Pressure Cooker with rice scooper, and measuring cup, 14 QT GoWISE USA GW22637 4th-Generation Electric Pressure Cooker with rice scooper, and measuring cup, 14 QT by GoWISE USA 3.9 out of 5 stars 927 ratings | 498 answered questions + No Import Fees Deposit & ¥70.96 Shipping to Hong Kong New & Used (4) from ¥113.18
8 Amazon.com: Gourmia GPC400 4 Qt Digital Multi-Mode SmartPot Pressure Cooker - 13 Cook Modes - Removable Pot - 24-Hour Delay Timer - Automatic Keep ... Gourmia GPC400 4 Qt Digital Multi-Mode SmartPot Pressure Cooker - 13 Cook Modes - Removable Pot - 24-Hour Delay Timer - Automatic Keep Warm - LCD Display - Pressure Sensor Lid Lock - Recipe Book by Gourmia 4.2 out of 5 stars 363 ratings | 171 answered questions + No Import Fees Deposit & ¥31.80 Shipping to Hong Kong    
9 Amazon.com: Mealthy MultiPot 9-in-1 Programmable Pressure Cooker 6 Quarts with Stainless Steel Pot, Steamer Basket, instant access to recipe app. P... Mealthy MultiPot 9-in-1 Programmable Pressure Cooker 6 Quarts with Stainless Steel Pot, Steamer Basket, instant access to recipe app. Pressure cook, slow cook, sauté, rice cooker, yogurt, steam by Mealthy 4.7 out of 5 stars 1,593 ratings | 934 answered questions   New & Used (3) from ¥169.99
10 Amazon.com: Ninja Instant, 1000-Watt Pressure, Slow, Multi Cooker, and Steamer with 6-Quart Ceramic Coated Pot & Steam Rack (PC101), Si, Black/Silver Ninja Instant, 1000-Watt Pressure, Slow, Multi Cooker, and Steamer with 6-Quart Ceramic Coated Pot & Steam Rack (PC101), Si, Black/Silver by Ninja 4.7 out of 5 stars 120 ratings | 65 answered questions This product is available as Renewed. New & Used (11) from ¥54.95
11 Amazon.com: Power Pressure Cooker XL 10 Qt Power Pressure Cooker XL 10 Qt by Power Pressure Cooker XL 4.1 out of 5 stars 2,977 ratings | 1000+ answered questions + No Import Fees Deposit & ¥51.68 Shipping to Hong Kong New & Used (6) from ¥159.00
12 Amazon.com: Presto 02141 6-Quart Electric Pressure Cooker, Stainless, Black, Silver Presto 02141 6-Quart Electric Pressure Cooker, Stainless, Black, Silver by Presto 4.2 out of 5 stars 54 ratings | 17 answered questions + No Import Fees Deposit & ¥38.45 Shipping to Hong Kong New & Used (33) from ¥59.99
在线演示

产品介绍

人工智能体军团

  • 人工智能 - 人工智能驱动的网页挖掘技术,零干预或极少干预,超大规模网页完整精确还原为数据
  • 弹性计算 - 分布式网页渲染引擎满足任意规模的数据采集需求
  • 商业智能 - 在 Web 上实施商业智能,捕捉成千上万高价值事件,回答利益攸关的业务问题
  • X-SQL - 架构在 Web 上的 SQL 引擎,Web 和本地数据库同等对待
         -- 自动、完整、精确提取详情页的所有字段
select * from harvest('https://www.amazon.com/b?node=3117954011');
         
      -- 手动处理网页,提供 SQL 级别灵活性
select
    dom_base_uri(dom) as `url`,
    dom_first_text(dom, '#productTitle') as `title`,
    str_substring_after(dom_first_href(dom, '#wayfinding-breadcrumbs_container ul li:last-child a'), '&node=') as `category`,
    dom_first_slim_html(dom, '#bylineInfo') as `brand`,
    cast(dom_all_slim_htmls(dom, '#imageBlock img') as varchar) as `gallery`,
    dom_first_slim_html(dom, '#landingImage, #imgTagWrapperId img, #imageBlock img:expr(width > 400)') as `img`,
    dom_first_text(dom, '#price tr td:contains(List Price) ~ td') as `listprice`,
    dom_first_text(dom, '#price tr td:matches(^Price) ~ td') as `price`,
    str_first_float(dom_first_text(dom, '#reviewsMedley .AverageCustomerReviews span:contains(out of)'), 0.0) as `score`
from load_out_pages('https://www.amazon.com/b?node=3117954011', 'a[href~=/dp/]', 1, 10);
              
     
执行

关键难题

网络数据处理存在以下关键算法难题

  • 自动网页提取 - 无人干预自动结构化互联网规模网页
  • AI辅助网页提取 - 零干预或极少干预,将大规模网页完整精确结构化

行为良好的企业级网络数据处理系统需要解决以下工程问题

  • 增强分析 - 提供机器学习、知识图谱等AI技术来增强数据分析
  • 机器学习 - 支持机器学习算法来降低数据处理门槛并提高效率
  • 云化服务 - 支持云化服务以降低使用门槛并提高交付效率
  • 操作语言 - 支持数据操作语言以简化远程数据操作
  • 质量保证 - 系统质量保证,大规模采集下的数据质量和调度质量保证
  • 性能优化 - 采集单元并行化以最大化利用硬件资源,修改浏览器内核以提升性能
  • 弹性计算 - 支持弹性计算以实现无缝扩展,从而获得处理互联网规模数据的能力
  • 健壮性 - 应对复杂的网络环境,完整严格的异常处理和重试机制。
  • 存储处理 - 完整的工具链处理网络大数据的存储问题
  • 运维工具 - 提供完整的指标和日志,运维工具以实时获取系统运行状态并对对系统进行诊断和维护
  • 全流程 - 从采集网页等原始数据到结论形成、报表生成整个流程
  • 其它问题 - 获取成本、技能要求、数据规模、数据融合、时效价值、可维护性等

SAAS

      curl -X POST --location "http://platonic.fun:8182/api/x/e" -H "Content-Type: text/plain" -d "
  select
      dom_base_uri(dom) as url,
      dom_first_text(dom, '#productTitle') as title,
      str_substring_after(dom_first_href(dom, '#wayfinding-breadcrumbs_container ul li:last-child a'), '&node=') as category,
      dom_first_slim_html(dom, '#bylineInfo') as brand,
      cast(dom_all_slim_htmls(dom, '#imageBlock img') as varchar) as gallery,
      dom_first_slim_html(dom, '#landingImage, #imgTagWrapperId img, #imageBlock img:expr(width > 400)') as img,
      dom_first_text(dom, '#price tr td:contains(List Price) ~ td') as listprice,
      dom_first_text(dom, '#price tr td:matches(^Price) ~ td') as price,
      str_first_float(dom_first_text(dom, '#reviewsMedley .AverageCustomerReviews span:contains(out of)'), 0.0) as score
  from load_and_select('https://www.amazon.com/dp/B07XJ8C8F7 -i 20s', 'body');"
     

支持 X-SQL 的 REST API

  • 业务模型映射 - 使用 X-SQL 完成从网页数据到本地业务模型的转换
  • DATA API - 柏拉图的弹性计算使得规模化 Web 数据唾手可得
  • 高阶 SaaS - X-SQL 灵活的内置函数,提供进一步的数据处理能力:情绪判定,知识图谱构建等
  • 领域 SaaS - 对常见领域,柏拉图已内置开箱即用的解决方案
了解更多
50%

成本节约 相比传统方案,使用柏拉图管理外部数据,我们至少为客户减少了一半人员开支和一半硬件投入

20x

数据规模 基于柏拉图的机器学习技术,我们现在能够获得网站的几乎全部字段,并且再没有数据提取规则维护的烦恼

90%

交付时效 柏拉图简单在万维网上应用商业智能,相比传统手段的采集规则制定、采集入库、数据清洗、BI 报表流程, 交付时效提高 90% 以上

145%

数据质量 传统手工提取数据,大概能够获得极少量网站的 50% 左右字段,使用柏拉图前沿的数据挖掘技术,能够获得任意规模网站 95% 以上数据

解决方案

告诉我们您在进行何种类型的项目

价格情报

通过 Web 数据提取实现卓越的定价数据智能。

通过 Web 数据提取,通过高质量的定价数据智能定位产品并做出盈利决策。

电商选品

使用 Web BI 实现电商选品决策。

通过 Web BI,分析全网电商多维度数据,实现热卖和爆款商品预测。

渠道巡检

使用 Web BI 监测产品渠道,确保渠道合法合规。

使用 Web BI 监测产品渠道,确保渠道合法合规,渠道价格定价正确。

潜在顾客生成

使用高质量的 Web 提取数据构建高质量潜在客户列表。

构建目标客户列表,通过 Web 数据提取促进收入增长并生成智能潜在客户。

品牌监测

通过网络数据提取进行品牌监控,跟踪并保护您的品牌。

使用高质量和可靠的品牌和定价数据,确保您的品牌声誉在线受到保护。

招聘

通过网络数据提取,提供具有高质量人力资源和招聘数据的顶尖人才。

使用高质量的数据进行职位列表、应聘者来源、薪酬水平和市场洞察,以做出更好的招聘决策并吸引人才。

金融替代数据

使用高质量的金融 Web 数据做出利益攸关的决策。

利用来自 Web 的替代财务数据,在不断加速的市场中获取可操作的见解并做出明智的投资决策。

业务自动化

使用 Web BI 实现业务各个方面的自动化。

通过 Web 数据提取,实现业务内部流程的自动化,并在整个业务中快速移动数据。

构建产品

通过 Web 数据提取为数据驱动项目提供产品数据。

从 Web 中提取的高质量产品数据,可保持数据管道健康,让您专注于产品开发。

市场调查

通过 Web 数据提取创新您的市场调查。

借助高质量和可靠的市场数据,了解您的市场、提供研究,并随时了解趋势。

网络舆情

监测网络民情民意,为相关政府部门提供数据支撑。

利用来自新闻、论坛、贴吧、微博等来源的数据,为相关政府部门做出正确决策、舆情应对和政务实施提供数据支撑。

背景调查

使用 Web BI 和知识图谱,洞察人员背景,控制合作风险。

使用 Web BI 和知识图谱,洞察合作伙伴、谈判对手、重要嘉宾、求职者等人员的背景,以控制合作风险。

机器学习全部字段

select
*
from
harvest('https://www.amazon.com/b?node=3117954011')
    

百思买批量计算折扣

        select
    dom_first_number(dom, '.priceView-customer-price') as `price`,
    dom_first_number(dom, '.pricing-price__regular-price') as `list-price`,
    dom_first_number(dom, '.pricing-price__regular-price') - dom_first_number(dom, '.priceView-customer-price') as `saving`
from
    load_out_pages('https://www.bestbuy.com/site/promo/laptop-and-computer-deals', 'h4.sku-header a')
       

京东手机价格监测

        select
    dom_first_text(dom, '.p-name') as Name,
    dom_first_text(dom, '.p-price') as Price,
    dom_first_text(dom, '.p-commit a:last-child') as Reviews
from load_and_select('https://list.jd.com/list.html?cat=9987,653,655 -expires 1d', 'li[data-sku]')
       

亚马逊新品跟踪

        select
    dom_first_text(dom, 'span.zg-item a > div:expr(img=0 && char>10)') as title,
    dom_first_text(dom, '.p13n-sc-price') as `price`,
    str_substring_between(dom_first_attr(dom, 'span.zg-item div a i.a-icon-star', 'class'), ' a-star-', ' ') as score
from load_and_select('https://www.amazon.com/gp/new-releases/home-garden/ref=zg_bsnr_nav_0', 'ol#zg-ordered-list li.zg-item-immersion')
       

客户评价

他们这么说 。。。

参考价格方案

选择最适合您的方案

起步版

¥300 / 月

  • 10,000 调用 / 月
  • + ¥0.03 每额外请求

进阶版

¥1,000 / 月

  • 50,000 调用 / 月
  • + ¥0.02 每额外请求

企业版

¥1,625 / 月

  • 250,000 调用 / 月
  • + ¥0.0065 每额外请求

大数据版

¥5,500 / 月

  • 1,000,000 调用 / 月
  • + ¥0.0055 每额外请求

平台版

¥22,500 / 月

  • 5,000,000 调用 / 月
  • + ¥0.0045 每额外请求

基础设施

¥125,000 / 月

  • 50,000,000 调用 / 月
  • + ¥0.0025 每额外请求

基础设施 加强 I 版

¥200,000 / 月

  • 100,000,000 调用 / 月
  • + ¥0.002 每额外请求

基础设施 加强 II 版

¥300,000 / 月

  • 200,000,000 调用 / 月
  • + ¥0.0015 每额外请求

基础设施 加强 III 版

¥500,000 / 月

  • 500,000,000 调用 / 月
  • + ¥0.001 每额外请求

团队介绍

张斌

总经理 & 创始人

姚尧

首席运营官

许飞龙

首席咨询师

褚雪忠

首席架构师

常见问题

柏拉图是如何实现自动网页结构化的?

柏拉图考察了网页的几何、拓扑、代码结构和语义等各方面的特征,将网页的每一个 DOM 元素建模为流形(manifold)上带属性的矩形,然后进行标准机器学习处理。

柏拉图由什么语言写成?

柏拉图解决方案包含多种编程语言。核心数据引擎的主要语言是 kotlin/java,少量 c++/javascript/bash/html/css 等,核心引擎超过 30 万行源代码。配套子项目包含了 clojure/reactjs 等。

柏拉图是否支持开源?

是的,柏拉图核心引擎和 Web BI 系统均已经开源

可以使用哪些编程语言来获得柏拉图 SaaS 服务?

柏拉图解决方案提供标准的 SQL 语言支持以及 REST API,客户端各种编程语言都能够轻松调用,大多数情况下只需要简单发送一个 REST 请求即可。

柏拉图为什么要支持 SQL?

我们多年研究网络数据处理问题,希望以一种最优的方式去治理外部数据。将互联网同本地数据库同等对待是最佳方式。在后续版本里,柏拉图会支持流式 SQL,以完整符合网络数据的流式特征。

联系我们

柏拉图

加入柏拉图,开启企业级 Web 数据管理革命。