首页 > 实时讯息 >

维基百科现已提供JSON格式内容快照:机器可读,减少爬虫流量

2025-04-18 09:45:00

IT之家 4 月 18 日消息,维基百科运营方维基媒体基金会下辖 Wikimedia Enterprise 当地时间 16 日宣布其在 Kaggle 平台上发布了 JSON 格式、英语和法语版本的测试版维基百科结构化内容快照数据集。

该数据集可用于 AI / ML 建模、基准测试、对齐、微调和探索性分析。其在设计时考虑了机器学习工作流程,简化了机器访问内容的流程,使用者无需对维基百科主站原始内容进行抓取和或解析。

这也意味着 AI 爬虫可直接利用现成的数据集,减少了机器人在主站爬取带来的流量开支,有利于维基百科的可持续运营。

网站内容来自网络,如有侵权请联系我们,立即删除!
站长邮箱 87868862@qq.com Copyright © 哲人百科 琼ICP备2024040249号-1