Python 中的 jisho.org API 和爬虫。

项目描述

jisho-api

围绕抓取jisho.org（在线日语词典）构建的 Python API。

pip install jisho_api

要求

您可以请求三种类型的信息：

字
汉子
句子
标记句子

搜索词直接注入到 jisho 的搜索引擎中，这意味着用于策划搜索的所有过滤器也应该可以正常工作。例如，"水"将精确查找仅包含该字符的单词。

查看https://jisho.org/docs以了解如何使用搜索过滤器。

jisho search word water
jisho search word 水
jisho search word "#jlpt-n4"

请求回复是Pydantic对象。您可以在中检查单词请求的结构，jisho/word/cfg.py对于汉字和句子也是如此。

您也可以通过以下方式以编程方式执行此操作：

from jisho_api.word import Word
r = Word.request('water')
from jisho_api.kanji import Kanji
r = Kanji.request('水')
from jisho_api.sentence import Sentence
r = Sentence.request('水')
from jisho_api.tokenize import Tokens
r = Tokens.request('昨日すき焼きを食べました')

注意：页面中几乎所有可用的东西都被刮掉了。注意：汉字请求可能带有不完整的信息，因为它在页面中不可用。

刮板

您可以从网站上抓取给定搜索词的列表。向他们提供一个.txt文件，其中的单词由换行符分隔。

jisho scrape word words.txt
jisho scrape kanji kanji.txt
jisho scrape sentence search_words.txt
jisho scrape tokens sentences.txt

所有结果搜索都将存储在~/.jisho/data.

如果您想以编程方式进行抓取，您可以：

from jisho_api import scrape
from jisho_api.word import Word

word_requests = scrape(Word, ['water', 'fire'], 'to/path/')

这将返回一个字典，其中键值是搜索词和请求结果。不包括失败的请求。

缓存和配置

如果要启用缓存，只需运行

jisho config

这将使用您的设置创建一个~/.jisho/文件夹。config.json如果您再次搜索完全相同的术语，您的所有搜索都将被缓存并访问。

注意事项和注意事项

根据这个帖子，没有官方API，虽然有一种jisho.org提出的API请求，用于刮字。这不适用于 Kanji tho，因为它会将 Kanji 作为单词进行搜索，并且没有任何与字符本身相关的元数据。

在上述线程中也授予了抓取权限。

正如他们的关于页面中所述，jisho.org 使用了一系列著名的电子词典：

该站点使用 JMdict、Kanjidic2、JMnedict 和 Radkfile 字典文件。-jisho.org

数据的致谢和致谢

所有的功劳都在应得的地方给出，并且在 jisho.org 的about page上给出了几个提取的资源。

项目详情

发布历史发布通知| RSS订阅

这个版本

0.1.8

2022 年 1 月 12 日

0.1.6

2022 年 1 月 11 日

0.1.5

2022 年 1 月 3 日

0.1.4

2021 年 12 月 8 日

0.1.3

2021 年 11 月 22 日

0.1.2

2021 年 10 月 19 日

0.1.1

2021 年 10 月 4 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

jisho_api-0.1.8.tar.gz （15.9 kB 查看哈希）

已上传 2022 年 1 月 12 日 source

内置分布

jisho_api-0.1.8-py3-none-any.whl （19.2 kB 查看哈希）

已上传 2022 年 1 月 12 日 py3

jisho_api -0.1.8.tar.gz 的哈希值

jisho_api-0.1.8.tar.gz 的哈希值
算法	哈希摘要
SHA256	`cd25a8831d4f081e623bbd774eef6770ffc6458c44453f2adeeece2df042918a`
MD5	`bd943791c243df90ef149e734791a331`
布莱克2-256	`6128f4aaade2f674144e5af34fa96f9b2474a86153fffc39c58452a045b5138e`

jisho_api -0.1.8-py3-none-any.whl 的哈希值

jisho_api-0.1.8-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`d2dc82e73ee9f6c41ea3f89eb122a06a4226b2a35b56a4128dba994d5b531fd9`
MD5	`c69eae686c0026a7662ade053d8e5c55`
布莱克2-256	`1cb63f75122498c0c81c076948115c0ba27f98cae6ce1f9114df671916914ecb`

jisho-api 0.1.8

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

jisho-api

要求

刮板

缓存和配置

注意事项和注意事项

数据的致谢和致谢

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

内置分布

jisho-api 0.1.8

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

jisho-api

要求

刮板

缓存和配置

注意事项和注意事项

数据的致谢和致谢

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

内置分布

发布历史发布通知| RSS订阅