Skip to main content

Python 中的 jisho.org API 和爬虫。

项目描述

jisho-api

GitHub 标记

围绕抓取jisho.org(在线日语词典)构建的 Python API。

pip install jisho_api

asciiccast

要求

您可以请求三种类型的信息:

  • 汉子
  • 句子
  • 标记句子

搜索词直接注入到 jisho 的搜索引擎中,这意味着用于策划搜索的所有过滤器也应该可以正常工作。例如,"水"将精确查找仅包含该字符的单词。

查看https://jisho.org/docs以了解如何使用搜索过滤器。

jisho search word water
jisho search word 水
jisho search word "#jlpt-n4"

请求回复是Pydantic对象。您可以在 中检查单词请求的结构,jisho/word/cfg.py对于汉字和句子也是如此。

您也可以通过以下方式以编程方式执行此操作:

from jisho_api.word import Word
r = Word.request('water')
from jisho_api.kanji import Kanji
r = Kanji.request('水')
from jisho_api.sentence import Sentence
r = Sentence.request('水')
from jisho_api.tokenize import Tokens
r = Tokens.request('昨日すき焼きを食べました')

注意:页面中几乎所有可用的东西都被刮掉了。 注意:汉字请求可能带有不完整的信息,因为它在页面中不可用。

刮板

您可以从网站上抓取给定搜索词的列表。向他们提供一个.txt文件,其中的单词由换行符分隔。

jisho scrape word words.txt
jisho scrape kanji kanji.txt
jisho scrape sentence search_words.txt
jisho scrape tokens sentences.txt

所有结果搜索都将存储在~/.jisho/data.

如果您想以编程方式进行抓取,您可以:

from jisho_api import scrape
from jisho_api.word import Word

word_requests = scrape(Word, ['water', 'fire'], 'to/path/')

这将返回一个字典,其中键值是搜索词和请求结果。不包括失败的请求。

缓存和配置

如果要启用缓存,只需运行

jisho config

这将使用您的设置创建一个~/.jisho/文件夹。config.json如果您再次搜索完全相同的术语,您的所有搜索都将被缓存并访问。

注意事项和注意事项

根据这个帖子,没有官方API,虽然有一种jisho.org提出的API请求,用于刮字。这不适用于 Kanji tho,因为它会将 Kanji 作为单词进行搜索,并且没有任何与字符本身相关的元数据。

在上述线程中也授予了抓取权限。

正如他们的关于页面中所述,jisho.org 使用了一系列著名的电子词典

该站点使用 JMdict、Kanjidic2、JMnedict 和 Radkfile 字典文件。-jisho.org

数据的致谢和致谢

所有的功劳都在应得的地方给出,并且在 jisho.org 的about page上给出了几个提取的资源。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

jisho_api-0.1.8.tar.gz (15.9 kB 查看哈希

已上传 source

内置分布

jisho_api-0.1.8-py3-none-any.whl (19.2 kB 查看哈希

已上传 py3