Как Evernote Web Clipper так хорошо анализирует веб-страницы?

Я пытаюсь реплицировать возможности синтаксического анализа Evernote Web Clipper в python для моих собственных проектов веб-скрепок. Я заинтересован в том, чтобы извлечь основной текст только, ничего больше.

Я использовал порт python Arc90:

https://github.com/buriy/python-readability

в сочетании с замечательной html2text-библиотекой aaronsw:

https://github.com/aaronsw/html2text

и это дает хорошие результаты большую часть времени, но Evernote намного лучше разбирает основной текст.

Может кто-то, пожалуйста, порекомендуйте лучший подход или, возможно, скажите мне, что делает Evernote.

Благодаря!

Python - лучший язык программирования в мире.