?

Log in

No account? Create an account

Previous Entry Share Next Entry
Глобальная категоризация всего
skyjet
Есть задача - построить глобальную иерархическую клакссификацию окружающего мира в категориях сущность-аттрибуты:

  • предметы обихода -> посуда -> ложка (масса, габариты, объём, форма, ...)

  • транспорнтные средства -> воздушные транспортные средства -> самолёт (масса, габариты, грузоподъёмность, крейсерская скорость, ...)

  • страна (площадь, насаление, ВВП, ...)

  • ...

И так для всего, что получится достать. Понятно, что руками набить с нуля такую классификацию малореально, поэтому строить её надо автоматически по какому-либо источнику. Чем более структурированному, тем лучше. Пока есть идея обработать категории и шаблоны английской википедии, плюсом тут будет то, что во многих случаях сразу получится набить модель данными, но категоризация там слишком рыхлая. Не сильно лучше просто текста, пока не знаю как подступиться. Другой подход - искать специализированные открытые базы данных по разным предметам и на их основе воссздавать структуру. Минусы - глобально не получится, плюс много ручной обработки (свой подход к каждому хранилищу). Может у кого-то есть ещё идеи?

Ссылки на объёмные открытые базы данных по любой тематике будут также приняты с благодарностью :).


  • 1
Спасибо! На вид то, что надо.

Это вряд ли можно использовать для моих целей, но с точки зрения лексики-семантики интересно. Посмотрел формат - какой-то их собственный, но, на первый взгляд, несложный.

  • 1